Train Model บน Cloud ด้วย Google Cloud Machine Learning Engine

Sunday, August 13, 2017 12:06 PM 1 Comments , ,

สวัสดีครับผมจะมาเล่าประสบการณ์ การทดลองใช้งาน Google Cloud Machine Learning Engine หรือเรียกสั้นๆ Cloud ML Engine โดยความสามารถของมันก็คือ การนำ Model Machine Learning ที่เราสร้างขึ้นมาโดย Tensorflow หรือ Keras (Tensorflow Backend) ไป Train บน Cloud ของ Google นั่นเอง ซึ่งการใช้งาน Cloud ML Engine นั้นมีค่าใช้จ่ายคร่าวๆดังนี้




วิธีการคำนวนราคาโดยละเอียดจะคิดเป็น ML training unit ซึ่งสามารถตรวจสอบได้ที่ https://cloud.google.com/ml-engine/pricing

สำหรับ Account Google Cloud ใหม่ Google จะให้ Credit 300 USD ใช้ได้ 12 เดือน ดูรายละเอียดได้ที่ https://cloud.google.com/free/ (ผมก็ใช้ไอตัว Free Credit เนี่ยแหละมาลองเล่น)

สิ่งที่ต้องการ

- Account Google Cloud ที่ผูกบัตรเครดิตเรียบร้อย
- เครื่องที่ติดตั้ง  Google Cloud SDK เสร็จเรียบร้อย (วิธีการติดตั้งดูที่ https://cloud.google.com/sdk/downloads)
- Code Model ที่ต้องการ Train (ในที่นี้ผมจะ Train โดยใช้ Keras ที่มี Tensorflow เป็น Backend โดยใช้โปรเจค thai-handwriting-number)

สร้างโปรเจค

- ทำการสร้างโปรเจคใหม่หรือจะใช้โปรเจคเดิมที่มีอยู่แล้วก็ได้

สร้างโปรจคใหม่โดยใช้ชื่อ test-cloud-ml

- รันคำสั่งในเครื่องเราเอง

gcloud projects list

ก็จะขึ้นโปรเจคใหม่ที่เราสร้างขึ้นมาดังภาพ



ตั้งให้โปรเจค test-cloud-ml เป็นโปรเจคหลัก (ใช้ PROJECT_ID)

gcloud config set project test-cloud-ml-176413

เปิดการใช้งาน Google Cloud Machine Learning Engine ให้กับโปรเจคของเรา โดยเข้าไปที่ APIs & services > Library

เลือก Machine Learning Engine API

กด Enable

สิ่งที่ควรรู้ก่อนการปรับปรุง Code เพื่อนำไป Train บน Cloud

-  Cloud ML Runtime นั้นใช้ Python 2.7 สามารถตรวจสอบ Package ต่างๆและ Version ของ Cloud ML Runtime ได้ที่ https://cloud.google.com/ml-engine/docs/concepts/runtime-version-list

- ข้อมูลที่เรา Read / Write ทั้งหมดนั้นต้องผ่าน Google Cloud Storage  (เราควรจัดการ Dataset ที่จะใช้ Train ให้สะดวกในการใช้งาน ในที่นี้จะจัดการ Dataset ให้อยู่ใน format ของ pickle ซึ่งต้องใช้ protocol version 2)

ปรับปรุง Code สำหรับ Train บน Cloud

1. จัดการอัพโหลด Dataset ที่ใช้ในการ Train อัพโหลดขึ้น Google Cloud Stroage เสียก่อน ในที่นี้ผม Serialize ข้อมูลด้วย pickle แล้วเซฟเป็นไฟล์ไว้ โดยต้องใช้ protolcol version 2

pickle.dump(DATASET_VARIABLE, open("dataset.pkl", "wb"), protocol = 2)

1.1 จัดการสร้าง bucket ของ Google Cloud Storage โดยในที่นี้จะตั้งชื่อ bucket ว่า kittinan (bucket เปรียบเสมือนตู้คอนเทนเนอร์อันนึงที่เอาไว้จัดเก็บข้อมูลของเรา https://cloud.google.com/storage/docs/key-terms#buckets)  โดยสร้าง bucket ด้วยคำสั่ง

 gsutil mb gs://kittinan/
หรือเราสามารถสร้างในหน้าเวปก็ได้



1.2 อัพโหลดไฟล์ Dataset เข้า Google Cloud Storage ด้วยคำสั่ง

gsutil cp SOURCE gs:://BUCKET_NAME/
ตัวอย่าง
gsutil cp src/thainumber_28.pkl gs://kittinan/
ภาพเมื่ออัพโหลดไฟล์เสร็จ

ลองเข้าไปดูในหน้าเวป Google Cloud Storage ก็จะเจอไฟล์ที่เราเพิ่งอัพโหลดเพิ่มขึ้นมา


2. สร้าง Folder ชื่ออะไรก็ได้ (ในที่นี้จะใช้ชื่อ Folder ว่า cloud-ml-engine) โดยมีโครงสร้างไฟล์ดังนี้



setup.py
ระบุข้อมูลต่างๆ และ require package ต่างๆ
https://cloud.google.com/ml-engine/docs/how-tos/packaging-trainer#recommended_project_structure


config.yml
ระบุค่า parameter ต่างๆของการ Train ครั้งนี้ ในที่นี้ระบุว่าให้ใช้ scaleTiear ที่เป็น BASIC_GPU
https://cloud.google.com/ml-engine/reference/rest/v1/projects.jobs#traininginput


trainer > __init__.py
ไฟล์เปล่าๆ ใช้สำหรับ setuptools ที่อยู่ในไฟล์ setup.py 

trainer > model.py
- ใช้ argparse module ในการ parse argument ต่างๆ โดยใน code นี้จะทำการ parse argument ของ training data และ job directory (Google Cloud Storage Path)

- Read / Write File ต่างๆ ด้วย tensorflow.python.lib.io.file_io แทน


ทดสอบรันบนเครื่องตัวเองก่อนด้วยคำสั่ง

gcloud ml-engine local train \
  --job-dir ./ \
  --module-name trainer.model \
  --package-path ./trainer \
  -- \
  --train-file ../thainumber_28.pkl
--job-dir : directory หรือ Google Cloud Storage ที่ใช้ในการ Package ไฟล์ (ML Engine จะส่ง argument job-dir ไปยัง script โปรแกรมเราด้วย)
--module-name : module ที่เราต้องการรัน
--package-path : path ของ module ที่เราจะรัน
option ที่อยู่หลัง -- \ : คือ argument สำหรับ script โปรแกรมเรา

ภาพการรันบนเครื่องตัวเอง

รันบน Cloud ML Engine
ผมสร้าง Shell Script ขึ้นมาชื่อไฟล์ start_train.sh เพื่อความสะดวกในการแก้ไขค่าต่างๆและการรัน โดยมีคำสั่งดังนี้


export environment variables ต่างๆดังนี้
BUCKET_NAME - ชื่อ Bucket Google Cloud Storage ที่เราใช้
JOB_NAME - ชื่อ job ของเรา
JOB_DIR - Path Bucket Google Cloud Storage
REGION - จะใช้ region ไหนในการรัน (ในที่นี้ใช้ US เพราะถูกกว่า)

Option ต่างๆของ command gcloud ก็จะคล้ายๆกับการรันแบบ Local โดยที่มีเพิ่มเติมขึ้นมาดังนี้

--runtime-version : จะใช้ runtime version ไหน (https://cloud.google.com/ml-engine/docs/concepts/runtime-version-list)
--region : จะใช้ region ไหน
--config : config yaml ไฟล์ ที่ระบุ training input ต่างๆ
--train-file : Argument ของ script ที่ระบุ Path Training Data ที่อยู่บน  Google Cloud Storage

ลองรัน ./start_train.sh กันเลย



เมื่อเรารันสำเร็จ gcloud command จะแนะนำคำสั่งในการ stream log ให้เรา เมื่อลองรันดูก็จะเห็น log ในการรันบน cloud ต่างๆดังภาพ


เราสามารถเข้าไปดู Log ในเวปได้ด้วยนะ

https://console.cloud.google.com/mlengine/jobs




หลังจากรันเสร็จลองเข้าไปดูใน  Bucket ของเราก็จะพบกับ folder ที่มีชื่อ job name ของเรา


เมื่อเข้าไปใน folder ก็จะพบ model_weight.h5 ที่เราสั่งเซฟไว้ใน Code ของเราหลัง Train เสร็จ

เป็นอันเสร็จสิ้นการทดลองเล่น Google Cloud Machine Learning Engine ครับผม

เพิ่มเติม

ทดลอง Download weight model มาลองรัน predict ดู


สามารถดู Code ทั้งหมดได้ที่
https://github.com/kittinan/thai-handwriting-number
https://github.com/kittinan/thai-handwriting-number/tree/master/src/cloud-ml-engine

อ้างอิง
https://cloud.google.com/ml-engine
https://github.com/clintonreece/keras-cloud-ml-engine

1 comment: