Train Model บน Cloud ด้วย Google Cloud Machine Learning Engine
สวัสดีครับผมจะมาเล่าประสบการณ์ การทดลองใช้งาน Google Cloud Machine Learning Engine หรือเรียกสั้นๆ Cloud ML Engine โดยความสามารถของมันก็คือ การนำ Model Machine Learning ที่เราสร้างขึ้นมาโดย Tensorflow หรือ Keras (Tensorflow Backend) ไป Train บน Cloud ของ Google นั่นเอง ซึ่งการใช้งาน Cloud ML Engine นั้นมีค่าใช้จ่ายคร่าวๆดังนี้วิธีการคำนวนราคาโดยละเอียดจะคิดเป็น ML training unit ซึ่งสามารถตรวจสอบได้ที่ https://cloud.google.com/ml-engine/pricing
สำหรับ Account Google Cloud ใหม่ Google จะให้ Credit 300 USD ใช้ได้ 12 เดือน ดูรายละเอียดได้ที่ https://cloud.google.com/free/ (ผมก็ใช้ไอตัว Free Credit เนี่ยแหละมาลองเล่น)
สิ่งที่ต้องการ
- Account Google Cloud ที่ผูกบัตรเครดิตเรียบร้อย
- เครื่องที่ติดตั้ง Google Cloud SDK เสร็จเรียบร้อย (วิธีการติดตั้งดูที่ https://cloud.google.com/sdk/downloads)
- Code Model ที่ต้องการ Train (ในที่นี้ผมจะ Train โดยใช้ Keras ที่มี Tensorflow เป็น Backend โดยใช้โปรเจค thai-handwriting-number)
สร้างโปรเจค
- ทำการสร้างโปรเจคใหม่หรือจะใช้โปรเจคเดิมที่มีอยู่แล้วก็ได้
สร้างโปรจคใหม่โดยใช้ชื่อ test-cloud-ml |
- รันคำสั่งในเครื่องเราเอง
gcloud projects list
ก็จะขึ้นโปรเจคใหม่ที่เราสร้างขึ้นมาดังภาพ
ตั้งให้โปรเจค test-cloud-ml เป็นโปรเจคหลัก (ใช้ PROJECT_ID)
gcloud config set project test-cloud-ml-176413
เปิดการใช้งาน Google Cloud Machine Learning Engine ให้กับโปรเจคของเรา โดยเข้าไปที่ APIs & services > Library
เลือก Machine Learning Engine API |
กด Enable |
สิ่งที่ควรรู้ก่อนการปรับปรุง Code เพื่อนำไป Train บน Cloud
- Cloud ML Runtime นั้นใช้ Python 2.7 สามารถตรวจสอบ Package ต่างๆและ Version ของ Cloud ML Runtime ได้ที่ https://cloud.google.com/ml-engine/docs/concepts/runtime-version-list
- ข้อมูลที่เรา Read / Write ทั้งหมดนั้นต้องผ่าน Google Cloud Storage (เราควรจัดการ Dataset ที่จะใช้ Train ให้สะดวกในการใช้งาน ในที่นี้จะจัดการ Dataset ให้อยู่ใน format ของ pickle ซึ่งต้องใช้ protocol version 2)
ปรับปรุง Code สำหรับ Train บน Cloud
1. จัดการอัพโหลด Dataset ที่ใช้ในการ Train อัพโหลดขึ้น Google Cloud Stroage เสียก่อน ในที่นี้ผม Serialize ข้อมูลด้วย pickle แล้วเซฟเป็นไฟล์ไว้ โดยต้องใช้ protolcol version 2
pickle.dump(DATASET_VARIABLE, open("dataset.pkl", "wb"), protocol = 2)
1.1 จัดการสร้าง bucket ของ Google Cloud Storage โดยในที่นี้จะตั้งชื่อ bucket ว่า kittinan (bucket เปรียบเสมือนตู้คอนเทนเนอร์อันนึงที่เอาไว้จัดเก็บข้อมูลของเรา https://cloud.google.com/storage/docs/key-terms#buckets) โดยสร้าง bucket ด้วยคำสั่ง
gsutil mb gs://kittinan/หรือเราสามารถสร้างในหน้าเวปก็ได้
1.2 อัพโหลดไฟล์ Dataset เข้า Google Cloud Storage ด้วยคำสั่ง
gsutil cp SOURCE gs:://BUCKET_NAME/ตัวอย่าง
gsutil cp src/thainumber_28.pkl gs://kittinan/
ภาพเมื่ออัพโหลดไฟล์เสร็จ |
ลองเข้าไปดูในหน้าเวป Google Cloud Storage ก็จะเจอไฟล์ที่เราเพิ่งอัพโหลดเพิ่มขึ้นมา |
2. สร้าง Folder ชื่ออะไรก็ได้ (ในที่นี้จะใช้ชื่อ Folder ว่า cloud-ml-engine) โดยมีโครงสร้างไฟล์ดังนี้
setup.py
ระบุข้อมูลต่างๆ และ require package ต่างๆ
https://cloud.google.com/ml-engine/docs/how-tos/packaging-trainer#recommended_project_structure
config.yml
ระบุค่า parameter ต่างๆของการ Train ครั้งนี้ ในที่นี้ระบุว่าให้ใช้ scaleTiear ที่เป็น BASIC_GPU
https://cloud.google.com/ml-engine/reference/rest/v1/projects.jobs#traininginput
trainer > __init__.py
ไฟล์เปล่าๆ ใช้สำหรับ setuptools ที่อยู่ในไฟล์ setup.py
trainer > model.py
- ใช้ argparse module ในการ parse argument ต่างๆ โดยใน code นี้จะทำการ parse argument ของ training data และ job directory (Google Cloud Storage Path)
- Read / Write File ต่างๆ ด้วย tensorflow.python.lib.io.file_io แทน
ทดสอบรันบนเครื่องตัวเองก่อนด้วยคำสั่ง
gcloud ml-engine local train \--job-dir : directory หรือ Google Cloud Storage ที่ใช้ในการ Package ไฟล์ (ML Engine จะส่ง argument job-dir ไปยัง script โปรแกรมเราด้วย)
--job-dir ./ \
--module-name trainer.model \
--package-path ./trainer \
-- \
--train-file ../thainumber_28.pkl
--module-name : module ที่เราต้องการรัน
--package-path : path ของ module ที่เราจะรัน
option ที่อยู่หลัง -- \ : คือ argument สำหรับ script โปรแกรมเรา
ภาพการรันบนเครื่องตัวเอง |
รันบน Cloud ML Engine
ผมสร้าง Shell Script ขึ้นมาชื่อไฟล์ start_train.sh เพื่อความสะดวกในการแก้ไขค่าต่างๆและการรัน โดยมีคำสั่งดังนี้
export environment variables ต่างๆดังนี้
BUCKET_NAME - ชื่อ Bucket Google Cloud Storage ที่เราใช้
JOB_NAME - ชื่อ job ของเรา
JOB_DIR - Path Bucket Google Cloud Storage
REGION - จะใช้ region ไหนในการรัน (ในที่นี้ใช้ US เพราะถูกกว่า)
Option ต่างๆของ command gcloud ก็จะคล้ายๆกับการรันแบบ Local โดยที่มีเพิ่มเติมขึ้นมาดังนี้
--runtime-version : จะใช้ runtime version ไหน (https://cloud.google.com/ml-engine/docs/concepts/runtime-version-list)
--region : จะใช้ region ไหน
--config : config yaml ไฟล์ ที่ระบุ training input ต่างๆ
--train-file : Argument ของ script ที่ระบุ Path Training Data ที่อยู่บน Google Cloud Storage
ลองรัน ./start_train.sh กันเลย
เมื่อเรารันสำเร็จ gcloud command จะแนะนำคำสั่งในการ stream log ให้เรา เมื่อลองรันดูก็จะเห็น log ในการรันบน cloud ต่างๆดังภาพ
เราสามารถเข้าไปดู Log ในเวปได้ด้วยนะ
https://console.cloud.google.com/mlengine/jobs
หลังจากรันเสร็จลองเข้าไปดูใน Bucket ของเราก็จะพบกับ folder ที่มีชื่อ job name ของเรา
เมื่อเข้าไปใน folder ก็จะพบ model_weight.h5 ที่เราสั่งเซฟไว้ใน Code ของเราหลัง Train เสร็จ
เป็นอันเสร็จสิ้นการทดลองเล่น Google Cloud Machine Learning Engine ครับผม
เพิ่มเติม
ทดลอง Download weight model มาลองรัน predict ดู
สามารถดู Code ทั้งหมดได้ที่
https://github.com/kittinan/thai-handwriting-number
https://github.com/kittinan/thai-handwriting-number/tree/master/src/cloud-ml-engine
อ้างอิง
https://cloud.google.com/ml-engine
https://github.com/clintonreece/keras-cloud-ml-engine
เจ๋งมากเลยครับ!
ReplyDelete