关于分布式 TensorFlow 模型训练
TensorFlow 模型训练任务所需要的代码文件、数据文件以及最后生成的模型文件都需要用到数据存储(更多信息请查看数据存储)。所以,在创建分布式 TensorFlow 模型训练任务之前需要创建数据存储。
TaaS 平台创建分布式 TensorFlow 模型训练任务会自动进入等待队列中,等待 TaaS 平台进行任务调用。被调度的任务将会自动在集群上启动相对应的参数服务器(PS,Parameter Server)和计算节点(worker)。
提交分布式 TensorFlow 模型训练任务时,需要指定应用代码路径、训练最大轮数、参数更新机制、日志保存路径以及模型自动保存时间间隔等参数。另外,在提交模型训练任务的时候,可以设置自定义参数(FLAGS),自定义参数将以命令行参数的方式传递给模型训练任务代码。详细信息请参考新建模型训练。
为了让您能够迅速熟悉 TaaS 平台的分布式 TensorFlow 模型训练,TaaS 平台提供了一个内置的 MNIST 样例模型训练代码,您可以通过启动该内置模型的训练来体验 TaaS 平台。