运行参数对象 cfg
TaaS 平台通过 caicloud.clever.tensorflow.dist_base.cfg
对象来提供分布式 TensorFlow 模型训练任务的一些运行时参数。
cfg
对象提供了下面的属性:
num_workers
:计算服务器 worker 个数;num_ps
:参数服务器 PS 个数;task_type
:表示当前节点类型,"ps" 或者 "worker"。task_index
:当前节点在 PS 或者 worker 列表中的索引(从零开始),例如 PS "host1:2221" 在 PS 列表 "host1:2222,host2:2222" 中的索引为0。is_chief
:在分布式 TensorFlow 集群中,通常需要一个 worker 来负责模型初始化、异常恢复、训练日志输出等操作,这个 worker 我们就称之为 chief worker。is_chief
就表示当前节点是否为 chief worker。通常情况下,我们会将task_index
为 0 的 worker 设置为 chief worker。max_steps
:模型训练任务的最大训练轮数。如果训练没有被中断(包括异常中断或者用户自定义中断),TaaS 平台会在模型训练的global_step
达到该属性指定的轮数后结束训练。use_gpu
:表示当前的模型训练是否使用了 GPU 进行加速。sync
:表示当前模型训练使用的是否采用了同步更新模式。logdir
:自动保存模型训练日志和模型 checkpoint 文件的路径。save_checkpoints_secs
:自动保存模型 checkpoint 文件的时间频率,默认为 600 秒。save_summaries_steps
:自动保存模型训练日志的轮数频率,默认为 100 轮。