运行参数对象 cfg

TaaS 平台通过 caicloud.clever.tensorflow.dist_base.cfg 对象来提供分布式 TensorFlow 模型训练任务的一些运行时参数。

cfg 对象提供了下面的属性:

  • num_workers:计算服务器 worker 个数;

  • num_ps:参数服务器 PS 个数;

  • task_type:表示当前节点类型,"ps" 或者 "worker"。

  • task_index:当前节点在 PS 或者 worker 列表中的索引(从零开始),例如 PS "host1:2221" 在 PS 列表 "host1:2222,host2:2222" 中的索引为0。

  • is_chief:在分布式 TensorFlow 集群中,通常需要一个 worker 来负责模型初始化、异常恢复、训练日志输出等操作,这个 worker 我们就称之为 chief worker。is_chief 就表示当前节点是否为 chief worker。通常情况下,我们会将 task_index 为 0 的 worker 设置为 chief worker。

  • max_steps:模型训练任务的最大训练轮数。如果训练没有被中断(包括异常中断或者用户自定义中断),TaaS 平台会在模型训练的 global_step 达到该属性指定的轮数后结束训练。

  • use_gpu:表示当前的模型训练是否使用了 GPU 进行加速。

  • sync:表示当前模型训练使用的是否采用了同步更新模式。

  • logdir:自动保存模型训练日志和模型 checkpoint 文件的路径。

  • save_checkpoints_secs:自动保存模型 checkpoint 文件的时间频率,默认为 600 秒。

  • save_summaries_steps:自动保存模型训练日志的轮数频率,默认为 100 轮。

results matching ""

    No results matching ""