模型训练详情

点击 TensorFlow 模型训练列表中的某个任务,可以查看该任务的训练详情。任务详情页面提供了任务的基本信息、应用代码信息、训练状态以及计算节点(worker)的训练日志等。

基本信息

PNG

训练状态

分布式 TensorFlow 模型训练有五个状态。

等待训练

等待 TaaS 平台进行任务调度。

PNG

初始化

任务已经被调度,参数服务器和计算节点正在启动,任务正在进行模型创建和初始化等操作。

PNG

正在训练

任务在训练中。

PNG

训练成功

任务训练正常结束。

PNG

训练失败

任务训练因为某些原因异常结束,此时需要查看相关计算节点日志。

PNG

监控信息

在模型训练任务的详情页面中,TaaS 还提供了该模型训练任务在当前时刻使用的 CPU、Memory 和 GPU 的监控信息,

PNG

训练日志

在任务详情页面下面,还可以查看每个计算节点(worker)的训练日志信息,

PNG

results matching ""

    No results matching ""