模型训练详情
点击 TensorFlow 模型训练列表中的某个任务,可以查看该任务的训练详情。任务详情页面提供了任务的基本信息、应用代码信息、训练状态以及计算节点(worker)的训练日志等。
基本信息
训练状态
分布式 TensorFlow 模型训练有五个状态。
等待训练
等待 TaaS 平台进行任务调度。
初始化
任务已经被调度,参数服务器和计算节点正在启动,任务正在进行模型创建和初始化等操作。
正在训练
任务在训练中。
训练成功
任务训练正常结束。
训练失败
任务训练因为某些原因异常结束,此时需要查看相关计算节点日志。
监控信息
在模型训练任务的详情页面中,TaaS 还提供了该模型训练任务在当前时刻使用的 CPU、Memory 和 GPU 的监控信息,
训练日志
在任务详情页面下面,还可以查看每个计算节点(worker)的训练日志信息,