问题一:麻烦问一下机器学习PAI使用框架训练时有时候报这个错是什么原因?
麻烦问一下机器学习PAI使用框架训练时有时候报这个错是什么原因?
tensorflow.python.framework.errors_impl.DataLossError: truncated record at 5275623
参考答案:
好像是训练数据有问题,先单机跑一下试试,转tfrecord是在训练框架内部转的吧,
关于本问题的更多回答可点击进行查看:
问题二:机器学习PAI有大佬知道这个报错怎么解决吗?评估的时候报错!
问题1:机器学习PAI有大佬知道这个报错怎么解决吗?评估的时候报错
问题2:这种问题怎么进一步定位是哪个数据有问题
参考答案:
回答1:一般是tfrecord数据有问题
回答2:一般不是格式问题,就是tfrecord文件写的时候程序不正常,写一半异常终止了,或者文件系统的错误,导致无法解析
关于本问题的更多回答可点击进行查看:
问题三:机器学习PAI 刚试了两个protocol grpc++会报这个错?star_server是正常的
机器学习PAI 刚试了两个protocol grpc++会报这个错?star_server是正常的,I之前跑的有问题的应该是grpc++,两个protocol切换的有点频繁,整混了。这次用相同代码两个protocol对比了下,star_server是没问题的
参考答案:
好吧,理论上也不应该出现这个问题
关于本问题的更多回答可点击进行查看:
问题四:如图,在机器学习PAI的pyflink读取kafka数据, 一直报这个错怎么回事
在机器学习PAI的pyflink读取kafka数据,使用TableSourceStream Op转成alink的op,一直报这个错,大家有没有遇到,怎么解决呢?kafka的connector包已正常导入
插件下载了的,我改了pyalink env.py的一行代码,把use_old_planner改为use_blink_planner,就跑成功了,有个疑问use_old_planner已经废弃了,我们源码是不是也应该更新下
关于本问题的更多回答可点击进行查看:
问题五:机器学习PAI中epl运行官方示例报错是什么原因?
机器学习PAI中epl运行官方示例报错是什么原因,单机单卡可以,但是多卡就报错了,运行命令是epl-launch --num_workers 2 --gpu_per_worker 1 scripts/train_dp.sh?
关于本问题的更多回答可点击进行查看:
问题六:机器学习PAI跑collective gpu分布式报错,可以帮助看一下吗?
机器学习PAI用release 2302 gpu镜像,可以跑本地gpu, ps-worker模式下的cpu分布式, 但跑collective gpu分布式报错,可以帮助看一下吗?
参考答案:
替换一下 /usr/local/lib/python3.8/dist-packages/tensorflow_core/python/feature_column/feature_column.py这个源文件就行
关于本问题的更多回答可点击进行查看: