系统:ubuntu 18.04 LTS Python: 3.6.8 OpenCV 3.4.4: cpu:英特尔i5-7300HQ cpu@2.50ghz,4核 gpu:nvidia GTX 1050 mobile (4gb) 我尝试使用PyTorch(1.3.1)训练一个简单的图像分类神经网络模型 我在一个文件夹中存储了一堆图片(35.000张照片,175.6mb)。 我走过所有的路:
def _get_imgs_paths(path):
_, _, imgs_paths = list(os.walk(path))[0]
return imgs_paths
在我调用另一个加载所有照片的函数后:
def _get_xys(path):
imgs_paths = DataSet._get_imgs_paths(path)
imgs_paths = sorted(imgs_paths)
cats_paths = list(filter(lambda path: 'cat' in path, imgs_paths))
dogs_paths = list(filter(lambda path: 'dog' in path, imgs_paths))
noise_paths = list(filter(lambda path: 'noise' in path, imgs_paths))
balanced_paths = []
for i in range(len(imgs_paths)):
if i % 3 == 0:
balanced_paths.append(cats_paths.pop())
elif i % 3 == 1:
balanced_paths.append(dogs_paths.pop())
else:
balanced_paths.append(noise_paths.pop())
xs = []
ys = []
**
for img_path in balanced_paths:
if 'cat' in img_path:
y = global_config.dataset.CAT
elif 'dog' in img_path:
y = global_config.dataset.DOG
elif 'noise' in img_path:
y = global_config.dataset.NOISE
else:
raise Exception('No such class')
ys.append(y)
// seems like this call causes the slowdown
img = cv2.imread(os.path.join(path, img_path))
r, g, b = cv2.split(img)
img = np.stack([r, g, b])
xs.append(img)
**
return xs, ys
现在开始:将图像写入内存的过程需要5分钟。这很荒谬,因为几天前一切都很快。有一天,我刚睡醒,开始检查夜间训练的结果,在什么再次启动了学习过程之后,我注意到这个巨大的减速。我不知道发生了什么。我点击Ctrl+C,得到以下回溯:
我做了好几次,它一直在这里。我打开htop,注意到: LMAO。我只是试图重现这个问题,令人惊讶的是,它做的一切都很完美,例如:相当快:
但是我停止了,再次运行,得到了我所说的问题。Htop: 谷歌说红色的D代表“不间断的睡眠”。 所以,问题是:这里发生了什么,为什么会发生? 问题来源StackOverflow 地址:/questions/59378710/reading-files-usin-pythons-opencv-takes-too-long
我看了下你使用了很多python原生的函数和功能,sorted,os.walk,filter,list用于构造机器学习的AI dataset。如果Python IO过慢,个人建议可以使用一些工具来分析比如:cProfile,line_Profile,这样更能准确定位到问题。此外os.walk,list,你创建很多数组内存,filter是个迭代器的对象,其返回的是一个迭代元素,能否将容器的对象元素全部转化为np.array,通过向量化处理,list 的append过程中会不断copy和检测,所以这都是造成性能过慢的原因,能否image的预处理和读取分开并且独立出来,然后通过协程处理操作,for的过程中会所创建的对象是否及时的创建和关闭,考虑一下上下文迭代器with as的实现,代码细节优化要依赖于性能测试和业务拆分,希望能帮到你。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。