人工智能设计思路
本系统的人工智能学习开发主要针对图像以及语音识别。
图像识别的基本思路是LeNet-5,基本网络是两层CNN,但由于数字识别的数据集MNIST是单个数字识别,直接将拍摄到的照片放入预测网络是无法识别的,所以将仓库内的数字进行定位以及切割,定位的同时判断某个仓库内有无货物,定位的方式主要是HSV颜色定位。有货物就将其切割出来进行图像预处理,由于实验室的照片和实际项目中拍摄到的照片是有差别的,所以图像预处理是很关键的一步,图像的预处理采用OpenCV,算法有闭操作、直方图均衡化等,处理完成后将图像送到网络中进行识别。
语音识别采用百度AI开放平台的联网方案进行,将Qt的录音进行上传,得到识别结果后使用正则表达式和关键字提取并进行判断,针对识别到的指令完成机械臂控制。