昨天,刚刚上任的AI收银员就让阿里云官抖收获了第一条10万+,嗯就是下面这个视频。
人类在点餐速度上输给了AI,面对每秒速5个字的点单需求:“五个巧克力、两个香草拿铁,巧克力加奶油……”咖啡师总共花费2分37秒点完30多杯咖啡。而AI,仅仅用了49秒。
其实AI收银员的能力就来自于阿里云的AI产品和技术,除了可以做收银员之外,阿里云的智能语音技术还在上海地铁卖起了票,全程语音控制,购票时长仅需要10秒。
曾经的AI只会下棋,今天Alibaba Intelligence 已⼤规模应⽤在各个领域:ET城市大脑、淘宝小蜜、无人超市、工业大脑……
自2015年起,阿里云陆续推出了多款AI产品,除了语音识别,还有图像识别、视觉识别……等130多款细分产品,适用于300多个场景,这些能力都经过实践检验,在产业场景下发挥价值,更具生命力。
5月23日,2018云栖大会·武汉峰会上,阿里云首次曝光了人工智能产品家族,全方位公开AI产品体系(详见ai.aliyun.com)不妨一起了解一下。
AI·图像识别
图像识别服务基于大数据和深度学习实现,可精准识别图像中的视觉内容,包括上千种物体标签、数十种常见场景等,包含图像打标、场景分类、鉴黄等在线API服务模块,应用于智能相册管理、图片分类和检索、图片安全监控等场景。
图像打标广泛应用于智能图像管理、视频打标等场景,可自动识别图像中的数十种常见的场景,如天空、草地、人物等等,实现图片的自动管理、分组和搜索功能,可对大型图像库进行智能管理。还能精准识别图像中的色情内容,预防涉黄风险,节省人力成本。
阿里云多模态语音交互
具有对语音、视觉、场景感知等多模态感知智能,以及流利对话、多轮多意图口语理解、业务知识图谱自适应等认知智能。
上面提到的AI收银员和地铁语音售票机就应用了这套产品。
印刷文字识别
典型应用场景包括证件信息的自动识别和提取,自然场景中的文字识别,文档或宣传资料中的文字检测识别等。
阿里云OCR全新功能上线,对于身份证,营业执照识别等全新升级,新增文档图片识别、电商图片识别、视频文字识别、行业解决方案。
AI设计师鹿班
基于图像智能生成技术,鹿班可以改变传统的设计模式,使其在短时间内完成大量banner图、海报图和会场图的设计,提高工作效率。用户只需任意输入想达成的风格、尺寸,鹿班就能代替人工完成素材分析、抠图、配色等耗时耗力的设计项目,实时生成多套符合要求的设计解决方案。
智能语音交互
包括语音识别、语音合成、语音对话理解平台、语音模型自学习平台、声纹识别、语音关键字检测等多个子产品,子产品可以单独输出,也可以通过子产品之间的组合,应用于多种实际业务场景下,赋予机器“能听、会说、懂你“式的语音交互体验。
主要的方案包括:车载语音交互方案、电视远场语音交互方案、强噪声公众环境下的多模态免唤醒语音交互方案、法庭庭审语音识别解决方案、智能客服解决方案、声纹核身方案、多人会议场景下的语音方案等。
自然语言处理
为各类企业及开发者提供的用于文本分析及挖掘的核心工具,已经广泛应用在电商、文化娱乐、金融、物流等行业客户的多项业务中。
自然语言处理API可帮助用户搭建内容搜索、内容推荐、舆情识别及分析、文本结构化、对话机器人等智能产品,也能够通过合作,定制个性化的解决方案。
“见远”行业视觉智能诊断方案
通过深度学习和图像处理算法,进行全自动生产流程管理,自动识别图像中的瑕疵或故障,以达到大幅节省人力,提高产品生产效率及精度稳定性的效果。见远在工业、环保、养殖业等都有很好的前景。
机器学习平台PAI
基于阿里云分布式计算引擎的一款机器学习算法平台,以极低的代价帮助业务从BI时代跨入AI时代,真正实现人工智能触手可及,目前已正式商业化。
阿里云机器学习算法平台的背后是阿里巴巴的算法科学家和阿里云的技术保障团队。产品具有多方面优势,比如,良好的交互设计,优质、丰富的机器学习算法,与阿里产品完美配合,一站式的机器学习体验,支持主流深度学习框架,优质的技术保障。
AI·视网膜
基于阿里云海量视频的分布式计算和流媒体处理能力,利用机器学习、模式识别、计算机视觉对视频画面中出现的名人、明星等人物进行人脸识别。
此外,视网膜还拥有视频分类、多模态分析、标签预测,视频内容审核等多项能力,可以有效提升视频的分发、管理效率。依托于视网膜,视频的内容已经完全被结构化处理。当我们分析视频的时候,不再依靠人力,而是依靠人工智能技术。
“天机”
天机系统是一款可以预见城市未来趋势的AI系统,其核心是基于视觉的高精度预测算法。它可以预测未来一段时间内商场客流、轨交人流、路口车流、商场停车场停车位、商场停车场闸机过车数等等,准确率在90%以上。
基于高精度的预测信息,“天机”系统就可以提前实施智能干预,例如控制停车场闸机和车流引导系统,从而提高交通通行效率。