阿里云开放阿里巴巴三大核心AI:图像搜索、语音自学习、机器翻译

本文涉及的产品
文档翻译,文档翻译 1千页
语种识别,语种识别 100万字符
图像搜索,7款服务类型 1个月
简介: 7月18日,阿里云正式发布了三款人工智能产品:图像搜索、智能语音自学习平台以及机器翻译,三款产品由阿里云与阿里巴巴机器智能技术实验室联合自主研发,旨在为不同行业的用户提供业界领先的人工智能解决方案,进一步推动产业AI的落地。

7月18日,阿里云正式发布了三款人工智能产品:图像搜索、智能语音自学习平台以及机器翻译,三款产品由阿里云与阿里巴巴机器智能技术实验室联合自主研发,旨在为不同行业的用户提供业界领先的人工智能解决方案,进一步推动产业AI的落地。

众所周知,计算机视觉、语音交互以及NLP是人工智能的三大核心技术,然而市面上的人工智能解决方案鱼龙混杂,此次发布的三款产品已经承受了阿里巴巴集团内部复杂业务场景的挑战,为行业客户提供了绝佳的选择。

拍立淘同款:图像搜索正式商业化

此次推出的图像搜索是以深度学习和大规模机器学习技术为核心,通过图像识别和搜索功能,实现以图搜图的智能图像搜索产品。图像搜索服务在基于图像识别技术基础上,结合不同行业应用和业务场景,帮助用户实现相同或相似图片的搜索。

与通用搜索主要依靠字节不同,图像搜索被主要定义为“以图搜图”,可支持以下两大功能:

1.商品图片搜索,通过输入商品图片,可以在商品库中准确地找到图片中商品的同款或者相似款,返回对应的商品信息;

2.通用图片搜索,通过输入具有相同元素或主体内容的图片,在海量图片库中查找相似或相同的图片。
1

据了解,该方案包含了深度学习、图像识别、支持百亿级数据的向量检索引擎等方面的最新前沿研究成果。

值得一提的是,淘宝拍立淘功能背后采用的就是此图像搜索技术,并且完美的支持了每天超过千万的UV。在拍立淘数据库中有超过 10 亿个商品,学界熟知的 ImageNet 数据库也只保存了 1500 万张照片,而拍立淘每一天上传的图片就超过了这一数字。

智能语音自学习平台:0基础训练人工智能模型

智能语音自学习平台是一键式语音智能自助优化方案,突破了语音识别优化依赖于语音供应商专家服务的局限,可以让不懂技术的人员从此也可以快速显著提升自己业务的识别准确率满足业务需求。

传统的语音识别优化依赖于语音识别AI科学家来进行,对于很多智能项目的实施而言,这种方式存在几大难题:首先,项目进展受限于集中在语音供应商的AI科学家资源;其次,后续项目效果优化周期数以周记甚至数以月记,人工智能不再智能。

阿里巴巴机器智能技术实验室语音智能高级专家周躜表示,“自学习平台的目的是向没有专业知识背景的人员提供低门槛甚至零门槛的智能语音优化平台,使得我们的客户摆脱对AI科学家的依赖。”
2

据悉,相关技术已经在智能政务、智能 导航、智能催收、智能音响、智能家居、机器人及自动驾驶等领域都有广泛应用。在今年的云栖大会武汉峰会上,基于相关技术训练的“AI收银员”在与真人店员的PK中,在嘈杂环境下准确识别了用户的语音点单,在短短49秒内点了34杯咖啡。此外,装备这一技术的自动售票机也已在上海地铁“上岗”。

机器翻译:单天翻译词超千亿

阿里云机器翻译提供多类的翻译和语言服务,具有高性能高并发服务、多模态服务等能力,可帮助国际化企业提升业务价值。

据了解,上述机器翻译平台已经沉淀了优质的跨境语料数据库,充分利用先进的机器翻译算法技术和海量的数据资源,深度打磨机器翻译质量和产品体验,并积极拓展机器翻译业务的产品形态,将各项机器翻译技术产品化,如语音翻译、会场同传、实时沟通等新产品和服务形态。

官方信息显示,机器翻译在阿里巴巴内部可以达到每天翻译出几十亿量级的产品信息,每天的线上翻译请求到达数亿次,在双11时每秒钟的翻译请求大概有几万次,每天翻译的词语个数超过2000亿,而根据Google 2016年披露的数据,其每天翻译的词语个数大概是1400多亿。

3

目前该技术已为阿里巴巴集团十几条业务线提供机器翻译和本地化支持,覆盖了Alibaba.com 、 AliExpress 、 Lazada 、钉钉、阿里云、优酷、支付宝、菜鸟、天猫精灵、高德、飞猪等众多产品。

最全面的人工智能平台

从行业大趋势来看,云计算将会是AI最好的落地平台。阿里云一直致力于推动产业AI的落地,并且拥有从底层硬件基础设施到行业解决方案的丰富人工智能产品家族,是国内最全的人工智能解决方案商。

从2015年开始,阿里云推出了一系列人工智能产品,例如基于CPU、GPU、FPGA等异构计算平台,面向开发者的机器学习PAI平台,以及语音识别、图像识别、视觉识别等130多款细分产品(印刷文字识别、人脸识别、图像识别、智能语音交互和自然语言处理等),可以服务300多个不同行业的应用场景。
4

除上述解决方案之外,阿里云的ET大脑家族也在不断完善。目前,ET大脑已经覆盖了城市、工业、零售、金融、汽车、家庭等多个场景。其中,ET工业大脑已经帮助工业制造企业创造利润数十亿,ET城市大脑支持了杭州、澳门、吉隆坡等城市进行智能化升级。

了解更多AI产品请戳:https://promotion.aliyun.com/ntms/act/aiproduct.html?spm=a2c4e.11154000.rtdmain.1.319d6c12HQSW25

相关文章
|
22天前
|
机器学习/深度学习 人工智能 安全
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
GLM-Zero 是智谱AI推出的深度推理模型,专注于提升数理逻辑、代码编写和复杂问题解决能力,支持多模态输入与完整推理过程输出。
173 24
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
|
21天前
|
人工智能 自然语言处理 程序员
通义灵码2.0全新升级,AI程序员全面开放使用
通义灵码2.0来了,成为全球首个同时上线JetBrains和VSCode的AI 程序员产品!立即下载更新最新插件使用。
1567 26
|
9天前
|
人工智能 Cloud Native 安全
|
18天前
|
人工智能 Cloud Native 大数据
云+AI开启算力新时代,共建开源开放生态赴未来 | 2024龙蜥大会主论坛
本次分享的主题是云 + AI开启算力新时代,共建开源开放生态赴未来 | 2024龙蜥大会主论坛,由阿里巴巴集团合伙人、阿里云基础设施事业部总经理蒋江伟分享。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
GLM-4V-Flash:智谱 AI 免费开放的图像理解大模型 API 接口
智谱AI推出的GLM-4V-Flash是一款专注于图像理解的免费开放大模型,提供API接口支持用户上传图片URL或Base64编码图片获取详细的图像描述。该模型通过深度学习和卷积神经网络技术,简化了图像分析流程,提高了开发效率,适用于内容审核、辅助视障人士、社交媒体、教育和电子商务等多个应用场景。
243 14
GLM-4V-Flash:智谱 AI 免费开放的图像理解大模型 API 接口
|
2月前
|
人工智能 大数据 测试技术
自主和开放并举 探索下一代阿里云AI基础设施固件创新
12月13日,固件产业技术创新联盟产业峰会在杭州举行,阿里云主导的开源固件测试平台发布和PCIe Switch固件技术亮相,成为会议焦点。
|
13天前
|
存储 人工智能 自然语言处理
AI 工程学习 - 三张图说明白什么是 RAG
RAG(检索增强生成)是一种结合信息检索和生成模型的自然语言处理框架,通过引入外部知识库(如文档库、数据库等),增强生成模型的回答准确性与相关性。其核心在于避免模型仅依赖训练数据产生不准确或“幻觉”内容,而是通过实时检索外部资料,确保回答更精准、丰富且上下文相关。RAG的实现包括建立索引(清洗、分割、嵌入存储)和检索生成(计算相似度、选择最优片段、整合提示词模板提交给大模型)。
41 0
|
3月前
|
人工智能 自然语言处理 前端开发
VideoChat:高效学习新神器!一键解读音视频内容,结合 AI 生成总结内容、思维导图和智能问答
VideoChat 是一款智能音视频内容解读助手,支持批量上传音视频文件并自动转录为文字。通过 AI 技术,它能快速生成内容总结、详细解读和思维导图,并提供智能对话功能,帮助用户更高效地理解和分析音视频内容。
181 6
VideoChat:高效学习新神器!一键解读音视频内容,结合 AI 生成总结内容、思维导图和智能问答
|
3月前
|
人工智能 自然语言处理 Swift
探索面向开放型问题的推理模型Marco-o1,阿里国际AI团队最新开源!
阿里国际AI团队发布的新模型Marco-o1,不仅擅长解决具有标准答案的学科问题(如代码、数学等),更强调开放式问题的解决方案。该模型采用超长CoT数据微调、MCTS扩展解空间等技术,提升了模型在翻译任务及复杂问题解决上的表现。研究团队还开源了部分数据和模型,供社区使用和进一步研究。
探索面向开放型问题的推理模型Marco-o1,阿里国际AI团队最新开源!
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
AI驱动的个性化学习路径优化
在当前教育领域,个性化学习正逐渐成为一种趋势。本文探讨了如何利用人工智能技术来优化个性化学习路径,提高学习效率和质量。通过分析学生的学习行为、偏好和表现,AI可以动态调整学习内容和难度,实现真正的因材施教。文章还讨论了实施这种技术所面临的挑战和潜在的解决方案。
139 7