牛!谷歌向量空间法:图片译成文字

简介:

概述:谷歌工程师利用和语言翻译类似的技术开发出了一个用于翻译图片主题的机器学习算法


将一种语言自动翻译成另一种语言一直以来都是难以攻克的问题。但最近几年,谷歌通过开发机器翻译算法改变了传统的翻译过程,通过谷歌翻译从本质上改变了跨文化翻译交流。


如今,谷歌正在运用同样的机器学习技术将图片转变为文字。其结果就是自动产生能够准确描述图片内容的标题。该技术将用在互联网搜索引擎,图片自动发表,视觉受损者的网页浏览,以及其他更为广阔的领域。


翻译语言的传统步骤是一个更迭的过程 - 从个体单词的翻译开始,然后通过重新排列单词和短语的顺序来提高翻译的准确性。但是近几年来,通过完全不同的方式,谷歌已经能够运用自己超大规模的搜索数据库来转换文字。


谷歌运用的方法的本质是统计相邻或相近单词出现的频率,并且在向量空间中定义他们之间的关系。通过这样的方法,每一个单词就可以用一个向量在空间中表示出来,每一个句子则是不同向量的组合。接下来谷歌做了一个重要的假设 - 无论什么语言,特定的单词之间具备相同的关系。例如,在所有语言中,向量“国王-男人+女人=皇后”都应该是一个真命题。


这就使得语言翻译成为了向量空间学里的一个问题。谷歌翻译是通过这一方式实现这一过程的:先把句子转换成向量,然后使用这个向量产生意思相同,另一种语言的句子。


现在Oriol Vinyals 和他在谷歌的合作者们正在使用类似的方法将图片转化为文字。他们的技术是使用神经网络去学习10万个图片的数据集合以及他们的标题,以此来实现如何对这些图片的内容进行分类。


但是除了生成一组可以描述图片的单词,他们的算法同样可以生成代表单词之间关系的向量。这个向量可以和谷歌现有的翻译算法结合起来去生成英语标题,或者任何其他语言的标题。事实上,谷歌的机器学习方法已经可以将图片转换为单词。


为了考量这种方法的效果,他们从亚马逊的”mechanical turk” (提供不同技能的劳动力资源平台)雇佣了评估者来对通过上述方法自动产生的标题,以及其他方法和人工翻译的标题进行评分。


结果显示被谷歌叫做神经图片标题(Neural Image Caption, NIC)的新系统非常成功。使用一个叫做PASCAL的被大家所熟知的图片数据集,神经图片标题的翻译功能明显超出其他的非人工翻译方法。据Vinyals说,NIC的BLEU (wiki) 分数是59,现今最好的非人工翻译技术的分数是25,人工翻译的分数是69。


这是个不错的结果,并且随着训练数据集的增大,这个方法产生的结果会更好。“从实验中我们非常清楚地看到,由于数据集的增大,NIC的翻译功能也相应得到提高。”谷歌团队说。


下图是一组图片翻译结果的示例-按翻译结果评分分组:


很明显,这是另一个在不久的将来机器会超越人类的项目。谷歌原论文题目:Show and Tell: A Neural ImageCaption Generator

论文链接:arxiv.org/abs/1411.4555


编者注:最近升级版的“谷歌翻译“中,已经增加了类似的功能,叫做“Word Lens“,下文摘自雷锋网(leiphone.com)

原文链接 http://www.leiphone.com/news/201501/4d8lzMhsZBfqy1NG.html


iOS版谷歌翻译推出了更新版本,新版本增加了“Word Lens”功能,可以直接对镜头捕捉到的文字图像进行实时翻译,并显示在相机视图上。并且,即使在没有网络连接的时候也能使用。遗憾的是,目前支持翻译的文字有限,仅包括英语、法语、俄语、德语、意大利语、葡萄牙语和西班牙语,不过未来会支持更多语言。


此外,新版本还增加了实时会话模式,可以在双方使用自然语速进行语音对话时,自动识别双方的语种并进行实时翻译。



摘自:MIT TechnologyReview

原文链接:


http://www.technologyreview.com/view/532886/how-google-translates-pictures-into-words-using-vector-space-mathematics/



译者:Cathy Xi Kan简介

阚玺(Cathy Xi Kan) 2012年获得了美国纽约州伦斯勒理工学院(Rensselaer Polytechnic Institute)决策科学专业(Decision Science)的博士学位。在她4年的博士学习中,Cathy对于决策模型的建立,运筹管理以及数据挖掘与分析等多项领域产生了浓厚的兴趣。毕业后,Cathy成为了一名资深的商业决策分析师,先后加入全美第二大肿瘤研制中心(Memorial Sloan-Kettering Cancer Center)的战略计划团队和全美第一大电子折扣网站(RetailMeNot, Inc.)的商业智能和分析团队工作。这些团队主要负责运用大数据分析向公司管理决策层提供有价值的商业决策建议。


2015年Cathy希望通过大数据文摘平台广泛结交业内人士及爱好者,并希望有机会多多参与国际国内大数据和电子商务相关的会议及交流活动。有意者可后台留言或私信。


原文发布时间为:2015-01-17

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
2天前
|
人工智能 JavaScript Linux
【Claude Code 全攻略】终端AI编程助手从入门到进阶(2026最新版)
Claude Code是Anthropic推出的终端原生AI编程助手,支持40+语言、200k超长上下文,无需切换IDE即可实现代码生成、调试、项目导航与自动化任务。本文详解其安装配置、四大核心功能及进阶技巧,助你全面提升开发效率,搭配GitHub Copilot使用更佳。
|
3天前
|
存储 人工智能 自然语言处理
OpenSpec技术规范+实例应用
OpenSpec 是面向 AI 智能体的轻量级规范驱动开发框架,通过“提案-审查-实施-归档”工作流,解决 AI 编程中的需求偏移与不可预测性问题。它以机器可读的规范为“单一真相源”,将模糊提示转化为可落地的工程实践,助力开发者高效构建稳定、可审计的生产级系统,实现从“凭感觉聊天”到“按规范开发”的跃迁。
673 11
|
8天前
|
存储 JavaScript 前端开发
JavaScript基础
本节讲解JavaScript基础核心知识:涵盖值类型与引用类型区别、typeof检测类型及局限性、===与==差异及应用场景、内置函数与对象、原型链五规则、属性查找机制、instanceof原理,以及this指向和箭头函数中this的绑定时机。重点突出类型判断、原型继承与this机制,助力深入理解JS面向对象机制。(238字)
|
7天前
|
云安全 人工智能 安全
阿里云2026云上安全健康体检正式开启
新年启程,来为云上环境做一次“深度体检”
1624 6
|
3天前
|
消息中间件 人工智能 Kubernetes
阿里云云原生应用平台岗位急招,加入我们,打造 AI 最强基础设施
云原生应用平台作为中国最大云计算公司的基石,现全面转向 AI,打造 AI 时代最强基础设施。寻找热爱技术、具备工程极致追求的架构师、极客与算法专家,共同重构计算、定义未来。杭州、北京、深圳、上海热招中,让我们一起在云端,重构 AI 的未来。
|
5天前
|
IDE 开发工具 C语言
【2026最新】VS2026下载安装使用保姆级教程(附安装包+图文步骤)
Visual Studio 2026是微软推出的最新Windows专属IDE,启动更快、内存占用更低,支持C++、Python等开发。推荐免费的Community版,安装简便,适合初学者与个人开发者使用。
711 11
|
8天前
|
缓存 算法 关系型数据库
深入浅出分布式 ID 生成方案:从原理到业界主流实现
本文深入探讨分布式ID的生成原理与主流解决方案,解析百度UidGenerator、滴滴TinyID及美团Leaf的核心设计,涵盖Snowflake算法、号段模式与双Buffer优化,助你掌握高并发下全局唯一ID的实现精髓。
376 160
|
8天前
|
人工智能 自然语言处理 API
n8n:流程自动化、智能化利器
流程自动化助你在重复的业务流程中节省时间,可通过自然语言直接创建工作流啦。
467 6
n8n:流程自动化、智能化利器
|
6天前
|
人工智能 Shell 开发工具
Claude Code 2.1.2超详细更新说明,小白也能10分钟上手
Claude Code 2.1.x重磅更新:Shift+Enter换行、Esc+Esc撤销、Ctrl+B后台运行,Skills技能系统全面升级,支持多语言、通配符权限与动态MCP检测,性能提升50%,迭代速度惊人,开发者效率暴涨!
Claude Code 2.1.2超详细更新说明,小白也能10分钟上手