翻译这事儿,Google认为算法和大数据比语言学靠谱

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 我相信你已经能知道 Google 是一家极度看重算法、充满工程师文化的公司,但或许你还是会为此而感到惊奇——他们认为翻译是一个数学和统计学方面的问题。最近,位于 Google 总部的 Google Translate 团队正迅速扩张,他们新招了数名德国计算机科学家,但却没有招收一名语言学家。

我相信你已经能知道 Google 是一家极度看重算法、充满工程师文化的公司,但或许你还是会为此而感到惊奇——他们认为翻译是一个数学和统计学方面的问题。最近,位于 Google 总部的 Google Translate 团队正迅速扩张,他们新招了数名德国计算机科学家,但却没有招收一名语言学家。

Google Translate 部门主管 Franz Josef Och 同样也是德国计算机科学家出身,他不但并不精通语言学,甚至并不擅长语言学习。他认为,机翻的关键在对数学、统计和编程方面的擅长。

Google Translate 团队并不会去模仿人工翻译的方式,这就是他们没有去开发字典、定义语法结构和规则的原因。事实上,语法规则对目前的计算机来说仍然难以掌控。Google 更着重于以大数据和统计的方式入手,翻译系统会不断地调整翻译结果的相关性并自我学习如何处理数十亿的文字。通过这种方式,计算机最终能不断优化翻译结果。

以大数据方式做翻译的一个好处是,翻译系统会随着数据的积累而不断地改善。Google Translate 目前已经支持 71 种语言的互译,去年用户的使用次数已经达到 2 亿次。此外,索引全球网页的 Google 还能够依靠互联网上已经存在的翻译内容改善自己的翻译系统。

尽管如此,依赖算法的翻译系统仍然远远无法做到像人工翻译那么精准。句法、语调、歧义都是自动翻译软件很难处理的问题。Google Translate 的翻译结果仍然只能帮助人们对陌生语言进行大致上的理解,有时候得到的翻译结果很难让人通顺地阅读下来。

此外,Google Translate 在不同的语系之间的翻译结果质量也各不相同。例如,英语和西班牙语之间的互译翻译质量良好,英语和日语之间的互译不怎么样,英语和德语之间的互译则非常糟糕。

尽管如此,机翻有一个人工翻译难以做到的优势——它让更多的人接触到了更多的信息。试想一下如果你举着手机就可以与世界上任何语种的任何人交流,那会是多么棒的体验。


原文发布时间为:2013-09-19


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
2月前
|
机器学习/深度学习 自然语言处理 算法
大数据选举预测:算票的不只是选票,还有算法
大数据选举预测:算票的不只是选票,还有算法
119 0
|
19天前
|
算法 搜索推荐 大数据
当“爆款书”遇上大数据:出版业的老路,正在被算法改写
当“爆款书”遇上大数据:出版业的老路,正在被算法改写
107 8
|
6月前
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
7月前
|
数据采集 机器学习/深度学习 算法
别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?
别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?
430 4
|
3月前
|
算法 搜索推荐 大数据
大数据能不能看透消费者的心?聊聊那些“你以为是偶然,其实是算法的必然”
大数据能不能看透消费者的心?聊聊那些“你以为是偶然,其实是算法的必然”
104 5
|
4月前
|
数据采集 SQL 监控
ETL还是ELT,大数据处理怎么选更靠谱?
在数据处理中,ETL(抽取、转换、加载)与ELT(抽取、加载、转换)是两种核心流程。ETL强调在数据入库前完成清洗和转换,适合质量要求高、转换复杂的场景;而ELT则先将原始数据快速入库,再利用现代数仓的计算能力进行转换,更适合大数据和实时分析需求。选择哪种方式,需根据数据量、转换复杂度、系统资源及业务需求综合判断。
|
4月前
|
大数据 Python
电影要火,能靠玄学吗?用大数据算一卦更靠谱!
电影要火,能靠玄学吗?用大数据算一卦更靠谱!
84 3
|
4月前
|
数据采集 数据可视化 大数据
客户行为到底咋分析?别拍脑袋,用大数据才靠谱!
客户行为到底咋分析?别拍脑袋,用大数据才靠谱!
118 4
|
8月前
|
数据采集 机器学习/深度学习 人工智能
大数据中的数据预处理:脏数据不清,算法徒劳!
大数据中的数据预处理:脏数据不清,算法徒劳!
806 2
|
2月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
161 14

推荐镜像

更多