《集异璧》作者侯世达:王维、杨绛与机器翻译的本质

本文涉及的产品
文本翻译,文本翻译 100万字符
文档翻译,文档翻译 1千页
语种识别,语种识别 100万字符
简介: 侯世达教授围绕机器能否实现 “完美” 翻译这一主题展开讲座。“翻译”是检验人的创造力与人工智能的一块试金石,他以王维的五言绝句《鹿柴》、杨绛的回忆录《我们仨》为例,通过对比谷歌翻译与其自己翻译的结果,生动形象地展示了当下机器翻译离信达雅还有多远。

“空山不见人,但闻人语响,

返景入深林,复照青苔上。”

一位满头白发的美国老人正手持话筒,满脸认真地朗诵着诗人王维的五言绝句《鹿柴》。

这个看起来有些科幻的场面,发生在18日下午腾讯研究院举办的一场高端沙龙上,这位老人正是大名鼎鼎的侯世达教授。他的《哥德尔、艾舍尔、巴赫:集异璧之大成》启发了几代人对人工智能的思考。

78a719c32e0161a9826847dfa93fc1e1e5f04657

注:“侯世达”这个名字,是翻译组在翻译《集异璧》中文版时,根据 “Hofstadter” 音译取的名,Hofstadter 本人给自己起的中文名是 “侯道仁”。但因“侯世达” 这个名字流传甚广,已经和《集异璧》这本书紧紧连在一起,故下文仍以 “侯世达” 称呼 Hofstadter 先生。

这场活动由湛庐文化联合腾讯研究院、集智俱乐部、苇草智库举办,邀请了侯世达教授围绕机器能否实现 “完美” 翻译这一主题展开讲座。“翻译”是检验人的创造力与人工智能的一块试金石,他以王维的五言绝句《鹿柴》、杨绛的回忆录《我们仨》为例,通过对比谷歌翻译与其自己翻译的结果,生动形象地展示了当下机器翻译离信达雅还有多远。

翻译:时空穿梭的旅行

侯世达教授在演讲之初就问:

翻译究竟是什么,它可以实现什么目的?

他拿了一首他喜欢的一首王维的《鹿柴》给大家讲起:

de9385835e656de61ae5a9739f8fda1a3e0b7ec8

对于这首诗,侯世达教授也说到:“我不太了解它的意思,有可能是一个住所,有可能是封闭起来包围的空间,像一个公园一样,但是不管怎么样,它是一个地点,也就是王维当时生活的一个地方。它其实跟小鹿和公园没有什么关系,但是这个诗就是这么写的,诗人在这个空旷的山里面,没有看到人,但是我似乎听到一个声音,阳光穿过洞穴,又返到我的身上,穿过了青苔。”

其实,在这前后,他看了这首诗 8 个英语译本,而每一个标题的翻译都不一样。每个译本都有非常多的奇思妙想,译者也非常有趣并绞尽脑汁地结合英文诗的传统,中文诗的传统,还有中国的道教、佛教,王维的生平、历史都考虑到了,每一行诗都有非常多的主观想法以及他们自己的思维在里面,每一个作品都有他们的伟大之处。

那么,如果对于英文的读者来说,当他们看了英文的诗之后,是否能够站到王维原作的情境当中呢?

这是一个非常哲学性的翻译问题,到底有没有完美的翻译,翻译到底能不能完美到让你读完这个东西之后,你立刻就能够感受到原作的所有的附加内涵呢?

机器翻译的发展之路

翻译,是侯世达教授始终非常关注的一个研究课题。他认为,翻译不仅指围绕英汉、汉英之间的翻译,也涉及到人类理解能力与机器翻译之间的关系。

“机器翻译” 的概念最早在 1947 年,由学者沃伦 · 韦弗提出,他有一句很有意思的话,今天仍为众人所熟知:

当我阅读用俄罗斯语写的文章时,我会对自己说,“这篇文章实际上是用英语写的,只不过被编码成了一些奇怪的符号。现在,我要把这些符号解码回来。”

沃伦 · 韦弗认为翻译是一个解码的过程,这个解码的过程,有一个正确的答案。同时他认为机器翻译能够 “理解” 这个密码所代表的意思。

从 1947 年到现在,又发生了什么?其中有一篇文章就是 1959 年由 Yehoshua 写的文章,他虽然对机器翻译有多年研究,但最终对机器翻译持批评的态度,不过他对于机器翻译的可能性却持有比较暧昧的态度。

4b444c82829642e5982a51f470e8f19201ca9dbe

侯世达教授在活动现场

Yehoshua 这篇文章可能是关于机器翻译最有名的一篇文章了。这篇文章的题目叫《所谓完全自动化的高质量的机器翻译不可行的展示》,简称为 FAHQMT,这是非常蹩脚的缩写,但是也是非常有名的缩写,它实际上展示了机器翻译的不可行性。这篇文章有一段是这样描述的:

你给机器一些指令,让机器从一个它不理解的语言翻译成另外一个它不理解的语言去,实际上是一个大的挑战,如果在翻译过程中,采取一些措施,依赖于仪器对于文本的理解,机器是没有办法走过这一步的,整个过程就会停滞下来。

人工智能是 1940 年晚期,50 年代早期在美国和英国发明的,他们当时考虑的是哲学方面的问题,比如什么是思维,计算机能不能思考,计算机怎么样能有意识,这其实是非常好的一些想法。阿兰图灵就写过一篇文章,是 1950 年写的,机器能不能思考呢?

然后几年之后,MIT 的一个教授写了一篇文章,是关于 Eliza 项目的,研究人员设计了一个被称为 “伊莉莎” 的虚假的语言机器人,并把它假扮成了一个精神治疗师。“伊莉莎”让每一个与它打过交道的人产生了一种奇怪的感觉:它能够深刻理解人们心灵深处的感受。所以当时 Weizenbaum 就警示大家,你不能高估计算机打出来的字所富含的意义,你不能高估这个意义。

再过了二三十年,AI 的研究逐渐从大学转到了企业部门,哲学方面目标逐渐被商业目标所替代。事实上,AI 确实取得了一定的成功,但是也有一定的失败,我们来简单看一看它的一些成功,比如在围棋、国际象棋当中,今天世界上的冠军都是机器,而且它在语言识别方面也是有很大的成功,速度很快也能识别。但是它并不是一种理解。

谷歌翻译 VS 侯世达翻译

另外一个对谷歌翻译的测试,侯世达教授把它叫做侯道仁翻译,就是杨绛的一本书,大家可能都读过,叫做《我们仨》,它是一个回忆录,是关于她和她丈夫钱钟书以及他们女儿的一个回忆录,是一个比较悲伤的故事。侯世达教授拿这个书当中的一段话对比一下机器翻译和人工翻译的区别。

事定之日,晚饭后,有一位旧友特雇黄包车从城里赶来祝贺。客去后,钟书惶恐地对我说,“他以为我叫做南书房行走了。这件事不是好做的,不求有功,但求无过。”

——杨绛《我们仨》

这个就是我们想要翻译的原文,我们来看一下谷歌翻译的成果。

第一段,谷歌翻译是这么翻的:

64cb27790c6ac9fec49c1f4a211a7e922c4572ad

我们看一下这一小段:谷歌翻译把 “客人去后” 翻译成 “Guest to go”,这没问题,但却把 “钟书惶恐地对我说” 翻译成了 “the book of fear in the book said to me”。谷歌翻译把“南书房行走” 翻译成了‘South study walking’,谁能明白这是什么意思?英文读起来不知所云,所以这个问题很严重。

我们再看一下侯世达翻译版本:

f3bc375f303de08fc7b14f2f0084fd6b7a982e71

这个南书房行走,侯世达教授翻译成 South Study special aide,实际上他想了很长时间才想清楚怎么翻译,还问了一下他的夫人。侯世达教授的夫人是中国背景,教授跟他的夫人说把 “行走” 翻译成 “信使” 可不可以,夫人说看不懂,于是他就使用谷歌搜索引擎来进行了一下搜索,又搜索南书房行走这 5 个字,最后出现了一个由人写作的网页,这才解决了侯世达先生的一个疑问。

55b8c30e07445655f52566f9b312b355013a6fdf

讲完他做的这个小小的测试,侯世达教授说 “我不是要炫耀我的译法,我只是告诉大家,我真的花了很长时间才理解这个段落。最终理解这个段落之后,我选用了南书房特别顾问这样一个译法。”

在演讲进入尾声时,侯世达教授再次带大家回到了王维的诗,他不仅给这首诗提供了一个英译,还模仿了唐诗和汉字的结构写了出来:

bleak peak no one seen

but hear snips of talk

late light spins through bosk

shines back on green bark

782097386cf7c49583d6435d359f7d1653f40c9b

这幅图里有什么玄机呢?

欢迎大家在评论区留言!

机器翻译的极限

演讲最后,侯世达教授给大家总结道:

“总结一下,为什么让机器进行世界级的围棋比赛和让机器翻译一个非常简单的句子,是完全不一样的呢。不管今天的机器翻译吹得多么耀眼多么深刻,它是空洞的,它并不懂这个情景后面是什么意义,它仅仅是把这个符号玩来玩去的,它其实并不知道符号所代表的意思,这是今天的机器翻译。

也许它反映的是企业的目标,而不是哲学的目标。机器翻译也许会成为另外一种面貌,而且也许有一天机器翻译会呈现完全不同的情况。但是现在这个时刻,机器翻译不了解情景,因为它不了解词是有意思的。

机器翻译不懂什么是山,什么是声音,什么是绿色,什么是青苔,机器翻译不知道空间,不懂时间,不懂上或下,不懂大或小,不懂人,不懂物,也不懂世界,不懂任何存在,也不懂任何发生的事,基本什么都不懂。机器并不是说稍微地在懂一些什么东西,它根本就不了解它所工作的文本,它一点都不懂。机器翻译是空洞的,句号。机器翻译仅仅是机器翻译而已,句号。

侯世达教授对 “翻译” 理解和实践,也融入了他与 Emmanuel Sander 教授合著的《表象与本质》里,他和三位中译者仔细交流全书的翻译,经过三年时间的打磨,湛庐文化将于今年 9 月推出中译本。 这几天侯世达夫妇的北京之行,也正是为了向大家介绍《表象与本质》。

4 月 17 日上午,侯世达教授莅临湛庐思想空间,与湛庐文化创始人韩焱女士进行了愉快的交流,就此开启了此次 2018 北京行的第一站旅程。在接下来的几场活动中,韩焱女士作为侯世达新书《表象与本质》的出版人和致辞嘉宾,为大家分享了侯世达教授此次北京行背后的故事,同时阐述了她对侯世达教授两部作品重要价值的新思考。

23f3318a754ab6a09a0b321074710f22d408aeb7

4 月 17 日下午,侯世达教授在清华大学进行了此次北京行的第一场公开演讲。他的演讲主题是《表象、本质、类比:脑海的本质》,而表象、本质、类比正是他新书里的三个关键词。清华大学社会科学学院院长、心理学系主任彭凯平教授、清华技术创新研究中心主任、《清华管理评论》执行主编陈劲教授也与侯世达教授进行了精彩的对话。

d79b802c82546408fd1f7addb95ab380b46d6cb5

4 月 18 日下午,侯世达教授在腾讯研究院发表了他的第二次演讲,并与集智俱乐部创始人张江、腾讯研究院助理院长程明霞、苇草智库联合创始人段永朝、搜狗 CEO 王小川、龙泉寺贤度法师等展开了精彩纷呈的圆桌对话。

119e66ee6c901c8edd26c1fb8153f99c89cfd4cd

至此,侯世达教授的北京之行告一段落。


原文发布时间为:2018-04-21

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:《集异璧》作者侯世达:王维、杨绛与机器翻译的本质

相关文章
|
5月前
|
数据采集 人工智能 算法
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
【6月更文挑战第20天】探索AI如何理解与生成图像和文本,VLM结合图像与文本映射,涉及图像描述、问答等任务。论文由多所名校和机构研究人员共创,介绍VLM历史、类型(对比学习、掩码、生成、预训练)及应用,如图像生成和问答。同时,讨论数据质量、计算资源和模型可解释性的挑战。[阅读更多](https://arxiv.org/pdf/2405.17247)
173 2
|
6月前
|
人工智能 安全 物联网
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总
207 1
|
移动开发 监控 前端开发
人物志|醉杭:人生是不断进化的过程
人物志|醉杭:人生是不断进化的过程
194 0
|
机器学习/深度学习 人工智能 算法
谷歌大牛Jeff Dean单一作者撰文:深度学习研究的黄金十年
谷歌大牛Jeff Dean单一作者撰文:深度学习研究的黄金十年
141 0
|
搜索推荐 数据库
【科技论文的写作程序及方法】
【科技论文的写作程序及方法】
129 0
|
机器学习/深度学习 人工智能 自然语言处理
机器之心对话NIPS 2016最佳论文作者:如何打造新型强化学习观?(附演讲和论文)
当地时间 12 月 5 日,机器学习和计算神经科学的国际顶级会议第 30 届神经信息处理系统大会(NIPS 2016)在西班牙巴塞罗那开幕。本届最佳论文奖(Best Paper Award)获奖论文是 Value Iteration Networks。
机器之心对话NIPS 2016最佳论文作者:如何打造新型强化学习观?(附演讲和论文)
|
机器学习/深度学习 人工智能 数据可视化
AAAI 论文 | 为了“服装设计”反抄袭,阿里开发了一套版权算法
近日,由阿里安全和浙江大学合作研发的创新AI算法提出了一种面向服饰版权保护的属性感知细粒度相似度学习方法,从传统关注整体相似度细化到能够关注于局部区域的特定属性的相似度,从而进一步提升了甄别“局部抄袭”的准确率,为服饰版权保护提供更强大的技术支持。
1218 0
AAAI 论文 | 为了“服装设计”反抄袭,阿里开发了一套版权算法
|
机器学习/深度学习 人工智能 安全
|
机器学习/深度学习 存储 算法
深入浅出看懂AlphaGo Zero - PaperWeekly 第51期
AlphaGo Zero = 启发式搜索 + 强化学习 + 深度神经网络,你中有我,我中有你,互相对抗,不断自我进化。使用深度神经网络的训练作为策略改善,蒙特卡洛搜索树作为策略评价的强化学习算法。 1. 论文正文内容详细解析 先上干货论文:Mastering the Game of Go without Human Knowledge [1],之后会主要以翻译论文为主,在语言上尽量易懂,避免翻译腔。
10313 0