伏尼契手稿是一本内容不明的神秘书籍,共240页,里面充满着编码一般的文字和神秘的插图。自从100多年前被发现以来,伏尼契手稿就一直令语言学家和密码学家困惑不解,至今没有人能够破译出只言片语。但最近,利用人工智能,加拿大的研究人员宣称在破译伏尼契手稿方面迈出了巨大的一步。
伏尼契手稿(Voynich manuscript)的书名来自名为威尔弗雷德·伏尼契(Wilfrid Voynich)的波兰书商,他于1912年在意大利买下此手稿。手稿中使用的字母和语言都是未知的,至今无人能识别。伏尼契手稿包含数百页纸张,部分书页散失了,书中手写的文字是从左到右书写的。大部分页面都配有插图,插图内容包括植物、任务和天文符号。但至于文字的含义——完全不懂。没有任何线索。
但并不是缺少尝试去破译手稿的人。这部手稿被认为是世界上最重要的密码,自被发现以来,无数专业和业余的译解密码者都仔细地研究过它。在第二次世界大战期间,顶尖的密码专家也对它进行过分析,但即使是他们也没有破译出只字片语。有关这本手稿,人们提出了各种各样的理论,例如它是用半随机加密方案创建的;它是字谜;或者是一种元音被移除的书写系统。有人甚至认为这份手稿是一场精心策划的骗局。
伏尼契手稿(图:耶鲁大学贝尼克珍本与手稿图书馆)
但对于阿尔伯塔大学自然语言处理专家格雷格·康德拉克(Greg Kondrak)来说,破解这本天书似乎是非常适合AI的任务。在他的研究生Bradley Hauer的帮助下,Greg Kondrak在破解伏尼契手稿密码方面迈出了一大步。他们发现文本是用希伯来语编写的,并且字母以某个固定的模式排列。虽然研究人员还不知道伏尼契手稿中内容的含义,但现在已经准备好让其他专家参与调查。
第一步是找出加密文本的语言。为此,AI研究了“世界人权宣言”的文本,这是用380种不同的语言编写而成,试图找到模式。经过这一步的训练,AI分析手稿的乱码文字,得出的结论是,文字很可能是用经过编码的希伯来语写成的。 Kondrak和Hauer都大吃一惊,因为他们刚开始这个项目时,认为这些文字是用阿拉伯语写的。
Kondrak说:“这真令人惊讶。但是,得出‘这是希伯来语’只是第一步,下一步是破译出文本的含义。”
伏尼契手稿中的一页(图:耶鲁大学贝尼克珍本与手稿图书馆)
第二步,研究人员接受了以前的研究人员提出的假设,即手稿的文本是基于字母表创建的,也就是说,文本已经被按字母顺序排列的字母表替换(例如,GIZMODO重排后变成DGIMOOZ)。基于文本最初是用希伯来语编码这个发现,研究人员设计了一个算法,可以利用这些变位词来创造出真正的希伯来语单词。
Kondrak说,“我们发现,有80%以上的单词都在希伯来语词典中,但是我们不知道它们组合在一起是否有意义。”
最后一步,研究人员决定了手稿的开头部分,并将它交给Moshe Koppel,以为计算机科学家兼母语是希伯来语的人。Koppel说,这在希伯来语中并不能形成一个连贯的句子。
研究人员在报告中写道:“但是,在进行了一些拼写校正之后,谷歌翻译能够将它翻译成可接受的英语:’她向牧师、家人以及我和其他人提了建议’(She made recommendations to the priest, man of the house and me and people)”,相关报道发表在ACM网站中。
对于一部240页的书来说,以这样一个句子开头是挺奇怪的,但这句话实际上是有意义的。研究人员并没有说他们已经破译了整部伏尼契手稿。但他们确定了手稿的语言(希伯来语),以其中字母以特定的字母表顺序排列这样一种编码方案。Kondrak说,只有等到古希伯来的历史学家有机会研究破译的文本,才能知道手稿的全部意思。
令人兴奋的是,该团队正在计划将新算法应用到其他古老的手稿,AI有潜力解决困扰人类几个世纪的问题。
原文发布时间为:2018-02-1
本文作者:马文
本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号