MIT切割大量文本黑科技!数十亿选择中“海底捞”出一本好书

简介: MIT和IBM的研究人员结合了三种流行的文本分析工具——主题建模、词嵌入和最优传输——来每秒比较数千个文档。而且可以更快、更准确对文档分类,轻轻松松从数十亿选择中更快找到更相关的读物。

微信图片_20220107222357.jpg


在线有数以十亿计的书籍、新闻故事和文档,如果你有时间浏览所有选项,现在正是阅读的最佳时机!MIT助理教授Justin Solomon说:“互联网上有大量文本,任何有助于切割这些材料的东西都是非常有用的。”


微信图片_20220107222354.gif


在线本文的数量比这还多得多


在MIT-IBM沃森人工智能实验室和MIT几何数据处理小组的帮助下,Solomon最近在NeurIPS会议上提出了一种切割大量文本的新技术。该技术结合了三种流行的文本分析工具——主题建模(Topic Modeling)、词嵌入(Word Embeddings)和最优传输(Optimal Transport),这比流行的文档分类基准的竞争方法提供更好、更快的结果。


如果一个算法知道你过去喜欢什么,它可以扫描出数百万个类似的可能性。随着自然语言处理技术的改进,那些“你可能也喜欢”的建议正变得越来越快,也越来越相关。


在NeurIPS提出的这种方法,是一种算法根据集合中的常用词将一种集合(比如说书)归纳成主题。然后将每本书分成5-15个最重要的主题,并估算每个主题对整本书的贡献。


微信图片_20220107222351.jpg

NeurIPS 现场,热闹非凡,人潮涌动


为了比较书籍,研究人员使用了另外两种工具:词嵌入(一种将词转换成数字列表的技术,以反映词在流行用法中的相似性)与最优传输(一种计算在多个目的地之间的移动对象或数据点的最有效方式的框架)。

 

词嵌入使得两次利用最优传输成为可能:首先将集合中的主题作为一个整体进行比较,然后在任意两本书中比较常见主题的重叠程度。


该技术在扫描大量书籍和冗长的文档时特别有效。在这项研究中,研究人员提供了Frank Stockton的《战争辛迪加》(The Great War Syndicate)的例子,这本19世纪的美国小说,预言了核武器的兴起。如果你正在寻找一本类似的书,那么主题模型将有助于识别与其他书共享的主要主题——在这种情况下,是航海、元素和军事。


微信图片_20220107222349.jpg

战争辛迪加


但是仅仅是一个主题模型并不能将Thomas Huxley在1863年的演讲《有机自然过去的环境》(The Past Condition of Organic Nature)确定为一个很好的匹配。这位作家是Charles Darwin进化论的拥护者,他的演讲中充斥着化石和沉积作用,反映了关于地质学的新观点。当Huxley演讲中的主题与Stockton的小说通过最优传输相匹配时,出现了一些交叉主题:Huxley的地理、动植物、知识主题 ,分别与Stockton的航海、元素和军事主题紧密相关。


微信图片_20220107222346.jpg

有机自然过去的环境

根据书籍的代表性主题(而不是单个词)对书籍进行建模,使高层次比较成为可能。该研究的主要作者、IBM研究员Mikhail Yurochkin说:“如果你让某人比较两本书,他们会把每本书分解成易于理解的概念,然后比较这些概念。”


研究表明,结果是更快、更准确。研究人员在一秒钟内对比了Gutenberg Project数据集的1720对书籍,比次佳方法快800多倍。


微信图片_20220107222342.jpg

Gutenberg Project数据集


与其它方法相比,该技术还可以更准确地对文档进行分类:例如,按作者对Gutenberg Project数据集中的书籍进行分组,按部门对亚马逊的产品评论分类,以及按体育项目对BBC体育报道分类。在一系列的可视化中,作者展示了他们的方法可以很好地按类型对文档进行聚类。


除了快速和更准确地对文档进行分类之外,该方法还提供了一个窗口来了解模型的决策过程(想想就很厉害~~)。通过出现的主题列表,用户可以看到模型推荐文档的原因。


您觉得这项技术厉不厉害?欢迎来小程序里跟我们交流、探讨哦~

参考资料:

http://news.mit.edu/2019/finding-good-read-among-billions-of-choices-1220

相关文章
|
IDE Java 编译器
《C游记》 第一章 - 灵根孕育源流出 初识C言大道生(壹)
《C游记》 第一章 - 灵根孕育源流出 初识C言大道生(壹)
174 0
|
机器学习/深度学习 人工智能 自然语言处理
「一夜爆红」之后,科大讯飞交出了这份年度答卷
在第三次人工智能浪潮来临之时,在语音领域耕耘了 17 年的这家公司走到了哪一步?
189 0
「一夜爆红」之后,科大讯飞交出了这份年度答卷
|
机器人
苏黎世联邦理工研发轮式“机器狗”,可走可溜,官方吐槽:爬楼梯有点费劲
苏黎世联邦理工研发轮式“机器狗”,可走可溜,官方吐槽:爬楼梯有点费劲
226 0
AI课程将在今秋走入高中,准高一新生准备好了吗?
就教学体系而言,学习AI不再是本科生和研究生的专属。
327 0
眼球网站经济学之我见——符号化的意义,互联网营销
  “钱不是万能的,但没钱却是万万不能的!”这种调侃很流行,我想也应该有不少人能够在总体上认同——谁不食人间烟火啊!不过有的时候钱确实是很难衡量,甚至会失去作用的,比如为国捐躯、无私奉献、天灾人祸等。也许有人会因此得出一个金钱很俗的结论,那么我在这里就要试图解决两个问题:将人类的感情色彩去处后,还原金钱的本质;以及将这种本质应用到虚拟世界之中。
1464 0
|
算法 Python
十年磨一剑,这是一本有声音的算法书
这本书在美亚评分4.7,在作者的在线算法课程的基础之上编写的,是四卷本系列的第1卷。这个在线课程2012年起就定期更新,它建立在作者在斯坦福大学教授多年的本科课程的基础之上。也许你有所耳闻,这本书就是《算法详解(卷1)——算法基础》。
1718 0
|
机器学习/深度学习 人工智能 城市大脑
阿里巴巴iDST再出黑科技:行人检测与识别夺世界第一
1月9日消息昨日,全球权威机器视觉算法排行榜KITTI刷新了排名,阿里巴巴人工智能研究机构iDST夺得行人检测单项冠军。于此同时,在知名的行人再识别数据集Market1501中,他们也取得重大突破,首位命中率提升至96.17%,位居世界第一。
7295 0
|
机器学习/深度学习 人工智能
【聚能聊有奖话题】机器学习让影星们有望一个表情演完一部电视剧,你懵圈了吗?
在深度学习之前已经有很多生成模型,但苦于生成模型难以描述难以建模,科研人员遇到了很多挑战,而深度学习的出现帮助他们解决了不少问题。当下3大深度学习生成模型Variational autoencoder(VAE)、Generative Adversarial Network(GAN)以及GAN的变种各有所长。
1683 0