MIT切割大量文本黑科技!数十亿选择中“海底捞”出一本好书

简介: MIT和IBM的研究人员结合了三种流行的文本分析工具——主题建模、词嵌入和最优传输——来每秒比较数千个文档。而且可以更快、更准确对文档分类,轻轻松松从数十亿选择中更快找到更相关的读物。

微信图片_20220107222357.jpg


在线有数以十亿计的书籍、新闻故事和文档,如果你有时间浏览所有选项,现在正是阅读的最佳时机!MIT助理教授Justin Solomon说:“互联网上有大量文本,任何有助于切割这些材料的东西都是非常有用的。”


微信图片_20220107222354.gif


在线本文的数量比这还多得多


在MIT-IBM沃森人工智能实验室和MIT几何数据处理小组的帮助下,Solomon最近在NeurIPS会议上提出了一种切割大量文本的新技术。该技术结合了三种流行的文本分析工具——主题建模(Topic Modeling)、词嵌入(Word Embeddings)和最优传输(Optimal Transport),这比流行的文档分类基准的竞争方法提供更好、更快的结果。


如果一个算法知道你过去喜欢什么,它可以扫描出数百万个类似的可能性。随着自然语言处理技术的改进,那些“你可能也喜欢”的建议正变得越来越快,也越来越相关。


在NeurIPS提出的这种方法,是一种算法根据集合中的常用词将一种集合(比如说书)归纳成主题。然后将每本书分成5-15个最重要的主题,并估算每个主题对整本书的贡献。


微信图片_20220107222351.jpg

NeurIPS 现场,热闹非凡,人潮涌动


为了比较书籍,研究人员使用了另外两种工具:词嵌入(一种将词转换成数字列表的技术,以反映词在流行用法中的相似性)与最优传输(一种计算在多个目的地之间的移动对象或数据点的最有效方式的框架)。

 

词嵌入使得两次利用最优传输成为可能:首先将集合中的主题作为一个整体进行比较,然后在任意两本书中比较常见主题的重叠程度。


该技术在扫描大量书籍和冗长的文档时特别有效。在这项研究中,研究人员提供了Frank Stockton的《战争辛迪加》(The Great War Syndicate)的例子,这本19世纪的美国小说,预言了核武器的兴起。如果你正在寻找一本类似的书,那么主题模型将有助于识别与其他书共享的主要主题——在这种情况下,是航海、元素和军事。


微信图片_20220107222349.jpg

战争辛迪加


但是仅仅是一个主题模型并不能将Thomas Huxley在1863年的演讲《有机自然过去的环境》(The Past Condition of Organic Nature)确定为一个很好的匹配。这位作家是Charles Darwin进化论的拥护者,他的演讲中充斥着化石和沉积作用,反映了关于地质学的新观点。当Huxley演讲中的主题与Stockton的小说通过最优传输相匹配时,出现了一些交叉主题:Huxley的地理、动植物、知识主题 ,分别与Stockton的航海、元素和军事主题紧密相关。


微信图片_20220107222346.jpg

有机自然过去的环境

根据书籍的代表性主题(而不是单个词)对书籍进行建模,使高层次比较成为可能。该研究的主要作者、IBM研究员Mikhail Yurochkin说:“如果你让某人比较两本书,他们会把每本书分解成易于理解的概念,然后比较这些概念。”


研究表明,结果是更快、更准确。研究人员在一秒钟内对比了Gutenberg Project数据集的1720对书籍,比次佳方法快800多倍。


微信图片_20220107222342.jpg

Gutenberg Project数据集


与其它方法相比,该技术还可以更准确地对文档进行分类:例如,按作者对Gutenberg Project数据集中的书籍进行分组,按部门对亚马逊的产品评论分类,以及按体育项目对BBC体育报道分类。在一系列的可视化中,作者展示了他们的方法可以很好地按类型对文档进行聚类。


除了快速和更准确地对文档进行分类之外,该方法还提供了一个窗口来了解模型的决策过程(想想就很厉害~~)。通过出现的主题列表,用户可以看到模型推荐文档的原因。


您觉得这项技术厉不厉害?欢迎来小程序里跟我们交流、探讨哦~

参考资料:

http://news.mit.edu/2019/finding-good-read-among-billions-of-choices-1220

相关文章
|
数据采集 SQL 算法
阿里音乐流行趋势预测—亚军答辩(一)|学习笔记
快速学习阿里音乐流行趋势预测—亚军答辩(一)
460 0
|
安全 Java 虚拟化
涅槃重生!字节大牛力荐大型分布式手册,凤凰架构让你浴火成神
从大型机到单体架构,从微服务架构到无服务架构,每一次架构模式的演进都是一次涅槃。每一个软件系统都是由大量服务构成的生态体系,个体服务的“死亡”和“重生”是整个系统能否持续可靠运行的关键因素。笔记从5个方面全面剖析了如何构建一个可靠的分布式系统,同时给出了Spring Boot、Spring Cloud、Kubernetes、Istio、AWS Lambda五种架构风格的样例工程。
|
算法 大数据 开发者
阿里音乐流行趋势预测—亚军答辩(二)|学习笔记
快速学习阿里音乐流行趋势预测—亚军答辩(二)
275 0
|
机器学习/深度学习 人工智能 自然语言处理
|
人工智能 机器人 语音技术
爷青回!AI“复活”韩国传奇乐队主唱,全息投影合体表演感动无数网友
爷青回!AI“复活”韩国传奇乐队主唱,全息投影合体表演感动无数网友
348 0
|
机器学习/深度学习 人工智能 监控
AI说长这样挣得多!Nature力证科学看相,3万张自拍揭露面相-性格关系,碾压算命先生
AI说长这样挣得多!Nature力证科学看相,3万张自拍揭露面相-性格关系,碾压算命先生
470 0
|
机器学习/深度学习 图形学 计算机视觉
一边动,一边画,自己就变二次元!华人小哥参与的黑科技:实时交互式视频风格化
云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 动画,动画,就是你动你的,我画我的。 就像下面这张GIF,左边是张静态图片,随着画者一点一点为其勾勒色彩,右边的动图也在实时地变换颜色。
AI课程将在今秋走入高中,准高一新生准备好了吗?
就教学体系而言,学习AI不再是本科生和研究生的专属。
332 0