下一代搜索引擎或将依赖人工智能、众包和超级计算机

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介:

我们所知的WordNet是一个英语词汇数据库,它将英语单词以同义词集合(synset作为一个基本组织单位,集合里提供词汇的简短定义和使用示例,人脑如果有一个已知的概念,就可以在同义词集合中找到一个适合的词去表达这个概念。而现在,美国德克萨斯大学奥斯汀分校(UT Austin)的研究人员开发了一种将信息从WordNet数据库整合到信息检索(IRinformation retrieval)系统的方法,便于通用搜索引擎以及医学知识或非英语文本等细分领域的研发。

 下一代搜索引擎或将依赖人工智能、众包和超级计算机

说明之前,我们先来了解一下WordNet——由普林斯顿大学(Princeton)的心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典【常用的英语词典分为词典 (Dictionary、分类词汇汇编 (Thesaurus、同义词和反义词 (Synonyms and Antonyms、惯用法 (Usage)、成语 (Idioms、俚语 (Slang和词源 (Etymology等等】。

下一代搜索引擎或将依赖人工智能、众包和超级计算机

(图中四种不同词性的网络之间并无连接,WordNet为其提供连接)

它是一个覆盖范围宽广的英语词汇语义网。名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连接——它不是光把单词以字母顺序排列,而且按照单词的意义组成一个单词的网络 

为什么需要一个WordNet 

  • 计算机提供了一个良好的模式演练场,通过它,人们可以测试各种关于人类认知能力的理论模型。
  • 越来越多的人认识到,一个大的词库对自然语言理解,人工智能的各方面研究都具有重要的价值。 
  • 对大规模机器可读词典的需求同时也带来许多基础问题。首先是如何构造这样一个词库,是手工编制还是机器自动生成?第二,词典中应包含什么样的信息?第三,词典应如何设计,即信息如何组织,以及用户如何访问?实际上,这些问题涉及到词典的编纂方法,词典的内容,词典的使用方式这一系列非常基础的问题。

WordNet的内容是什么?对此公开资料显示,人们经常区分词语知识和世界知识,前者体现在词典中,后者体现在百科全书中,但事实上二者的界限是模糊的。比如hit)某人是一种带有敌意的行为,这是百科知识;而hitstrike)多多少少同义,并且hit可以带一个直接宾语论元,这是词语知识。但hit的直接宾语应该是固体(而不是像gas这样的气体),这是词语知识还是百科知识就界限模糊了。不过毫无疑问,要理解语言,这两部分知识是缺一不可的。WordNet相当于一个统筹。 

之所以有了WordNet,也就有了更多相关的应用落地,比如搜索引擎。那么,搜索引擎如何生成相关站点链接列表? 

这要归功于信息检索演变进程中两股强大力量的发展:人工智能(尤其是自然语言处理)和众包。

当我们搜索一个信息,得到一系列信息,两者之间如何对应起来?对于我们所输入的词汇与大量预测网页之间的关系,计算机算法对此的解释是,主要基于其系统所接受的数以亿计的文本训练中语言连接的频率。 

但这并不是信息的唯一来源。对于重要话题,专业的注解者会强化其语义关系,调整搜索结果和生成结果的算法,而通过网络检索者(也就是我们)的点击,算法会辨别出哪些链接是最佳结果。

尽管很不可思议,但这个模型带来的改变世界性的成功,也存在一定缺陷。因为搜索引擎给出的结果往往不像我们想的那样智能,它们仍然缺乏对人类语言和逻辑的真正理解。除此之外,它们有时会重复、加深我们的搜索结果中出现的偏差,而不是为我们提供新的信息或观点。 

在研究过程中,美国德克萨斯大学奥斯汀分校信息学院副教授马修·里斯(Matthew Lease)提出一个设想:利用计算机和人类大脑的双重力量,或许能够创造更加智能的信息检索系统方式。 

为了将人工智能与注释者的见解以及特定领域资源的信息编码整合在一起,里斯教授及其同事们正在开发一种新的信息检索方案,它将有利于通用搜索引擎以及医学知识或非英语文本等研发的细分领域。 

8月初,在加拿大温哥华举办的计算机语言学协会年度会议上,里斯、德克萨斯大学奥斯汀分校和美国东北大学的几位合作者通过两篇论文,描述了他们新颖的信息检索系统想法。他们的研究借助了德克萨斯高级计算中心的超级计算资源。 

在其中一篇论文中,以博士生An Nguyen为首,他们提出了一种方法,即结合多个注解者输入的信息,来确定所有给出的文本中最好的注解方案。他们将这种方法用在了两个问题的研究上: 

分析自由文本搜索描述医学研究的文章,来提取每项研究的细节(例如,健康状况、患者统计信息、治疗手段和效果),以及通过识别命名实体分析突发新闻报道来识别事件、人以及所涉及的地方。 

里斯同时提出,在自然语言处理中有一个重要挑战,即准确地在自由文本中查找所包含的重要信息,它将使我们把这些信息提取到数据库,并将其与其他数据结合在一起,以做出更加智能的决策和新发现。相关解决方案是,里斯这些研究人员已经大规模地利用众包来为医学和新闻文章注解,以确保其智能系统将能够更加精准地找到每一篇文章中所包含的关键信息。 

习惯上,这些注解历来都是由相关领域专家完成的。然而,近来,众包已经成为一个以较低成本获取大量带标签数据的广受欢迎的方法。可以预见的是,这些来自非专业人士的注解质量要比那些领域专家的注解差,因此评估大众注解者的可靠性是很有必要的,而且将这些个人注解整合成一套参考标准一致的标签也很有必要。

里斯的研究团队还发现,他们的方法可以训练神经网络,这样它就可以非常准确地预测出命名实体,并在未命名文本中提取相关信息。这个新方法改进了现有的标记和训练方法。 

该方法还为每一位工作人员的标签质量提供了评估,它可以在任务之间转移,而且对误差分析和智能路由任务很有用——可以识别出每个特定文本的最佳注解人选。

下一代搜索引擎或将依赖人工智能、众包和超级计算机 

该图是一个局部权值共享分类的例子,如图所示,单词被分为了两组,里斯的研究小组在归属于同一组的单词中,随机地选择待共享权值后将其嵌入。权值共享限制了系统必须学习的自由参数的数量,提高了该神经模型的效率和精度,并成为了一个灵活结合先验知识的方法。在这一过程中,他们将最好的人类知识与机器学习结合在了一起。【贡献者:张烨(Ye Zhang);德州大学奥斯汀分校马修·里斯(Matthew Lease);美国东北大学拜伦·C·华莱士(Byron C. Wallace)】

第一篇论文:Learning to Effectively Select Topics For Information Retrieval Test Collections

链接:https://arxiv.org/pdf/1701.07810.pdf 

利用现有知识创造更好的神经系统模型

该团队的另一篇论文以博士生张烨(Ye Zhang)为首,文章提出,自然语言处理(NLP)的神经模型往往会忽视现有资源,例如WordNet词汇数据库。 

他们提出了一种方法,可以通过权值共享(weight sharing),利用这些现有的语言资源,为了自动文本分类改善自然语言处理模型。例如,该模型学习将医学文章进行分类,将描述临床试验的研究分类到与临床医学问题相关的定义下。

在权值共享下,相似的词汇将共享一个权值的其中一部分,或指定的数值。权值共享限制了系统必须学习的自由参数的数量,从而提高该神经模型的效率和精度,并起到一个灵活结合先验知识的方式。在这个过程中,他们将人类知识与机器学习结合在了一起。

神经网络模型的参数有很多,并且需要大量的数据去配合它们。里斯因此有了一个想法,如果能够以某种方式推出一些与其他先验词汇相关的词汇,那么就没必要非要为每个单独的词汇设置一个参数,而可以将多个单词配合使用一个参数,这样所需要学习模型的数据就比较少了。这种方法将在没有大量数据限制的情况下实现深度学习成果。

他们将一种形式的权值共享应用在了一段电影评论的情感分析和与贫血症有关的生物医学搜索中。在分类任务上,相比没有使用权值共享策略的情形,他们的方法不断获得了改进性能。 

来自美国东北大学的合作者拜伦·华莱士(Byron Wallace)也认为,这种方式,相当于在数据驱动的神经网络模型中编写和开发专业领域知识提供了一个通用框架。【华莱士曾经也是德州大学奥斯汀分校的教职工,而且也是德克萨斯高级计算中心(TACC)的老用户。】 

里斯、华莱士和他们的合作者在德克萨斯高级计算中心的Maverick超级计算机上使用GPU(图形处理单元)对其机器学习系统进行分析和培训。 

里斯表示:训练神经计算模型处理大数据需要大量的计算时间。而TACC恰好就成为了一处很棒、很合适的资源,而且这不仅仅缘于其强大的可用存储,还得益于其大量的节点和可适用于神经模型训练的高效处理速度。 

据里斯说,除了GPUTACC部署了英特尔先进的处理架构,机器学习库正在迎头赶上。 

尽管许多深度学习库一直在对GPU的处理进行高度优化,但从长远来看,一旦其他架构也进行了优化,它们将变得更快。 

TACC数据密集型计算主管尼尔·加夫尼(Niall Gaffney)表示,在TACC的与Caffe(加州大学伯克利分校开发的深度学习框架,已被充分应用到了英特尔的至强Phi处理器中)进行的前期工作中,他们发现,这些CPU的性能差不多与许多人工智能运行时的CPU性能相当。

加夫尼认为这相当于一个变革,毕竟它将能够提供更多可以满足这些研究人员的节点,同时也允许高性能计算机(HPC)用户可以在他们的分析阶段利用人工智能,而无需移动到一个不同的GPU启用系统。 

通过提高自动信息提取和文本分类的核心自然语言处理技术,建立在这些技术上的网络搜索引擎可以继续提高。 

里斯已经收到来自美国国家科学基金会(NSF)、美国博物馆和图书馆服务研究院(IMLS)和美国国防高级研究计划局(DARPA)的资助,来改善跨各种任务、规模和设置的众包质量。尽管商业网络搜索公司投入了大量资源来开发实用、有效的解决方案,但行业的需求迫使里斯仍然专注于商业应用问题和短期解决方案。这也是为什么像里斯这样的研究人员得以展开这些高风险、潜在变革性的研究之原因。







原文出处:科技行者
转载请与作者联系,同时请务必标明文章原始出处和原文链接及本声明。
相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
6月前
|
机器学习/深度学习 人工智能 PyTorch
人工智能平台PAI产品使用合集之Alink在PAI上执行时下载依赖库失败,是什么原因
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
机器学习/深度学习 人工智能 算法
【蜂口 | AI人工智能】搭建caffe依赖环境——龙鹏的一站式caffe工程实践连载(一)
大家好,我是龙鹏,现在在陌陌深度学习实验室担任资深高级算法工程师,之前在360人工智能研究院担任算法工程师,目前已具有六年的计算机视觉相关的项目经验了。这次的分享我会基于Caffe这个深度学习开源框架,给大家描述一个完整的图像分割项目,大家会对图像分割技术中的基本原理有所了解,并且能够掌握Caffe这个深度学习框架,从而提高自己的应用实战水平。
1760 0
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能在医疗诊断中的应用与前景####
本文深入探讨了人工智能(AI)技术在医疗诊断领域的应用现状、面临的挑战及未来发展趋势。通过分析AI如何辅助医生进行疾病诊断,提高诊断效率和准确性,以及其在个性化医疗中的潜力,文章揭示了AI技术对医疗行业变革的推动作用。同时,也指出了数据隐私、算法偏见等伦理问题,并展望了AI与人类医生协同工作的前景。 ####
47 0
|
25天前
|
机器学习/深度学习 人工智能 搜索推荐
探索人工智能在现代医疗中的革新应用
本文深入探讨了人工智能(AI)技术在医疗领域的最新进展,重点分析了AI如何通过提高诊断准确性、个性化治疗方案的制定以及优化患者管理流程来革新现代医疗。文章还讨论了AI技术面临的挑战和未来发展趋势,为读者提供了一个全面了解AI在医疗领域应用的视角。
59 11
|
16天前
|
人工智能 缓存 异构计算
云原生AI加速生成式人工智能应用的部署构建
本文探讨了云原生技术背景下,尤其是Kubernetes和容器技术的发展,对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制,包括HPA和CronHPA,以及针对传统弹性扩展“滞后”问题提出的AHPA(高级弹性预测)。此外,文章重点介绍了Fluid项目,它通过分布式缓存优化了模型加载的I/O操作,显著缩短了推理服务的冷启动时间,特别是在处理大规模并发请求时表现出色。通过实际案例,展示了Fluid在vLLM和Qwen模型推理中的应用效果,证明了其在提高模型推理效率和响应速度方面的优势。
云原生AI加速生成式人工智能应用的部署构建