面向机器学习的自然语言标注2.2 背景研究

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介:

2.2 背景研究


既然你已经考虑了哪些语言学层次适合标注任务,那么可以对相关研究工作进行了解。虽然建立标注语料库要花费许多工夫,完全由自己单独地完成一个好的标注任务也是可能的,但是首先了解业界的相关研究与发展现状将可以节省大量的时间和精力。很可能已有的一些研究与你正在进行的工作有关,从而使你不必一切从头做起。

例如,如果对时间标注感兴趣,现在ISO-TimeML已成为时间与事件标注方面(包括时间关系)的国际标准化组织标准。这一事实并不要求所有的时间标注都必须原样不动地使用ISO-TimeML的标注方案。在诸如医学和生物医学文本分析的领域中,TimeML可作为有用的起点,但是在有些情况下它给标注人员提供了太多的选项,在另一些情况下则没有覆盖与所在领域相关的一些特殊用例。了解其他人在已有的标注方案中进行的工作,特别是与你的标注计划直接相关的工作,可使你自己的标注任务的规划变得更加

容易。

图书馆和谷歌经常能够提供好的信息来源,但可能并没有提供关于标注项目的最新信息,主要因为计算语言学领域最主要的论文发表途径是会议及其相关的研讨会。在下面的几节中我们将给出一些比较有价值的组织与研讨会的相关信息。

2.2.1 语言资源

目前有一些来源可以提供预装的语料库。例如,语言数据联盟(Linguistic Data Consortium, LDC)有一个包含成百上千个语料库的集合,覆盖文本和语音数据,涉及多种语言。其中的大部分语料库非会员均可获取(有时需要支付一定费用),但有一部分必须是LDC会员才能使用。语言数据联盟由宾夕法尼亚大学负责维护运行,涉及会员资源和语料库价格的细节问题在其网站上均有详细解答。

欧洲语言资源协会(European Language Resources Association, ELRA)是另一个重要的语料库来源,它同样包含来自多种语言的口语和书面语语料库。与LDC一样,申请成为ELRA会员后,即可获取整个资源库的访问权,当然也可以仅仅使用其中某个语料库。更多信息可从ELRA网站上获取。

另一个有用的来源是语言资源与评价(Linguistic Resources and Evaluation, LRE)地图,它可以提供过去若干年中提交给语言资源与评价会议(Linguistic Resources and Evaluation Conference, LREC)的论文中所使用的全部资源。但是,这一列表未经确认,因此并不是所有入口都是有效的。关于这一映像的语料库和标注资源的缩减版可从本书的附录中找到。

获得一个最新版本的语料库往往需要支付一定的费用,但是借助LDC和ELRA,有可能免费下载该语料库的一个更早版本。所以,在研究资金匮乏时寻求替代性获取方式是有价值的。无论从何处获取,均应对将要使用的语料库进行许可检查,以保证可以合法地使用。

2.2.2 机构与会议

许多面向公众开放使用的标注工作都是在大学里完成的,这使得会议论文集成为获取相关标注任务信息的最佳起点。下面列举了一些研究语料标注与语料库的较大会议及对这些主题感兴趣的学术组织。

计算语言学协会(Association for Computational Linguistics, ACL)

电气和电子工程师学会(Institute of Electrical and Electronics Engineer, IEEE)

语言资源与评价会议(Language Resources and Evaluation Conference, LREC)

欧洲语言资源协会(European Language Resources Association, ELRA)

国际计算语言学会议(Conference on Computational Linguistics, COLING)

美国医学信息学协会(American Medical Informatics Association, AMIA)

LINGUIST目录并不是发起会议与研讨会的组织,但它持续提供相关会议的最新征稿与日期信息,也提供可根据语言学层次排序的语言学组织列表。

2.2.3 自然语言处理竞赛

在过去的多年中,由研讨会主办的自然语言处理竞赛越来越常见。这些竞赛通常给出一个语言学问题、一个训练和测试数据集,并要求参赛队或个体参赛者在一个有限的时间内开发出算法或规则集以便在测试集上取得尽可能好的结果。

这些竞赛主题范围广泛,从词性标注到词义消歧和生物医学文本分析,并且不局限于英语。主要的相关研讨会包括:

SemEval

该研讨会作为ACL年会的一个组成部分每3年举办一次。它涉及词义消歧、时间与空间推理和机器翻译在内的多种竞赛。

自然语言学习会议(Conference on Natural Language Learning, CoNLL)共享任务

这是由国际计算语言学协会自然语言学习特别兴趣组主办的自然语言处理竞赛,每年一次。每年,它选择一个新的自然语言处理任务举办竞赛。已进行的竞赛包括不确定性检测、句法和语义依存分析和多语言处理等。

i2b2自然语言处理共享任务

i2b2组关注医学领域中的自然语言处理,每年举办关于病人档案信息推理方面的竞赛。过去的竞赛集中于疾病、吸烟状态和药物信息识别方面。

还有其他一些可供参加的共享任务和竞赛:NIST TREC Tracks每年举办一次,BioNLP研讨会也经常举办共享任务,还有更多的其他任务。如果你想进行某项机器学习任务,但并不希望亲自构造一个标注数据集,签约参加一个此类竞赛是融入自然语言处理社区的一个好方式。自然语言处理竞赛的用处还在于在缺乏时间和资金支持的情况下可以为某些任务提供较好的参考。然而,需要注意的是,自然语言处理竞赛面临的时间限制意味着所得到的结果就整体而言可能并不是最好的,而仅仅是在给定时间和数据前提下的最佳。

相关文章
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习中的自然语言处理
在这篇文章中,我们将深入探讨自然语言处理(NLP)在机器学习中的应用。NLP是人工智能的一个分支,它使计算机能够理解、解释和生成人类语言。我们将通过Python编程语言和一些流行的库如NLTK和spaCy来实现一些基本的NLP任务。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的信息。
|
1月前
|
机器学习/深度学习 自然语言处理 语音技术
探索机器学习中的自然语言处理技术
【10月更文挑战第38天】在本文中,我们将深入探讨自然语言处理(NLP)技术及其在机器学习领域的应用。通过浅显易懂的语言和生动的比喻,我们将揭示NLP技术的奥秘,包括其工作原理、主要任务以及面临的挑战。此外,我们还将分享一些实用的代码示例,帮助您更好地理解和掌握这一技术。无论您是初学者还是有经验的开发者,相信您都能从本文中获得宝贵的知识和启示。
39 3
|
1月前
|
机器学习/深度学习
自动化机器学习研究MLR-Copilot:利用大型语言模型进行研究加速
【10月更文挑战第21天】在科技快速发展的背景下,机器学习研究面临诸多挑战。为提高研究效率,研究人员提出了MLR-Copilot系统框架,利用大型语言模型(LLM)自动生成和实施研究想法。该框架分为研究想法生成、实验实施和实施执行三个阶段,通过自动化流程显著提升研究生产力。实验结果显示,MLR-Copilot能够生成高质量的假设和实验计划,并显著提高任务性能。然而,该系统仍需大量计算资源和人类监督。
40 4
|
4月前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】百度机器学习-数据挖掘-自然语言处理工程师 历史笔试详解
文章汇总并解析了百度机器学习/数据挖掘工程师/自然语言处理工程师历史笔试题目,覆盖了多分类任务激活函数、TCP首部确认号字段、GMM-HMM模型、朴素贝叶斯模型、SGD随机梯度下降法、随机森林算法、强连通图、红黑树和完全二叉树的高度、最长公共前后缀、冒泡排序比较次数、C4.5属性划分标准、语言模型类型、分词算法、贝叶斯决策理论、样本信息熵、数据降维方法、分箱方法、物理地址计算、分时系统响应时间分析、小顶堆删除调整等多个知识点。
49 1
【数据挖掘】百度机器学习-数据挖掘-自然语言处理工程师 历史笔试详解
|
4月前
|
机器学习/深度学习 数据采集 自然语言处理
打造个性化新闻推荐系统:机器学习与自然语言处理的结合Java中的异常处理:从基础到高级
【8月更文挑战第27天】在信息过载的时代,个性化新闻推荐系统成为解决信息筛选难题的关键工具。本文将深入探讨如何利用机器学习和自然语言处理技术构建一个高效的新闻推荐系统。我们将从理论基础出发,逐步介绍数据预处理、模型选择、特征工程,以及推荐算法的实现,最终通过实际代码示例来展示如何将这些理论应用于实践,以实现精准的个性化内容推荐。
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习在自然语言处理中的应用
【8月更文挑战第22天】本文将深入探讨机器学习技术如何革新自然语言处理领域,从基础概念到高级应用,揭示其背后的原理和未来趋势。通过分析机器学习模型如何处理、理解和生成人类语言,我们将展示这一技术如何塑造我们的沟通方式,并讨论它带来的挑战与机遇。
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习中的自然语言处理技术
【7月更文挑战第40天】 随着人工智能的迅猛发展,自然语言处理(NLP)作为机器学习领域的重要分支,正逐渐改变我们与机器的互动方式。本文将深入探讨NLP的核心概念、关键技术以及在现实世界中的应用案例。我们将从基础原理出发,解析NLP如何处理和理解人类语言,并讨论最新的模型和算法如何提升NLP的性能。最后,通过几个实际应用场景的分析,展望NLP在未来可能带来的变革。
|
5月前
|
机器学习/深度学习 自然语言处理 数据挖掘
探索机器学习中的自然语言处理技术
【7月更文挑战第31天】本文深入探讨了自然语言处理(NLP)在机器学习领域的应用,包括其定义、重要性以及面临的挑战。文章进一步介绍了NLP的基本任务和常用技术,并通过实例展示了如何利用这些技术解决实际问题。最后,本文展望了NLP的未来发展方向和潜在影响。
|
4月前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】百度机器学习-数据挖掘-自然语言处理工程师 2023届校招笔试详解
百度2023届校招机器学习/数据挖掘/自然语言处理工程师笔试的题目详解
90 1
|
4月前
|
机器学习/深度学习 存储 分布式计算
Hadoop与机器学习的融合:案例研究
【8月更文第28天】随着大数据技术的发展,Hadoop已经成为处理大规模数据集的重要工具。同时,机器学习作为一种数据分析方法,在各个领域都有着广泛的应用。本文将介绍如何利用Hadoop处理大规模数据集,并结合机器学习算法来挖掘有价值的信息。我们将通过一个具体的案例研究——基于用户行为数据预测用户留存率——来展开讨论。
333 0

热门文章

最新文章