【教程免费下载】面向机器学习的自然语言标注-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

【教程免费下载】面向机器学习的自然语言标注

2017-06-23 13:56:16 2121 0
前言
本书的读者是那些使用计算机来处理自然语言的人。自然语言是指人类所说的任何一种语言,可以是当代语言(如英语、汉语、西班牙语),也可以指过去曾经使用过的语言(如拉丁语、古希腊语、梵语)。标注(annotation)是一个过程,它通过向文本中加入元数据来增强计算机执行自然语言处理(Natural Language Processing, NLP)的能力。特别地,我们考察如何通过标注将信息加入自然语言文本中以便改善机器学习(Machine Learning,ML)算法(一组设计好的计算机程序,它从文本提供的信息中推出规则,目的是将这些规则用于将来未标注的文本中)的性能。
面向机器学习的自然语言标注
本书详细介绍创建自己的自然语言标注数据集(称为语料库)所需的各个阶段和过程,以便为基于语言的数据和知识发现训练机器学习算法。本书的总体目标是为读者展示如何创建自己的语料库。从选择一个标注任务开始,然后创建标注规格说明(annotation specification)、设计标注指南(annotation guideline)、创建一个“黄金标准”语料库(corpus),最后采用这个标注过程开始创建实际的数据。
标注过程并不是线性的,因此需要多次迭代来定义任务、标注和评价,以便得到最佳结果。这一过程可以概括为MATTER标注开发过程:建模(Model)、标注(Annotate)、训练(Train)、测试(Test)、评价(Evaluate)、修改(Revise)。本书引导读者遍历整个循环,提供详细的例子并完整地讨论几种不同类型的标注任务。详细地研究这些任务,使读者清楚地了解其中的来龙去脉,并为他们自己的机器学习任务奠定基础。
此外,本书列出了用于标注文本和评审标注的常用软件的访问和使用指南。尽管有许多标注工具可用,但本书采用的多用途标注环境(Multipurpose Annotation Environment, MAE)特别易于安装和使用(读者可以免费下载),读者不会因为令人困惑的文档而分心。经常与MAE一起使用的是多文档审核接口(Multidocument Adjudication Interface, MAI),它用于在标注的文档之间进行比对。
读者
本书写给所有对用计算机研究自然语言所传递的信息内容感兴趣的人。阅读本书,并不要求具有编程或语言学背景,但若对脚本语言(如Python)有基本的理解将更易于理解MATTER循环,因为书中的一些示例代码是用Python写的。如果你从未用过Python,强烈地向你推荐由Steven Bird、Ewan Klein和Edward Loper所著的《Natural Language Processing with Python》(Python自然语言处理)一书(O扲eilly)。该书是一本优秀的关于Python和自然语言处理的入门教材,本书并未涉及这些知识。
如果读者已具备XML(或者HTML)等标记语言的基础知识,将能够更好地理解和掌握本书。你不需要成为深入了解XML原理的专家,但是由于绝大多数标注项目都使用某种形式的XML对标签进行编码,因此我们在本书中将使用XML标准来提供标注样例。不是一定得成为网页设计师才能理解本书,但是具有关于标签和属性的知识对于理解标注项目是如何实现的将会有较大的帮助。
内容安排
第1章简单回顾了语言标注和机器学习的历史,简要介绍了将标注任务用于不同层次语言学研究的多种方法。本书的其余部分带领读者遍历整个MATTER循环,从第2章介绍如何创建一个合理的标注目标开始,历经每个阶段,直到评价标注和机器学习阶段的结果,第9章讨论修改项目并汇报工作。最后两章完整地介绍了一个标注项目,以及如何用机器学习和基于规则的算法重新创建标注。读者可以在书后的附录中找到对自己的标注任务有用的资源列表。
本书约定
在本书中使用以下排版方式:
斜体(Italic)
此类字体表示新术语、网址(URL)、电子邮件地址,文件名和文件扩展名。
等宽字体(Constant width)
此类字体表示程序清单,以及在文档段内的各种程序元素(如变量名或函数名、数据库名、数据类型、环境变量、语句和关键字)。
注意:    表示一个提示、建议或一般性的注解。
警告:    表示一个警告或注意事项。


本文出版自《华章出版社》  作者:James Pustejovsky & Amber Stubbs



取消 提交回答
全部回答(0)
相关问答

17

回答

【大咖问答】对话PostgreSQL 中国社区发起人之一,阿里云数据库高级专家 德哥

阿里ACE 彭飞 2019-07-10 09:36:10 1036293浏览量 回答数 17

145

回答

【新手入门】云服务器linux使用手册

fanyue88888 2012-11-26 17:14:18 157669浏览量 回答数 145

8

回答

OceanBase 使用动画(持续更新)

mq4096 2019-02-20 17:16:36 336979浏览量 回答数 8

22

回答

爬虫数据管理【问答合集】

我是管理员 2018-08-10 16:37:41 147218浏览量 回答数 22

2

回答

mySQL数据库报错You have an error in your SQL syntax

落地花开啦 2016-02-14 16:09:24 128852浏览量 回答数 2

42

回答

【精品问答集锦】Python热门问题

小六码奴 2019-05-30 15:27:34 136913浏览量 回答数 42

38

回答

安全组详解,新手必看教程

我的中国 2017-11-30 15:23:46 259806浏览量 回答数 38

21

回答

请教一下数据量有100万条左右要什么配置?

易网网络 2013-03-27 15:18:02 192630浏览量 回答数 21

249

回答

阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本

云代维 2014-02-14 15:26:06 305602浏览量 回答数 249

24

回答

【精品问答】python技术1000问(1)

问问小秘 2019-11-15 13:25:00 475535浏览量 回答数 24
+关注
10077
文章
2994
问答
问答排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载