学术青年分享会:达观数据张健分享文本分类方法和应用案例

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: 自然语言处理(NLP)一直是人工智能领域的重要话题,而人类语言的复杂性也给NLP布下了重重困难等待解决。随着深度学习(Deep Learning)的热潮来临,有许多新方法来到了NLP领域,给相关任务带来了更多优秀成果,也给大家带来了更多应用和想象的空间。

自然语言处理(NLP)一直是人工智能领域的重要话题,而人类语言的复杂性也给NLP布下了重重困难等待解决。随着深度学习(Deep Learning)的热潮来临,有许多新方法来到了NLP领域,给相关任务带来了更多优秀成果,也给大家带来了更多应用和想象的空间。

近期,雷锋网 AI 研习社就邀请到了达观数据的张健为大家分享了一些NLP方面的知识和案例。

分享主题:达观数据 NLP 技术的应用实践和案例分析 

分享人:张健,达观数据联合创始人,文本挖掘组总负责人,包括文本审核系统的架构设计、开发和日常维护升级,文本挖掘功能开发。复旦大学计算机软件与理论硕士,曾在盛大创新院负责相关推荐模块,在盛大文学数据中心负责任务调度平台系统和集群维护管理,数据平台维护管理和开发智能审核系统。对大数据技术、机器学习算法有较深入的理解和实践经验。

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

此次分享中,张健按照NLP概述、文本分类的传统方法、深度学习在文本分类中的应用和案例介绍四个板块,结合在达观数据的系统设计和应用经验,分享了他的见解。

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

达观数据是一家专注于文本挖掘和搜索推荐技术服务的企业,总部位于上海浦东软件园。达观的NLP挖掘系统的设计思路是,用户直接接触的到的最终功能,他们称为是篇章级应用,可以处理整段的文本,提供的功能包括文本自动分类、情感分析、自动文本标签、违禁词汇和垃圾评论识别等。在下方支持编章级应用的是短串级应用,更底层一些,在词组、短句的层面上提供结构分析和变形、词位置分析、近义词替换等功能。最底层、最小粒度的是词汇级应用,比如中文分词、词粒度分析、调性标柱等等。

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

文本挖掘的任务可以分成四类:

  • 同步的序列到序列,特点是输入文本的每一个位置都有对应的输出

  • 异步序列到序列,输入和输出可以不完全对应

  • 序列到类别,给文本加上标签

  • 类别到序列,根据给定的标签生成文本

然后张健依次介绍了序列到序列任务中几种问题的常见解决方案。

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

在序列标注/命名实体识别问题中,每个词都会有各自的标签;选用的词汇标签体系越复杂,标注精度就越高,但同时训练也就越慢。所以需要根据人力、时间等成本选择合适的标签体系。

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

英文不需要分词,但是多了词形还原和词根提取的问题。在这里,张健推荐WordNet来帮助解决相关问题。

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

接下来进入了今天讲解的重点,就是文本分类。

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

传统机器学习方法做文本分类会需要文档建模、文本语意、特征抽取、特征向量赋权等步骤。

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

具体到分类器的设计,常用的四种思路为朴素贝叶斯分类器、支持向量机分类器、KNN方法和决策树方法。

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

然后还可以聚合多个分类器来提高准确率。最简单的想法是用多个模型分别预测然后投票,实际的聚合方法是另外训练一个分类器,模仿多个分类器组合后的结果。这里需要原来的几个分类器效果不能太接近,而且不能有太差的。

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

在有了深度学习以后,文本分类又有了很多效果出色的新方法。

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

首先可以用CNN做文本分类,它不需要人工特征,而对词序包含的信息提取能力更强。

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

在基础的CNN之上,可以在其中不同的层使用不同的思路,衍生出来RNN+CNN、DCNN(动态池化,更适合不同长度的文本)、Very Deep Network等等。

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

常用的方法还有RNN和LSTM,适合变长序列的建模。序列过长的时候,一般的RNN因为容量的问题会丢失信息、误差增大,它的变种LSTM中通过三个门之间的信息保留和更新,更好地解决了长距离依赖的问题。双向LSTM同时有正向和反向的部分,可以同时捕获上文和下文的信息,表现也比单向的更好。

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

然后就是近期风靡的注意力模型,是编码解码器的升级版本。Encoder-Decoder模型的问题是,输入中的每个词都对输出有同样程度的影响。但实际语言中往往不是这样的,注意力模型就可以对输入中的不同词赋予不同的权重,让对语意影响程度更高的词语对输出有更高的影响力,从而在输出中更好地体现了输入的关键信息。

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

张健最后结合达观数据的业务介绍了一些NLP的应用案例。

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

比如结合定制行业专业语料、垂直语意模型、离线统计、语意拓展等等方法进行新闻分类,结合无监督预训练+持续Fune Tuning的训练方法,不仅可以分为新闻、财经、科技、体育、娱乐、汽车等大类,财经中股票、基金、外汇,体育中NBA、英超、中超等细分类别也可以分得出来。

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

第二个案例是垃圾信息识别。现在许多广告信息都会用特殊字符(火星文)尝试骗过识别系统,就需要对变形词做识别还原,方法包括去除特殊符号、同音和繁简变换、偏旁拆分等。还可以先用语言模型识别文字,发现语意不通顺、胡言乱语的,就很有可能是故意规避关键字检查的垃圾信息。

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

第三个案例是情感分析。简单的方法可以根据直接表达感情的关键词做判断,还可以做特征工程然后用机器学习的方法识别语句模式,以及用深度学习的方法得到更好的信息提取效果。

学术青年分享会:达观数据张健分享文本分类方法和应用案例 | 分享总结

最后张健还分享了一个他们的文本挖掘系统的使用链接,感兴趣的读者可以尝试一下他们系统不同层次的丰富功能。

本次分享的视频录像可以点此观看




本文作者:杨晓凡
本文转自雷锋网禁止二次转载, 原文链接
目录
相关文章
|
5月前
|
存储 人工智能 搜索推荐
【2023年第十一届泰迪杯数据挖掘挑战赛】C题:泰迪内推平台招聘与求职双向推荐系统构建 建模及python代码详解 问题一
本文详细介绍了第十一届泰迪杯数据挖掘挑战赛C题的解决方案,包括爬取泰迪内推平台的招聘与求职信息、构建企业和求职者画像、开发岗位匹配度与求职者满意度模型以及设计招聘求职双向推荐模型的步骤和Python代码实现。
74 2
【2023年第十一届泰迪杯数据挖掘挑战赛】C题:泰迪内推平台招聘与求职双向推荐系统构建 建模及python代码详解 问题一
|
5月前
|
自然语言处理 算法 Python
【语言的力量!】NLP揭秘:从零开始,如何将「文字海洋」转化为「智慧宝藏」——探索文本分析的奇妙之旅!
【8月更文挑战第12天】随着互联网的爆炸式增长,每日产生的海量文本信息成为企业和研究者挖掘价值的金矿。本文通过具体代码示例,展示了如何运用Python中的自然语言处理(NLP)工具,完成从文本数据收集到分析的全过程。首先介绍了文本预处理,包括分词、去除停用词和词干提取;接着说明了如何利用TF-IDF等方法提取文本特征;然后演示了情感分析技术,可判定文本情感倾向;最后探讨了主题建模方法,如LDA算法,用于发现文本集中的潜在主题。这些步骤共同构成了一个强大的框架,使我们能够更有效地理解和利用文本数据。
40 1
|
5月前
|
机器学习/深度学习 搜索推荐 数据可视化
【2023年第十一届泰迪杯数据挖掘挑战赛】C题:泰迪内推平台招聘与求职双向推荐系统构建 建模及python代码详解 问题二
本文介绍了2023年第十一届泰迪杯数据挖掘挑战赛C题的解决方案,重点讲解了如何构建招聘与求职双向推荐系统的建模过程和Python代码实现,并对招聘信息和求职者信息进行了详细分析和画像构建。
92 1
|
8月前
|
机器学习/深度学习 自然语言处理 算法
百度2024校招机器学习、数据挖掘、自然语言处理方向面试经历
百度2024校招机器学习、数据挖掘、自然语言处理方向面试经历
270 2
|
机器学习/深度学习 人工智能 算法
机器学习算法竞赛实战--1,初见竞赛
在时代的洪流之下,各行各业都在寻求生存之道利用先进的技术完成转型则是一个很好的办法,有些企业就开始寻求人工智能的助力开始向社会征求优秀的算法解决方案,此外,在学术领域的研究者们也渴望获得企业的场景和数据用于算法研究这就催生出了各种竞赛平台。对于有志于进军机器学习相关领域从事研究或者相关工作的初学者来说竞赛是性价比极高的一个实战选择,可以说是0门槛,任何人都可以参加。
128 0
机器学习算法竞赛实战--1,初见竞赛
|
机器学习/深度学习 存储 数据采集
学术加油站|机器学习应用在数据库调优领域的前沿工作解读
学术加油站|机器学习应用在数据库调优领域的前沿工作解读
284 0
学术加油站|机器学习应用在数据库调优领域的前沿工作解读
|
机器学习/深度学习 人工智能 分布式计算
《从机器学习谈起》读书摘要
《从机器学习谈起》读书摘要
221 0
《从机器学习谈起》读书摘要
|
机器学习/深度学习 人工智能 自然语言处理
2019年Reddit机器学习17个高赞项目:AI德扑大师、StyleGAN等上榜
本文是Medium网友整理的2019年Reddit机器学习板块热门高赞项目资源汇总,既有Facebook、英伟达等大厂的作品,也有网友自制的有趣小尝试,共17个项目,按热度高低排序,一起看看吧!
333 0
2019年Reddit机器学习17个高赞项目:AI德扑大师、StyleGAN等上榜
|
机器学习/深度学习 SQL 存储
头条实验室科学家李磊:准确率更高的问答系统和概率程序语言
李磊是今日头条实验室科学家,原百度美国深度学习实验室少帅科学家。卡耐基梅隆大学计算机系博士,曾在加州大学伯克利分校作博士后研究。李磊博士的研究论文在 IJCAI 等学术会议上多有收录,如今正在召开的 ACL 2016 同样收录了李磊博士的一篇论文。机器之心近日对李磊进行了专访,在此篇专访中,他向我们介绍了被收录的论文,还有他对概率程序语言、自然语言处理方面的理解。
383 0
头条实验室科学家李磊:准确率更高的问答系统和概率程序语言
|
机器学习/深度学习 并行计算 PyTorch
机器学习之阿里云天池大赛—新闻分类
本文为作者参加阿里云天池大赛入门赛中新闻分类比赛的记录。
478 0
机器学习之阿里云天池大赛—新闻分类