大数据文摘自2013年成立一直致力于普及数据文化,也汇集了一批愿意奉献的志愿者翻译团队,作为非营利组织,我们会更加注重版权和知识产权问题,将优秀的内容高品质的翻译并分享给更多的中国读者。
◆ ◆ ◆
简介
不论是那些从事前沿研究开发,强化自然语言处理能力的人,还是那些在各自行业中越发认为自然语言处理能够为他们带来竞争力的机构和创新者,现在投身到自然语言处理(NLP)中都绝对是令人兴奋的。
到2021年,全球自然语言处理市场的价值预计会达到160亿美元,所以科技巨头们争相斥巨资投入到自然语言处理中以求分得一块蛋糕就不足为奇了。在过去5年中,超过30家从事人工智能前沿研究的私有企业被谷歌,雅虎,英特尔,苹果和Salesforce等巨头们争相并购。
涉足自然语言处理,文本分析和文本挖掘并不只是大公司的专利。小公司、初创公司,甚至业余项目都变得越来越容易涉足这些技术。
自然语言处理技术正在帮助公司规模化地将大量的非结构化数据物尽其用,同时能够给他们提供一些见解和分析,而这些,在几年前,他们做梦也想不到会成为现实。
现在我们将依次了解下最容易被人工智能和自然语言处理颠覆的三个行业:
1 法律业
2 保险业
3 客户服务
◆ ◆ ◆
法律业中的自然语言处理和文本分析
尽管我们离机器人律师还有很长一段路要走,现在具有创新意识的法律专业人士已经开始利用自然语言处理、文本挖掘和文本分析技术来发现经常隐藏在大量数据中的关键点,或者看起来不相关,但经过规模化分析后有价值的关键点,以及发现战略增长和经常性的案件变化的趋势,从而帮助他们在更快的时间内做出更明智的决策。
我们来介绍两个例子,看看法律专业人士是如何利用自然语言处理和文本分析技术的。
电子数据展示(ediscovery)中的信息检索
合同管理
条款摘要
电子数据展示中的信息检索
电子数据展示表示在信息类型是电子版的法律诉讼过程中发现查找数据,例如起诉,政府调查,信息自由法请求等过程。电子版文件经常搭配难以在纸质版文件中发现的元数据,例如文件纪录、分享的日期和时间等。像这种分钟级别的细节在法律诉讼过程中很重要。
就自然语言处理而言,电子数据展示主要是关于信息检索,帮助法律团队寻找相关和有用的文件。
在很多案件中,需要分析的数据量能超过100GB,经常只有5%到10%是真正相关的。要想筛选和减少数据量,外包服务机构每处理1GB数据要收费1千美元,你能看到成本会以多快的速度飞涨。
通过提取特定主体(人,地点,金额等)来涵盖或剔除特定时间表,在电子邮件线程中只收录包含公司、人和被告的邮件,数据可以被筛选和分离。
◆ ◆ ◆
合同管理
自然语言处理使得合同管理部门能够提取诸如金额和日期等关键信息,去总结合同中的条款来形成报告,还可以出于风险评估,预算和计划的目的去比较所有条款。
在知识产权相关的争端案件中,律师正在利用自然语言处理和文本挖掘技术从专利和公共法庭记录等原文件中提取关键信息,去帮助他们指明案件中的方向。
条款摘要
众所周知,法律文件如果要完整地阅读会又长又沉闷。有时其实只需要一个对全部文本的概括,来帮助法律人士理解全部内容。利用自然语言处理技术总结这些文件是可能的,我们可以从内容主体中选定固定数量的句子来生成一个摘要,例如提取最能反映文件内容的5个句子形成一个摘要。
NLP和文本分析在保险业的应用
保险从业者每天会从不同的渠道收集大量的数据,例如网站、在线聊天、电子邮件、社交网络、经纪人或客户代表手中。这些数据不仅来源于不同渠道,更与许多的方面都有关系,例如主张、抱怨、政策、健康报告、事故报告、客户和潜在客户在社交媒体上的互动、电子邮件、在线聊天、电话……这个列表可以很长很长。
折磨保险业最大的问题就是骗保。让我们来看看NLP、数据挖掘和文本分析技术是如何帮助保险业从业者来解决这些关键因素的。
将数据流精简导向正确的部门/代理
通过反馈及时准确的数据来改善代理的决策
改善SLA响应时间和整体的客户体验
协助检测骗保的声明和活动
◆ ◆ ◆
精简数据流
海量的数据和信息每天都会汇集到保险公司,并且需要被精密地管理、储存、分析并及时地表现出来。一封错过的邮件或者便笺或许不仅会导致糟糕的服务,让客户变得沮丧,更有可能会给公司带来财物损失,例如,当在一个争端案件中,相关证据没能及时传送到正确的人或部门手上时。
自然语言处理(NLP)通过一系列自动生成并分组的请求和文档,用于帮助保险业从业者确保在正确的时间将正确的数据能传到正确的“眼睛”中。这已经远远超过了文本分析技术用于理解文本并归类的简单的关键词匹配。
◆ ◆ ◆
欺诈检测
《欧洲保险》最近的一份报告显示,在欧洲,检测和未检测到的骗保理赔估计占了全部理赔的10%。在这里需要注意的当然是那些没有被检测到的欺诈。
保险公司通过NLP和文本分析技术来从非结构化的资源中挖掘数据,例如申请、理赔表格和调停通知,从而发掘出已提交的理赔申请中高危的部分。比如说,一个典型的骗保指标就是多份理赔申请中的事故的常见描述词汇。一个受过训练的人眼或许不一定真的无法察觉这些情况,但是这需要大量耗费时间的练习并且容易受到检测者主观性的影响,效果也并不稳定。
保险业从业者的解决方案是发展NLP分析面板来支持快速决策分析,高亮潜在的骗保行为并使他们的调查员能够基于一定的KPI来对不同的案件做优先级上的排序。
◆ ◆ ◆
NLP,文本分析和客户服务
在一个越来越多关注SLA、KPI和ROI的世界里,客户支持和客户的成功对于一个科技公司来说再重要不过了。在不断增长的初创公司和创新公司杀入大量领域的现状下,客户体验成为了市场洪流中消费者选择的一个关键性因素
让我们来看看NLP和文本分析在改善用户体验方面能四个选择
聊天机器人
分析客户/客服交互
情感分析
客户提问自动回复
聊天机器人
现在可以很肯定的说聊天机器人是一个非常棒的东西了!这些聊天客服开始出现在各处,因为公司期望利用前沿的人工智能技术来武装自己。
你甚至有可能意识不到这一点,那就是你的日常偏好会被多个机器客服记录下来。网店通过他们来向我们推荐商品,回答我们的问题,生成个性化的路径并作为虚拟助手来和我们交流。
分析客户/客服交互
客服和客户之间的交互行为可以发现有趣的,可行动的见解和趋势。许多交互是以文本的形式默认存在的,如邮件、在线聊天、反馈表等,而声音到文本的转换技术可以用于将电话交流转换成文本以供分析。
倾听顾客
顾客的声音在如今变得比过去更加重要。社交媒体就像是一个等待发掘的消费者意见的公共金矿。NLP和文本分析可以让你分析海量的社交聊天记录来帮助理解人们对一个具体的项目、产品、品牌甚至公司的态度。
通过分析对你的品牌的态度可以帮助你降低流失并改善客户支持,通过发现并主动改进负面趋势的方式。这也可以在造成太大损失之前发现问题并悬崖勒马,同时在你做了正确的事情时得到及时反馈并保持下去
当客户反馈包含了大量的负面情感时,反馈给产品发展团队可以帮助他们更有效地指导他们的努力方向。
由于客户支持的多渠道性,你更倾向于搜集不同渠道的信息来源:邮件、社交媒体、反馈表、在线聊天等。对许多公司来说,回应速度是一个关键绩效。与此同时,如何将客户的询问通过最短的步骤导向相关部门也是至关重要的一环。
NLP可以在没有人工参与的情况下用于自动导向和分类客户需求。如前所述,这不仅仅是简单的关键词匹配,而是运用文本分析技术来真正“理解”内容并分类
原文发布时间为:2016-10-21
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号