自然语言处理 (NLP) 的最新改进正在通过语音和文本功能来支持主流技术,无论是使用听起来更加自然的声音来大声朗读电子邮件,还是使用Excel输入有关电子表格数据并以自动生成图表和数据透视表的形式来获得答案。
随着NLP变得更加精确和更广泛可用,它有可能从为客户支持聊天机器人提供预置主题转向能够处理定性、半结构化和非结构化的数据。最后,实现知识挖掘的承诺还将可以释放关于公司流程、资产和负债的信息,从而创建更好的工作流和更实时的组织视图。
“NLP能够将单词分解成最简单的形式,并识别出它们之间的模式、规则和关系,”apexanalytix的应用和先进技术高级副总裁Walt Kristick解释道。“它会使用计算机算法来解析和解释书面和口头的自然语言,使系统能够学习和理解人类语言。”
NLP的应用范围可以从翻译和语言生成(用于总结、注释甚至是解释其他机器学习模型),再到分类和聚类、情绪分析和其他信息的提取。Kristick指出,NLP最简单的形式已经被广泛使用:拼写检查、电子邮件中的建议和消息响应以及Siri等虚拟助手都在使用NLP,聊天机器人也是如此。
“对文本和非相关数据源的分析和提取的需求已经越来越大,特别是在医疗保健和生命科学领域,”Kristick指出。
下面是NLP的现状以及它可能适合你组织的地方。
NLP服务占主导地位
虽然有许多算法可以与Python NLTK、Sanford CoreNLP和Apache OpenNLP等框架一起构建自己的NLP任务,但最有效的模型往往非常庞大。在撰写本文时,Microsoft的170亿参数的图灵自然语言生成模型是有史以来最大的,BERT和GPT-2也有数十亿个参数。
“对于一些公司需要做的复杂事情来说,仅仅把这些模型从货架上拿下来是行不通的,”Microsoft的会话人工智能副总裁Lili Cheng警告说。“对许多公司来说,托管这些大型模型、管理它们并完成所有这些工作将是非常具有挑战性的。有些人想这样做,但我们相信更多的客户只是想定制和添加他们自己的信息,”Cheng说,并指出,这对于许多组织所聘用的NLP专家来说也会是一个挑战。
不仅仅是零售和其他面向客户的行业才可以从NLP中受益,IBM研究员、人工智能首席架构师Dakshi Agrawal说。任何与客户打交道的公司都可以利用NLP来从他们的互动中获得深刻的见解,Agrawal说,“许多公司在处理外部客户和合作伙伴事务的同时,也会在内部员工和一般人力资源事务中使用该技术。”
例如,主题聚类就使用了像句子嵌入这样的NLP技术,而不仅仅是关键字提取,这使得在对客户可能使用不同术语报告的问题进行分组时能够更加准确。在仪表板中突出显示这些集群将有助于揭示趋势或重复出现的问题。
Signoi试图通过展示常用词、突出正面和负面词汇并按人口群体的汇总来处理调查中的开放式评论。独立的英国交通用户监督机构transport Focus利用Signoi调查了各种火车服务上通勤者和休闲乘客所最关心的问题。商务旅客对一条线路的过度拥挤感到愤怒;那些乘坐火车休闲的人则想要更好的停车场,更多的空间以放置行李和自行车。
NLP也可以用来生成解释结果的语言。Microsoft的Power BI商业分析服务和Salesforce.com的Tableau都提供了一些功能,用户可以输入有关数据的问题,然后得到图表或自动分析。
了解企业所知道的
NLP有很大的潜力来帮助提取一个组织不知道它已经知道的东西。
专业的人工智能工具,如ABBY的Text Analytics for Contracts、Exient的Contract Management Solution或是Seal的Contract Discovery and Analytics,都可以从合同中提取条款和期限,帮助组织理解他们的承诺。Docugami是XML的共同发明人Jean Paoli所创办的一家新公司,它的目标就是为结构化程度较低的文档实现这种功能。
“企业中只有15%的数据存储在数据库中。我们使用文本、电子邮件和文件进行交流。真相并不在那些可爱的结构化数据库当中。真相在文件里,”Paoli告诉我们。
“拿一个非常文件密集型的企业来说,比如商业地产。一线业务用户每周都会花时间创建15个租赁协议,每个星期一,他们的经理都会问:你做了什么?截止日期是什么时候?你谈过停车问题了吗?他们想不想让我们保留这块土地?一旦你签署了一份文件,这些就是公司所必须履行的条款,但这些信息都被埋在文件里了,” Paoli说。
解锁这些“暗数据”可以取代每周一早上的状态会议,并提高业务灵活性;Paoli指出,无论是房东被星巴克要求重新谈判租赁协议,还是餐厅需要了解保险单的内容,这都会比以往任何时候都来的更加重要。
“在这一点上,使用NLP来分析业务文档将变得更为重要,因为企业正在重新思考其业务模式。他们可能不得不重新谈判一切,他们需要了解他们的义务和风险是什么。专业服务公司埃森哲就是这么做的,它利用自己的NLP分析了100多万份合同,以了解自己的承诺和责任。
Paoli表示,对于那些没有自己内部NLP专业知识的组织,Docugami的SaaS产品也有30个示例文档可以使用,它可以从一个业务文档文件夹中自行选择这些文档,还可以向创建文档的业务用户提供30分钟的反馈,以训练模型。
然后,Docugami可以将这些信息输入数据库,以帮助创建一个在浏览器中可以看到的仪表板,或是与Excel或Tableau集成在一起。“我们可以说,看,这是到期了的,或者所有这些文件都有这个特定的条款,除了那一个,”Paoli说。
打开会议的隐藏力量
从会议和对话中提取有用的信息是一个费力的手工过程。一些公司的电话已经被转录,但很少有人对它们进行分析。从会议上的发言中,企业能对项目的进展或即将到来的截止日期了解多少呢?
Otter的首席执行官Sam Liang指出,由于企业员工通常会在会议上花费30%或更多的时间,因此从这些会议中获取的很多信息并不像其他业务数据那样有意义。
“人们将如何保持一致意见,尤其是在你连续召开了Zoom会议的情况下?”Liang说。
像Otter这样的转录工具将可以帮助到你。PowerPoint演示文稿和团队会议中的实时字幕,或者是Azure Streams广播平台中可搜索的实时会议转录,都可以有效地提供后续对话的文本,而无需人工来做笔记。
Microsoft的Cheng建议,在未来,平台将使用转录和文档分析以及图像识别来提取“会议的集体智慧”,这样在会议结束后继续工作时,就可以很容易地访问这些信息了。“你可以记录下更多正在发生的事情,然后方便地与你的团队分享,”她说。
例如,Bridgewater Associates记录了过去15年的所有内部会议,任何员工都可以观看这些录音。但由于很难搜索,他们很少会被浏览,公司现在正在使用Otter来提取旧的会议内容。
类似地,支持Azure Media Services live meeting转录的Azure Cognitive Services speech to text API也将很快能够转录上传到OneDrive的音频文件。开发人员已经可以使用这些API来构建转录应用程序,但是将这些功能直接构建到平台中将使其更广泛地被使用。
数据分析和准确性
完整的转录并不总是应用NLP最有用的结果,尽管它们可以提供一个时间线,让你通过上下文搜索找到Cheng所说的“有趣的金块”。
Otter提取了标记作为自动摘要,以指示文本中所包含的内容。IBM Watson的自然语言理解和Otter也在研究类似的工具,但是你仍然要记得查阅文字记录。2018年,Microsoft为团队展示了一个原型系统,该系统可以根据会议记录创建和分配行动项目,并向与会者分发会议记录。
从长远来看,NLP还可以为会议提供数据分析:同样的话题是否不断被提出,同样的截止日期是否不断地被推迟,某些员工是否比其他人说得更多,还是在讨论其他人。
所有这些的价值取决于转录的准确性,而对于NLP来说,准确度是一件复杂的事情。许多NLP系统在正式的基准上实现了与人类相同的性能,但它们大多是基于对话的,可能无法给你一个与你想要做的事情的准确比较。仍然没有一个单一有效的衡量标准,Cheng指出。
“我们看到人们将各种能力融合到了多模式的系统中。你可能会发现你的对话系统真的很棒,但它在搜索或混合系统方面就做得不太好了,在混合系统中,你可能会想要把说话、语言、视觉和文档结合在一起,”她说。
转录的准确性随录音质量、背景噪音、说话者的口音和人们所谈论的内容而有所变化。对于一个在安静环境中以英语为母语的人来说,Otter的Liang表示,它的准确率已经超过了95%。在实践中,你会得到一些有用的转录,但还不够完美。
无论你使用何种NLP工具,你都应该准备好投入时间来定制与你的业务相关的概念和相联系的词汇表,例如你所在行业的技术术语或你自己的产品名称,以及员工名称,以便能够正确的识别它们。
在使用NLP之前,组织需要知道什么是他们可以接受的错误水平,而不仅仅是为了捷径或探索,但是Cheng建议将重点放在端到端的体验上。
“你是如何把这些东西组合在一起,让人们真正使用,并能够帮助你的公司或客户更有效地完成某些事情的,”她问道。
“你不能承诺太多;人工智能不是魔法,虽然自然语言工具的确可以改进很多东西。你的公司现在所面临的最大问题可能是如何组织你的信息,从你所拥有的文件中获得更多价值,并让有专业知识的人来进行指导。”Cheng说。“我们现在有很多远程工作的经验,或许我们可以使用人工智能来做得更好。”