带你读《创新之巅：未来十年重构商业的六大战略性技术》第一章未来十年重构商业的六大技术1.2AI可以做什么（一）-阿里云开发者社区

AI可以做什么

人工智能可以解决各种问题。考虑到AI正在承担的全部可能应用，将 AI应用划分为八个大类将有助于我们的思考。

（1）机器视觉。

（2）自然语言处理（NLP）和语音平台。

（3）探索和发现。

（4）更明智的决策。

（5）对未来的预测。

（6）通过全新的具备超级传感器的镜头观看世界。

（7）通过学习经验来解决复杂的问题。

（8）创作和共同创作内容。

在全部以上八大类应用中，AI被用于探索模式和数据中的关联关系以做出统计预测。每个应用都在以不同的方式使用这个根本属性。将机器学习的关联能力应用到图片中，你就得到了机器视觉；将其应用于历史数据中，你就得到了预测；将其应用于手写体的文本，你就得到了手写体识别。在语音平台，AI进行有关人类语言的训练以确定你在说哪个字。AI得到有关历史天气数据的训练，最终做出可支持天气预报的预测。

人工智能能发现我们之前可能忽视的重要关联关系：化合物的分子结构及其物理性质之间的关系，或者导致疾病爆发的一系列复杂的外部环境。这个特性支撑 AI解决我们自己尚不知该如何解决的问题。

当我们审视 AI的八大主要应用时，想想每一种应用会如何影响你的企业、你的个人生活以及整个社会。

机器视觉：计算机打开了它们的眼睛

由于人工智能的出现，机器已经进化出眼睛和耳朵。计算机现在可以看、听和“理解”它们所处的世界的一些事情。这种理解仍处于最初级阶段：计算机可以识别出一张苹果的图片，并用5个字母“a-p-p-l-e”来对其进行精确分类，但它们不理解苹果是什么，不知道它长在一棵树上，或者它吃起来是什么味道。

纵观各行业，机器视觉有许多有趣的应用：盘点机器人审核杂货店货架上的商品；人脸识别算法将脸转化为密码；农业机器人针对杂草定点喷洒除草剂；质量保证 AI对生产线执行外观视觉检查；自动化机器—机器人、无人机和自动驾驶汽车—也全都依赖于机器视觉。

由比尔·盖茨资助的一个的初创公司 EarthNow（当下地球）、Airbus（空中巴士）、软银等，都是机器视觉领域的精彩典范。EarthNow运行着一系列卫星星座，每个卫星星座都包含4个高清摄像头。该公司的目标实质上是创建谷歌地球的实时版本，但存在一个重要变化：内置在卫星中的人工智能可以运行应用以解析相机图片并添加智能洞察。这些应用将揭示有关星球活动的重要细节。

远方的一次雷击可能引发一场火势肆虐以至失控的毁灭性的森林大火。监测、迅速响应以及早期遏制，可以从大火焚烧中挽救出数百万英亩土地、防止对建筑的破坏，并挽救生命。通过EarthNow，全球大火监测成为运行在卫星上的又一应用。网络变成天空中的一只眼睛，监视着火情况，并全天候、不间断地自动向当地管理局发出警报。

EarthNow依托其卫星星座还创建了大量其他令人激动的应用。这个应用可以向城市管理者提供实时的交通信息、向农民提供实时的作物健康情况信息，并将非法捕鱼、非法挖矿和非法伐木行为信息反馈给执法机构或政府机构并发出警报。海洋生物学家将能跟踪鲸的迁徙，火山学家将能监测火山活动。全球资产跟踪应用包括跟踪海上的船只、路上的卡车、空中的飞机以及运输中的集装箱。其他的应用可以改进天气预报、法律执行以及新闻报道。EarthNow这个平台如此强大，因此引发了严重的隐私担忧。这也是为什么EarthNow选择将机器学习能力嵌进卫星本身。用户只能从应用程序访问数据（实时的交通数据、鲸的GPS定位数据）—但不能访问图像数据本身。EarthNow平台的机器。视觉能力为科学家、公共安全专家、当地政府以及众多的企业提供了一系列令人激动的新机遇

自然语言处理和语音平台

人类的语言强大、复杂，而且充斥着各种细微的差别。要创建一台能够理解人类语言的计算机是一项非常艰巨的任务，它不仅需要“听懂”自然人的语言，而且要将其分解成不同的组成部分、推断其含义和意图，并根据它的信息采取行动，做些有意义的事情。在自然语言处理的很多不可思议的应用背后是人工智能。它可以发现拼写和语法错误、将一种语言翻译成另一种语言，审查法律合同并对报告的重要观点进行总结。

自然语言处理（NLP）是一个总括术语，描述的是机器利用人类自然语言理解、处理和交流的能力。NLP包括两个部分：自然语言理解（NLU）和自然语言生成（NLG）。你可以将一个部分认为是语言输入，将另一个部分认为是语言输出。用更专业化的术语来说，NLU是将非结构化的人类语言数据转换成计算机能够理解的结构化数据，而NLG则是将结构化数据转换成人类语言的非结构化数据形式。人工智能对于NLU和 NLG都是至关重要的。自然语言处理是语音界面、语言翻译服务、电子邮件情感分析以及其他很多涉及人类语言应用的核心。

⾃然语⾔理解（NLU）

能够理解人类语言的计算机可以执行很多有用的商业任务。情感监测通过对文本进行评估，以确定它表达的是正面积极的还是负面消极的情绪。例如，突出展示线上产品的正面评论，以及需要迅速响应客户的负面电子邮件。NLU还被用于监测脏话、仇恨言论、威胁、虐待以及其他的可能被视为不恰当的对话。

自然语言理解可被用于文档分析及提供决策支撑。Scriptbook，一家来自比利时安特卫普的初创公司，通过对电影剧本进行评价，而预测其票房可能会失败或成功。其软件帮助电影公司在剧本上做出明智决策。Scriptbook分析了2015年和 2016年发行的 62部电影的剧本，这些电影中的 30部获得票房成功，另外 32部则失败并亏本。Scriptbook的 AI精准预测出全部 30部的票房卖座电影，并准确识别出 22部电影是烂片。借着 62部电影中高达 52部的准确率，AI预测远比好莱坞大亨精确。Scriptbook也使用 NLU预测电影的 MPAA评分、角色的受欢迎程度以及放映该电影反响最成功的国家或地区—这一切全都基于剧本进行。

LawGeex（一家以色列的公司）利用自然语言处理实现法律合同和保密协议的自动化审查。LawGeex曾经挑战 20位训练有素的美国律师，对 5份真实的保密协议（NDA）的法律问题进行审查，美国律师的速度比它们的AI系统更慢。这个测试由一位独立律师进行监督，并在法律专家和法学教授的指导下进行。律师平均花费 92分钟对全部 5份 NDA进行审查，所得到的平均准确率为 85%。LawGeexAI的准确率为 94%，与最好的律师的准确率相等，但它完成全部工作仅仅花了 26秒钟。听我讲这个 AI故事的律师全都很高兴。NDA审查工作并不是他们最喜爱的工作内容，所以他们很高兴能够摆脱常规任务，并将更多时间聚焦在更高价值、更高收益的工作上。

自然语言理解加速了数据录入。AI从非标准表格中自动识别出电子邮件地址、物理地址、出生日期和电话号码。这种技术有的时候与手写体识别（再次谢谢，AI！）进行结合，大大缩短了数据录入工作所需的时间。

语音识别将 NLU与语音－文本转化能力进行结合，这项技术可以为视频和演讲自动创建字幕。微软目前已将这项能力运用到其 PPT应用的一些版本中。

⾃然语⾔⽣成（NLG）

具备用人类自然语言进行写、说的能力是计算机领域的一项巨大突破。AI生成语言，要么来自源数据，要么来自源文本。比如，一份自动生成的天气报告从天气预报数据中创建，而从一种语言翻译成另一种语言，是基于源文本的执行。

自然语言生成（NLG）有很多颇具价值的商业应用。语言翻译显然是其中一个，另一个则是总结和概要的自动创建，包括金融报告、法律文档、运营报告、绩效评估、新闻报道或医疗记录。NLG与图像识别结合，可以自动标注或描述图片。对于具有视觉缺陷的人来说，这是一项颇具价值的功能，并且也会提升图片搜索的质量。

2014年 3月，《洛杉矶时报》发表了一篇有关加州贝弗利山地震的简短文章。这篇文章描述了地震的位置、时间和强度（里氏 4.4 级地震），并在地震发生 3分钟之内发布在《洛杉矶时报》的网站上。这篇文章由一个简单软件生成，它获取了源自美国地质调查局的地震数据，并将其填充到预先写好的模板中。这是一种简单却强大的自动化功能。在这个新闻24小时循环出现而广告收入日渐萎缩的世界，NLG释放了人力资源，使其聚焦于价值更高的故事和调查性的新闻报道上。更高级的自动化如今也可以编写天气和交通报告、进行商业成果总结以及报道体育赛事。Wordsmith（美联社（AP）使用的一个自动化报道平台）利用NLG生成有关小联盟棒球赛、学院篮球赛的新闻以及企业收入季度报告。美联社声称 Wordsmith每个季度生成 4400多份企业概要，其数量超出之前使用人工编写人员所处理数量的15倍。Wordsmith让我们得以一窥在不远的将来，更复杂的NLG能力的出现。

Simplish（一个文本处理平台）能够利用 AI将超过 10万字的复杂文本转化为不到 2000字的简单文本。NLG可以使教育水平较低的更广大受众理解复杂语言，比如，将一篇学术文本翻译成适合非专业人士和孩子阅读的文本。未来的NLP应用可能会提供更全面的稿件编辑服务，或对诸如 CliffsNotes公司的业务造成一定破坏。

Quillionz（一个人工智能驱动的教育平台）利用 AI从文本的正文自动生成问题、测验和评估。这为教师提供了颇为神奇的帮助，老师可以指导AI专注在特定关键字的主题上，并自动创建多项选择题。

NLG技术也有黑暗的一面。如果我们认为线上假新闻是当前存在的问题，那么就可以看看由俄罗斯巨魔农场发布的下一代 NLG。一个人类巨魔农场一天可以创建一百篇假“新闻”；一个被武装的AI仅需一小时就能散发100万条虚假信息。 OpenAI宣称已经创建出能写出高质量文本的NLG软件，但是基于此类担心，它们选择不把它发布出来。

2015年由牛津大学进行的一项对 352名顶尖 AI专家的调查预测，到 2024年，AI对语言的翻译将优于人类翻译人员，到2026年 AI将写出高中水平的文章，但是直到 2049年也写不出畅销小说。从青少年的文章到托尔金的文章，之间还有巨大的飞跃，但是方向是明确的。虽然我们离由 AI写出首部获普利策奖的小说还有漫长的路要走，但是复杂的NLG技术将很快创作出能媲美人类输出的复杂文档。

语⾳代理

语音代理比如苹果的 Siri、微软的 Cortana、亚马逊的 Alexa、三星的 Bixby和谷歌的 Assistant（助理），每年都在获得显著提升。其中一些语音代理几乎每周都在增加新的功能。谷歌宣称它们的语音代理现在被用在超过10亿台设备上。这些“对话式计算”或“数字化对话”平台将重构我们工作的方式，并成为我们生活中越来越重要的一部分。看起来相悖的是，语音代理可能同时成为我们的经理和下属，指导我们的行动并执行我们的命令。

语音界面是免提计算的重要构成部分，也是增强现实的自然补充。免提技术提供了“为我们其余的人进行计算”的美好前景，对于具有视觉缺陷的人、对于物理界面不适用的无菌临床环境，以及对于 80% 利用手工作或处于高度移动环境中的人来说，语音界面都颇具价值。

人工智能—以语音转文本、NLU、NLG和语音合成的形式—支撑着语音平台的运营。AI的持续进步将使传统的计算机声音更像人类。未来的语音代理将参与到复杂的反复对话中，说话更逼真、利用人类的俗语，甚至加上呼吸声和自然的犹豫和停顿，使它们听起来更像人类。谷歌的 Duplex技术和微软的Cortana 都已经取得重大进步，我们应该可以期待这个领域在未来几年里出现重大突破。

随着语音代理变得更加复杂，它们将永远存在于我们的生活中，帮助我们度过每一天。我们将使用它们进行预约、管理我们的日程、跑腿、下订单、解决问题、提出建议，甚至提供情感支持。最终，与数字语音代理进行事务性对话将与同人类的对话难以区分。这一前景对于那些从事客户服务的人而言具有深远意义。

带你读《创新之巅：未来十年重构商业的六大战略性技术》第一章未来十年重构商业的六大技术1.2AI可以做什么（一）