权威详解:《一站到底》里的AI汪仔,到底靠什么技术碾压人类

简介:
本文来自AI新媒体量子位(QbitAI)

春天来了,又到了人机交战的季节。

七年前的二月,IBM人工智能计算机Watson在答题节目《Jeopardy!(危险边缘)》中称王,击败了这个节目历史上最强大的两位人类高手。这个二月,搜狗人工智能机器人汪仔在答题节目《一站到底》中登场,击败了站到最后的人类选手。

在《jeopardy!》里,最强的人类选手最后不得不写下名句,俯首称臣;而在《一站到底》的赛场上,汪仔也表现出碾压般的优势。同样是答题节目,同样是人工智能,七年时间过去,现在的汪仔和当年的Watson,到底有何不同?

而号称历时9个月,耗资4000万打造的汪仔,背后到底是哪些核心技术,研发过程又有哪些挑战?未来人工智能技术又会怎样发展?

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

 图左为许静芳,图右为刘明荣

搜狗搜索技术负责人许静芳,以及搜狗搜索总监刘明荣,把上述种种问题的答案抽丝剥茧告诉量子位。下面是他们的权威详解:

汪仔和当年的Watson有什么不同?

1、输入方式不同

Watson是特殊接口文本输入,输入内容准确无误。

而《一站到底》是主持人念题加题板展示题目(两种来源都是逐字出题),汪仔通过搜狗的语音识别和图像识别技术,利用语音和图像两种方式获取,再转换成文字。语音识别、图像识别都是AI的关键技术,同时识别的错误会进一步提升答题的难度。

2、题目设置不同

《jeopardy!》的题目有显示类别和相应的奖金数,类别对于答题有帮助,能够将答案限定在特定范围内。而《一站到底》中的题目没有给出类别,需要汪仔通过算法识别问题的类别,增大了答题的难度。

当然《jeopardy!》中题目的奖金不同,最后以获得的奖金数定输赢也带来了新的问题,这点是一站到底所没有的特性。

3、赛制不同

《jeopardy!》必须主持人把题目完整念出后选手才能抢答,而《一站到底》是在开始念题后任意时间都可以抢答,答对自己得分,答错对方加分。

因此在高水平的选手有大量的题目都是在题目尚未完整时就作答,汪仔同样有很强的抢答,即根据题干片段去预测问题并作答的能力,这是Watson所不具备的能力。

4、知识获取方式不同

Watson是一个封闭系统,不联网,利用其离线的知识库答题。而汪仔通过联网,对全网信息及搜狗知识图谱进行在线答题,在利用更大范围信息的同时也对答题速度提出挑战。

5、其他

汪仔除了能回答知识问题,还有聊天功能,可以和主持人进行自然语言交流。

0?wx_fmt=gif&wxfrom=5&wx_lazy=1

汪仔主要基于哪些技术?

汪仔背后核心技术主要包括:语音识别、OCR、自然语言理解、数据挖掘、信息检索、知识图谱和文本计算等,这些技术是当今人工智能领域最新发展的集中体现。

其中语音识别、OCR技术代表了机器学习和深度学习的最高水平,自然语言理解是未来人工智能发展需要进一步解决的重要核心问题,代表了未来发展的重要趋势。

关于这套系统的架构,量子位还得到了一组图形化的说明。就列在下面(点击看大图)

640?wx_fmt=png&wxfrom=5&wx_lazy=1

640?wx_fmt=png&wxfrom=5&wx_lazy=1

640?wx_fmt=png&wxfrom=5&wx_lazy=1

640?wx_fmt=png&wxfrom=5&wx_lazy=1

有多少软件工程师支持汪仔?

长期投入的核心开发人员在十人左右,此外还有支持项目的各类工程师约十人。

量子位补充一点相关信息:搜狗CEO王小川此前透露,汪仔由搜狗和清华天工研究院联合开发,耗时9个月,耗资4000万。

研发过程中,最大的困难是什么?

《一站到底》有个非常特殊的规则:开始读题后,任何时间都可以作答。

答对得分,答错对方加分。所以答题速度非常关键,这里不仅仅是听到完整题目后能够在极短时间内答题,更重要的问题是能够根据部分题目就预测问题并作答,实际上顶尖的人类选手也很大比例在题目不完整情况下答题。

答题速度上我们做了两大类事情:第一是从接收到语音、图像开始,语音识别、图像识别、搜索、答案抽取这整个系统都在速度上追求极致。在过去几个月里后台的处理速度较刚开始提升了10倍,无论是识别还是转换成文字后的问答,在速度上都做到极致。

第二类问题是推理,即根据部分信息预测问题并作答。我们根据学习历史上的题目,建立一套推理机制,使得机器人能够根据部分信息推理,例如 当前问题是“位于XXX的”,我们通过“位于”这个词就可以推导出问题答案是一个“地理位置”。

又例如问题中提到了“千湖之国”,则很有可能答案是“芬兰”(芬兰的别称是千湖之国),问题中提到了“穆斯林的葬礼”,则很有可能是问其作者“霍达”,这些信息是我们基于海量知识文本分析挖掘、学习得到的。

目前汪仔回答题目的80%都能在题目不完整时通过推理回答,较最初的版本有了质的飞跃。

汪仔和其他人工智能产品有何不同?

汪仔是一款自然语言问答类产品,产品功能定位决定它必须具备感知语音信号输入,并可进行认知推理的能力。

目前市面上的人工智能产品大多数仅具备感知能力,这些产品在特定领域能够辅助我们高效完成任务,比如语音识别类产品,可以帮助我们快速方便地输入文字,人脸识别类产品可以提供便捷准确的安防服务。具备认知能力的人工智能产品目前还比较少。

在自然语言理解领域,汪仔代表的智能问答就属于认知类产品,它除了具备识别人类语言文字这样的感知能力,还能够理解文字背后的含义,也就是理解人的需求,在理解需求的基础上,进一步通过推理计算获得满足用户需求的精准答案。也就是说,汪仔拥有认知推理能力。

从问答和对话领域的人工智能产品来看,和汪仔产品形态相对比较接近的包括聊天机器人和智能客服两类当前比较热门的产品。其中聊天机器人主要向用户提供生活服务、娱乐资讯等,通常以逗乐用户、打发闲暇时间为主,并不能为用户解决实际问题。

和汪仔类似,目前有些公司提供的智能客服类产品,也属于智能问答产品,同时具备感知和认知能力,但是这些产品能够回答的问题领域非常有限,基本局限在与公司产品服务密切相关的问题,而汪仔是一款通用问答类产品,它可以回答各类知识问题,不受领域限制,因此它的受众面更加广泛,能力更强。

一句话来说,汪仔是具备感知和认知推理能力的通用型知识问答类产品。

0?wx_fmt=gif&wxfrom=5&wx_lazy=1

汪仔对搜狗AI未来发展有何影响?

人工智能未来的发展方向是认知智能,包括推理和决策能力,而智能问答是认知智能水平的重要体现,本身具有重要的产业价值和社会意义。

汪仔的成功表明搜狗在这方面具有较强的研发能力,具有里程碑意义。未来搜狗将会在智能问答领域加大投入,逐步提升自动回答各类自然语言问题的能力,成为代表智能问答领先水平的国内外知名人工智能公司。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

“搜索的未来将走向问答机器人。用户的搜索行为会从输入一个关键词,变成表达一个完整的句子,让机器找出其中的含义,同时,搜索引擎返回的内容,也将从简单的10条链接转向直接给出答案或者是建议”,王小川曾多次在公开场合这样表示。

搜狗汪仔无疑是“问答机器人”这一理念的具象形态。其背后的核心技术立知便是搜狗在智能问答领域的一项重要创举。 王小川曾表示,搜索未来向问答这一演进形式将对大众的习惯形成新的挑战,甚至引发重大的变革。

未来,人们不用再为了适应机器而刻意改变自己的沟通方式,人们可以用更自然流畅的问答、交谈与机器进行互动,技术与人文关怀可以通过搜狗人工智能技术实现完美的均衡。

回看当年Watson

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

 Watson在《jeopardy!》里获胜

Watson背后是一套深度问答(DeepQA)系统。问答系统一般包括三个主要组成部分:问题分析、信息检索和答案抽取。

此前的媒体报道中,有过类似的示例:

面对问题:谁导演了《星球大战》?人类选手会根据知识积累,给出“卢卡斯”这个答案,但对于Watson,这个过程要复杂得多。

它会通过摄像头把这个问题“扫描”进大脑里。先分析这个问的是人,然后再细化到是一位导演。接着分析《星球大战》,会找到很多文章。它要定位某篇文章,其中把星球大战的导演那一段找出来,然后对这一段做深度分析。

比如找到一句话,这句话里说到这是某人在哪一年执导(direct)的,但没有提导演(director)这个词。实际上还可以找到很多类似的词,它就需要过滤,它先会找人名,比如斯皮尔伯格、卢卡斯等,这些都是潜在答案。

针对这些答案它要找相关的证据去支持。它会再把“星球大战”和“斯皮尔伯格”一起搜索,或者是和“卢卡斯”搜索,结果发现“星球大战”和“斯皮尔伯格”共同出现在同一篇文章中比较少,而“卢卡斯”比较多。

这只是Watson工作过程中的一部分。据介绍这套系统综合了100多种算法。在参与答题节目的过程中,当时的Watson会在3秒内完成计算并给出答案。


本文作者: 若朴
原文发布时间:2017-02-09
相关文章
|
17天前
|
传感器 人工智能 自动驾驶
构建未来:利用AI技术优化城市交通系统
【4月更文挑战第27天】 随着城市化的快速发展,交通拥堵已成为全球城市的普遍问题。本文探讨了人工智能(AI)技术在缓解城市交通压力、提升交通效率方面的应用前景。通过分析智能信号控制、交通流量预测、自动驾驶车辆以及公共交通优化等关键技术的实际案例,评估了AI在现代交通系统中的潜力与挑战。本研究不仅展示了AI技术在改善城市交通中的有效性,同时也指出了实施过程中需要克服的技术和社会障碍。
|
1天前
|
人工智能 IDE Devops
通义灵码技术解析,打造 AI 原生开发新范式
本文第一部分先介绍 AIGC 对软件研发的根本性影响,从宏观上介绍当下的趋势;第二部分将介绍 Copilot 模式,第三部分是未来软件研发 Agent 产品的进展。
|
1天前
|
人工智能 自然语言处理 搜索推荐
阿里通义千问的这次升级不仅带来了实实在在的利好,也为我们展示了AI技术的巨大潜力和广阔前景
【5月更文挑战第13天】阿里通义千问3月22日升级,开放1000万字长文档处理功能,成为全球处理容量最大的AI应用,超越ChatGPT等。此升级助力用户(如金融分析师、法律人士、科研人员)高效处理文档,提升工作效率,并推动AI在各行业深入应用,加速数字化转型。未来,通义千问可能发展更强大的自然语言处理能力、拓宽应用场景及提供智能个性化推荐,展现AI技术潜力与前景。
13 2
|
1天前
|
存储 机器学习/深度学习 人工智能
新一代数据库技术:融合AI的智能数据管理系统
传统数据库管理系统在数据存储和查询方面已经取得了巨大的成就,但随着数据量的不断增长和应用场景的多样化,传统数据库已经难以满足日益增长的需求。本文将介绍一种新一代数据库技术,即融合了人工智能技术的智能数据管理系统。通过结合AI的强大能力,这种系统能够实现更高效的数据管理、更智能的数据分析和更精准的数据预测,为用户带来全新的数据管理体验。
|
2天前
|
机器学习/深度学习 人工智能 算法
构建高效AI系统:深度学习优化技术解析
【5月更文挑战第12天】 随着人工智能技术的飞速发展,深度学习已成为推动创新的核心动力。本文将深入探讨在构建高效AI系统中,如何通过优化算法、调整网络结构及使用新型硬件资源等手段显著提升模型性能。我们将剖析先进的优化策略,如自适应学习率调整、梯度累积技巧以及正则化方法,并讨论其对模型训练稳定性和效率的影响。文中不仅提供理论分析,还结合实例说明如何在实际项目中应用这些优化技术。
|
4天前
|
数据采集 人工智能 自然语言处理
如何通过AI技术提升内容生产的效率和质量
利用AI提升内容生产效率涉及智能策划(数据分析、热点追踪)、自动化生成(文字、多媒体)、编辑优化(语法检查、事实核查)、个性化推荐、内容审核和合规性检查,以及数据分析反馈。AI通过减少人力成本、增强质量和吸引力,助力内容创新,预示着内容创作新时代的到来。
19 3
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术的应用和发展
【5月更文挑战第10天】AI技术的应用和发展
22 1
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
【热门话题】如何通过AI技术提升内容生产的效率与质量
本文探讨AI技术如何提升内容生产的效率与质量。通过自然语言处理(NLP)实现智能摘要、自动写作和语言风格优化;计算机视觉用于图像识别和智能设计,提升视频与图像内容生产;数据分析与预测帮助精准洞察受众需求和预测内容趋势;AI推荐系统实现个性化信息流,优化用户体验。尽管AI带来变革,但需结合人类创意与伦理监督,以促进内容产业健康发展。
19 3
|
5天前
|
人工智能 自然语言处理 算法
探讨如何通过AI技术提升内容生产的效率和质量
AI技术在内容生产中扮演重要角色,包括自动生成文章、自动审核内容、个性化推荐、数据分析以及翻译和语音识别,显著提升效率和质量。然而,使用AI时需注意信息安全、隐私和算法偏见问题,应合理结合人工与AI以实现最佳效果。
|
7天前
|
存储 机器学习/深度学习 人工智能
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术