百度NLP | 智能写作机器人:不抢人类饭碗,我们只想人机协作

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介:

2016 年,百度全面发力内容生态领域,借助人工智能 (AI)、自然语言处理 (NLP)、深度学习 (Deep Learning) 等技术和百万级别的用户标签,推出个性化信息资讯流,与此同时,百度战略级产品「百家号」2017 年预计将向内容生产者分成 100 亿,以此鼓励个人和机构入驻参与内容创作。


而在众多内容生产者之中,一位特殊的「作者」显得格外引人瞩目——那就是在去年上线的百度智能写作机器人(Writing-bots)。据了解,目前百度智能写作文章可涵盖社会、财经、娱乐等 15 个大类,并可实现体育新闻、热点新闻等多领域全机器创作。

 

e2a7d3c62e2d72e3227a07c2a9143c9373077ee4

图 1:百度智能写作机器人文章示例


而从目前写作的文章来看,百度智能写作机器人在语言组织、语法和逻辑处理方面都已具备了相当的能力,甚至可以熟练地使用专业术语对新闻事件进行分析,写作质量几乎可以贴近人类的水平。


那么,百度智能写作机器人究竟是如何写稿的?未来机器写作是否有望取代人类?带着对这位「神秘作者」的好奇,我们与百度智能机器写作团队展开了一次对话,试图揭开机器人写作背后的奥秘。


Q1. 为什么会想到让机器人写稿?百度智能写作机器人的研发背景是怎样的?


:2016 年,百度确立了「搜索+信息流」双向智能适配的信息分发 2.0 模式,由于资讯流产品和百家号的迅速发展,用户资讯阅读需求呈现出了较大的增长,与此同时,我们发现,一些用户感兴趣的内容,比如彩票、股票、旅游等话题,却很少有资讯文章涉及,因而存在着大量资源的短缺,于是我们就希望结合百度自然语言处理、大数据分析、人工智能等技术优势,通过机器写作的方式,聚合全网信息和百度优质资源,快速生产文章满足用户的需求,实现用户兴趣点的快速(分钟级快讯)、高效(省时省力)、高覆盖(中长尾)满足和资讯内容的深度定制以及个性化推荐,从而在内容生态里面帮助生态自建。


Q2. 目前百度智能写作机器人可以写作哪些类型的文章?是否可以实现原创?


:目前我们的智能写作机器人产出的文章主要有三种类型:速报类、知识类和资讯聚合类。速报类,如比赛信息、股讯快报等,对时效性要求比较高,需要瞬时将结果生成文章。知识类主要是科普类的文章,如教育(诗词、历史知识)、生活(菜谱,保健知识)、旅游等。知识类文章的数据内容主要来自百度的知识库和全网优质资源,通过对优质数据资源的组织聚合和计算推理,为用户提供更加丰富的知识和信息。而资讯聚合类是基于全网实时资讯数据,根据用户关注点,生成用户感兴趣的、以话题为中心的资讯文章,比如某一个电影热映,我们会对电影的主演、之前的作品等信息做一些扩展和盘点;对于热点事件,我们会对事件的发展过程和关键信息进行分析聚合,形成事件脉络,便于用户了解事件全貌等。这类文章是在现有的资讯信息基础上,重新智能聚合生成新的文章。


从技术方案上看,主要分为两类:


  • 一类是基于结构化数据、知识库或优质资源直接生成的文章。速报和大部分知识类文章是基于这类技术方案。这类文章因为直接从数据通过分析聚合或知识推理生成原始稿件,因此可以说是原创。

  • 另一类是在已有稿件的基础上通过内容分析聚合生成的新的文章。大部分资讯聚合类文章,如话题盘点、事件脉络、热门要闻回顾等都属于此类。因为是基于已有稿件内容创作新的稿件,因此可以看作是二次创作。当然,我们也可以在一篇文章的生成中结合上述两种技术,进行混合创作。


Q3. 百度智能写作在技术上是如何实现的,基本的创作流程是什么?


:我们的智能写作整体是基于大数据分析、内容理解和自然语言生成等技术得以实现的,基本创作流程主要分为数据采集、数据分析、自动写稿、审核签发等环节。其中核心流程「自动写稿」部分通常还包括文档规划(document planning)、微观规划(micro-planning)和表层实现 (surface realization) 三个阶段,分别解决稿件写什么、怎么写以及如何润色呈现的问题。比如文档规划,需要确定写什么内容,采用什么结构来写,微观规划则更加细致化,具体要确定怎么来写每个段落、每个句子、每个标题以及内部的结构组织等。表层生成,则是对文章整体的润色和改写,比如如何调整文章格式、给文章配图等。


92568f920a0a3cab0641c5913d09de5aef7bda32

图 2:百度智能文章生成过程


Q4. 百度智能写作有哪些特点和优势?实际应用情况如何?


:目前媒体报道的写作机器人大多面向体育、财经等特定领域,我们的智能写作文章类型更加多样,覆盖的领域更为广泛,并且可以实现个性化的推荐和订阅。总体来说,实际的用户需求、大规模数据资源,先进的技术积累,以及产品应用中的反馈迭代,形成了百度智能写作的独特价值和优势。


我们的智能写作的文章类型和话题源于实际的用户和产品需求。根据对资讯流产品内容分布和用户兴趣点分布的分析,我们确定了三类文章类型:速报类、知识类和资讯聚合类,分别用于改善产品中三类需求满足问题:高时效性需求,中长尾需求,和热点话题信息的高效获取需求。在具体话题的选择上,我们根据用户兴趣点分布确定话题覆盖优先级。目前百度智能写作的文章已经涵盖电影,美食、旅游、汽车、创业、房地产等 50 多个话题,涉及社会、财经、娱乐等 15 个领域。


百度在数据资源和人工智能技术方面的积累为智能机器写作的研发提供了有力支持。


在数据方面,除了海量的全网优质数据,百度拥有大量的自建高质量数据,包括百度阿拉丁(优质资源开放平台)、百度知道、百度百科、知识图谱等,不仅可以支持基于结构化数据的文章生成,还可以支持基于内容聚合方式的文章生成。百度阿拉丁的时效性结构化数据,如体育比赛、彩票、股票信息、恶劣天气预警等,是速报类文章生成的数据基础。百度百科、百度知道和知识图谱是知识类文章生成的重要数据来源。以百度百科中的城市百科为例,城市百科中包含了大部分城市的景点、美食、文化排行榜数据,这些数据与对应景点、美食的描述数据相结合就可以生成城市旅游、美食、文化的介绍文章。同时,基于海量的用户行为日志数据,可以准确地捕捉对这些内容感兴趣的用户,就可以实现生成内容的个性化推荐和满足。


在技术方面,百度在内容理解、语言生成、知识推理、机器学习等方面的技术积累,是智能机器写作的重要技术基础。以资讯聚合类文章生成为例: 首先,聚合类文章的话题选择和资讯内容获取是基于内容理解和用户理解技术。利用百度自建的关注点图谱(主题、实体、事件标签以及标签间的关系)和标签预测技术,我们为每篇资讯内容打上关注点标签,同时根据用户的搜索或阅读行为可以获得用户的关注点标签,即用户的兴趣点。这样就获得了用户感兴趣的话题,同时基于内容标签可以获得相关话题的资讯内容。其次,基于内容理解和生成技术对于同一话题的内容进行压缩和聚合,相关技术包括:事件分析,话题聚类,事件脉络抽取,自动摘要,标题生成、结构生成等,而机器学习和知识推理是这些技术实现的基本方法。图 3 以事件脉络型文章的生成为例说明聚合类文章写作中所依赖的主要技术。可以看到,百度深厚的技术积累为智能机器写作提供了有力的技术支撑。

 

4c7519b531f6ca4103fe780eb03b479acd6d9c14

图 3 事件脉络型文章生成主要技术


目前,我们的智能写作机器人在百家号和百度资讯流产品中已累计发文近万篇,阅读量超过千万。图 4 是智能机器人写作的新闻实例,包括通用领域新闻,生活新闻,体育新闻等。随着产品的应用,我们可以积累更多数据和用户反馈,不断实现技术的更新迭代。

 

a8a016e05b8d84146ec53a4ab79300270c059d03

图 4:百度智能机器人写作应用实例


Q5. 智能写作技术上最大的难点是什么?百度未来是否会尝试深度文章的撰写?


: 人类作者在撰写文章时通常会对数据、内容和话题进行深入理解,并可以进行演绎、推理和联想,从而完成更深入的报道,充分表达自己的观点和立场。而相比之下,机器则更长于数据分析和规范的写作,在自然语言深入理解,以及让稿件具有观点和立场等方面还有很大的提升空间。


在深度文章写作方面,我们也在做一些探索和尝试,比如情感分析等研究,力图让机器写作更贴近人类,甚至希望有一天它能有自己的立场和观点,更加人性化。但就目前而言,我们的智能写作机器人会更聚焦用户需求,偏重数据分析和客观文章的撰写,致力于帮助内容创作者减少重复劳动,节省更多精力去撰写更加优质的深度内容。


Q6. 百度智能写作机器人背后的团队构成是怎样的?


:我们的智能机器写作研发团队成员来自百度阿拉丁团队、NLP 团队、知识图谱团队、互联网数据研发团队以及质量保证团队等不同部门。研发初期主要通过小规模数据样本和简单的人工处理实现技术探索和原型设计,随着技术的进展和用户需求的增长,产品、技术、资源、平台等多个团队展开联动,着手推进更加成熟的产品落地。


Q7. 在内容创业迎来了新风口的当下,百度推出了战略级产品百家号,并以百亿分成鼓励内容原创,如何看待智能写作机器人与内容生产者的关系?百度智能写作下一步的发展目标是什么?


:我们认为智能写作机器人与内容生产者之间主要有两层关系:一是「代替」,将作者的重复性、规范性写作和客观数据聚合类劳动用机器进行替代,让作者可以更好的投入到深度文章的创作。二是「服务」,人工智能可以通过大数据帮助编写深度文章的作者,进行语料、素材的高效率搜集与初级加工工作,同时也可以基于行业的深度结构化数据完成基础数据分析及文章生成工作,服务于内容生产者,提升他们的写作效率。而这也正是我们智能写作的未来的发展目标——人机混合编辑。


Q8. 百度智能写作机器人与人类有哪些差异?未来是否会完全取代人类?


:智能写作机器人和人类相比可以说是各有所长,智能写作首先肯定是速度快,可以在短时间内搜集大量数据和信息完成创作,其次是有特别强的数据分析、收集能力。人一天看一百篇文章就很多了,但是机器则可以不知疲倦不停学习,随时随地收集和生产内容。尽管人类写作相对机器而言,时间较长,成本也较高,但人可以对一个事件进行演绎、联想,从更加丰富的层面上进行创作,表达自己的观点和立场,因而在深度撰写方面具有难以替代的优势,因此在可预见的未来,我们认为机器完全取代人类的可能性不大,智能写作机器人对于能够深耕文章内容、有独立观点见解的内容创作者而言,不仅不会成为「抢饭碗」的替代者,反而会成为帮助作者生产优质内容的贴心助理。

本文来源于"中国人工智能学会",原文发表时间" 2017-04-12 "

相关文章
|
20小时前
|
机器学习/深度学习 传感器 算法
智能机器人在工业自动化中的应用与前景###
本文探讨了智能机器人在工业自动化领域的最新应用,包括其在制造业中的集成、操作灵活性和成本效益等方面的优势。通过分析当前技术趋势和案例研究,预测了智能机器人未来的发展方向及其对工业生产模式的潜在影响。 ###
17 7
|
29天前
|
人工智能 搜索推荐 机器人
挑战未来职场:亲手打造你的AI面试官——基于Agents的模拟面试机器人究竟有多智能?
【10月更文挑战第7天】基于Agent技术,本项目构建了一个AI模拟面试机器人,旨在帮助求职者提升面试表现。通过Python、LangChain和Hugging Face的transformers库,实现了自动提问、即时反馈等功能,提供灵活、个性化的模拟面试体验。相比传统方法,AI模拟面试机器人不受时间和地点限制,能够实时提供反馈,帮助求职者更好地准备面试。
38 2
|
3月前
|
人工智能 算法 机器人
机器人版的斯坦福小镇来了,专为具身智能研究打造
【8月更文挑战第12天】《GRUtopia:城市级具身智能仿真平台》新论文发布,介绍了一款由上海AI实验室主导的大规模3D城市模拟环境——GRUtopia。此平台包含十万级互动场景与大型语言模型驱动的NPC系统,旨在解决具身智能研究中的数据稀缺问题并提供全面的评估工具,为机器人技术的进步搭建重要桥梁。https://arxiv.org/pdf/2407.10943
208 60
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】自然语言处理(NLP)的突破,关注NLP在机器翻译、情感分析、聊天机器人等方面的最新研究成果和应用案例。
自然语言处理(NLP)作为人工智能的一个重要分支,近年来取得了显著的突破,特别在机器翻译、情感分析、聊天机器人等领域取得了显著的研究成果和广泛的应用。以下是对这些领域最新研究成果和应用案例的概述,并附带相应的代码实例。
97 1
|
3月前
|
机器人 C# 人工智能
智能升级:WPF与人工智能的跨界合作——手把手教你集成聊天机器人,打造互动新体验与个性化服务
【8月更文挑战第31天】聊天机器人已成为现代应用的重要组成部分,提供即时响应、个性化服务及全天候支持。随着AI技术的发展,聊天机器人的功能日益强大,不仅能进行简单问答,还能实现复杂对话管理和情感分析。本文通过具体案例分析,展示了如何在WPF应用中集成聊天机器人,并通过示例代码详细说明其实现过程。使用Microsoft的Bot Framework可以轻松创建并配置聊天机器人,增强应用互动性和用户体验。首先,需在Bot Framework门户中创建机器人项目并编写逻辑。然后,在WPF应用中添加聊天界面,实现与机器人的交互。
91 0
|
3月前
|
机器人 TensorFlow 算法框架/工具
智能聊天机器人
【8月更文挑战第1天】智能聊天机器人。
102 2
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
智能时代的桥梁:自然语言处理技术在人工智能中的应用
随着人工智能技术的飞速发展,自然语言处理(NLP)作为其核心领域之一,已广泛应用于多个行业。本文将深入探讨NLP的基本概念、关键技术以及其在现代AI系统中的应用实例,旨在揭示NLP如何成为连接人类与机器的桥梁,推动智能技术向前迈进。
79 1
|
3月前
|
人工智能 自然语言处理 安全
盘点国内:AI写作助手_ai智能问答机器人
AI写作助手是利用人工智能技术,特别是自然语言处理(NLP)技术,来辅助用户进行写作的工具。这类助手通过分析大量文本数据,能够理解语言的结构和含义,从而生成、编辑或优化文本内容。AI写作助手通常具有自动纠错、语法检查、内容生成和风格调整等功能,帮助用户提高写作效率和质量。
|
4月前
|
机器学习/深度学习 自然语言处理 算法
NLP技术在聊天机器人中的应用:技术探索与实践
【7月更文挑战第13天】NLP技术在聊天机器人中的应用已经取得了显著的成果,并将在未来继续发挥重要作用。通过不断探索和创新,我们可以期待更加智能、自然的聊天机器人的出现,为人类生活带来更多便利和乐趣。
下一篇
无影云桌面