北京大学计算机科学技术研究所研究员万小军:机器写稿技术与应用 | CCF-GAIR 2017

简介:

雷锋网(公众号:雷锋网)消息,7月8日,CCF-GAIR全球人工智能与机器人峰会进入第二天,CCF-GAIR由中国计算机学会(CCF)主办,雷锋网与香港中文大学(深圳)承办。在AI+专场,北京大学计算机科学技术研究所研究员万小军,作为AI+专场的开场嘉宾,为我们带来了主题为《机器写稿技术与应用》的演讲。

机器写稿的背景与现状

在国外,已经有三家著名的提供机器写稿技术的公司,包括ARRIA、AI、 NARRATIVESCIENCE,为美联社等多家知名媒体写了数千万篇稿件,当然这是面向英文或者是西方的语言。

随着人工智能技术的发展,国内的机器写稿也逐渐受到关注,有很多的媒体在和一些学术机构进行合作,推出一些写稿机器人;另外是互联网巨头,包括微软、百度、腾讯、今日头条,也在研发机器写稿技术。写稿的内容主要侧重在体育、财经、民生领域。

以新华社写稿机器人快笔小新撰写的财报新闻为例,其技术流程为:数据采集 - 数据加工 - 自动写稿 - 编辑签发,它的写作方式还是比较死板的。

对于原创新闻和二次创作,前者指直接从数据生成原始稿件,比如天气预报,年报财报;后者指基于已有稿件内容创作新稿件,两种稿件涉及到不同的技术:第一种是自然语言处理技术,即从我语义的表达生成自然语言;第二种是自动摘要,从已有的文字素材去给它摘要,生成一个新的稿件。

北京大学计算机科学技术研究所研究员万小军:机器写稿技术与应用 | CCF-GAIR 2017

还有一些其他相关的技术,包括文本信息推荐技术,文本复述技术,前者指自动为你插入你想引用的唐诗宋词、名人名言等,后者指在保持同样的语义的前提下,自动使用不同的语言表达,以规避版权问题。这里有一个例子是说“梅西获得了5座金球奖”,你可以改为“梅西是五届金球奖得主”,也可以改写为“金球奖5次颁给了梅西”。

对于更受关注的写稿机器人与记者的关系:目前为止应该是一种分工协作的关系,就是说机器人现在可能不具有逻辑思维的能力,也不具有深度总结的能力,它只能去把一个基本的新闻事实描述清楚,但是我们记者就可以写深度报道。

我们在机器写稿方面的技术研究

我们做了很多的基础技术性的研究,包括基础的自动文摘、自然语言生成等等,另外也做了很多的应用研究,包括新闻资讯生成、综述生成以及用户评论自动生成。我们介绍几个代表性的结果。

除了根据结构化数据和素材生成的新闻简讯,我们还可以生成体育赛事的长篇报道。怎么生成呢?我们发现有一个很重要的素材,就是体育的直播文字。我们经常发现一个很著名的体育比赛下面都有文字直播,或者是通过视频直播转成文字直播,这个文字直播中通常包含主持人对这样一个比赛的精彩细节的描述,我们通过机器学习的手段,能够把这些精彩的描述挑选出来,放到我们最终的报道中,这个报道就写得比较长,可以达到上千字以上。

这是一个生成长篇报道的过程,首先对直播文字进行语句的智能排序,再进行智能选择,这都是借助机器学习的手段,最后生成一个平均长度超过1000字的赛事的报道。

另外,在娱乐新闻和自动生成评论上,我们也有不错的成果。

北京大学计算机科学技术研究所研究员万小军:机器写稿技术与应用 | CCF-GAIR 2017

目前,我们分别和今日头条、南方都市报及广州日报合作推出了小明、小南和阿同机器人。

未来的趋势展望

机器写稿不光是在媒体行业,现在也在跟一些游戏行业和情报行业合作。未来,只要什么时候你需要写这样一些报告,比如一些行业报告,或者写一些稿件,都会用到机器写稿,不光是媒体,其它的行业也会用到。

第二个方向,我们现在写的稿件还主要侧重对客观事实的描写,还没有加入太多的态度和立场,因此显得人性化方面不太理想,下一步会让我们的稿件自己具有一定的立场。

第三点也是最难的一点,就是让机器学会推理和归纳,写出真正的深度报道,比如说我们报道一场足球比赛以后,我们要分析一下为什么是这样的结果,把这个原因进行推理总结出来,这样的报道就是真正的智能的,这是下一步要研究的目标。

本文作者:蒋鸿昌

本文转自雷锋网禁止二次转载,原文链接

相关文章
|
10月前
|
设计模式 缓存 应用服务中间件
「全网最细 + 实战源码案例」设计模式——外观模式
外观模式(Facade Pattern)是一种结构型设计模式,旨在为复杂的子系统提供一个统一且简化的接口。通过封装多个子系统的复杂性,外观模式使外部调用更加简单、易用。例如,在智能家居系统中,外观类可以同时控制空调、灯光和电视的开关,而用户只需发出一个指令即可。
269 69
|
10月前
|
存储 安全 小程序
apk安装包EXE,mis程序打包后报毒的正确处理方式-千万不要再人傻钱多被骗-真正的合法途径的处理方式才是正确的-apk安装包EXE,mis程序如何处理-优雅草央千澈
apk安装包EXE,mis程序打包后报毒的正确处理方式-千万不要再人傻钱多被骗-真正的合法途径的处理方式才是正确的-apk安装包EXE,mis程序如何处理-优雅草央千澈
330 32
apk安装包EXE,mis程序打包后报毒的正确处理方式-千万不要再人傻钱多被骗-真正的合法途径的处理方式才是正确的-apk安装包EXE,mis程序如何处理-优雅草央千澈
|
10月前
|
人工智能
CreatiLayout:复旦与字节联合推出布局到图像生成技术,支持高质量图像生成与布局优化
CreatiLayout 是复旦大学与字节跳动联合推出的创新布局到图像生成技术,通过大规模数据集和孪生多模态扩散变换器,实现高质量图像生成与布局优化。
310 20
CreatiLayout:复旦与字节联合推出布局到图像生成技术,支持高质量图像生成与布局优化
|
分布式计算 Java 数据处理
Apache Spark优缺点大揭秘
【10月更文挑战第12天】
472 11
|
监控 算法 项目管理
闲聊项目经理和技术经理的区别
【10月更文挑战第24天】项目经理和技术经理在职责、技能要求、关注重点、管理对象等方面存在明显差异。项目经理负责项目整体规划、资源协调、风险管理及交付;技术经理则侧重技术研发、技术方案制定、团队建设和技术标准维护。项目经理需具备出色的沟通协调、项目管理和风险管理能力,而技术经理则需拥有深厚的技术专长、团队管理能力和持续学习的精神。两者虽有不同,但需紧密合作,共同推动项目成功。
485 4
|
弹性计算 Oracle Ubuntu
阿里云免费试用云服务器上新了,最高配置4核16G,最长3个月免费试用
近日,阿里云免费试用云服务器又上新了,前几天还只有共享型s6实例和通用算力型u1实例可申请试用,现在又增加了通用型g7、计算型c7a、计算型c8y和计算型c7实例的云服务器参与免费试用,现在共计有11款不同配置和实例的云服务器可免费申请试用了。
1628 0
阿里云免费试用云服务器上新了,最高配置4核16G,最长3个月免费试用
|
Ubuntu 搜索推荐 Shell
Linux、Ubuntu、CentOS安装和配置zsh
Linux、Ubuntu、CentOS安装和配置zsh
777 0
|
数据采集 前端开发 测试技术
Python爬取某短视频热点
Python爬取某短视频热点
433 0
|
开发工具
编写start、stop、status三个脚本程序,用来启动、停止各种系统服务。
编写start、stop、status三个脚本程序,用来启动、停止各种系统服务。
377 0
身份证实名认证查询
实名认证查询是一种通过提供身份证号码、姓名等个人信息,获取对应身份信息的查询方式。它在日常生活中被广泛使用,如开通银行账户、购买手机卡等。实名认证查询的核心意义在于保护个人信息安全,同时保障社会公序良俗。本文将从实名认证查询的意义、流程及注意事项等方面进行阐述和探讨。