算法时代的写作艺术

简介:

不久前,美联社宣布,从今年7月开始将启用Automated Insights开发的程序撰写公司财报。只要输入一些数据,如公司收益报表之类,这个聪明的程序就能在几秒钟之内给你生成一篇新闻报道:
迪斯尼第一季度利润上升33%,超过分析师预期。


伯班克,加利福尼亚(AP)-迪斯尼公司(DIS)报告其第一财政季度净利润增长33%,超出分析师预期。

迪斯尼,总部设在加州伯班克,在本季度收益为18.4亿美元,去年同期则为13.8亿美元。每股收益从77美分攀升至1.03美元,Zacks分析师的平均预期为每股92美分。收入从113.4亿美元上升了9%,至123.1亿美元,分析师预期为118亿美元。

虽然算不上什么了不得的文章,但毕竟抓住了语言的要点,流畅、自然,除非特别提醒,一般人很难觉察出自机器人之手。据称截至今年底,美联社将用此方式完成4400篇财报新闻,效率是人类记者的15倍(美联社并不是第一个启用机器人记者的大型新闻机构,福布斯网站早在两年前就已经启用Narrative Science的程序自动生成财经新闻)。

机器人写作这种事情,20年前还是科幻小说的情节,如今正迅速变成一个简单的事实。

今年初洛杉矶4.7级地震的第一个报道者就是一位机器人记者——Quakebot。Quakebot是《洛杉矶时报》自己内部研发的一个程序,能实时监控美国地质调查局(USGS)的信息,一旦出现警报(表示发生了一定级别以上的地震),就自动提取相关数据,并置入一个预先写好的模板,自动生成一篇文稿,并进入《洛杉矶时报》的内容管理系统,等待编辑的审查和发布。在此之前,他们还有另外一个类似的机器人程序,专门自动报告洛杉矶发生的凶杀案。

世界第一台可运行程序的计算机——曼彻斯特Mark1


此外,机器人记者们还在一些小众领域找到了市场——高中生体育赛事报道、游戏赛事报道、房地产报告、装修潮流报告、快餐公司的销售报告等等。它们能以报道职业棒球联赛的翔实态度报道一场发生在一群小屁孩之间的棒球比赛,以报道伊拉克战争的郑重其事报道《魔兽世界》的一场副本之战。去年Automated Insights的算法一共生产了3亿个故事,今年则预计达到10亿个故事,他们已经是世界上最大的内容生产商。

长久以来,科幻小说和电影为我们预设了太多关于智能机器人的想象——《2012太空漫游》里忧郁的哈尔、《A.I.》里悲伤的大卫、《星际旅行》里可爱的数据先生、《银河系漫游指南》中偏执的马文等等,以至于我们看不到身边正在发生的一切。事实上,我们正生活在一个越来越由人工智能所定义的世界里——搜索引擎引导我们在庞杂的信息之间穿梭,告诉我们哪些信息更重要,更有用,更值得关注;推荐算法根据我们的兴趣和品味,告诉我们应该看什么电影,读什么书,听什么歌;社交网站上各种热门查询算法告诉我们应该跟踪什么潮流与八卦;算法打理我们的社交圈、投资理财,甚至协助制定社会政策;警方利用谷歌地图和犯罪数据、社交媒体决定在哪里巡逻;算法比任何保险公司或银行都了解你的风险状况;算法据称还能编写出有灵魂的音乐,在伦敦交响乐团的演奏之下,竟然没有人能听出区别。

在这样一个美丽新世界里,算法为我们写点新闻报道实在算不得什么。况且,像地震、火灾、财经这些快讯新闻,真是不如由算法来写更便宜(500字的文章不到10美元)、更高效(生成一篇体育报道只要几秒钟),甚至更准确——就从庞杂的数据中寻找模式和意义而言,计算机早已将人类远远地甩在后头。

真正令人兴奋的,或者说不安的是,Narrative Science的联合创始人克里斯蒂安·哈蒙德(Kristian Hammond)两年前在《连线》杂志的采访中所宣称的,计算机将在未来15年内写作90%的新闻。他还预测,他们的算法将在5年内获得普利策奖。

“人工智能之父”阿兰·图灵

如果哈蒙德是一个满嘴跑火车的商人,我们大可以对这样的预言一笑而过。但他是受人尊敬的计算机科学教授,20多年来一直站在人工智能研究的最前沿。早在90年代中期,他就开发了一套可追踪用户阅读、写作习惯并向用户推荐相关内容的系统,之后一直在美国西北大学担任情报信息实验室的主任。Narrative Science的算法原型Stats Monkey(搜集各大学、中学的体育赛事得分和相应数据,并将数据转化为文字)就是他和他的学生们在一门关于编程与未来新闻的课程上开发出来的。

作为人工智能的终极梦想之一,“一个会写作的机器人”就像“一个会思考的机器人”一样,贯穿于人工智能研究的整个发展历程。早在1948年,世界第一台可运行程序的计算机——曼彻斯特Mark1的“处女作”就是一个写情诗的小程序。那时候,计算机还是一个庞然大物,主要功能是做大型的数学运算,但一个名叫克里斯托弗·斯特雷奇的科学家却突发奇想,编了这么个罗曼蒂克的小程序。它能根据简单的语法规则,从一个小型的浪漫词汇库(几百个关于浪漫爱情的动词和名词组成)中选择词汇,创作一些轻松的爱情诗。比如:“亲爱的,你是我贪婪的迷恋,你是我可爱的迷恋,你是我珍爱的同情。我渴慕你的爱情,你是我深深的爱恋。”(Jewel Darling,you are my covetous infatuation. My lovely infatuation. You are my precious sympathy. My precious desire impatiently adores your fancy. You are my avid fancy.)

斯特雷奇是阿兰·图灵的好朋友,是人工智能领域的先驱之一,也是第一个在计算机上写跳棋程序的人。60多年过去了,就棋力的角逐而言,计算机已经能击败世界一流的棋手(IBM的超级计算机“深蓝”击败了国际象棋大师加里·卡斯帕罗夫),但它还远远未能写出一篇能与三流人类作家相媲美的作品。这很大程度上是因为人类语言与文字太过复杂多变,没有哪一套规则可以涵盖一门语言,遵循一条规则就必定会打破另一条规则。

2008年,俄罗斯的Astrel SPb出版社出版了有史以来第一本机器人写的长篇小说《真爱》,主人公借自《安娜·卡列尼娜》(安娜、沃伦斯基、列文、基蒂),情节来自从17本经典小说中抽取的情节库,行文风格则模仿村上春树。据《彼得堡时报》报道,PC Writer 2008先生只花了3天就写完了这本320页的小说(当然,一堆语言学家与程序员捣鼓PC Writer 2008先生就花了8个月),并发行1万本。出版社表示,如果这本书卖得好,以后还会继续推出机器人写的小说。但整个事件从此再无下文,如同一场行为艺术,甚至有人怀疑作者也许根本不是机器人。

克里斯蒂安·哈蒙德认为,从理论上来说,算法要写一个短篇小说完全是可能的,甚至可能是一个“完美”的短篇,只要善于利用所有我们关于语言与文学叙事的知识。但这并不是他所追逐的目标。事实上,从80年代开始,人工智能研究已经经历了一次根本性的转型——从对人类大脑的模仿和对人类思维的理解,转向以大数据、机器学习为基础,让机器聪明地解决人类的各种具体问题。30年来,它渗入重工业、交通和金融等多个领域。许多Google的核心功能都是由人工智能驱动的,还有Netflix的电影推荐,IBM的沃森人工智能系统,苹果的人工智能助理Siri,无人机以及自动驾驶汽车等。

信息爆炸是我们这个时代最大的问题之一。互联网产生了大量的数据,但我们大多数人更习惯用故事,而不是数字思考。我们甚至根本不喜欢数字。所以,对今天的机器作者而言,重点不在“创造”,甚至不在“语言”,而是帮助人们理解数据的意义和价值。它们针对大数据集,研究其中模式、趋势和相关性,攫取有价值的见解,并以平实流畅的语言写成文章。正如哈蒙德所说:“凡是有数字的地方都应该有故事。机器作者的价值在于作为数字与故事之间的中介。”

机器人到底是怎么采写故事的呢?
首先要采集大量高质量的数据,建立一个庞大的数据库。体育和财经领域都涉及大量波动性很大的数据:每股收益、股价变化、垒球投手责任得分率(ERA)以及棒球打点(RBI)等。尤其是体育报道,现在很多体育赛事都有摄像头跟踪运动员的每一个动作,从而产生大量的数据。

然后,从这些数据中“计算”出哪些有新闻价值,哪些只是噪音而已。算法怎么判断一则信息的新闻价值呢?所谓偏离常态者为新闻,翻译成机器人的语言就是“关注异常数据”,如最小值、最大值、异数、大起大落、被超越的阈值等等。如果一个球队的获胜概率在两场比赛之间出现大的变化,就意味着一些重要的事情发生了。不久前在哥伦比亚新闻学院的一次研讨会中,Narrative Science透露正在研发一个能进行编辑判断的系统,将更多的新闻价值观内置于算法之内,“算法会决定什么故事值得写,故事应该怎么写,以及展示给什么样的读者看”。

第三,选择故事的“角度”。角度是一种解释或者叙事结构,以确保故事的一致性。这些角度通常由专业记者根据各自领域的报道逻辑和路径为其量身定做叙事模版(这些记者又称“元作者”),如一项体育赛事的报道角度可能是“拉锯战”、“英雄式个人表演”、“强大的团队合作”或者“咸鱼翻身”等等。算法还会按照重要性对各种可能的角度进行排序,并由此形成文章的整体结构。

第四,将当下的数据嵌入模版,并按“元作者”提供的词汇生成句子。

做了10年记者,我每天的工作与我的机器人同行似乎并无大的差别:首先登录六七个新闻网站,打开几十篇文章,一边迅速浏览每篇文章的标题,一边飞快地盘算着这个题目好不好玩,能不能为我所用?如果不好玩,立刻跳过,如果好玩,我的脑子又是另一番斗争:“会有读者关心这个问题吗?我还能找到一个更独特的视角吗?”在这个过程中,我还得时不时刷刷微信,泡泡微博,无端消磨点时间,或者被一两个电话打断,远没有我的机器人同行来得专心致志。

一直以来,我们都相信人类与文字的关系如此独特而深刻,没有任何程序能够复制写作的体验。但在分析这些算法的过程中,你会惊奇地发现,写作的过程——那个我们认为神秘而不可预测的过程,在多大程度上是可以量化和建模的。尤其是新闻写作,从故事的构思、素材的采集、组织与整理、文章结构的处理,到最终的遣词用句,大都有模式和规则可循。只要有模式和规则,就有算法的用武之地。可以想象,在不久的将来,某家著名报社的文体结构,某位专栏作家的论辩方式,某位普利策奖得主的犀利文风都会被陆续纳入算法的叙事“模版”……同一篇报道,它们既可以写出《华尔街日报》式的冷静内敛,也能表现更活泼的博客风格,或者根据雇主的要求,随时添加点儿笑话或毒舌评论。至于文笔?我还相信将来一定会有人开发出某些程序,能对我的机器同行的文字进行工匠式的精雕细琢,还有像“海明威App”这种应用试图教我们人类如何写出海明威的风格呢。

随着这个世界日益的数据化,随着数据的采集从文本逐渐扩展到从神经生理学、情绪等非语言数据,机器人的用武之地将会陆续扩大,它们不会仅仅满足于体育、财经快讯式的报道,而是在重大新闻的报道上与人类记者一争长短。事实上,各大社交媒体上已经可以看出战争的端倪,比如谷歌的德国工程师托马斯·斯坦纳开发的Wikipedia Live Monitor,这个程序实时监控维基百科上287种语言的词条,寻找短时间内狂热编辑的条目——如果很多人在用不同的语言编写同一个事件的词条,则说明有重大事件正在发生。然后这个程序还会检查Facebook、Google+和Twitter,判断是否真的有大新闻发生。据斯坦纳所说,他的程序第一时间发出了关于波士顿马拉松爆炸案与马航失联航班的新闻。如果哈蒙德的预言成真,不久的将来果真有算法获得普利策奖,对我们这些人类记者而言意味着什么呢?

或许这是我们唯一可以安慰自己的地方:人工智能在60多年的发展历程中不断地在人类的智识领域攻城略地,但始终未能真正通过图灵测试,这也意味着人类始终保持着唯一的思考者地位。而且,我们人生每一个短暂的瞬间都沉浸在机器所无法量化的“数据”之中——呼吸、走路、阳光透过枝桠照到脸上的感觉。机器可以根据格式和语法规则写一首诗,或者一篇小说,它可以选择华丽的词汇,写出流畅的句子,但它不会对任何一个词的优美,或者一个句子的独特产生满足感。全世界的数据加起来,也无法让一个程序理解爱、悲伤或恐惧。但真正的新闻佳作最终都是关于人的。至少我最好的文章从来不是来自数据,而是来自采访,来自交谈,来自旅行,来自人生经验,以及漫步时偶然出现在脑海里的灵光一现。




原文发布时间为:2014-09-19

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
存储 算法
【软/自考】算法写作思路
【软/自考】算法写作思路
58 0
|
10天前
|
存储 算法 调度
基于和声搜索优化算法的机器工作调度matlab仿真,输出甘特图
本程序基于和声搜索优化算法(Harmony Search, HS),实现机器工作调度的MATLAB仿真,输出甘特图展示调度结果。算法通过模拟音乐家即兴演奏寻找最佳和声的过程,优化任务在不同机器上的执行顺序,以最小化完成时间和最大化资源利用率为目标。程序适用于MATLAB 2022A版本,运行后无水印。核心参数包括和声记忆大小(HMS)等,适应度函数用于建模优化目标。附带完整代码与运行结果展示。
|
3天前
|
算法 安全 数据安全/隐私保护
基于AES的遥感图像加密算法matlab仿真
本程序基于MATLAB 2022a实现,采用AES算法对遥感图像进行加密与解密。主要步骤包括:将彩色图像灰度化并重置大小为256×256像素,通过AES的字节替换、行移位、列混合及轮密钥加等操作完成加密,随后进行解密并验证图像质量(如PSNR值)。实验结果展示了原图、加密图和解密图,分析了图像直方图、相关性及熵的变化,确保加密安全性与解密后图像质量。该方法适用于保护遥感图像中的敏感信息,在军事、环境监测等领域具有重要应用价值。
|
18天前
|
算法 数据可视化 BI
基于免疫算法的最优物流仓储点选址方案MATLAB仿真
本程序基于免疫算法实现物流仓储点选址优化,并通过MATLAB 2022A仿真展示结果。核心代码包括收敛曲线绘制、最优派送路线规划及可视化。算法模拟生物免疫系统,通过多样性生成、亲和力评价、选择、克隆、变异和抑制机制,高效搜索最优解。解决了物流仓储点选址这一复杂多目标优化问题,显著提升物流效率与服务质量。附完整无水印运行结果图示。
基于免疫算法的最优物流仓储点选址方案MATLAB仿真
|
7天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于GA遗传优化TCN-GRU时间卷积神经网络时间序列预测算法matlab仿真
本项目基于MATLAB2022a开发,提供无水印算法运行效果预览及核心程序(含详细中文注释与操作视频)。通过结合时间卷积神经网络(TCN)和遗传算法(GA),实现复杂非线性时间序列的高精度预测。TCN利用因果卷积层与残差连接提取时间特征,GA优化超参数(如卷积核大小、层数等),显著提升模型性能。项目涵盖理论概述、程序代码及完整实现流程,适用于金融、气象、工业等领域的时间序列预测任务。
|
7天前
|
算法 定位技术 数据安全/隐私保护
基于遗传优化算法的多AGV栅格地图路径规划matlab仿真
本程序基于遗传优化算法实现多AGV栅格地图路径规划的MATLAB仿真(测试版本:MATLAB2022A)。支持单个及多个AGV路径规划,输出路径结果与收敛曲线。核心程序代码完整,无水印。算法适用于现代工业与物流场景,通过模拟自然进化机制(选择、交叉、变异)解决复杂环境下的路径优化问题,有效提升效率并避免碰撞。适合学习研究多AGV系统路径规划技术。
|
15天前
|
算法 数据安全/隐私保护
基于GA遗传算法的斜拉桥静载试验车辆最优布载matlab仿真
本程序基于遗传算法(GA)实现斜拉桥静载试验车辆最优布载的MATLAB仿真,旨在自动化确定车辆位置以满足加载效率ηq(0.95≤ηq≤1.05)的要求,目标是使ηq尽量接近1,同时减少加载车辆数量和布载耗时。程序通过迭代优化计算车辆位置、方向、类型及占用车道等参数,并展示适应度值收敛过程。测试版本为MATLAB2022A,包含核心代码与运行结果展示。优化模型综合考虑车辆总重量、间距及桥梁允许载荷密度等约束条件,确保布载方案科学合理。
|
8天前
|
传感器 存储 算法
基于ECC簇内分组密钥管理算法的无线传感器网络matlab性能仿真
本程序基于ECC(椭圆曲线密码学)簇内分组密钥管理算法,对无线传感器网络(WSN)进行MATLAB性能仿真。通过对比网络通信开销、存活节点数量、网络能耗及数据通信量四个关键指标,验证算法的高效性和安全性。程序在MATLAB 2022A版本下运行,结果无水印展示。算法通过将WSN划分为多个簇,利用ECC生成和分发密钥,降低计算与通信成本,适用于资源受限的传感器网络场景,确保数据保密性和完整性。
|
18天前
|
机器学习/深度学习 算法 JavaScript
基于GA遗传优化TCN时间卷积神经网络时间序列预测算法matlab仿真
本内容介绍了一种基于遗传算法优化的时间卷积神经网络(TCN)用于时间序列预测的方法。算法运行于 Matlab2022a,完整程序无水印,附带核心代码、中文注释及操作视频。TCN通过因果卷积层与残差连接学习时间序列复杂特征,但其性能依赖超参数设置。遗传算法通过对种群迭代优化,确定最佳超参数组合,提升预测精度。此方法适用于金融、气象等领域,实现更准确可靠的未来趋势预测。
|
30天前
|
算法 数据安全/隐私保护 异构计算
基于LSB最低有效位的音频水印嵌入提取算法FPGA实现,包含testbench和MATLAB对比
本项目展示了一种基于FPGA的音频水印算法,采用LSB(最低有效位)技术实现版权保护与数据追踪功能。使用Vivado2019.2和Matlab2022a开发,完整代码含中文注释及操作视频。算法通过修改音频采样点的最低有效位嵌入水印,人耳难以察觉变化。然而,面对滤波或压缩等攻击时,水印提取可能受影响。该项目运行效果无水印干扰,适合实时应用场景,核心逻辑简单高效,时间复杂度低。

热门文章

最新文章