用AI追热点,自动化编辑新闻,路透社已经这么做了 | 附论文

简介:
本文来自AI新媒体量子位(QbitAI)

8774a9269458187208e9089f5a3cc1a9bac31a8a

“互联网的出现和随后的信息爆炸导致记者越来越难以准确、迅速地获取新闻。”路透社的研发团队本周在arXiv的一篇论文的开场白中如此写道。

对于路透社来说,假新闻的出现导致这个问题变得更加尖锐,因为这些假新闻扭曲了人们对事件的感知。

然而,美联社等新闻机构已经开始使用自动化的新闻写作服务。他们会采用标准的模式,例如,在报道财经新闻和体育比赛结果时,直接将数据粘贴到预先编写的模板中:“X公司第三季度实现利润Y万美元,超出华尔街预期……”

因此,其他新闻机构也面临压力,必须启用自动化新闻制作技术。今天,路透社阐述了它是如何在时间发生后第一时间完全通过自动化技术识别突发新闻的。

刘小沫(XIaomo Liu,音译)他的在路透社研发部门及阿里巴巴的同事表示,这套新系统运行良好。事实上,它有可能彻底改变新闻行业。但这也引发了人们的担忧,他们担心这样一套系统可能被心怀恶意的人控制。

这个新系统被称为路透社追踪器(Reuters Tracer)。它使用Twitter作为一种全球传感器,记录新闻事件的发生。系统之后使用各种类型的数据挖掘和机器学习来挑选出最相关的事件,确定它们的主题,排列它们的优先级,写出标题和摘要。之后,这些新闻就会发布在该公司的全球新闻专线上。

流程的第一步是吸收Twitter的数据流。追踪器每天查看大约1200万条推文,占总数的2%。其中一半是随机抽样,另外一半来自路透社记者的Twitter帐号列表,包括其他新闻机构的帐号、重要的公司、有影响力的个人等。

下一步是确定新闻事件发生的时间。追踪器这样做的前提假设是:如果几个人同时开始谈论这件事,这个事件就已经发生。因此它使用聚类算法来寻找这些对话。

当然,这些聚类包括垃圾信息、广告、普通聊天等。只有一部分涉及有新闻价值的事件。所以下一个步是对事件进行分类和排序。追踪器使用许多算法来完成这项工作。

第一个算法负责确定对话主题。之后将此与路透社团队从31个官方新闻帐号收集的推文进行对比,包括@CNN、@BBCBreaking和@nytimes,以及@BreakingNews等新闻聚合器。

在这个阶段,这套算法还会使用一个包含城市和地理位置的关键词数据库来判断事件发生的地点。

一旦一段谈话或谣言被认为可能是新闻,关键就是要确认它的真实性。为了确定这一点,追踪器需要找出对话中提到的最早的推文和它所指向的网站,以此来寻找来源。然后,它会查询了一个数据库,其中列出了已知的虚假新闻制作者,如《National Report》,或者讽刺新闻网站《The Onion》

最后,该系统会写出标题和摘要,并在整个路透社中分发新闻。

路透社的团队表示,在试验过程中,该系统运行良好。他们说:“追踪器能够在新闻探测和传播上实现有竞争力的准确度和时效性。”

他们有统计数据来支持这一点。该系统每天处理1200万条推文,大约80%的都是噪音。剩下的大约会归入6000个聚类,系统将其视作不同类型的新闻事件。这都是由13个运行10个不同算法的服务器完成的。

相比之下,路透社在世界各地雇佣了大约2500名新闻记者,他们每天都使用包括Twitter在内的各种来源制作大约3000条新闻提示。其中大约有250条是新闻故事。

路透社将追踪器识别的新闻与BBC和CNN等机构新闻的信息流中出现的新闻进行对比。刘小沫和他的同事说:“结果显示,追踪器可以用2%的Twitter数据覆盖70%的新闻报道。”

这套系统的运行速度很快。该团队举了一个例子:2017年10月,拉斯维加斯枪击案导致58人死亡。有目击者在凌晨1点22分报告了这一事件,触发了一个追踪器聚类。

然而,这个聚类不符合系统给事件制定的标准,因而直到凌晨1点39分才被包含到信息流中。“路透社在凌晨1点49分报道了此事。”刘小沫和他的同事说。

这是一项有趣的工作,但也引发了许多问题,特别是关于系统的易用性。不难想象,心怀不轨的人会设计专门的Twitter消息来欺骗追踪器。

不过,这套系统是否比现有的系统更容易欺骗,恐怕还很难判断。毕竟,人类记者也经常被各种假消息欺骗。

此外,人类在新闻行业仍要扮演自己的角色。未来的新闻肯定会越来越自动化,人类如何融入其中仍然无法确定。

论文地址

https://arxiv.org/abs/1711.04068


—  —

本文作者:李杉
原文发布时间:2017-12-03 
相关文章
|
6月前
|
人工智能 自然语言处理 测试技术
从人工到AI驱动:天猫测试全流程自动化变革实践
天猫技术质量团队探索AI在测试全流程的落地应用,覆盖需求解析、用例生成、数据构造、执行验证等核心环节。通过AI+自然语言驱动,实现测试自动化、可溯化与可管理化,在用例生成、数据构造和执行校验中显著提效,推动测试体系从人工迈向AI全流程自动化,提升效率40%以上,用例覆盖超70%,并构建行业级知识资产沉淀平台。
从人工到AI驱动:天猫测试全流程自动化变革实践
|
6月前
|
存储 人工智能 自然语言处理
拔俗AI自动化评价分析系统:让数据说话,让决策更智能
在用户体验为核心的时代,传统评价分析面临效率低、洞察浅等痛点。本文基于阿里云AI与大数据技术,构建“数据-算法-应用”三层智能分析体系,实现多源数据实时接入、情感与主题精准识别、跨模态融合分析及实时预警,助力企业提升运营效率、加速产品迭代、优化服务质量,并已在头部电商平台成功落地,显著提升用户满意度与商业转化。
630 0
|
6月前
|
Web App开发 人工智能 JavaScript
入门指南:使用 Playwright MCP Server 为你的 AI Agent 赋予浏览器自动化能力
借助Playwright MCP Server,AI助手可实现网页自动操作:填表、抓数据、执行重复任务。通过MCP协议连接AI与浏览器,让AI从“能说”变为“会做”。支持主流浏览器,配置简单,助力打造智能数字助手。
|
6月前
|
人工智能 搜索推荐 UED
一个牛逼的国产AI自动化工具,开源了 !
AiPy是国产开源AI工具,结合大语言模型与Python,支持本地部署。用户只需用自然语言描述需求,即可自动生成并执行代码,轻松实现数据分析、清洗、可视化等任务,零基础也能玩转编程,被誉为程序员的智能助手。
|
6月前
|
人工智能 物联网 调度
边缘大型AI模型:协作部署与物联网应用——论文阅读
论文《边缘大型AI模型:协作部署与物联网应用》系统探讨了将大模型(LAM)部署于边缘网络以赋能物联网的前沿框架。针对传统云端部署高延迟、隐私差的问题,提出“边缘LAM”新范式,通过联邦微调、专家混合与思维链推理等技术,实现低延迟、高隐私的分布式智能。
1154 6
边缘大型AI模型:协作部署与物联网应用——论文阅读
|
7月前
|
机器学习/深度学习 人工智能 资源调度
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
本文探讨智能家居中AI决策的可解释性,提出以人为中心的XAI框架。通过SHAP、DeepLIFT等技术提升模型透明度,结合用户认知与需求,构建三层解释体系,增强信任与交互效能。
490 19
智能家居环境中的AI决策解释:实现以人为中心的可解释性——论文阅读
|
7月前
|
机器学习/深度学习 人工智能 测试技术
EdgeMark:嵌入式人工智能工具的自动化与基准测试系统——论文阅读
EdgeMark是一个面向嵌入式AI的自动化部署与基准测试系统,支持TensorFlow Lite Micro、Edge Impulse等主流工具,通过模块化架构实现模型生成、优化、转换与部署全流程自动化,并提供跨平台性能对比,助力开发者在资源受限设备上高效选择与部署AI模型。
657 9
EdgeMark:嵌入式人工智能工具的自动化与基准测试系统——论文阅读
|
7月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
454 10