AI=爱,阿里达摩院的“谣言粉碎机”拯救了爸妈朋友圈

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: “谣言粉碎机”技术的背后,是一次史无前例的信任重建。只有假新闻被扼杀在繁衍的温床里,破碎将倾的信任才会被重新扶起顶天立地。 而信任,是爱的最好证明。AI = 爱。

小编有话说:从那句熟悉的“狼来了”开始,谣言开始在我们生活无孔不入,一些不坏好意的人,把谎言变成一张漂亮的包装纸,裹挟着诈骗、虚荣、不怀好意,肆意横行。总有人想改变这一切。阿里达摩院的科学家们最近在用AI识别谣言的研究上,有了一些小突破。

image.png

当全民疯抢板蓝根食盐白醋,终日人心惶惶;

当“养生秘闻”“200%理财回报”充斥在朋友圈,无数养老钱血本无归;

当“寒门状元之死”透支人们对世界的信任;

......

人们被迫练就了一身硬邦邦的铠甲,一边斜眉冷视周围的世界,一边草木皆兵地生存。宁可信其有,不可信其无。然而,总有人想改变这一切。达摩院的科学家们最近在用AI识别谣言的研究上,有了一些小突破。


在了解到这个信息后,我第一时间采访到了达摩院NLP团队的核心成员之一——李泉志,他本科毕业于清华大学,后在美国获得自然语言理解方向的博士学位,目前在达摩院的西雅图办公室工作。

在加入达摩院前,他曾是世界级通讯社——路透社重要的“情报官”:通过机器筛选成千上万的网络信息,为数千位一线记者提供可靠线索。借着这个难得的机会,我“假公济私”,请泉志使用算法鉴定一条关于发来“速转!科学家发现:一味中药48小时可杀死60%癌细胞!”的新闻真假,还原“打假”现场。

在泉志的详细说明下,一个令人惊叹的“打假”模型逐渐露出。事实上,这个运算逻辑远比我之前想得要复杂,甚至显得有点“老谋深算”。

泉志告诉我,判断一个新闻真假,要分三个步骤。首先,在盘根错节的信息里,机器会找到最初的信源,分析其用户画像(专业领域,个人或机构,机构类型,影响力,过去发表的内容类型,是否可信,地域,注册时间,活跃规律等),进而判断此发布者的信誉度。

如果这条新闻带有链接,我们可以再看看链接的域名,是否来自可信网站,比如新华社、政府医药管理局。

接下来,我们拿起听诊器,细细揣摩正文的“心跳声”:

“一味中药48小时可杀死60%癌细胞!”打开正文,我们看看究竟这味中药的成分是哪些?具体对哪些癌细胞起作用?机器会把这些关键的论证提炼为知识点,与知识图谱里的权威知识库做匹配验证。如果毫无联系、自相矛盾,减分。

泉志表示,除了内容不实、上下文逻辑不连贯外,机器还能从行文风格里找到蛛丝马迹。比如:

“多一次转发就多一次活命机会”

“传疯了!晚上一定要关wifi,太吓人了”

......

是的,机器连“标题党”都不放过!假新闻经常会采用夸大性、空洞的说辞来危言耸听。真新闻往往行文严谨、一丝不苟。

如果说前面两步,还算是常规操作。第三步,就是关键:对传播路径的深入分析。

一条谣言在社交网络里引爆,必然有无数的人密集关注。在留言、转发等行为里,有人赞同,有反对,还有质疑,或者只是简单的路过,都是一种态度。

机器统计不仅能统计所有用户的态度,更不可思议的是,它会“看人下菜”,区别对待每条发言的分量。

比如,我弟转发了母上发来的新闻,冒着零用钱缩水的危险表示:“假的!昨天食品监督局已经公开辟谣了”——这条反对意见质疑得较为有力,权重提升。

随后,ID为“小旺仔”的用户也在此条新闻下留言,只写了四个字:消息不实。虽然寥寥数字,但是机器一看,不得了,小旺仔的认证信息是该省第一附属医院的医学教授,权重也得提升。

机器会对所有反馈用户进行画像分析:是否是认证用户、过去发表的内容类型、注册时间、活跃规律、是否和事件发生地在同一个地方等,以此来计算用户信誉度。最后根据不同态度的人群比例、各自的信誉度,以及处于传播路径中的位置等信息,计算出此新闻的可信度。

“如果有人转发了小旺仔的留言,表示‘举双爪支持’,系统会不会认为这是对新闻的赞同?”我感觉自己抓到了系统漏洞,有点小激动。

泉志表示这个问题提得非常好,接着干脆地做了否定:“我们的整个传播路径是个神经网络,环环相扣,不会断章取义的。”以上三步中计算出的信息会输入到神经网络模型中。基于这些信息,模型会综合判断出此新闻是否为谣言。

这个模型的魅力之处在于,你不必为它编写程序去学习人类的指令:它能完全自主学习训练,就像人脑一样“思考”。随着知识库的日益丰富,它的判断能力会越来越好。

“简直是一位飞速成长的大编辑!”我感叹道。

“这还不是全部”,泉志爽朗笑了,“我们还用了多任务学习,‘一心多用’,让机器在同一时间完成多个复杂任务,判断内容真假、观察传播路径、挖掘用户画像这些都能同时进行。”

在有条不紊的运算机制里,机器就像一位冷峻的解剖师,切开浮夸的表象,梳理每一条新闻的经脉、肌理走向,抽丝剥茧,层层剥开,最终找到事实的内核。

泉志接着又透露了一个重要信息——这项技术不仅能控制假新闻源头、防止谣言大规模扩散,它还有一个隐藏的“大招”。

传谣容易,辟谣难。谣言的扩散速度犹如遇到林木的大火,一点即燃,但是当真相出来时,却往往无人问津。

比如,网络曾谣传市面上的香蕉大多泡过药水,许多人从此再没买过香蕉。即使数年后风头过去,还有人表示吃香蕉总觉得有药水味。

这项技术的隐藏”大招“,是可以针对性地为民众辟谣。根据传播路径索引,曾经支持“香蕉浸泡毒液”的人,都可以收到官方的辟谣信息:香蕉浸泡的白色液体不是甲醛,而是符合国家安全标准的保鲜剂,无毒无害;吃酱油不会变黑、开水重复烧也不会有事,交999元每月回报99的“好事”自然更是子虚乌有。

有始有终,皆大欢喜!

达摩院所研发的“AI谣言粉碎机”,在刚刚结束的SemEval全球语义测试中,创造了假新闻识别准确率的新纪录,达到了前所未有的81%。

SemEval 是自然语言处理领域的国际权威比赛,由国际计算语言学学会举办。假新闻识别是此次比赛的主要项目之一,吸引了哥伦比亚大学、华盛顿大学、艾伦·图灵研究所等20多路顶级高手参与。

赛题是这样的:

主办方向所有参赛者提供社交媒体上470余条新闻、以及一万多条相关的留言、转发等数据。参赛者需要根据这些有限的信息,判断这数百条新闻是真是假。

这些似是而非的新闻涉及政治、娱乐、商业、科技等多个领域,比如——

特朗普的差旅开支远远低于奥巴马;

太阳报:英国女王支持英国脱欧;

震惊了!台风过后,高速公路出现一条大鲨鱼;

美国九成媒体被六家公司控制;

吉萨金字塔能利用隐秘的房间集中电磁能能量;

......

此次比赛桂冠由达摩院NLP首席科学家司罗所属的团队斩获,真假新闻二分类上的准确率高达81%,刷新了本竞赛系列上macro F 、RMSE两项关键性指标的世界记录。

在此之前,达摩院NLP团队曾在机器阅读理解顶级赛事SQuAD上,凭借82.440的精准率打破了历史纪录;在国际顶级机器翻译大赛WMT上,连夺英文-中文翻译、英文-俄语互译、英文-土耳其语互译5项第一。

让机器读懂人类语言,并判断人类的表达意图,从而进一步帮助人类实现对信息真假的判断,达摩院的科学家们,从未放弃对技术难题的攻克。

“谣言粉碎机”技术的背后,是一次史无前例的信任重建。只有假新闻被扼杀在繁衍的温床里,破碎将倾的信任才会被重新扶起顶天立地。

而信任,是爱的最好证明。AI = 爱。

相关文章
|
6天前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
315 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
18天前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
585 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
6天前
|
人工智能 数据处理 云栖大会
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
95 9
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
|
6月前
|
机器学习/深度学习 人工智能 编解码
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。
1142 9
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
|
3月前
|
人工智能 搜索推荐 API
AI-Compass DeepSearch深度搜索生态:集成阿里ZeroSearch、字节DeerFlow、MindSearch等前沿平台,实现超越传统关键词匹配的智能信息检索革命
AI-Compass DeepSearch深度搜索生态:集成阿里ZeroSearch、字节DeerFlow、MindSearch等前沿平台,实现超越传统关键词匹配的智能信息检索革命
AI-Compass DeepSearch深度搜索生态:集成阿里ZeroSearch、字节DeerFlow、MindSearch等前沿平台,实现超越传统关键词匹配的智能信息检索革命
|
2月前
|
机器学习/深度学习 数据采集 人工智能
阿里开源即封神,一上线就斩获4000+ star背后的真相,WebAgent多步骤智能网搜神器,颠覆你对AI的信息检索印象!
WebAgent 是阿里巴巴开源的多步骤智能网搜神器,包含 WebWalker、WebDancer、WebSailor 等模块,支持复杂推理与长上下文信息检索,GitHub 已获 4.7k star,颠覆传统 AI 搜索方式。
269 1
|
4月前
|
人工智能 IDE 程序员
阿里也出手了!灵码AI IDE问世
各位程序员小伙伴们,是不是还在为写代码头秃?别担心,阿里云带着它的通义灵码 AI IDE 来拯救你啦!
2130 3
|
4月前
|
人工智能 IDE 程序员
阿里也出手了!灵码AI IDE问世
各位程序员小伙伴们,是不是还在为写代码头秃?别担心,阿里云带着它的通义灵码 AI IDE 来拯救你啦! 相信不少小伙伴已经在VSCode、JetBrains IDE等主流开发工具中安装过通义灵码这款插件。 通义灵码插件全网总下载量超 1500 万,开发者采纳代码行数超 30 亿且每月增速 20%-30%。 今天我们要说的不是这款插件,而是阿里刚出的“为AI而生的灵码IDE”。
480 0
|
8月前
|
机器学习/深度学习 人工智能 编解码
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
Wan2.1是阿里云开源的一款AI视频生成大模型,支持文生视频和图生视频任务,具备强大的视觉生成能力,性能超越Sora、Luma等国内外模型。
2373 2
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频

热门文章

最新文章