如何揪出论坛里的骂街党?维基百科和谷歌联合开发机器学习算法

简介:

如何揪出论坛里的骂街党?维基百科和谷歌联合开发机器学习算法

最近,来自维基百科和谷歌的 IT 专家,公布了把 AI 用于“节制”维基百科用户评论的成果——找出哪些用户在搞人身攻击,还有他们为什么要在网上骂街。

针对该问题,研究人员开发机器学习算法,分析维基百科在 2015 年收到的的海量评论。这一年,维基百科讨论页面共收到 6300 万条评论。这些评论存在的本意,是讨论如何改进维基百科收录的各条文章。

这些算法使用 10 万条包含侮辱性言辞的评论以进行训练,当然,这样的样本规模只能算是偏小的。起初,十名人类员工对这些评论进行分类,以明确用户评论中都出现了哪些人身攻击语言方式。举个例子,该机器学习算法能区别直接人身攻击(比如“你是个XX”),第三方人身攻击(张三是个XX),以及间接人身攻击(“张三说李四是XX”)

研究成果以论文形式发表出来,题目为'Ex Machina: Personal Attacks Seen at Scale'(Ex Machina:大规模人身攻击)。雷锋网得到消息,该论文将在四月份澳大利亚珀斯举行的的世界互联网大会上展出。

34 名用户“贡献”了 9% 的网上谩骂

如何揪出论坛里的骂街党?维基百科和谷歌联合开发机器学习算法


横坐标轴:总发帖数;竖轴:侮辱性言论比值;黑色:匿名用户;蓝色:注册用户

如上图,匿名用户发布人身攻击言论的概率,比注册用户高六倍。但发表最多侮辱性言论的,却是一小撮活跃注册用户。

该分析表明,维基百科 43% 的发表言论来自匿名用户。这些人中的绝大部分并不经常发帖,有的就只发过一次。但平均发表脏话概率比注册用户高六倍。但据雷锋网(公众号:雷锋网)了解,维基百科注册用户比匿名评论用户多 20 倍,意味着超过半数的人身攻击言论仍是注册用户发表的。

研究人员发现,大多数情况下用户言论是得体的。80% 的人身攻击来自于 9000 多名用户,而这一群体发侮辱性帖子的平均次数少于五次。意味着大多数人只在被激怒后,才开始在网上骂街。

但是,有一个包含 34 名活跃用户的小群体。研究人员对该群体的打分是“危害指数超过 20”。这 34 个人竟然贡献了维基百科全部侮辱性言论的近十分之一,准确来说,是 9%。

很明显,这些人就是网络世界里所谓的“骂街党”——那些喜欢上网和人骂战,把人身攻击作为日常宣泄、娱乐活动的人。现在的好消息是,新的机器学习算法使得维基百科在用户群中找出这些人变得更加容易,然后只需要把这几个人的账户封掉,就能一下子减少论坛上 9% 的恶意言论。太划算了,是不是?这意味着偶尔发表人身攻击言论的普通用户不必被封号——大多数只在和人吵起来之后才开骂。这还意味着,维基百科不需要像拉网一样把全部评论筛一遍,用机器学习检测侮辱性言辞,而只需把精力放在管理这些极少数的骂街党上。

论坛维护:人+AI

如何揪出论坛里的骂街党?维基百科和谷歌联合开发机器学习算法

网上骂战,有时像野火一样被瞬时点着。正因如此,相比能自动决定该屏蔽哪个论坛用户的计算机程序,有时候人类管理员更有用。

论文作者们在结论中说道:

“这些结果说明,围绕着人身攻击行为的一系列问题并不好解决。但我们的研究证实,目前只有不到五分之一的人身攻击行为,会触发维基百科违规程序。”

未来,AI 大概会在网站评论管理中起到越来越大的作用。研究人员指出,能自动筛选评论的系统可发挥极大的辅助作用——人类管理员能更清晰地把握用户谈话的健康状况,并可以更快得发现“有毒”评论内容,在引发更多用户反感之前采取措施。





本文作者:三川
本文转自雷锋网禁止二次转载, 原文链接
目录
相关文章
|
2月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
165 4
|
19天前
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
130 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
9天前
|
机器学习/深度学习 算法 网络安全
CCS 2024:如何严格衡量机器学习算法的隐私泄露? ETH有了新发现
在2024年CCS会议上,苏黎世联邦理工学院的研究人员提出,当前对机器学习隐私保护措施的评估可能存在严重误导。研究通过LiRA攻击评估了五种经验性隐私保护措施(HAMP、RelaxLoss、SELENA、DFKD和SSL),发现现有方法忽视最脆弱数据点、使用较弱攻击且未与实际差分隐私基线比较。结果表明这些措施在更强攻击下表现不佳,而强大的差分隐私基线则提供了更好的隐私-效用权衡。
41 14
|
19天前
|
存储 分布式计算 算法
企业级推荐开发平台 PAI-Rec
本文介绍了企业推荐系统的关键技术和解决方案。主要内容分为四部分:1) 推荐系统面临的挑战,如数据治理和算法优化;2) 提高开发效率的解决方案,通过配置化和自动化减少重复工作;3) 高性能推荐算法和推理服务,包括GPU优化和特征组合;4) 高效特征管理平台PAI FeatureStore,支持离线和实时特征处理。文中还提到了EasyRecTorch框架,用于加速训练和推理,并分享了如何通过这些工具提升推荐系统的性能和降低成本。
|
1月前
|
机器学习/深度学习 前端开发 算法
婚恋交友系统平台 相亲交友平台系统 婚恋交友系统APP 婚恋系统源码 婚恋交友平台开发流程 婚恋交友系统架构设计 婚恋交友系统前端/后端开发 婚恋交友系统匹配推荐算法优化
婚恋交友系统平台通过线上互动帮助单身男女找到合适伴侣,提供用户注册、个人资料填写、匹配推荐、实时聊天、社区互动等功能。开发流程包括需求分析、技术选型、系统架构设计、功能实现、测试优化和上线运维。匹配推荐算法优化是核心,通过用户行为数据分析和机器学习提高匹配准确性。
104 3
|
1月前
|
算法
PAI下面的gbdt、xgboost、ps-smart 算法如何优化?
设置gbdt 、xgboost等算法的样本和特征的采样率
61 2
|
2月前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
63 1
|
6天前
|
算法 数据安全/隐私保护 计算机视觉
基于Retinex算法的图像去雾matlab仿真
本项目展示了基于Retinex算法的图像去雾技术。完整程序运行效果无水印,使用Matlab2022a开发。核心代码包含详细中文注释和操作步骤视频。Retinex理论由Edwin Land提出,旨在分离图像的光照和反射分量,增强图像对比度、颜色和细节,尤其在雾天条件下表现优异,有效解决图像去雾问题。
|
6天前
|
算法 数据可视化 安全
基于DWA优化算法的机器人路径规划matlab仿真
本项目基于DWA优化算法实现机器人路径规划的MATLAB仿真,适用于动态环境下的自主导航。使用MATLAB2022A版本运行,展示路径规划和预测结果。核心代码通过散点图和轨迹图可视化路径点及预测路径。DWA算法通过定义速度空间、采样候选动作并评估其优劣(目标方向性、障碍物距离、速度一致性),实时调整机器人运动参数,确保安全避障并接近目标。
101 68
|
16天前
|
算法 数据安全/隐私保护
室内障碍物射线追踪算法matlab模拟仿真
### 简介 本项目展示了室内障碍物射线追踪算法在无线通信中的应用。通过Matlab 2022a实现,包含完整程序运行效果(无水印),支持增加发射点和室内墙壁设置。核心代码配有详细中文注释及操作视频。该算法基于几何光学原理,模拟信号在复杂室内环境中的传播路径与强度,涵盖场景建模、射线发射、传播及接收点场强计算等步骤,为无线网络规划提供重要依据。