如何揪出论坛里的骂街党?维基百科和谷歌联合开发机器学习算法

简介:

如何揪出论坛里的骂街党?维基百科和谷歌联合开发机器学习算法

最近,来自维基百科和谷歌的 IT 专家,公布了把 AI 用于“节制”维基百科用户评论的成果——找出哪些用户在搞人身攻击,还有他们为什么要在网上骂街。

针对该问题,研究人员开发机器学习算法,分析维基百科在 2015 年收到的的海量评论。这一年,维基百科讨论页面共收到 6300 万条评论。这些评论存在的本意,是讨论如何改进维基百科收录的各条文章。

这些算法使用 10 万条包含侮辱性言辞的评论以进行训练,当然,这样的样本规模只能算是偏小的。起初,十名人类员工对这些评论进行分类,以明确用户评论中都出现了哪些人身攻击语言方式。举个例子,该机器学习算法能区别直接人身攻击(比如“你是个XX”),第三方人身攻击(张三是个XX),以及间接人身攻击(“张三说李四是XX”)

研究成果以论文形式发表出来,题目为'Ex Machina: Personal Attacks Seen at Scale'(Ex Machina:大规模人身攻击)。雷锋网得到消息,该论文将在四月份澳大利亚珀斯举行的的世界互联网大会上展出。

34 名用户“贡献”了 9% 的网上谩骂

如何揪出论坛里的骂街党?维基百科和谷歌联合开发机器学习算法


横坐标轴:总发帖数;竖轴:侮辱性言论比值;黑色:匿名用户;蓝色:注册用户

如上图,匿名用户发布人身攻击言论的概率,比注册用户高六倍。但发表最多侮辱性言论的,却是一小撮活跃注册用户。

该分析表明,维基百科 43% 的发表言论来自匿名用户。这些人中的绝大部分并不经常发帖,有的就只发过一次。但平均发表脏话概率比注册用户高六倍。但据雷锋网(公众号:雷锋网)了解,维基百科注册用户比匿名评论用户多 20 倍,意味着超过半数的人身攻击言论仍是注册用户发表的。

研究人员发现,大多数情况下用户言论是得体的。80% 的人身攻击来自于 9000 多名用户,而这一群体发侮辱性帖子的平均次数少于五次。意味着大多数人只在被激怒后,才开始在网上骂街。

但是,有一个包含 34 名活跃用户的小群体。研究人员对该群体的打分是“危害指数超过 20”。这 34 个人竟然贡献了维基百科全部侮辱性言论的近十分之一,准确来说,是 9%。

很明显,这些人就是网络世界里所谓的“骂街党”——那些喜欢上网和人骂战,把人身攻击作为日常宣泄、娱乐活动的人。现在的好消息是,新的机器学习算法使得维基百科在用户群中找出这些人变得更加容易,然后只需要把这几个人的账户封掉,就能一下子减少论坛上 9% 的恶意言论。太划算了,是不是?这意味着偶尔发表人身攻击言论的普通用户不必被封号——大多数只在和人吵起来之后才开骂。这还意味着,维基百科不需要像拉网一样把全部评论筛一遍,用机器学习检测侮辱性言辞,而只需把精力放在管理这些极少数的骂街党上。

论坛维护:人+AI

如何揪出论坛里的骂街党?维基百科和谷歌联合开发机器学习算法

网上骂战,有时像野火一样被瞬时点着。正因如此,相比能自动决定该屏蔽哪个论坛用户的计算机程序,有时候人类管理员更有用。

论文作者们在结论中说道:

“这些结果说明,围绕着人身攻击行为的一系列问题并不好解决。但我们的研究证实,目前只有不到五分之一的人身攻击行为,会触发维基百科违规程序。”

未来,AI 大概会在网站评论管理中起到越来越大的作用。研究人员指出,能自动筛选评论的系统可发挥极大的辅助作用——人类管理员能更清晰地把握用户谈话的健康状况,并可以更快得发现“有毒”评论内容,在引发更多用户反感之前采取措施。





本文作者:三川
本文转自雷锋网禁止二次转载, 原文链接
目录
相关文章
|
22天前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
|
15天前
|
机器学习/深度学习 自然语言处理 算法
|
2天前
|
机器学习/深度学习 算法 搜索推荐
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
29 12
|
27天前
|
存储 算法 Java
金石推荐 | 【算法数据结构专题】「延时队列算法」史上手把手教你针对层级时间轮(TimingWheel)实现延时队列的开发实战落地(下)(一)
金石推荐 | 【算法数据结构专题】「延时队列算法」史上手把手教你针对层级时间轮(TimingWheel)实现延时队列的开发实战落地(下)
32 1
|
1月前
|
机器学习/深度学习 分布式计算 算法
大模型开发:你如何确定使用哪种机器学习算法?
在大型机器学习模型开发中,选择算法是关键。首先,明确问题类型(如回归、分类、聚类等)。其次,考虑数据规模、特征数量和类型、分布和结构,以判断适合的算法。再者,评估性能要求(准确性、速度、可解释性)和资源限制(计算资源、内存)。同时,利用领域知识和正则化来选择模型。最后,通过实验验证和模型比较进行优化。此过程涉及迭代和业务需求的技术权衡。
|
1月前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型:从数据处理到算法优化
【2月更文挑战第30天】 在数据驱动的时代,构建一个高效的机器学习模型是实现智能决策和预测的关键。本文将深入探讨如何通过有效的数据处理策略、合理的特征工程、选择适宜的学习算法以及进行细致的参数调优来提升模型性能。我们将剖析标准化与归一化的差异,探索主成分分析(PCA)的降维魔力,讨论支持向量机(SVM)和随机森林等算法的适用场景,并最终通过网格搜索(GridSearchCV)来实现参数的最优化。本文旨在为读者提供一条清晰的路径,以应对机器学习项目中的挑战,从而在实际应用中取得更精准的预测结果和更强的泛化能力。
|
1月前
|
机器学习/深度学习 自然语言处理 算法
【机器学习】包裹式特征选择之拉斯维加斯包装器(LVW)算法
【机器学习】包裹式特征选择之拉斯维加斯包装器(LVW)算法
56 0
|
1月前
|
机器学习/深度学习 存储 算法
【机器学习】包裹式特征选择之基于遗传算法的特征选择
【机器学习】包裹式特征选择之基于遗传算法的特征选择
56 0
|
1月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
|
1月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
27 1

热门文章

最新文章