两篇AAAI论文,揭示微信如何做文章质量评估

简介: 本文介绍了微信搜索数据质量团队在 AAAI 2021 大会发表的两篇研究。

随着社交媒体和移动信息流应用的发展,涌现出了许多用户生成内容模式下的自媒体应用,每个用户都可以作为内容生产者,产生了海量在线文章内容。这些自媒体应用提供推荐和搜索服务让内容消费者可以浏览他们感兴趣的内容。同时,自媒体内容创作的开放性同时也导致了文章质量的参差不齐。在推荐和搜索系统中,结果质量是影响用户体验的的重要因素,评估自媒体在线文章质量对在线推荐、搜索和广告等应用场景都具有重要意义。


文章质量可以从两个维度进行评价,一是从文章内容本身来进行质量的建模和识别,包括内容语义、写作逻辑等方面。二是根据文章在大众用户中的流行度和传播度来判断,文章的流行度和传播量反应了用户对文章的喜爱程度,内容消费者在阅读和传播过程中会对低质量内容进行筛选和过滤。


在 AAAI 2021 上,微信搜索数据质量团队在文章写作连贯性建模和实时传播度预测两个方面发表了研究论文,下面将分别进行介绍。


论文:Hierarchical Coherence Modeling for Document Quality Assessment


微信图片_20211205100527.jpg


不同于其它文本分类任务(如文本主题分类、情感识别等)主要关注文本内容的语义,文章质量不止跟文章语义有关,也跟文章的写作水平有关。写作水平包括遣词造句和文章结构组织的连贯性、逻辑性。


其中,如何建模文章的写作连贯性 (coherence) 是一个困难的任务,有很多研究人员已经在这个问题上做出了他们的贡献。相关研究可以分为三类:(1) 基于实体的方法,识别句子中的实体,建模相邻句子中实体的联系;(2) 基于词汇的方法,建模相邻句子的词共现信息 (3) 基于神经网络的方法,利用神经网络学习词和句字语义的向量表示,建模语义向量的相似度。大部分现有方法都只关注到了相邻句子的相似性,但是相邻句子的相似性只是写作连贯性的一部分。


连贯性不只是两个相邻的句子描述相似的内容,多个相邻句子可能构成更复杂修辞结构,比如排比、并列等。在这些修辞结构中,相邻的句子不一定很相似,但是上下文整体是连贯的。除此之外,写作连贯性也不止存在于局部上下文,文章写作很可能存在层次结构,多个局部连贯的内容组成一个部分(段落),段落间的连贯性也是文章写作连贯性的一个重要部分。因此建模文章的写作连贯性还需要解决这样两个挑战:(1) 如何建模复杂多样的局部修辞结构?(2) 如何建模文章的层次连贯性?


针对上述挑战,微信搜索数据质量团队提出名为 Hierarchical Coherence Model (HierCoh) 的方法来建模文章质量。模型包括 4 个部分:Sentence Layers 通过 Transformer Encoder 建模词向量,并通过 Attention Pooling 得到句子表示向量;Hierarchical Coherence Layers 建模文章的层次连贯性得到连贯性向量;Document Layers 将句子表示向量汇聚在一起得到文章语义表示向量;最后将连贯性向量和语义向量合并起来输入到任务相关的输出层。


微信图片_20211205100531.jpg

图 1. HierCoh 模型框架图


层次连贯性建模


HierCoh 中最重要的部分是层次连贯性建模部分。该部分首先提取每个句子的局部上下文(local context block) 语义,然后得到句子跟该上下文的多维连贯性表示向量。研究者将句子视为最低级(low-level)的语义单元,然后基于这样一个假设得到高级 (high-level) 语义单元:如果连续的几个低级语义单元具有高连贯性,那么他们可以被视为一个高级语义单元。然后用同样的方式得到高级语义单元的连贯性,以及更高级的语义单元和他们的连贯性。研究者用 Local Attention 来提取局部上下文,用双线性层来建模多维连贯性,并提出了 Max-coherence Pooling 来提取高级语义单元。


微信图片_20211205100534.jpg

图 2. Hierarchical Coherence Layer


Local Attention. 将 CNN 中的局部连接结构和 Attention 机制相结合,相比采用线性变化做卷积计算,Local Attention 更适合将相邻句子的语义汇聚成上下文语义。


微信图片_20211205100537.jpg

图 3. Location Attention 


Bilinear Tensor Layer. 双线性层中包含一个参数张量,参数张量中的每个切片矩阵可以视为是一种修辞关系的表示,因此通过双线性层得到的多维连贯性向量就表示了多种修辞关系的概率。


微信图片_20211205100539.jpg

图 4. Bilinear Layer


Max-Coherence Pooling. 以步长 p 在大小为 k 的窗口内将低级语义单元合并为高级语义单元,首先计算窗口内每个 local context block 的平均连贯性向量,然后取最大连贯性向量的最大维度(即概率最大的修辞关系的概率)作为该 local context 的连贯性分数,然后取窗口内连贯性分数最大的 local context 作为高级语义单元。


微信图片_20211205100541.jpg

微信图片_20211205100843.jpg


然后重复 Local Attention 和 Bilinear Tensor Layer 即可得到高阶连贯性。最后用 Attention 将多级连贯性融合成连贯性向量,就得到了文章的多层次连贯性表示。


实验验证


该模型在两个经典的文章质量评估任务上进行了验证:自动作文打分和在线新闻质量判别。


自动作文打分(Automated Eassy Scoring)采用该任务最常用的 APSP 文档集[1]。该数据集包含 8 个作文题目,每个题目下的作文得分被缩放到 [0,1] 区间内。解决该任务采用了 sigmoid 输出层,均方误差作为损失函数来训练模型。


在自动作文打分任务上的结果如下表,可以看出 HierCoh 模型在作文题目 1-7 的集合上都取得了最优 / 较优的效果(作文集合 8 由于文章数量最少并且文章长度最长)。

微信图片_20211205100545.jpg



此外,微信搜索数据质量团队采集了微信平台上的新闻文章,并将描述同一个主题或事件的新闻组成新闻对,雇佣标注人员标注了这两篇新闻的质量哪个更好。共分为 3 个类别,类别 0 表示两篇新闻质量相近,类别 1 表示第一篇新闻质量更好,类别 2 表示第二篇新闻质量更好。研究者用孪生网络结构来建模两篇文章,然后合并最终的文章表示向量到 softmax 输出层,得到三分类概率,并用交叉熵作为损失函数来训练模型。实验结果如下,HierCoh 模型取得了最优的效果。


微信图片_20211205100547.jpg


论文:Fully Exploiting Cascade Graphs for Real-time Forwarding Prediction


微信图片_20211205100551.jpg


传播量是衡量在线文章受欢迎程度的最重要指标之一。在线文章的传播量是指用户通过社交媒体转发在线文章的次数。在社交媒体中,用户与他们的朋友共享并交换有趣的文章内容。因此,在线内容的传播通常从作者开始,并通过社交网络传播,从而形成级联图。级联图通常是有向无环图。其中有向路径表示通过社交网络的内容传播过程。社交网络上的信息传播形成为社交网络强化模型和以社交中心为枢纽的模式。级联图的尺寸(节点数量)可被视为在线内容的转发量。因此可以通过对级联图建模,从而得到能准确预测传播量的模型。


微信图片_20211205100554.jpg

图 1. 级联图示例


但是,现有的方法要么无法有效建模级联图、要么忽略了级联图尺寸的宏观变化信息。尽管基于图卷积神经网络 (GCN) 的方法可以通过重复聚合邻居节点特征并更新节点特征最终遍历所有节点,但它对于建模深的级联路径来说是迂回曲折的。基于随机游走 (Random Walk) 的方法会随机选择片面的级联路径,可能会丢失社交中心的信息。另一方面,只聚焦于学习级联图的路径结构和节点信息,会忽略级联图尺寸的宏观变化信息。


为了解决这些挑战,微信数据质量团队提出了一个充分利用级联图信息进行转发量预测的方案。在该方案中,设计了针对级联图的图嵌入算法,能有效捕获对级联图中的深度传播路径和社交枢纽信息;还设计了级联图尺寸建模方法,该方法能有效应对级联图尺寸的急剧变化。作者还构建了一个大规模的真实世界评估数据集。充分的实验结果表明,与之前的转发量建模和图嵌入方法相比,所提出的方法在实时的转发量预测方面,准确率有了极大的提升。


具体方法


微信搜索数据质量团队提出了时间级联图建模(TempCas)方案,以解决上述挑战。该方案包含两部分:级联图嵌入和适应短期爆发的时间序列建模。方案总览如图 2 所示。


微信图片_20211205100557.jpg

图 2. 方案总览


(1)级联图嵌入


给定一个级联图快照系列,级联图嵌入负责捕获级联图特征的三个方面,包括:扩散特征,尺寸特征和时间特征。本方案通过 4 个步骤捕获这三个特征。


步骤 1:级联路径采样。社交中心和深度级联路径对级联图影响最大,而其他叶节点等几乎没有传播影响。为了充分获得级联图扩散特征,社交中心和深度级联路径是捕获级联图扩散特征的关键。为此,研究者设计了一个启发式的路径采样策略,如算法 1 所示。


微信图片_20211205100600.jpg


步骤 2:级联路径表示。在通过算法 1 进行路径采样之后,研究者通过 BiGRU 得到节点表示。再通过两层 Attention 机制获得级联路径的表示向量。


步骤 3:采样的路径涵盖了最具影响力的节点和路径,但可能会丢失许多琐碎节点(例如叶子节点)的信息,这些琐碎节点构成了级联图的主要部分,但扩散影响很小。因此,研究者提取琐碎节点信息作为补充信息(如下图所示),以使模型了解琐碎节点的结构和尺度。


微信图片_20211205100603.jpg


步骤 4:最后,研究者通过一层 LSTM 来捕获级联图的特征的时间序列信息。


(2)适应短期爆发的时间序列建模


级联图尺寸的短期爆发对实时转发预测影响很大。研究者采用了一种 Attention CNN 机制来对短期暴发进行建模。在 Attention CNN 机制之后堆叠一个 LSTM 层来对历史短期暴发的影响进行建模。


实验


研究者从微信公众号平台上收集处理在线文章数据,构建了一个自媒体在线文章质量分类数据集。研究者从 2019 年 8 月 1 日至 2019 年 9 月 30 日随机抽样了 26,893 篇文章,并跟踪 75 小时内每篇文章的所有转发情况。除微信数据集外,为了更全面地评估模型,研究者还采用了微博转发数据集。


对比实验结果显示,所提方法 TempCas 在各项指标上均显著达到最佳。此外,将本方案的级联图嵌入部分(TempCasG)和其他图嵌入方案相比,本方案提出的级联图嵌入也达到了最优的转发量预测效果。


微信图片_20211205100606.jpg


通过观察 Table 3,可以看到,与基于时间序列的转发量预测方法相比,基于级联图嵌入的转发量预测方法的准确率相对较弱。实际上,当面对热点在线内容时,基于级联图嵌入的方法比基于时间序列的方法更为准确。研究者对此进行了更进一步的探索以验证此结论。


微信图片_20211205100610.jpg


研究者将多个方案的 RMSE 预测结果与相应的最终转发量相关上,并绘制了 Figure 4。可以看到,当面对热点内容时,基于级联图嵌入的方法往往比基于时间序列的方法具有更好的性能。

相关文章
|
4天前
|
机器学习/深度学习 自然语言处理 算法
调研180多篇论文,这篇综述终于把大模型做算法设计理清了
《A Systematic Survey on Large Language Models for Algorithm Design》综述了过去三年大型语言模型(LLMs)在算法设计中的应用。LLMs通过自然语言处理技术,助力生成、优化和验证算法,在优化、机器学习、数学推理等领域展现出广泛应用前景。尽管存在资源需求高、结果不确定等挑战,LLMs仍为算法设计带来新机遇。论文地址:https://arxiv.org/abs/2410.14716。
31 14
|
2月前
|
机器学习/深度学习
顶会审稿人紧缺,我审我自己!ICML 2023排序实验结果出炉:作者自评能提升评审质量吗?
【10月更文挑战第8天】ICML 2023通过一项创新实验,要求作者对提交的多篇论文进行自评排名,以评估其相对质量。实验结果显示,作者自评能提高评审的准确性和效率,但需谨慎处理潜在的主观性和操纵问题。
33 5
|
3月前
|
自然语言处理 数据安全/隐私保护
整合 200 多项相关研究,大模型终生学习最新综述来了
【9月更文挑战第26天】近年来,大型语言模型(LLMs)在自然语言处理、智能问答及内容生成等领域广泛应用。面对不断变化的数据、任务和用户偏好,LLMs需具备适应能力。传统静态数据集训练方式难以满足需求,因此提出了“终身学习”方法,使模型持续学习新知识并避免遗忘旧知识。最新综述文章整合200多项研究,将终身学习分为内部知识(连续预训练和微调)与外部知识(基于检索和工具)两大类,涵盖12种应用场景,探讨了模型扩展和数据选择等新兴技术。然而,终身学习也面临计算资源、知识冲突及数据安全等挑战。
84 6
|
机器学习/深度学习 人工智能 自然语言处理
500篇论文!最全代码大模型综述来袭
11月14日,蚂蚁集团联合上海交通大学发布55页代码大模型综述,覆盖超过50个模型、30个下游任务、500篇参考文献,全方位总结大语言模型在代码相关应用中的最新进展与挑战。
1402 0
|
机器学习/深度学习 人工智能 测试技术
三篇论文:速览GPT在网络安全最新论文中的应用案例
三篇论文:速览GPT在网络安全最新论文中的应用案例
200 0
|
存储 机器学习/深度学习 人工智能
分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应
分析过688篇大模型论文,这篇论文综述了LLM的当前挑战和应
587 1
|
机器学习/深度学习 人工智能 安全
调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限
调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限
338 0
|
编解码
nnUNet 详细解读(一)论文技术要点归纳
nnUNet 详细解读(一)论文技术要点归纳
593 0
|
自然语言处理 算法 数据挖掘
ACL2022 | 清华大学、DeepMind等指出现有小样本学习方法并不稳定有效,提出评价框架
ACL2022 | 清华大学、DeepMind等指出现有小样本学习方法并不稳定有效,提出评价框架
172 0
|
机器学习/深度学习 人工智能 自然语言处理
30页论文!俞士纶团队新作:AIGC全面调查,从GAN到ChatGPT发展史
30页论文!俞士纶团队新作:AIGC全面调查,从GAN到ChatGPT发展史
171 0