带你读《2022技术人的百宝黑皮书》——ACL2022 自监督文本表示新框架ArcCSE(4) https://developer.aliyun.com/article/1243560?groupCode=taobaotech
SentEval 任务
表2. 文本表示在SentEval迁移任务的性能
表2结果表明基于ArcCSE产生的文本表示向量在应用于下游的文本分类、情感分析等任务时取得了较好的效果,平均准确率优于SimCSE及其他经典模型。
总结
论文提出一种新的自监督文本表示框架ArcCSE,其通过引入angular margin构建了一个新的对比学习目标,可增强文本语义判别能力,同时提出了一个新的自监督任务对文本的语义偏序关系进行建模。在STS语义相似度判别任务和SentEval迁移任务上的实验表明ArcCSE效果优于SOTA算法。该方案已在淘系内容理解业务中落地应用,如点淘、闲鱼业务场景中话题及内容的检索聚合等。
Reference
团队介绍
大淘宝技术内容理解团队依托淘系内容数据资产,建设了内容场景下的结构化标签、检索、审核、互动与生产等技术体系。支持淘宝直播、逛逛和点淘等十余个核心业务。我们持续以技术驱动产品和商品创新,不断探索和衍生颠覆型互联网新技术,获得过国家科技进步二等奖,在NIPS、CVPR、ACL、TPAMI、TIP等会议及期刊上发表10余篇机器视觉和自然语言相关的论文。