带你读《2022技术人的百宝黑皮书》——ACL2022 自监督文本表示新框架ArcCSE(5)

简介: 带你读《2022技术人的百宝黑皮书》——ACL2022 自监督文本表示新框架ArcCSE(5)

带你读《2022技术人的百宝黑皮书》——ACL2022  自监督文本表示新框架ArcCSE(4) https://developer.aliyun.com/article/1243560?groupCode=taobaotech



SentEval 任务


image.png

表2. 文本表示在SentEval迁移任务的性能



表2结果表明基于ArcCSE产生的文本表示向量在应用于下游的文本分类、情感分析等任务时取得了较好的效果,平均准确率优于SimCSE及其他经典模型。


总结


论文提出一种新的自监督文本表示框架ArcCSE,其通过引入angular margin构建了一个新的对比学习目标,可增强文本语义判别能力,同时提出了一个新的自监督任务对文本的语义偏序关系进行建模。在STS语义相似度判别任务和SentEval迁移任务上的实验表明ArcCSE效果优于SOTA算法。该方案已在淘系内容理解业务中落地应用,如点淘、闲鱼业务场景中话题及内容的检索聚合等。


Reference


image.pngimage.png


团队介绍


大淘宝技术内容理解团队依托淘系内容数据资产,建设了内容场景下的结构化标签、检索、审核、互动与生产等技术体系。支持淘宝直播、逛逛和点淘等十余个核心业务。我们持续以技术驱动产品和商品创新,不断探索和衍生颠覆型互联新技术,获得过国家科技进步二等奖,在NIPS、CVPR、ACL、TPAMI、TIP等会议及期刊上发表10余篇机器视觉和自然语言相关的论文。

相关文章
|
设计模式 Java API
重构旧代码的秘诀:用设计模式 - 适配器模式(Adapter)给Java项目带来新生
【4月更文挑战第7天】适配器模式是解决接口不兼容问题的结构型设计模式,通过引入适配器类实现目标接口并持有不兼容类引用,实现旧代码与新接口的协作。适用于处理兼容性问题、整合遗留代码和集成第三方库。应用时,识别不兼容接口,创建适配器类转换方法调用,然后替换原有引用。注意保持适配器简单、使用组合和考虑扩展性。过度使用可能导致系统复杂和维护成本增加,应谨慎使用。
260 4
支付系统39----支付宝支付,定时查单,每隔30秒执行1次,查询超过5分钟,并且未支付的订单
支付系统39----支付宝支付,定时查单,每隔30秒执行1次,查询超过5分钟,并且未支付的订单
|
监控 Oracle 关系型数据库
Flink CDC(Change Data Capture)是一种用于捕获数据库变更的技术
Flink CDC(Change Data Capture)是一种用于捕获数据库变更的技术
193 8
|
传感器 算法 芯片
在写温度传感器驱动之前:热敏电阻的温度、电阻、电压的映射关系
本文介绍了温度传感器中NTC热敏电阻的温度、电阻、电压之间的映射关系,通过理论计算和实际测量验证了在特定温度下电阻值和电压值的对应关系,为编写温度传感器驱动提供了必要的理解和方法。
418 1
|
机器学习/深度学习 数据采集 分布式计算
基于spark的大数据分析预测地震受灾情况的系统设计
基于spark的大数据分析预测地震受灾情况的系统设计
403 1
|
Shell Linux Python
Shell 数学计算:轻松掌握算术运算基本功
在Shell脚本中进行数学计算需借助特定方法。`(())`用于高效整数运算,如`((1+1))`,而`bc`处理小数,如`echo "3.14 + 2.86" | bc`。`let`与`(())`相似,`expr`较繁琐,`declare -i`仅限基础整数运算。使用`bc`时,`scale`定义小数精度。通过这些工具,Shell脚本也能实现复杂的数学计算。
265 0
|
数据安全/隐私保护 C++
c++实现http客户端和服务端的开源库以及Base64加密密码
c++实现http客户端和服务端的开源库以及Base64加密密码
254 0
|
Linux Windows
linux(十七)文件和目录相关命令-软连接、硬链接 ln命令
linux(十七)文件和目录相关命令-软连接、硬链接 ln命令
210 0
|
机器学习/深度学习 人工智能 分布式计算
探索阿里云智能图像识别服务(AIGC)的前沿技术
探索阿里云智能图像识别服务(AIGC)的前沿技术