商汤自研的通用Embedding模型Piccolo2

简介: 【6月更文挑战第19天】商汤Piccolo2模型**是其新推出的通用Embedding技术,通过多任务混合损失训练提升泛化能力,在CMTEB基准测试中刷新纪录。模型动态调整向量维度与使用MRL方法增强语义理解,但可能增加计算成本,且有观点认为其改进非革命性。[论文链接](https://arxiv.org/abs/2405.06932)

商汤科技(SenseTime)是一家全球领先的人工智能(AI)公司,专注于计算机视觉和深度学习领域。近日,该公司宣布了其自研的通用Embedding模型Piccolo2,该模型在多任务混合损失训练方面取得了突破性进展。

Embedding技术是自然语言处理(NLP)领域中的关键技术之一,它将文本中的词汇、短语或句子映射到连续的向量空间中,以便于计算机进行处理和分析。然而,传统的Embedding模型往往只专注于单个任务或领域,导致其在处理其他任务或领域时表现不佳。

为了解决这个问题,商汤科技的研究人员提出了Piccolo2模型,该模型采用了一种高效的多任务混合损失训练方法。与传统的单任务训练方法不同,多任务混合损失训练方法能够同时优化多个任务的损失函数,从而提高模型的泛化能力。

Piccolo2模型在CMTEB(Comprehensive Multilingual Text Embedding Benchmark)基准测试中表现出色,该基准测试涵盖了6个不同的任务。根据测试结果,Piccolo2模型在所有任务上都取得了最佳性能,成为新的state-of-the-art。

除了多任务混合损失训练方法外,Piccolo2模型还具有其他一些优点。首先,它通过增加Embedding维度来提高模型的表达能力。传统的Embedding模型通常使用固定维度的向量来表示文本,而Piccolo2模型则可以根据任务的需求动态调整向量维度,从而更好地捕捉文本的语义信息。

其次,Piccolo2模型还采用了MRL(Multi-Resolution Learning)训练方法,该方法能够从不同粒度级别上学习文本的语义信息。通过同时考虑词汇、短语和句子级别的信息,Piccolo2模型能够更全面地理解文本的含义,从而提高其在各种任务上的性能。

然而,尽管Piccolo2模型在许多方面都表现出色,但也有一些潜在的问题值得注意。首先,多任务混合损失训练方法可能会导致模型在某个特定任务上的性能下降,因为模型需要在多个任务之间进行权衡。其次,增加Embedding维度和使用MRL训练方法可能会增加模型的计算开销和内存占用,从而影响其在实际应用中的可用性。

此外,还有一些研究人员对Piccolo2模型的创新程度提出了质疑。他们认为,虽然Piccolo2模型在性能上取得了一些改进,但这些改进可能并不具有革命性的意义。相反,他们主张将更多的研究精力放在其他更具挑战性的问题或领域上。

论文地址:https://arxiv.org/abs/2405.06932

目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 PyTorch
阿里云GPU云服务器简介:优势场景价详解,最新收费标准与活动价格参考
阿里云GPU云服务器怎么样?阿里云GPU结合了GPU计算力与CPU计算力,主要应用于于深度学习、科学计算、图形可视化、视频处理多种应用场景,现在购买有包月5折包年4折起等优惠,GPU 计算型 gn6i实例4核15G包月优惠价1681.00元/1个月起,包年16141.80元/1年起;GPU 计算型 gn6v实例8核32G包月优惠价3817.00元/1个月起,包年36647.40元/1起等。本文为您详细介绍阿里云GPU云服务器产品优势、应用场景以及最新活动价格。
|
SQL 存储 关系型数据库
解析MySQL Binlog:从零开始的入门指南【binlog入门指南】
解析MySQL Binlog:从零开始的入门指南【binlog入门指南】
13168 0
|
6月前
|
人工智能 弹性计算 运维
阿里云 MCP Server 开箱即用!
本文介绍了如何通过alibaba-cloud-ops-mcp-server和MCP(Model Context Protocol)实现AI助手对阿里云资源的复杂任务操作。内容涵盖背景、准备步骤(如使用VS Code与Cline配置MCP Server)、示例场景(包括创建实例、监控实例、运行命令、启停实例等),以及支持的工具列表和参考文档。借助这些工具,用户可通过自然语言与AI助手交互,完成ECS实例管理、VPC查询、云监控数据获取等运维任务,实现高效“掌上运维”。
|
4月前
|
机器学习/深度学习 数据采集 人工智能
WebDancer:从零训练一个 DeepResearch 类智能体
WebDancer 是一款具备 Agentic 能力的智能体,能在开放网页环境中自主提问、搜索、推理并验证答案。它通过多步推理、信息整合与交叉验证解决复杂问题,如医学文献分析或政策追踪。WebDancer 采用 CRAWLQA 和 E2HQA 数据合成策略生成高质量训练数据,并结合 SFT(监督微调)+ RL(强化学习)双阶段训练方法,提升模型在动态环境中的适应性和泛化能力。其核心技术包括 ReAct 行为框架和 DAPO 强化学习算法,确保路径优化与策略稳定性。未来,WebDancer 将接入 Browser 工具链,拓展至代码沙盒、长文本写作等应用场景,进一步向通用智能体演进。
1099 27
|
机器学习/深度学习 缓存 并行计算
NVIDIA Tesla GPU系列P4、T4、P40以及V100参数性能对比
NVIDIA Tesla系列GPU适用于高性能计算(HPC)、深度学习等超大规模数据计算,Tesla系列GPU能够处理解析PB级的数据,速度比使用传统CPU快几个数量级,NVIDIA Tesla GPU系列P4、T4、P40以及V100是Tesla GPU系列的明星产品,云服务器吧分享NVIDIA.
83390 1
|
自然语言处理 开发者
通用文本向量模型全新升级至V3,开通百炼速来体验~~
阿里云新推出通用文本向量模型text-embedding-v3,基于LLM,支持50+语言,包括新增的意大利语等。模型升级亮点:8K长文本支持、可变向量维度、Sparse向量及不分Query/Document类型。现在提供50万免费tokens,有效期180天,计费0.0007元/1000 tokens。体验请访问[阿里云百炼官网](https://bailian.console.aliyun.com/?spm=a2c6h.13046898.publish-article.6.63066ffaL32qHM)
5787 0
|
5月前
|
测试技术 UED
全新开源通义千问Qwen3,它来了!
Qwen3是通义千问系列的最新模型,融合推理与非推理模式,兼具QwQ和Instruct模型能力。提供多种尺寸,包括235B-A22B、30B-A3B及六个Dense模型,大幅提升数学、代码、逻辑推理和对话能力,达到业界领先水平。旗舰模型Qwen3-235B-A22B在多场景测试中表现优异,小型模型如Qwen3-4B性能媲美大模型。用户可在阿里云百炼平台免费体验各100万Token。
4707 4
全新开源通义千问Qwen3,它来了!
|
8月前
|
SQL JSON 数据可视化
基于 DIFY 的自动化数据分析实战
本文介绍如何使用DIFY搭建数据分析自动化流程,实现从输入需求到查询数据库、LLM分析再到可视化输出的全流程。基于经典的employees数据集和DIFY云端环境,通过LLM-SQL解析、SQL执行、LLM数据分析及ECharts可视化等模块,高效完成数据分析任务。此方案适用于人力资源分析、薪酬管理等数据密集型业务,显著提升效率并降低成本。
12281 16
|
9月前
|
文字识别
统一多模态Embedding, 通义实验室开源GME系列模型
随着多媒体应用的迅猛发展,用户产生的数据类型日益多样化,不再局限于文本,还包含大量图像、音频和视频等多模态信息。这为信息检索带来了前所未有的挑战与机遇。传统的信息检索模型多关注单一模态,如仅对文本或图像进行分析和搜索。
1543 6
|
10月前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。