多模态理解模型具有广泛的应用,比如多标签分类、视频问答(videoQA)和文本视频检索等。现有的方法已经在视频和语言理解方面取得了重大进展,然而,他们仍然面临两个巨大的挑战:无法充分的利用现有的特征;训练时巨大的GPU内存消耗。我们提出了MuLTI,这是一种高度准确高效的视频和语言理解模型,可以实现高效有效的特征融合和对下游任务的快速适应。本文详细介绍基于MuLTI实现高效视频与语言理解。
@workspace 功能发布后,我们收到了非常多新老朋友的积极反馈,其中有一个特别的朋友给我留下了深刻的印象,来分享一下他的故事。
我借助通义灵码完成了 obdiag 项目的第一个 PR,成为了 obdiag 项目的 contributor,我知道通义灵码的能力还远没有发挥出来,今后继续探索,未来可期。
本文介绍了一种基于LLM的“自我编程”Agent系统,通过代码驱动实现复杂逻辑。该Agent以Python为执行引擎,结合Py4j实现Java与Python交互,支持多工具调用、记忆分层与上下文工程,具备感知、认知、表达、自我评估等能力模块,目标是打造可进化的“1.5线”智能助手。
Anthropic推出Agent Skills协议,通过模块化技能封装提升大模型智能体的专业能力。ModelScope开源项目MS-Agent已实现该协议,支持技能的动态加载、自主执行与安全沙箱运行,推动智能体能力的可组合与可扩展发展。
企业构建零信任架构已经成为近年热门的话题之一。本质都是保护企业核心数据安全,防止未经合法授权的数据的访问行为。阿里云SASE依托于阿里云的网络组网优势,为用户提供一个稳定、高效的SD-WAN组网及接入能力,与此同时叠加安全能力。
推荐系统作为互联网时代连接用户与信息的核心技术,正在经历从传统协同过滤向多模态智能推荐的重要变革。随着深度学习技术的快速发展,特别是大语言模型和多模态预训练技术的成熟,推荐系统开始从单纯依赖用户行为ID特征转向充分利用商品图像、文本描述等丰富内容信息的新范式。