ModelScope模型即服务-文章-第35页-阿里云开发者社区

蚝油菜花

|

人工智能自然语言处理 API

|

博文

Mathtutor on Groq：AI 数学辅导工具，实时计算并展示解题过程，支持通过语音提出数学问题

Mathtutor on Groq 是一款基于 Groq 架构的 AI 数学辅导工具，支持语音输入数学问题，实时计算并渲染解题过程，适用于代数、微积分等领域的学习和教学辅助。

1130 5 5

来自：科学计算版块

蚝油菜花

|

机器学习/深度学习人工智能

|

博文

DiTCtrl：腾讯推出多提示视频生成方法，通过多个提示生成连贯的视频内容，确保内容与提示一致

DiTCtrl 是一种基于多模态扩散变换器（MM-DiT）架构的多提示视频生成方法，能够在无需额外训练的情况下，实现多个文本提示之间的连贯视频生成，并保持内容和运动的一致性。

482 1 1

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

ModernBERT：英伟达开源的新一代编码器模型，性能超越 SOTA，通过去除填充和序列打包减少计算浪费，提高训练和推理的效率

ModernBERT 是由英伟达和 HuggingFace 等机构联合开源的新一代编码器模型，支持长上下文处理，性能超越 SOTA，适合多种自然语言处理任务。

680 7 7

来自：自然语言处理版块

蚝油菜花

|

人工智能智能硬件

|

博文

SPAR：智谱 AI 推出自我博弈训练框架，基于生成者和完善者两个角色的互动，提升了执行准确度和自我完善能力

SPAR 是智谱团队推出的自我博弈训练框架，旨在提升大型语言模型在指令遵循方面的能力，通过生成者和完善者的互动以及树搜索技术优化模型响应。

555 0 0

来自：自然语言处理版块

蚝油菜花

|

人工智能自然语言处理测试技术

|

博文

DeepSeek V3：DeepSeek 开源的最新多模态 AI 模型，编程能力超越Claude，生成速度提升至 60 TPS

DeepSeek V3 是深度求索公司开源的最新 AI 模型，采用混合专家架构，具备强大的编程和多语言处理能力，性能超越多个竞争对手。

2658 5 5

来自：自然语言处理版块

LucianaiB

|

数据采集人工智能分布式计算

|

博文

探索云端数据力量：MaxFrame的革命性实践

MaxFrame是阿里云自研的分布式计算框架，专为Python开发者设计，支持大规模数据处理和AI模型开发。本文介绍MaxFrame方案，评测其在分布式Pandas处理、大语言模型数据处理中的表现，分析产品开通使用步骤及功能满足度，并提出改进建议。对比其他工具，MaxFrame易用性高、性能优，但在功能丰富度上仍有提升空间。总结指出MaxFrame潜力巨大，未来有望更加完善。

333 24 24

fhoeappf6hhpg

|

存储机器学习/深度学习人工智能

|

博文

轻松实现向量搜索：探索 Elastic-Embedding-Searcher 项目

elastic-embedding-searcher 是一个基于 Elasticsearch 的向量搜索框架，简化了向量数据的存储和检索过程。通过结合 Elasticsearch 的分布式能力与向量表示，项目实现了高效、精准的相似度检索。支持多种流行的嵌入模型（如 BERT、Word2Vec），并能够处理大规模数据集。该项目适用于文本相似度检索、问答系统及多语言处理等场景，开发者可以轻松集成并实现高效的数据检索。

552 2 2

modelscope

|

人工智能自然语言处理 Swift

|

博文

ModernBERT-base：终于等到了 BERT 回归

BERT于 2018 年发布（史前人工智能！），但它至今仍被广泛使用，BERT的纯编码器架构使其成为每天出现的各种场景的理想选择，例如检索、分类和实体提取。

1683 3 4

来自：自然语言处理版块

fhoeappf6hhpg

|

索引搜索推荐 UED

|

博文

基于elasticsearch + huggingface model 实现语义检索

项目地址：https://github.com/skyterra/elastic-embedding-searcher。本项目利用Hugging Face模型生成文本的嵌入向量，并将其同步至Elasticsearch创建索引，支持通过余弦相似度进行高效的向量搜索，实现精准的内容检索与推荐功能。该项目为开发智能搜索应用提供了强大的后端支持。（该简介有239个字符，包括标点和空格）

550 8 8

蚝油菜花

|

存储人工智能人机交互

|

博文

PC Agent：开源 AI 电脑智能体，自动收集人机交互数据，模拟认知过程实现办公自动化

PC Agent 是上海交通大学与 GAIR 实验室联合推出的智能 AI 系统，能够模拟人类认知过程，自动化执行复杂的数字任务，如组织研究材料、起草报告等，展现了卓越的数据效率和实际应用潜力。

2446 1 1

来自：多模态版块

蚝油菜花

|

数据采集人工智能自然语言处理

|

博文

Midscene.js：AI 驱动的 UI 自动化测试框架，支持自然语言交互，生成可视化报告

Midscene.js 是一款基于 AI 技术的 UI 自动化测试框架，通过自然语言交互简化测试流程，支持动作执行、数据查询和页面断言，提供可视化报告，适用于多种应用场景。

4381 1 1

来自：多模态版块

蚝油菜花

|

人工智能自然语言处理并行计算

|

博文

ASAL：Sakana AI 联合 OpenAI 推出自动探索人工生命的系统，通过计算机模拟生命进化的过程

ASAL 是由 Sakana AI 联合 OpenAI 等机构推出的自动化搜索人工生命系统，基于基础模型实现多种搜索机制，扩展了人工生命研究的边界。

681 1 1

来自：科学计算版块

蚝油菜花

|

人工智能 vr&ar

|

博文

TRELLIS：微软联合清华和中科大推出的高质量 3D 生成模型，支持局部控制和多种输出格式

TRELLIS 是由微软、清华大学和中国科学技术大学联合推出的高质量 3D 生成模型，能够根据文本或图像提示生成多样化的 3D 资产，支持多种输出格式和灵活编辑。

1474 3 3

来自：计算机视觉版块

蚝油菜花

|

人工智能 API 数据库

|

博文

Browser Use：开源 AI 浏览器助手，自动完成网页交互任务，支持多标签页管理、视觉识别和内容提取等功能

Browser Use 是一款专为大语言模型设计的智能浏览器工具，支持多标签页管理、视觉识别、内容提取等功能，并能记录和重复执行特定动作，适用于多种应用场景。

3896 0 1

来自：多模态版块

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

Granite 3.1：IBM 开源新一代可商用大语言模型，支持 128K 上下文长度、多语言和复杂任务处理

IBM 推出的 Granite 3.1 是一款新一代语言模型，具备强大的性能和更长的上下文处理能力，支持多语言和复杂任务处理。

740 0 0

来自：自然语言处理版块

蚝油菜花

|

人工智能自然语言处理搜索推荐

|

博文

Open Notebook：开源 AI 笔记工具，支持多种文件格式，自动转播客和生成总结，集成搜索引擎等功能

Open Notebook 是一款开源的 AI 笔记工具，支持多格式笔记管理，并能自动将笔记转换为博客或播客，适用于学术研究、教育、企业知识管理等多个场景。

2275 0 0

来自：多模态版块

modelscope

|

人工智能文字识别安全

|

博文

Qwen开源视觉推理模型QVQ，更睿智地看世界！

在人类的思维中，语言和视觉紧密交织，塑造着我们感知和理解世界的方式。我们的推理能力深深植根于语言思维和视觉记忆之中。那么，当我们将这些能力赋予人工智能时，会发生什么呢？如今的大语言模型已经展现出卓越的推理能力，但我们不禁思考：它们能否通过掌握视觉理解的力量，攀登认知能力的新高峰？

1699 5 6

modelscope

|

存储缓存物联网

|

博文

MNN推理框架将大模型放进移动端设备，并达到SOTA推理性能！

随着移动端（手机/平板等）算力、内存、磁盘空间的不断增长，在移动端部署大模型逐渐成为可能。在端侧运行大模型，可以有一系列好处：去除网络延迟，加快响应速度；降低算力成本，便于大规模应用；不需数据上传，保护用户稳私。

3028 13 13

wdzhao

|

人工智能自然语言处理计算机视觉

|

博文

AI大模型开启智能化新时代

12月19日下午，复旦大学计算机科学技术学院第十二期“步青讲坛”在江湾校区二号交叉学科楼E1006报告厅举行。本期讲坛特别邀请了阿里巴巴集团副总裁、IEEE Fellow叶杰平教授做题为《AI大模型开启智能化新时代》的精彩技术报告。

535 4 4

蚝油菜花

|

人工智能自然语言处理 JavaScript

|

博文

Univer：开源全栈 AI 办公工具，支持 Word、Excel、PPT 等文档处理和多人实时协作

Univer 是一款开源的 AI 办公工具，支持 Word、Excel 等文档处理的全栈解决方案。它具有强大的功能、高度的可扩展性和跨平台兼容性，适用于个人和企业用户，能够显著提高工作效率。

3348 9 10

来自：多模态版块

蚝油菜花

|

存储人工智能开发框架

|

博文

Kheish：开源的多智能体开发框架，通过 YAML 配置工作流和多个 Agent 共同协作解决复杂任务

Kheish 是一个开源的多智能体协调平台，基于大型语言模型（LLM）设计，能够通过灵活配置多个智能体来解决复杂任务。平台支持模块化集成、聊天式提示、反馈循环等功能，适用于代码审计、法律文件分析、客户服务自动化等多种应用场景。

575 18 18

来自：自然语言处理版块

蚝油菜花

|

人工智能自然语言处理 PyTorch

|

博文

Bamba-9B：基于 Mamba2 架构的仅解码语言模型，旨在提高大型语言模型在推理时的效率

Bamba-9B 是由 IBM、普林斯顿大学、卡内基梅隆大学和伊利诺伊大学香槟分校联合推出的基于 Mamba2 架构的仅解码语言模型。该模型在开放数据集上训练，旨在提高大型语言模型的推理效率，特别是在处理长文本时的内存带宽瓶颈。Bamba-9B 在推理时相较于标准变换器模型展现出 2.5 倍的吞吐量提升和 2 倍的延迟加速。

615 12 12

来自：自然语言处理版块

蚝油菜花

|

人工智能异构计算

|

博文

DisPose：清华北大等多所高校联合推出基于人物图像增强视频生成技术，实现对人物动画的准确控制和一致性

DisPose是由北京大学、中国科学技术大学、清华大学和香港科技大学联合推出的增强人物图像控制动画质量的技术。该技术通过从骨骼姿态和参考图像中提取控制信号，生成密集运动场，并保持对不同体型的泛化能力，显著提升了人物图像动画的质量和一致性。

499 14 14

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习人工智能 PyTorch

|

博文

HelloMeme：开源的面部表情与姿态迁移框架，将视频中的人物表情迁移到静态图像中生成动态视频

HelloMeme 是一个基于 Stable Diffusion 1.5 模型的面部表情与姿态迁移框架，通过集成空间编织注意力机制，实现了自然且物理合理的表情包视频生成。该框架具有强大的泛化能力和扩展性，适用于多种应用场景。

789 77 77

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习编解码人工智能

|

博文

InvSR：开源图像超分辨率生成模型，提升分辨率，修复老旧照片为超清图像

InvSR 是一个创新的图像超分辨率模型，基于扩散模型的逆过程恢复高分辨率图像。它通过深度噪声预测器和灵活的采样机制，能够高效地提升图像分辨率，适用于老旧照片修复、视频监控、医疗成像等多个领域。

3273 9 10

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习人工智能编解码

|

博文

CLEAR：新加坡国立大学推出线性注意力机制，使8K图像的生成速度提升6.3倍，显著减少了计算量和时间延迟

新加坡国立大学推出的CLEAR线性注意力机制，通过局部注意力窗口设计，显著提升了预训练扩散变换器生成高分辨率图像的效率，生成8K图像时提速6.3倍。

428 18 18

来自：计算机视觉版块

蚝油菜花

|

数据采集人工智能自动驾驶

|

博文

VSI-Bench：李飞飞谢赛宁团队推出视觉空间智能基准测试集，旨在评估多模态大语言模型在空间认知和理解方面的能力

VSI-Bench是由李飞飞和谢赛宁团队推出的视觉空间智能基准测试集，旨在评估多模态大型语言模型（MLLMs）在空间认知和理解方面的能力。该基准测试集包含超过5000个问题-答案对，覆盖近290个真实室内场景视频，涉及多种环境，能够系统地测试和提高MLLMs在视觉空间智能方面的表现。

738 16 16

来自：多模态版块

modelscope

|

机器学习/深度学习异构计算 Python

|

博文

HelloMeme:充分利用 SD1.5 基模的理解能力，实现表情与姿态的迁移

利用最新的 Diffusion 生成技术实现表情迁移

663 0 0

蚝油菜花

|

人工智能监控算法

|

博文

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目，结合声学、语义和视觉信息，提供高精度的说话人识别和语种识别功能。项目包含工业级模型、训练和推理代码，以及大规模多设备、多距离、多方言的数据集，适用于多种应用场景。

4685 18 18

来自：语音版块

CodeFuse

|

人工智能运维算法

|

博文

资讯 | CodeFuse邀你12月28日参加OSC源创会年终盛典活动

2024年OSC源创会年终盛典将于12月28日在珠海举行，CodeFuse将在主论坛分享《CodeFuse基座模型介绍》并展示最新项目。欢迎扫码报名！

205 0 0

CodeFuse

|

开发者

|

博文

CodeFuse「编码挑战季」圆满收官！大奖揭晓！

感谢每一位参与者的热情支持！CodeFuse「编码挑战季」圆满结束，活动历时两个月，见证了大家对编码的热情和对技术的执着。我们公布了项目特别贡献奖获奖者，并开启了积分兑换奖品通道。已完成任务的小伙伴可通过私聊【CodeFuse 服务助手】兑换定制礼品。未来，CodeFuse将继续陪伴大家成长，期待下次活动再见！12月28日还有线下见面会，欢迎参加！🌟🎉🎁 （239字符）

214 0 0

蚝油菜花

|

机器学习/深度学习人工智能智能设计

|

博文

VisionFM：通用眼科 AI 大模型，具备眼科疾病诊断能力，展现出专家级别的准确性

VisionFM 是一个多模态多任务的视觉基础模型，专为通用眼科人工智能设计。通过预训练大量眼科图像，模型能够处理多种眼科成像模态，并在多种眼科任务中展现出专家级别的智能性和准确性。

917 4 4

来自：计算机视觉版块

蚝油菜花

|

存储人工智能 API

|

博文

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

AgentScope是阿里巴巴集团开源的多智能体开发平台，旨在帮助开发者轻松构建和部署多智能体应用。该平台提供分布式支持，内置多种模型API和本地模型部署选项，支持多模态数据处理。

14313 78 81

来自：多模态版块

蚝油菜花

|

人工智能数据挖掘 vr&ar

|

博文

LeviTor：蚂蚁集团开源3D目标轨迹控制视频合成技术，能够控制视频中3D物体的运动轨迹

LeviTor是由南京大学、蚂蚁集团等机构联合推出的3D目标轨迹控制视频合成技术，通过结合深度信息和K-means聚类点控制视频中3D物体的轨迹，无需显式的3D轨迹跟踪。

497 4 4

来自：计算机视觉版块

modelscope

|

机器学习/深度学习人工智能物联网

|

博文

AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营

12月14日，由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。

680 58 60

modelscope

|

人工智能自然语言处理小程序

|

博文

魔搭社区每周速递（12.15-12.21）

🙋魔搭ModelScope本期社区进展：📟1914个模型，📁58个数据集，🎨78个创新应用，📄 8篇内容

714 4 4

modelscope

|

存储人工智能编解码

|

博文

多模态实时交互大模型浦语·灵笔 2.5 OmniLive开源：能看、能听、会记、会说！

2024年12月12日，多模态实时交互大模型书生·浦语灵笔2.5-OL(InternLM-XComposer2.5-OmniLive)开源，该模型可以通过视觉和听觉实时观察和理解外部世界，自动形成对观察到内容的长期记忆，并可通过语音与人类用户进行对话交谈，提供更自然的大模型交互体验。

1142 4 4

modelscope

|

机器学习/深度学习存储自然语言处理

|

博文

RWKV-7：极先进的大模型架构，长文本能力极强

RWKV-7 是极先进的最新大模型架构，超越 attention / linear attention 范式，拥有强大的 in-context-learning（上下文学习）能力，可真正持续学习，在保持 100% RNN 的同时，拥有极强的长文本能力。

810 2 2

蚝油菜花

|

人工智能自然语言处理

|

博文

RWKV-7：RWKV系列开源最新的大模型架构，具有强大的上下文学习能力，超越传统的Attention范式

RWKV-7是RWKV系列的最新大模型架构版本，具有强大的上下文学习能力，超越了传统的attention和linear attention范式。本文详细介绍了RWKV-7的主要功能、技术原理及其在多语言处理、文本生成等领域的应用场景。

1228 7 7

来自：自然语言处理版块

蚝油菜花

|

人工智能 Linux API

|

博文

PromptWizard：微软开源 AI 提示词自动化优化框架，能够迭代优化提示指令和上下文示例，提升 LLMs 特定任务的表现

PromptWizard 是微软开源的 AI 提示词自动化优化框架，通过自我演变和自我适应机制，迭代优化提示指令和上下文示例，提升大型语言模型（LLMs）在特定任务中的表现。本文详细介绍了 PromptWizard 的主要功能、技术原理以及如何运行该框架。

1342 8 9

来自：自然语言处理版块

蚝油菜花

|

人工智能自然语言处理计算机视觉

|

博文

StyleStudio：支持图像风格迁移的文生图模型，能将融合参考图像的风格和文本提示内容生成风格一致的图像

StyleStudio 是一种文本驱动的风格迁移模型，能够将参考图像的风格与文本提示内容融合。通过跨模态 AdaIN 机制、基于风格的分类器自由引导等技术，解决了风格过拟合、控制限制和文本错位等问题，提升了风格迁移的质量和文本对齐的准确性。

854 8 8

来自：计算机视觉版块

蚝油菜花

|

人工智能前端开发 API

|

博文

OpenAI 12天发布会内容全纪录！一文快速回顾获知亮点信息，原文附发布会中文字幕视频

OpenAI 于12月5日宣布将举行为期12天的系列发布活动，期间每天发布一个产品或样品，包括备受期待的AI视频生成工具Sora和新的推理模型。本文将介绍这12天的发布会每日的发布内容和相关亮点信息。

1190 82 86

来自：自然语言处理版块

蚝油菜花

|

人工智能内存技术

|

博文

Gemini 2.0 Flash Thinking：谷歌推出实验性多模态推理模型，在快速生成的同时展示详细的思考过程

谷歌推出的实验性推理模型Gemini 2.0 Flash Thinking，展示了详细的思考过程，能够在多个领域快速解决问题，并提供推理路径。本文将详细介绍该模型的功能、技术原理及使用限制。

786 26 26

来自：自然语言处理版块

蚝油菜花

|

人工智能

|

博文

AniDoc：蚂蚁集团开源 2D 动画上色 AI 模型，基于视频扩散模型自动将草图序列转换成彩色动画，保持动画的连贯性

AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型，能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略，实现了色彩和风格的准确传递，适用于动画制作、游戏开发和数字艺术创作等多个领域。

984 16 16

来自：计算机视觉版块

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

Genesis：卡内基梅隆大学联合 20 多所研究机构开源生成式物理引擎，能够模拟各种材料、物体和物理运动现象

Genesis是由卡内基梅隆大学联合20多所研究机构开源的生成式物理引擎，能够模拟世界万物，具有高度的物理准确性和快速的模拟速度，适用于机器人仿真、游戏开发、电影特效制作等多个领域。

975 21 21

来自：计算机视觉版块

蚝油菜花

|

人工智能移动开发前端开发

|

博文

WeaveFox：蚂蚁集团推出 AI 前端智能研发平台，能够根据设计图直接生成源代码，支持多种客户端和技术栈

蚂蚁团队推出的AI前端研发平台WeaveFox，能够根据设计图直接生成前端源代码，支持多种应用类型和技术栈，提升开发效率和质量。本文将详细介绍WeaveFox的功能、技术原理及应用场景。

7440 68 68

来自：多模态版块

迪今科技

|

监控数据可视化架构师

|

博文

为什么企业需要开展架构治理？

随着数字化转型加速，企业面临的技术和业务环境日益复杂，传统架构难以应对快速变化的需求。企业架构治理成为数字化转型的关键，通过确保技术与战略对接、优化资源利用、降低风险和复杂性，提升企业灵活性、效率和创新能力，支持快速响应市场变化，推动数字化转型成功。

701 7 7

modelscope

|

人工智能算法决策智能

|

博文

CompassArena上新！JudgeCopilot与新一代Bradley-Terry模型竞技体验

2024 年 5 月，上海人工智能实验室司南 OpenCompass 团队携手魔搭 ModelScope，联合推出了大模型评测平台——CompassArena（大模型竞技场），为大模型领域引入了一种全新的竞技模式。

470 6 6

modelscope

|

自然语言处理测试技术

|

博文

社区供稿 | 引入隐式模型融合技术，中山大学团队推出 FuseChat-3.0

在大语言模型（LLM）领域，结合多个模型的优势以提升单个模型的能力已成为一大趋势。然而，以往的模型融合方法例如 FuseLLM[1], FuseChat-1.0/2.0[2] 等存在词表对齐困难、效率低下等问题。

423 12 12

modelscope

|

人工智能移动开发前端开发

|

博文

温暖接力：“追星星的AI”再出发，志愿者招募令！

孤独症儿童绘本创作工具二期迭代开发，缺人！

619 21 21

最新

文章

视频

问答

推荐

Mathtutor on Groq：AI 数学辅导工具，实时计算并展示解题过程，支持通过语音提出数学问题

DiTCtrl：腾讯推出多提示视频生成方法，通过多个提示生成连贯的视频内容，确保内容与提示一致

ModernBERT：英伟达开源的新一代编码器模型，性能超越 SOTA，通过去除填充和序列打包减少计算浪费，提高训练和推理的效率

SPAR：智谱 AI 推出自我博弈训练框架，基于生成者和完善者两个角色的互动，提升了执行准确度和自我完善能力

DeepSeek V3：DeepSeek 开源的最新多模态 AI 模型，编程能力超越Claude，生成速度提升至 60 TPS

探索云端数据力量：MaxFrame的革命性实践

轻松实现向量搜索：探索 Elastic-Embedding-Searcher 项目

ModernBERT-base：终于等到了 BERT 回归

基于elasticsearch + huggingface model 实现语义检索

PC Agent：开源 AI 电脑智能体，自动收集人机交互数据，模拟认知过程实现办公自动化

Midscene.js：AI 驱动的 UI 自动化测试框架，支持自然语言交互，生成可视化报告

ASAL：Sakana AI 联合 OpenAI 推出自动探索人工生命的系统，通过计算机模拟生命进化的过程

TRELLIS：微软联合清华和中科大推出的高质量 3D 生成模型，支持局部控制和多种输出格式

Browser Use：开源 AI 浏览器助手，自动完成网页交互任务，支持多标签页管理、视觉识别和内容提取等功能

Granite 3.1：IBM 开源新一代可商用大语言模型，支持 128K 上下文长度、多语言和复杂任务处理

Open Notebook：开源 AI 笔记工具，支持多种文件格式，自动转播客和生成总结，集成搜索引擎等功能

Qwen开源视觉推理模型QVQ，更睿智地看世界！

MNN推理框架将大模型放进移动端设备，并达到SOTA推理性能！

AI大模型开启智能化新时代

Univer：开源全栈 AI 办公工具，支持 Word、Excel、PPT 等文档处理和多人实时协作

Kheish：开源的多智能体开发框架，通过 YAML 配置工作流和多个 Agent 共同协作解决复杂任务

Bamba-9B：基于 Mamba2 架构的仅解码语言模型，旨在提高大型语言模型在推理时的效率

DisPose：清华北大等多所高校联合推出基于人物图像增强视频生成技术，实现对人物动画的准确控制和一致性

HelloMeme：开源的面部表情与姿态迁移框架，将视频中的人物表情迁移到静态图像中生成动态视频

InvSR：开源图像超分辨率生成模型，提升分辨率，修复老旧照片为超清图像

CLEAR：新加坡国立大学推出线性注意力机制，使8K图像的生成速度提升6.3倍，显著减少了计算量和时间延迟

VSI-Bench：李飞飞谢赛宁团队推出视觉空间智能基准测试集，旨在评估多模态大语言模型在空间认知和理解方面的能力

HelloMeme:充分利用 SD1.5 基模的理解能力，实现表情与姿态的迁移

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

资讯 | CodeFuse邀你12月28日参加OSC源创会年终盛典活动

CodeFuse「编码挑战季」圆满收官！大奖揭晓！

VisionFM：通用眼科 AI 大模型，具备眼科疾病诊断能力，展现出专家级别的准确性

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

LeviTor：蚂蚁集团开源3D目标轨迹控制视频合成技术，能够控制视频中3D物体的运动轨迹

AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营

魔搭社区每周速递（12.15-12.21）

多模态实时交互大模型浦语·灵笔 2.5 OmniLive开源：能看、能听、会记、会说！

RWKV-7：极先进的大模型架构，长文本能力极强

RWKV-7：RWKV系列开源最新的大模型架构，具有强大的上下文学习能力，超越传统的Attention范式

PromptWizard：微软开源 AI 提示词自动化优化框架，能够迭代优化提示指令和上下文示例，提升 LLMs 特定任务的表现

StyleStudio：支持图像风格迁移的文生图模型，能将融合参考图像的风格和文本提示内容生成风格一致的图像

OpenAI 12天发布会内容全纪录！一文快速回顾获知亮点信息，原文附发布会中文字幕视频

Gemini 2.0 Flash Thinking：谷歌推出实验性多模态推理模型，在快速生成的同时展示详细的思考过程

AniDoc：蚂蚁集团开源 2D 动画上色 AI 模型，基于视频扩散模型自动将草图序列转换成彩色动画，保持动画的连贯性

Genesis：卡内基梅隆大学联合 20 多所研究机构开源生成式物理引擎，能够模拟各种材料、物体和物理运动现象

WeaveFox：蚂蚁集团推出 AI 前端智能研发平台，能够根据设计图直接生成源代码，支持多种客户端和技术栈

为什么企业需要开展架构治理？

CompassArena上新！JudgeCopilot与新一代Bradley-Terry模型竞技体验

社区供稿 | 引入隐式模型融合技术，中山大学团队推出 FuseChat-3.0

温暖接力：“追星星的AI”再出发，志愿者招募令！

ModelScope模型即服务

活跃用户

相关产品