ModelScope模型即服务-推荐-第7页-阿里云开发者社区

蚝油菜花

|

9月前

|

人工智能编解码自然语言处理

|

博文

Zonos：油管博主集体转粉！开源TTS神器Zonos爆火：克隆你的声音说5国语言，还能调喜怒哀乐

Zonos 是 ZyphraAI 推出的开源多语言 TTS 模型，支持语音克隆、情感控制和多种语言，适用于有声读物、虚拟助手等场景。

509 18 21

来自：语音版块

蚝油菜花

|

9月前

|

人工智能 Rust PyTorch

|

博文

Hibiki：实时语音翻译模型打破语言交流障碍！支持将语音实时翻译成其他语言的语音或文本

Hibiki 是由 Kyutai Labs 开发的实时语音翻译模型，能够将一种语言的语音实时翻译成另一种语言的语音或文本，支持高保真度和低延迟。

904 18 19

来自：语音版块

哈德门66

|

10月前

|

程序员 API 开发者

|

博文

实战阿里qwen2.5-coder 32B，如何配置Cline的Ollama API接口。

阿里Qwen2.5大模型开源免费，适合编程应用。在Ollama平台下载时，推荐选择带有“cline”字样的Qwen2.5-Coder版本，仅需额外下载适配文件，无需重复下载模型文件。Ollama环境永久免费，配置简单，效果出色，适合开发者使用。

5161 77 79

蚝油菜花

|

10月前

|

敏捷开发人工智能 JavaScript

|

博文

Figma-Low-Code：快速将Figma设计转换为Vue.js应用，支持低代码渲染、数据绑定

Figma-Low-Code 是一个开源项目，能够直接将 Figma 设计转换为 Vue.js 应用程序，减少设计师与开发者之间的交接时间，支持低代码渲染和数据绑定。

618 3 3

来自：计算机视觉版块

蚝油菜花

|

10月前

|

数据采集传感器人工智能

|

博文

AgiBot World：智元机器人开源百万真机数据集，数据集涵盖了日常生活所需的绝大多数动作

AgiBot World 是智元机器人开源的百万真机数据集，旨在推动具身智能的发展，覆盖家居、餐饮、工业等五大核心场景。

726 9 9

来自：多模态版块

蚝油菜花

|

11月前

|

数据采集人工智能编解码

|

博文

书生·万象InternVL 2.5：上海 AI Lab 开源的多模态大语言模型，超越了目前许多商业模型

书生·万象InternVL 2.5是由上海AI实验室OpenGVLab团队推出的开源多模态大语言模型系列。该模型在多模态理解基准（MMMU）上表现优异，超越了许多商业模型，适用于图像和视频分析、视觉问答、文档理解和多语言处理等多个领域。

830 7 7

来自：多模态版块

蚝油菜花

|

11月前

|

机器学习/深度学习人工智能 Linux

|

博文

Fish Speech 1.5：Fish Audio 推出的零样本语音合成模型，支持13种语言

Fish Speech 1.5 是由 Fish Audio 推出的先进文本到语音（TTS）模型，支持13种语言，具备零样本和少样本语音合成能力，语音克隆延迟时间不到150毫秒。该模型基于深度学习技术如Transformer、VITS、VQVAE和GPT，具有高度准确性和快速合成能力，适用于多种应用场景。

1011 3 4

来自：语音版块

aliyun9170107523-43660

|

1月前

|

机器学习/深度学习存储缓存

|

博文

129_量化技术：INT8与动态量化 - 推导压缩的精度损失公式

在2025年的大语言模型(LLM)时代，随着模型规模的指数级增长，部署这些庞然大物变得越来越具有挑战性。GPT-5和Claude 3等最新模型的参数量已经达到数千亿甚至上万亿，这给计算资源和内存带来了巨大压力。模型量化作为一种有效的压缩技术，正在成为解决这一挑战的关键方案。本文将深入探讨LLM量化技术，特别是INT8和动态量化方法，推导其精度损失公式，并提供2025年最新的优化策略和实现代码。

207 4 4

aliyun9170107523-43660

|

1月前

|

存储边缘计算人工智能

|

博文

79_边缘设备环境：Raspberry Pi搭建

在当今人工智能快速发展的时代，大语言模型（LLM）已经成为自然语言处理领域的核心技术。然而，传统的LLM部署通常需要强大的服务器资源，这限制了其在资源受限环境中的应用。随着边缘计算的兴起，在轻量级设备上部署和运行LLM成为了新的技术趋势。树莓派（Raspberry Pi）作为一款广泛使用的单板计算机，凭借其小巧的体积、低功耗特性和不断提升的计算能力，成为了边缘部署LLM的理想选择。

276 0 0

游客qtwmfxysyhxz2

|

3月前

|

JSON 人工智能 Java

|

博文

基于Spring AI构建智能Text-to-SQL转换器：一个完整的MCP

Spring AI 更新结构化输出转换器，弃用旧版 Parser 类，引入与 Spring 框架对齐的 Converter 体系，提升命名规范与功能兼容性。新版本支持 JSON、XML 及 Java 对象转换，确保 LLM 输出结构化，便于下游应用处理。

402 1 2

蚝油菜花

|

7月前

|

存储人工智能 JSON

|

博文

传统OCR集体阵亡！Versatile-OCR-Program：开源多语言OCR工具，精准解析表格和数学公式等复杂结构

本文解析开源OCR工具Versatile-OCR-Program的技术实现，其基于多模态融合架构实现90%以上识别准确率，支持数学公式与图表的结构化输出，为教育资料数字化提供高效解决方案。

877 5 5

来自：多模态版块

蚝油菜花

|

7月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

用AI精准定位问题代码，调试时间直接砍半！LocAgent：斯坦福开源代码调试神器，多跳推理锁定问题代码

LocAgent是由斯坦福大学、耶鲁大学等顶尖机构联合开发的代码定位框架，通过将代码库转化为图结构并利用大语言模型的多跳推理能力，实现精准的问题代码定位。

533 1 1

来自：自然语言处理版块

蚝油菜花

|

7月前

|

数据采集人工智能自然语言处理

|

博文

AI终于能听懂宝宝说话了！ChildMandarin：智源研究院开源的低幼儿童中文语音数据集，覆盖22省方言

ChildMandarin是由智源研究院与南开大学联合推出的开源语音数据集，包含41.25小时3-5岁儿童普通话语音数据，覆盖中国22个省级行政区，为儿童语音识别和语言发展研究提供高质量数据支持。

747 20 21

来自：语音版块

蚝油菜花

|

8月前

|

存储人工智能固态存储

|

博文

DeepSeek开源周第五弹之一！3FS：支撑V3/R1模型数据访问的高性能分布式文件系统

3FS是DeepSeek开源的高性能分布式文件系统，专为AI训练和推理任务设计，提供高达6.6 TiB/s的读取吞吐量，支持强一致性保障和通用文件接口，优化AI工作负载。

1152 2 3

来自：科学计算版块

蚝油菜花

|

9月前

|

人工智能自然语言处理测试技术

|

博文

Potpie.ai：比Copilot更狠！这个AI直接接管项目代码，自动Debug+测试+开发全搞定

Potpie.ai 是一个基于 AI 技术的开源平台，能够为代码库创建定制化的工程代理，自动化代码分析、测试和开发任务。

697 19 19

来自：自然语言处理版块

蚝油菜花

|

10月前

|

Web App开发机器学习/深度学习人工智能

|

博文

Weebo：支持多语言和实时语音交流的开源 AI 聊天机器人，回复具备语调、情感的语音

Weebo 是一款基于 Whisper Small、Llama 3.2 和 Kokoro-82M 技术的 AI 语音聊天机器人，支持实时语音交互和多语言对话，适用于个人助理、娱乐互动和教育辅导等多种场景。

837 17 17

来自：语音版块

modelscope

|

11月前

|

人工智能文字识别安全

|

博文

Qwen开源视觉推理模型QVQ，更睿智地看世界！

在人类的思维中，语言和视觉紧密交织，塑造着我们感知和理解世界的方式。我们的推理能力深深植根于语言思维和视觉记忆之中。那么，当我们将这些能力赋予人工智能时，会发生什么呢？如今的大语言模型已经展现出卓越的推理能力，但我们不禁思考：它们能否通过掌握视觉理解的力量，攀登认知能力的新高峰？

1103 5 6

liuyunshengsir

|

12月前

|

存储 Kubernetes 调度

|

博文

在 Kubernetes (k8s) 中，驱逐某个节点上特定命名空间的 Pod 到其他节点可以通过以下步骤实现： ### 步骤一：找到要驱逐的 Pod 首先，你需要找到位于特定命名空间并且运行在目标节点上的 Pod。你可以使用 `kubectl get pods` 命令并指定 `-o wide` 和 `--namespace` 参数来获取这些信息。 ```bash kubectl get pods -o wide --namespace=<your-namespace> ``` 此命令将返回指定命名空间中的所有 Pod，并显示它们的详细信息，包括所在的节点名称。 ### 步骤二：标记

954 4 4

aliyun9170107523-43660

|

1月前

|

缓存自然语言处理 PyTorch

|

博文

114_预训练：Masked LM优化与动态掩码效率深度解析

在大型语言模型（LLM）的预训练阶段，训练目标函数的设计直接影响模型的学习效率和最终性能。Masked Language Modeling（MLM）作为BERT等模型采用的核心预训练任务，通过随机掩盖文本中的部分token并让模型预测这些被掩盖的token，有效地训练了模型的双向表示能力。然而，传统的静态掩码策略存在重复率高、训练效率低等问题。动态掩码技术的引入显著提升了预训练效率和模型性能。本文将全面探讨MLM优化策略，深入推导动态掩码的效率提升原理，并介绍2025年最新的MLM优化技术，为高效预训练LLM提供理论和实践指导。

289 0 1

aliyun9170107523-43660

|

1月前

|

机器学习/深度学习人工智能并行计算

|

博文

124_数据并行扩展：Megatron框架 - 分析模型分片的独特通信开销

2025年，大型语言模型的规模已达到数千亿甚至数万亿参数，单GPU训练已成为不可能的任务。高效的分布式训练技术成为训练超大模型的关键。Megatron框架作为业界领先的分布式训练解决方案，通过创新性的并行策略，实现了对超大语言模型的高效训练。

237 3 3

蚝油菜花

|

7月前

|

人工智能搜索推荐

|

博文

「社会实验室」成真！SocioVerse：复旦联合小红书开源社会模拟世界模型，用AI预演群体行为

SocioVerse是由复旦大学联合小红书等机构开源的社会模拟框架，基于大语言模型和千万级真实用户数据构建，能精准模拟群体行为并预测社会事件演化趋势。

437 2 2

来自：自然语言处理版块

蚝油菜花

|

7月前

|

人工智能中间件 API

|

博文

别让创意卡在工具链！MiniMax MCP Server：MiniMax 开源 MCP 服务打通多模态生成能力，视频语音图像一键全搞定

MiniMax MCP Server 是基于模型上下文协议的多模态生成中间件，支持通过文本指令调用视频生成、图像创作、语音合成及声音克隆等能力，兼容主流客户端实现跨平台调用，采用检索增强生成技术保障内容准确性。

577 3 3

来自：多模态版块

飞天葫芦

|

7月前

|

数据采集人工智能自然语言处理

|

博文

模型时代的智能BI—Quick BI：阿里云的数据洞察与决策引擎

阿里云Quick BI是一款企业级智能BI工具，融合大模型技术实现自然语言交互、自动化洞察与预测分析。支持多源数据接入，提供50+图表类型及行业模板，助力敏捷业务分析与AI增强决策。相比Tableau、Power BI等竞品，Quick BI以云原生低成本和通义大模型优势脱颖而出，适用于零售、金融等领域，推动数据民主化与智能化转型。推荐已使用阿里云生态的企业采用，分阶段推广功能以最大化价值。

1110 2 2

蚝油菜花

|

7月前

|

人工智能自然语言处理数据处理

|

博文

还在手动验证文献引用？ScholarCopilot：开源AI学术写作工具，生成时实时插入文献引用

基于 Qwen-2.5-7B 模型的 ScholarCopilot 通过动态检索标记和联合优化技术，实现学术文本生成与文献引用的精准匹配，在 50 万篇论文库中实现 40.1% 的检索准确率，生成文本的学术严谨性评分达 16.2/25。

758 5 5

来自：自然语言处理版块

蚝油菜花

|

8月前

|

人工智能并行计算语音技术

|

博文

Open-LLM-VTuber：宅男福音！开源AI老婆离线版上线，实时语音+Live2D互动还会脸红心跳

Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目，支持实时语音对话、视觉感知和生动的 Live2D 动态形象，完全离线运行，保护用户隐私。

663 10 10

来自：多模态版块

蚝油菜花

|

8月前

|

人工智能负载均衡调度

|

博文

COMET：字节跳动开源MoE训练加速神器，单层1.96倍性能提升，节省百万GPU小时

COMET是字节跳动推出的针对Mixture-of-Experts（MoE）模型的优化系统，通过细粒度的计算-通信重叠技术，显著提升分布式训练效率，支持多种并行策略和大规模集群部署。

389 9 9

来自：科学计算版块

蚝油菜花

|

8月前

|

人工智能数据可视化前端开发

|

博文

Probly：开源 AI Excel表格工具，交互式生成数据分析结果与可视化图表

Probly 是一款结合电子表格功能与 Python 数据分析能力的 AI 工具，支持在浏览器中运行 Python 代码，提供交互式电子表格、数据可视化和智能分析建议，适合需要强大数据分析功能又希望操作简便的用户。

929 2 2

来自：多模态版块

modelscope

|

10月前

|

测试技术

|

博文

通义千问团队开源全新的过程奖励模型PRM！

近年来，大型语言模型（LLMs）在数学推理方面取得了显著进展，但它们仍可能在过程中犯错误，如计算错误或逻辑错误，导致得出不正确的结论；即使最终答案正确，这些强大的模型也可能编造看似合理的推理步骤，这削弱了 LLMs 推理过程的可靠性和可信度。

839 14 14

蚝油菜花

|

11月前

|

人工智能自然语言处理测试技术

|

博文

DeepSeek V3：DeepSeek 开源的最新多模态 AI 模型，编程能力超越Claude，生成速度提升至 60 TPS

DeepSeek V3 是深度求索公司开源的最新 AI 模型，采用混合专家架构，具备强大的编程和多语言处理能力，性能超越多个竞争对手。

1694 5 5

来自：自然语言处理版块

蚝油菜花

|

11月前

|

机器学习/深度学习人工智能文字识别

|

博文

Kimi 上线视觉思考模型，K1 系列强化学习模型正式开放，无需借助外部 OCR 处理图像与文本进行思考并回答

k1视觉思考模型是kimi推出的k1系列强化学习AI模型，具备端到端图像理解和思维链技术，能够在数学、物理、化学等领域表现优异。本文详细介绍了k1视觉思考模型的功能、技术原理、使用方法及其在多个应用场景中的表现。

777 68 69

来自：自然语言处理版块

modelscope

|

11月前

|

机器学习/深度学习自然语言处理安全

|

博文

Llama 3.3开源！70B媲美405B性能，支持128K上下文

近期，Meta开源了Llama 3.3 多语言大型语言模型（LLM），Llama 3.3 是一个预训练并经过指令调优的生成模型，参数量为70B（文本输入/文本输出）。

2083 5 5

蚝油菜花

|

11月前

|

机器学习/深度学习人工智能 Linux

|

博文

SAM 2.1：Meta 开源的图像和视频分割，支持实时视频处理

SAM 2.1是由Meta（Facebook的母公司）推出的先进视觉分割模型，专为图像和视频处理设计。该模型基于Transformer架构和流式记忆设计，实现了实时视频处理，并引入了数据增强技术，提升了对视觉相似物体和小物体的识别能力。SAM 2.1的主要功能包括图像和视频分割、实时视频处理、用户交互式分割、多对象跟踪以及改进的遮挡处理能力。

786 6 6

来自：计算机视觉版块

aliyun9170107523-43660

|

1月前

|

存储监控 NoSQL

|

博文

140_异步推理：队列管理框架 - 使用Celery处理高并发请求的独特设计

在大型语言模型(LLM)部署的实际场景中，推理服务的并发处理能力直接影响用户体验和系统稳定性。随着LLM应用的普及，如何高效处理大量并发请求成为部署优化中的关键挑战。传统的同步请求处理方式在面对突发流量时容易导致系统过载，响应延迟增加，甚至服务崩溃。异步推理通过引入队列管理机制，能够有效缓冲请求峰值，平滑系统负载，提高资源利用率，从而为LLM服务提供更稳定、更高效的并发处理能力。

153 6 7

aliyun9170107523-43660

|

1月前

|

机器学习/深度学习人工智能监控

|

博文

143_成本优化：Spot实例与预留实例云资源节省计算详解与最佳实践

在云原生时代，成本优化已成为企业IT基础设施管理的核心挑战之一。随着AI和机器学习工作负载的激增，云资源成本占企业IT预算的比例持续上升，如何在保证服务质量的同时实现显著的成本节约，成为技术团队面临的紧迫问题。根据最新的Datadog云成本报告显示，截至2025年，平均有83%的容器支出被闲置资源浪费，而GPU实例支出在过去一年中增长了40%，已占计算成本的14%。在这样的背景下，深入理解和应用Spot实例和预留实例等成本优化策略，对于任何使用云服务的组织都具有重大的经济意义。

195 9 9

modelscope

|

5月前

|

存储人工智能文字识别

|

博文

Nanonets-OCR-s开源！复杂文档转Markdown SoTA，颠覆复杂文档工作流

Nanonets团队开源了 Nanonets-OCR-s，该模型基于Qwen2.5-VL-3B微调，9G显存就能跑。

647 2 3

蚝油菜花

|

7月前

|

机器学习/深度学习人工智能算法

|

博文

小米7B参数推理大模型首次开源！Xiaomi MiMo：数学代码双杀，超越32B巨头

小米开源的MiMo推理大模型通过联动预训练与强化学习算法，在7B参数规模下实现数学推理与代码生成能力的突破性提升，技术报告显示其性能超越部分32B级模型。

883 74 76

来自：自然语言处理版块

阿里云开发者

|

7月前

|

视频

支付宝率先接入！魔搭社区上线「MCP广场」与1400款MCP服务

4月15日，中国第一AI开源社区魔搭（ModelScope）推出全新MCP广场，上架千余款热门的MCP服务，包括支付宝、MiniMax等全新MCP服务在魔搭独家首发。魔搭社区为AI开发者提供丰富的MCP服务及调试工具，并支持第三方平台集成和调用，通过开源开放的方式加速Agent及AI应用的创新和落地。

409 0 0

蚝油菜花

|

7月前

|

人工智能编解码算法

|

博文

AI生成视频告别剪辑拼接！MAGI-1：开源自回归视频生成模型，支持一镜到底的长视频生成

MAGI-1是Sand AI开源的全球首个自回归视频生成大模型，采用创新架构实现高分辨率流畅视频生成，支持无限扩展和精细控制，在物理行为预测方面表现突出。

780 1 1

来自：多模态版块

蚝油菜花

|

7月前

|

人工智能自然语言处理 JavaScript

|

博文

测试工程师要失业？Magnitude：开源AI Agent驱动的端到端测试框架，让Web测试更智能，自动完善测试用例！

Magnitude是一个基于视觉AI代理的开源端到端测试框架，通过自然语言构建测试用例，结合推理代理和视觉代理实现智能化的Web应用测试，支持本地运行和CI/CD集成。

842 15 15

来自：自然语言处理版块

蚝油菜花

|

8月前

|

人工智能自然语言处理

|

博文

AudioX：颠覆创作！多模态AI一键生成电影级音效+配乐，耳朵的终极盛宴

AudioX 是香港科技大学和月之暗面联合推出的扩散变换器模型，能够从文本、视频、图像等多种模态生成高质量音频和音乐，具备强大的跨模态学习能力和泛化能力。

580 36 36

来自：多模态版块

蚝油菜花

|

8月前

|

数据采集人工智能文字识别

|

博文

OmniAlign-V：20万高质量多模态数据集开源，让AI模型真正对齐人类偏好

OmniAlign-V 是由上海交通大学、上海AI Lab等机构联合推出的高质量多模态数据集，旨在提升多模态大语言模型与人类偏好的对齐能力。该数据集包含约20万个多模态训练样本，涵盖自然图像和信息图表，结合开放式问答对，支持知识问答、推理任务和创造性任务。

330 10 10

来自：多模态版块

蚝油菜花

|

9月前

|

数据采集机器学习/深度学习人工智能

|

博文

SkyReels-V1：短剧AI革命来了！昆仑开源视频生成AI秒出影视级短剧，比Sora更懂表演！

SkyReels-V1是昆仑万维开源的首个面向AI短剧创作的视频生成模型，支持高质量影视级视频生成、33种细腻表情和400多种自然动作组合。

1143 92 93

来自：计算机视觉版块

modelscope

|

9月前

|

存储机器学习/深度学习

|

博文

MustDrop：多阶段去除冗余视觉token，提升多模态大模型推理效率

本文提出了一种高效的多模态大模型，多阶段去除冗余视觉token——MustDrop。多模态大模型中的视觉tokens通常表现出显著的空间和时间冗余，并且大模型的大部分输入令牌是视觉tokens，这极大程度上影响了多模态大模型推理效率。

448 11 11

AFAC2024初创组赛事运营

|

10月前

|

人工智能架构师决策智能

|

博文

agentUniverse X 浙大太乙平台，开源共建招募令来啦，3万奖金等你拿！

agentUniverse 首期开源共建活动正式上线啦！3万奖金池等大家贡献瓜分～

581 11 11

蚝油菜花

|

10月前

|

人工智能开发框架自然语言处理

|

博文

Eko：一句话就能快速构建复杂工作流的 AI 代理开发框架！快速实现自动操作电脑和浏览器完成任务

Eko 是 Fellou AI 推出的开源 AI 代理开发框架，支持自然语言驱动，帮助开发者快速构建从简单指令到复杂工作流的智能代理。

1159 12 13

来自：多模态版块

蚝油菜花

|

10月前

|

人工智能索引

|

博文

Infinity：字节跳动开源高分辨率图像生成模型，生成 1024x1024 的图像仅需 0.8 秒

Infinity 是字节跳动推出的高分辨率图像生成模型，通过位级自回归建模和无限词汇量标记器，显著提升了图像生成的细节和质量。

468 19 19

来自：计算机视觉版块

modelscope

|

11月前

|

机器学习/深度学习编解码物联网

|

博文

极致的显存管理！6G显存运行混元Video模型

混元 Video 模型自发布以来，已成为目前效果最好的开源文生视频模型，然而，这个模型极为高昂的硬件需求让大多数玩家望而却步。魔搭社区的开源项目 DiffSynth-Studio 近期为混元 Video 模型提供了更高效的显存管理的支持，目前已支持使用24G显存进行无任何质量损失的视频生成，并在极致情况下，用低至 6G 的显存运行混元 Video 模型！

865 13 13

来自：计算机视觉版块

蚝油菜花

|

11月前

|

人工智能自然语言处理

|

博文

RWKV-7：RWKV系列开源最新的大模型架构，具有强大的上下文学习能力，超越传统的Attention范式

RWKV-7是RWKV系列的最新大模型架构版本，具有强大的上下文学习能力，超越了传统的attention和linear attention范式。本文详细介绍了RWKV-7的主要功能、技术原理及其在多语言处理、文本生成等领域的应用场景。

618 7 7

来自：自然语言处理版块

蚝油菜花

|

11月前

|

人工智能自然语言处理前端开发

|

博文

Director：构建视频智能体的 AI 框架，用自然语言执行搜索、编辑、合成和生成等复杂视频任务

Director 是一个构建视频智能体的 AI 框架，用户可以通过自然语言命令执行复杂的视频任务，如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施，集成了多个预构建的视频代理和 AI API，支持高度定制化，适用于开发者和创作者。

519 9 10

来自：计算机视觉版块

蚝油菜花

|

11月前

|

机器学习/深度学习人工智能 UED

|

博文

OOTDiffusion：开源AI虚拟试衣工具，智能适配性别和体型自动调整衣物

OOTDiffusion是一款开源的AI虚拟试衣工具，能够智能适配不同性别和体型，自动调整衣物尺寸和形状，生成自然贴合的试穿效果。该工具支持半身和全身试穿模式，操作简单，适合服装电商、时尚行业从业者及AI试穿技术爱好者使用。

986 27 28

来自：计算机视觉版块

最新

文章

视频

问答

推荐

Zonos：油管博主集体转粉！开源TTS神器Zonos爆火：克隆你的声音说5国语言，还能调喜怒哀乐

Hibiki：实时语音翻译模型打破语言交流障碍！支持将语音实时翻译成其他语言的语音或文本

实战阿里qwen2.5-coder 32B，如何配置Cline的Ollama API接口。

Figma-Low-Code：快速将Figma设计转换为Vue.js应用，支持低代码渲染、数据绑定

AgiBot World：智元机器人开源百万真机数据集，数据集涵盖了日常生活所需的绝大多数动作

书生·万象InternVL 2.5：上海 AI Lab 开源的多模态大语言模型，超越了目前许多商业模型

Fish Speech 1.5：Fish Audio 推出的零样本语音合成模型，支持13种语言

129_量化技术：INT8与动态量化 - 推导压缩的精度损失公式

79_边缘设备环境：Raspberry Pi搭建

基于Spring AI构建智能Text-to-SQL转换器：一个完整的MCP

传统OCR集体阵亡！Versatile-OCR-Program：开源多语言OCR工具，精准解析表格和数学公式等复杂结构

用AI精准定位问题代码，调试时间直接砍半！LocAgent：斯坦福开源代码调试神器，多跳推理锁定问题代码

AI终于能听懂宝宝说话了！ChildMandarin：智源研究院开源的低幼儿童中文语音数据集，覆盖22省方言

DeepSeek开源周第五弹之一！3FS：支撑V3/R1模型数据访问的高性能分布式文件系统

Potpie.ai：比Copilot更狠！这个AI直接接管项目代码，自动Debug+测试+开发全搞定

Weebo：支持多语言和实时语音交流的开源 AI 聊天机器人，回复具备语调、情感的语音

Qwen开源视觉推理模型QVQ，更睿智地看世界！

如何驱逐某个节点上到某些名称空间的pod到其他节点

114_预训练：Masked LM优化与动态掩码效率深度解析

124_数据并行扩展：Megatron框架 - 分析模型分片的独特通信开销

「社会实验室」成真！SocioVerse：复旦联合小红书开源社会模拟世界模型，用AI预演群体行为

别让创意卡在工具链！MiniMax MCP Server：MiniMax 开源 MCP 服务打通多模态生成能力，视频语音图像一键全搞定

模型时代的智能BI—Quick BI：阿里云的数据洞察与决策引擎

还在手动验证文献引用？ScholarCopilot：开源AI学术写作工具，生成时实时插入文献引用

Open-LLM-VTuber：宅男福音！开源AI老婆离线版上线，实时语音+Live2D互动还会脸红心跳

COMET：字节跳动开源MoE训练加速神器，单层1.96倍性能提升，节省百万GPU小时

Probly：开源 AI Excel表格工具，交互式生成数据分析结果与可视化图表

通义千问团队开源全新的过程奖励模型PRM！

DeepSeek V3：DeepSeek 开源的最新多模态 AI 模型，编程能力超越Claude，生成速度提升至 60 TPS

Kimi 上线视觉思考模型，K1 系列强化学习模型正式开放，无需借助外部 OCR 处理图像与文本进行思考并回答

Llama 3.3开源！70B媲美405B性能，支持128K上下文

SAM 2.1：Meta 开源的图像和视频分割，支持实时视频处理

140_异步推理：队列管理框架 - 使用Celery处理高并发请求的独特设计

143_成本优化：Spot实例与预留实例云资源节省计算详解与最佳实践

Nanonets-OCR-s开源！复杂文档转Markdown SoTA，颠覆复杂文档工作流

小米7B参数推理大模型首次开源！Xiaomi MiMo：数学代码双杀，超越32B巨头

支付宝率先接入！魔搭社区上线「MCP广场」与1400款MCP服务

AI生成视频告别剪辑拼接！MAGI-1：开源自回归视频生成模型，支持一镜到底的长视频生成

测试工程师要失业？Magnitude：开源AI Agent驱动的端到端测试框架，让Web测试更智能，自动完善测试用例！

AudioX：颠覆创作！多模态AI一键生成电影级音效+配乐，耳朵的终极盛宴

OmniAlign-V：20万高质量多模态数据集开源，让AI模型真正对齐人类偏好

SkyReels-V1：短剧AI革命来了！昆仑开源视频生成AI秒出影视级短剧，比Sora更懂表演！

MustDrop：多阶段去除冗余视觉token，提升多模态大模型推理效率

agentUniverse X 浙大太乙平台，开源共建招募令来啦，3万奖金等你拿！

Eko：一句话就能快速构建复杂工作流的 AI 代理开发框架！快速实现自动操作电脑和浏览器完成任务

Infinity：字节跳动开源高分辨率图像生成模型，生成 1024x1024 的图像仅需 0.8 秒

极致的显存管理！6G显存运行混元Video模型

RWKV-7：RWKV系列开源最新的大模型架构，具有强大的上下文学习能力，超越传统的Attention范式

Director：构建视频智能体的 AI 框架，用自然语言执行搜索、编辑、合成和生成等复杂视频任务

OOTDiffusion：开源AI虚拟试衣工具，智能适配性别和体型自动调整衣物

ModelScope模型即服务

活跃用户

相关产品