|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
|

魔搭社区模型速递(1.19-2.15)

魔搭ModelScope本期社区进展:6205个模型,823个数据集,333个创新应用, 26篇内容。

722 2
|
11月前
|
人工智能 测试技术 定位技术
|

Tarsier2:字节跳动开源专注于图像和视频内容理解的视觉语言大模型

Tarsier2 是字节跳动推出的大规模视觉语言模型,支持高质量视频描述、问答与定位,在多个视频理解任务中表现优异。

802 16
来自: 计算机视觉  版块
|
12月前
|
人工智能 JSON 算法
|

魔搭支持在阿里云人工智能平台PAI上进行模型训练、部署了!

现在,魔搭上的众多模型支持在阿里云人工智能平台PAI-Model Gallery上使用阿里云算力资源进行模型训练和部署啦!

789 22
|
12月前
|
机器学习/深度学习 人工智能 算法
|

VE-Bench:北京大学开源首个针对视频编辑质量的评估指标,从多角度考虑审美并准确地评估视频编辑效果

北京大学开源了首个针对视频编辑质量评估的新指标 VE-Bench,旨在通过人类感知一致的度量标准,更准确地评估视频编辑效果。

675 14
来自: 计算机视觉  版块
|
2月前
|
存储 监控 NoSQL
|

140_异步推理:队列管理框架 - 使用Celery处理高并发请求的独特设计

在大型语言模型(LLM)部署的实际场景中,推理服务的并发处理能力直接影响用户体验和系统稳定性。随着LLM应用的普及,如何高效处理大量并发请求成为部署优化中的关键挑战。传统的同步请求处理方式在面对突发流量时容易导致系统过载,响应延迟增加,甚至服务崩溃。异步推理通过引入队列管理机制,能够有效缓冲请求峰值,平滑系统负载,提高资源利用率,从而为LLM服务提供更稳定、更高效的并发处理能力。

287 6
|
2月前
|
人工智能 自然语言处理 数据中心
|

65_GPU选择:A100 vs RTX系列

在2025年的今天,大语言模型(LLM)已经成为人工智能领域的核心技术之一。从GPT-4到Llama 3.1,从专业领域应用到消费级产品,LLM正在以前所未有的速度改变着我们的工作和生活方式。然而,这些强大模型的训练和部署背后,都离不开高性能计算硬件的支持,尤其是GPU(图形处理单元)的选择,往往直接决定了项目的可行性、效率和成本。

633 0
|
2月前
|
机器学习/深度学习 人工智能 芯片
|

42_大语言模型的计算需求:从GPU到TPU

随着2025年大语言模型技术的持续突破和规模化应用,计算资源已成为推动AI发展的关键驱动力。从最初的CPU计算,到GPU加速,再到专用AI加速器的崛起,大语言模型的计算需求正在重塑全球数据中心的基础设施架构。当前,全球AI半导体市场规模预计在2027年将达到2380亿美元(基本情境)甚至4050亿美元(乐观情境),这一增长背后,是大语言模型对计算能力、内存带宽和能效比的极致追求。

502 0
|
3月前
|
存储 人工智能 文字识别
|

PDF解析迎来技术革新!阿里新产品实现复杂文档端到端结构化处理

前言9月24日云栖大会现场,由阿里巴巴爱橙科技数据技术及产品团队自主研发的 PDF解析神器正式亮相并同步开源模型。这款基于Logics-Parsing模型构建的AI工具直指当前PDF解析领域的技术痛点,显著提升复杂文档的结构…

577 0
|
7月前
|
边缘计算 弹性计算 人工智能
|

魔搭社区大模型一键部署到阿里云边缘云(ENS)

随着大模型技术的快速发展,业界的关注点正逐步从模型训练往模型推理 转变。这一转变不仅反映了大模型在实际业务中的广泛应用需求,也体现了技术优化和工程化落地的趋势。

778 7
|
8月前
|
人工智能 搜索推荐
|

「社会实验室」成真!SocioVerse:复旦联合小红书开源社会模拟世界模型,用AI预演群体行为

SocioVerse是由复旦大学联合小红书等机构开源的社会模拟框架,基于大语言模型和千万级真实用户数据构建,能精准模拟群体行为并预测社会事件演化趋势。

640 2
来自: 自然语言处理  版块
|
8月前
|
数据采集 人工智能 数据处理
|

覆盖16省方言的老人语音数据集!SeniorTalk:智源研究院开源全球首个超高龄老年人中文语音数据集

SeniorTalk是由智源研究院与南开大学联合推出的全球首个中文超高龄老年人对话语音数据集,包含202位75岁及以上老年人的55.53小时语音数据,涵盖16个省市的不同地域口音。

1017 5
来自: 语音  版块
|
8月前
|
机器学习/深度学习 自然语言处理 人机交互
|

重磅发布|支持东方40语种+中国22方言的新SOTA语音大模型Dolphin开源啦!

在当今数字化时代,语音识别技术已成为人机交互的关键桥梁,广泛应用于智能客服、语音助手、会议转录等众多领域。

575 0
|
9月前
|
人工智能 自然语言处理 语音技术
|

GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈

GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型,支持多语言、多情感控制,适用于智能客服、教育学习、智能助手等多种场景。

541 2
来自: 语音  版块
|
9月前
|
机器学习/深度学习 人工智能 NoSQL
|

JAVA接入DeepSeek大模型接口开发---阿里云的百炼模型

随着大模型的越来越盛行,现在很多企业开始接入大模型的接口,今天我从java开发角度来写一个demo的示例,用于接入DeepSeek大模型,国内的大模型有很多的接入渠道,今天主要介绍下阿里云的百炼模型,因为这个模型是免费的,只要注册一个账户,就会免费送百万的token进行学习,今天就从一个简单的可以执行的示例开始进行介绍,希望可以分享给各位正在学习的同学们。

1637 3
来自: 多模态  版块
|
10月前
|
存储 人工智能 文字识别
|

MME-CoT:多模态模型推理能力终极评测!六大领域细粒度评估,港中大等机构联合推出

MME-CoT 是由港中文等机构推出的用于评估大型多模态模型链式思维推理能力的基准测试框架,涵盖数学、科学、OCR、逻辑、时空和一般场景等六个领域,提供细粒度的推理质量、鲁棒性和效率评估。

620 0
来自: 多模态  版块
|
10月前
|
数据可视化 API 开发者
|

R1类模型推理能力评测手把手实战

随着DeepSeek-R1模型的广泛应用,越来越多的开发者开始尝试复现类似的模型,以提升其推理能力。

842 2
|
10月前
|
人工智能 搜索推荐 API
|

node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体

node-DeepResearch 是一个开源 AI 智能体项目,支持多步推理和复杂查询,帮助用户逐步解决问题。

1123 27
来自: 自然语言处理  版块
|
11月前
|
机器学习/深度学习 人工智能 监控
|

DiffuEraser:阿里通义实验室推出的视频修复模型,支持高清修复、时间一致性优化

DiffuEraser 是阿里通义实验室推出的基于稳定扩散模型的视频修复工具,能够生成丰富的细节并保持时间一致性,适用于电影修复、监控增强等场景。

788 27
来自: 计算机视觉  版块
|
11月前
|
人工智能 自然语言处理 JavaScript
|

微软开源课程!21节课程教你开发生成式 AI 应用所需了解的一切

微软推出的生成式 AI 入门课程,涵盖 21 节课程,帮助开发者快速掌握生成式 AI 应用开发,支持 Python 和 TypeScript 代码示例。

1017 15
来自: 自然语言处理  版块
|
11月前
|
数据采集 人工智能 自然语言处理
|

Riona-AI-Agent:自媒体 AI 代理!自动点赞、评论、个性化内容生成和发布等交互任务

Riona-AI-Agent 是一款基于 Node.js 和 TypeScript 的 AI 自动化工具,支持 Instagram、Twitter 等平台的自动化交互,生成高质量内容,提升社交媒体管理效率。

963 13
来自: 多模态  版块
|
11月前
|
机器学习/深度学习 编解码 人工智能
|

SeedVR:高效视频修复模型,支持任意长度和分辨率,生成真实感细节

SeedVR 是南洋理工大学和字节跳动联合推出的扩散变换器模型,能够高效修复低质量视频,支持任意长度和分辨率,生成真实感细节。

676 16
来自: 计算机视觉  版块
|
11月前
|
人工智能 开发框架 安全
|

Smolagents:三行代码就能开发 AI 智能体,Hugging Face 开源轻量级 Agent 构建库

Smolagents 是 Hugging Face 推出的轻量级开源库,旨在简化智能代理的构建过程,支持多种大语言模型集成和代码执行代理功能。

884 69
来自: 自然语言处理  版块
|
11月前
|
机器学习/深度学习 人工智能 算法
|

FinRobot:开源的金融专业 AI Agent,提供市场预测、报告分析和交易策略等金融解决方案

FinRobot 是一个开源的 AI Agent 平台,专注于金融领域的应用,通过大型语言模型(LLMs)构建复杂的金融分析和决策工具,提供市场预测、文档分析和交易策略等多种功能。

1119 13
来自: 多模态  版块
|
2月前
|
机器学习/深度学习 人工智能 并行计算
|

124_数据并行扩展:Megatron框架 - 分析模型分片的独特通信开销

2025年,大型语言模型的规模已达到数千亿甚至数万亿参数,单GPU训练已成为不可能的任务。高效的分布式训练技术成为训练超大模型的关键。Megatron框架作为业界领先的分布式训练解决方案,通过创新性的并行策略,实现了对超大语言模型的高效训练。

397 3
|
4月前
|
编解码 人工智能 小程序
|

魔搭社区模型速递(8.17-8.23)

🙋魔搭ModelScope本期社区进展:📟1652个模型,📁216个数据集,🎨54个创新应用,📄 4篇内容

572 8
|
5月前
|
机器学习/深度学习 人工智能 算法
|

通义WebSailor开源,首个挑战BrowseComp基准的开源网络智能体!

WebSailor网络智能体可以应用复杂场景下的检索任务,对于模糊问题可迅速在不同的网页中进行快速检索并推理验证,从而在海量信息中通过严密的多步推理和交叉验证中最终得出检索答案。

481 0
|
5月前
|
数据采集 编解码 人工智能
|

Gemma 3n正式版开源:谷歌全新端侧多模态大模型,2GB 内存就能跑,重点提升编码和推理能力!

6月底,Google正式开源发布了全新端侧多模态大模型 Gemma 3n!相较此前的预览版,最新的 Gemma 3n 完整版进一步提升性能表现,支持在 2GB 内存的硬件上本地运行,重点提升了编码和推理方面的能力。

693 1
|
5月前
|
人工智能 开发者
|

2025魔搭MCP&Agent挑战赛正式启动!50万总奖池!

2025魔搭MCP&Agent挑战赛正式拉开帷幕!这是一场聚焦MCP协议生态与Agent应用落地的顶级开发者盛会,旨在推动工具标准化与智能体场景创新,探索AI开发者在终端硬件的创新实践。

743 3
|
6月前
|
缓存 API Android开发
|

【HarmonyOS next】ArkUI-X新闻热搜聚合App【进阶】

本项目基于ArkUI-X框架,将鸿蒙(HarmonyOS)下的新闻热搜聚合App无缝迁移至iOS平台。采用ArkUI开发,结合@kit.NetworkKit实现网络请求,利用@ObservedV2与@Trace装饰器进行数据绑定,适配iOS界面布局与权限配置,完成跨平台热榜应用构建。

240 0
|
8月前
|
人工智能 自然语言处理 JavaScript
|

测试工程师要失业?Magnitude:开源AI Agent驱动的端到端测试框架,让Web测试更智能,自动完善测试用例!

Magnitude是一个基于视觉AI代理的开源端到端测试框架,通过自然语言构建测试用例,结合推理代理和视觉代理实现智能化的Web应用测试,支持本地运行和CI/CD集成。

1003 15
来自: 自然语言处理  版块
|
8月前
|
存储 人工智能 JSON
|

AI智能体内战终结者!A2A:谷歌开源的首个标准智能体交互协议,让AI用同一种“语言”交流

A2A是谷歌推出的首个标准化智能体交互协议,通过统一通信规范实现不同框架AI智能体的安全协作,支持多模态交互和长时任务管理,已有50多家企业加入生态。

716 0
|
9月前
|
人工智能 物联网 UED
|

Soundwave:语音对齐黑科技!开源模型秒解翻译问答,听懂情绪波动

Soundwave 是香港中文大学(深圳)开源的语音理解大模型,专注于语音与文本的智能对齐和理解,支持语音翻译、语音问答、情绪识别等功能,广泛应用于智能语音助手、语言学习等领域。

603 13
来自: 语音  版块
|
10月前
|
人工智能 自然语言处理 并行计算
|

MeteoRA:多任务AI框架革新!动态切换+MoE架构,推理效率提升200%

MeteoRA 是南京大学推出的多任务嵌入框架,基于 LoRA 和 MoE 架构,支持动态任务切换与高效推理。

492 3
来自: 多模态  版块
|
10月前
|
人工智能 自然语言处理 数据可视化
|

AutoAgents:比LangChain更激进的AI开发神器!自然语言生成AI智能体军团,1句话搞定复杂任务

AutoAgents 是基于大型语言模型的自动智能体生成框架,能够根据用户设定的目标自动生成多个专家角色的智能体,通过协作完成复杂任务。支持动态生成智能体、任务规划与执行、多智能体协作等功能。

1588 91
来自: 自然语言处理  版块
|
10月前
|
人工智能 自然语言处理 人机交互
|

Social Media Agent:告别文案焦虑!AI自动生成高转化帖子,输入URL快速生成爆款文案

Social Media Agent 是一款由 LangChain 推出的 AI 社交媒体内容管理工具,支持 Twitter 和 LinkedIn 平台,能快速生成高质量的帖子。

531 17
来自: 自然语言处理  版块
|
10月前
|
人工智能 编解码 文字识别
|

OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具

OCRmyPDF 是一款开源命令行工具,专为将扫描的 PDF 文件转换为可搜索、可复制的文档。支持多语言、图像优化和多核处理。

1139 17
来自: 多模态  版块
|
11月前
|
人工智能 编解码
|

CogVideoX-Flash:智谱首个免费AI视频生成模型,支持文生视频、图生视频,分辨率最高可达4K

CogVideoX-Flash 是智谱推出的首个免费AI视频生成模型,支持文生视频、图生视频,最高支持4K分辨率,广泛应用于内容创作、教育、广告等领域。

1061 5
来自: 计算机视觉  版块
|
11月前
|
人工智能 数据处理
|

LatentSync:根据音频生成高分辨率、动态逼真的唇形同步视频

LatentSync 是由字节跳动与北京交通大学联合推出的端到端唇形同步框架,基于音频条件的潜在扩散模型,能够生成高分辨率、动态逼真的唇同步视频,适用于影视、教育、广告等多个领域。

997 19
来自: 计算机视觉  版块
|
11月前
|
数据采集 人工智能 搜索推荐
|

SocraticLM:通过 AI 提问引导学生主动思考,中科大与科大讯飞联合推出苏格拉底式教育大模型

SocraticLM 是由中科大和科大讯飞联合开发的苏格拉底式教学大模型,通过提问引导学生主动思考,提供个性化教学,显著提升教学效果。

742 9
来自: 自然语言处理  版块
|
11月前
|
人工智能 自然语言处理 开发工具
|

Languine:专为开发者设计的 AI 多语言翻译工具,快速生成100+种语言的准确翻译,简化应用程序的 i18n 国际化配置

Languine 是一款面向开发者的 AI 翻译工具,支持 100+ 种语言,自动化翻译流程,提升多语言应用开发效率。

457 15
来自: 自然语言处理  版块
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
|

PeterCat:一键创建开源项目 AI 问答机器人,自动抓取 GitHub 仓库信息、文档和 issue 等构建知识库

PeterCat 是一款开源的智能答疑机器人,能够自动抓取 GitHub 上的文档和 issue 构建知识库,提供对话式答疑服务,帮助开发者和社区维护者高效解决技术问题。

830 7
来自: 自然语言处理  版块
|
12月前
|
人工智能 自然语言处理 Swift
|

ModernBERT-base:终于等到了 BERT 回归

BERT于 2018 年发布(史前人工智能!),但它至今仍被广泛使用,BERT的纯编码器架构使其成为每天出现的各种场景的理想选择,例如检索、分类和实体提取。

1207 3
来自: 自然语言处理  版块
|
12月前
|
存储 人工智能 编解码
|

多模态实时交互大模型浦语·灵笔 2.5 OmniLive开源:能看、能听、会记、会说!

2024年12月12日,多模态实时交互大模型书生·浦语灵笔2.5-OL(InternLM-XComposer2.5-OmniLive)开源,该模型可以通过视觉和听觉实时观察和理解外部世界,自动形成对观察到内容的长期记忆,并可通过语音与人类用户进行对话交谈,提供更自然的大模型交互体验。

778 4
|
2月前
|
数据采集 存储 自然语言处理
|

113_数据收集:Common Crawl过滤与高质量LLM训练数据构建

在大型语言模型(LLM)的训练过程中,数据质量直接决定了模型的性能上限。即使拥有最先进的模型架构和训练算法,如果没有高质量的训练数据,也难以训练出优秀的语言模型。Common Crawl作为目前互联网上最大的公开网络爬虫数据集之一,为LLM训练提供了宝贵的资源。然而,从原始的Common Crawl数据中提取高质量的训练素材并非易事,需要经过严格的过滤和清洗。本文将全面探讨Common Crawl数据集的特性、过滤策略的设计原则、以及2025年最新的过滤技术,为构建高质量的LLM训练语料提供系统指导。

414 0
|
2月前
|
存储 监控 算法
|

117_LLM训练的高效分布式策略:从数据并行到ZeRO优化

在2025年,大型语言模型(LLM)的规模已经达到了数千亿甚至数万亿参数,训练这样的庞然大物需要先进的分布式训练技术支持。本文将深入探讨LLM训练中的高效分布式策略,从基础的数据并行到最先进的ZeRO优化技术,为读者提供全面且实用的技术指南。

398 2
|
3月前
|
分布式计算 测试技术 Spark
|

科大讯飞开源星火化学大模型、文生音效模型

近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。

327 2
|
6月前
|
人工智能 文字识别 安全
|

趣丸千音MCP首发上线魔搭社区,多重技术引擎,解锁AI语音无限可能

近日,趣丸千音(All Voice Lab)MCP正式首发上线魔搭社区。用户只需简单文本输入,即可调用视频翻译、TTS语音合成、智能变声、人声分离、多语种配音、语音转文本、字幕擦除等多项能力。

711 32
|
8月前
|
人工智能 前端开发 语音技术
|

开源学习神器把2小时网课压成5分钟脑图!BiliNote:一键转录哔哩哔哩视频,生成结构化学习文档

本文介绍基于FastAPI与React构建的开源视频笔记工具BiliNote,其整合多模态AI技术实现视频内容结构化解析,支持跨平台视频源处理与本地化部署方案,提供从语音转写到智能摘要的全流程自动化能力。

1791 36
来自: 多模态  版块
|
8月前
|
传感器 人工智能 算法
|

傅利叶开源人形机器人,提供完整的开源套件!Fourier N1:具备23个自由度和3.5米/秒运动能力

傅利叶推出的开源人形机器人N1搭载自研动力系统与多模态交互模块,具备23个自由度和3.5米/秒运动能力,提供完整开源套件助力开发者验证算法。

697 3
来自: 多模态  版块
|
8月前
|
数据采集 人工智能 自然语言处理
|

AI终于能听懂宝宝说话了!ChildMandarin:智源研究院开源的低幼儿童中文语音数据集,覆盖22省方言

ChildMandarin是由智源研究院与南开大学联合推出的开源语音数据集,包含41.25小时3-5岁儿童普通话语音数据,覆盖中国22个省级行政区,为儿童语音识别和语言发展研究提供高质量数据支持。

917 20
来自: 语音  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14488
内容
6
活动
3795
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互