|
9月前
|
机器学习/深度学习 人工智能 并行计算
|

Unsloth:学生党福音!开源神器让大模型训练提速10倍:单GPU跑Llama3,5小时变30分钟

Unsloth 是一款开源的大语言模型微调工具,支持 Llama-3、Mistral、Phi-4 等主流 LLM,通过优化计算步骤和手写 GPU 内核,显著提升训练速度并减少内存使用。

1228 3
来自: 自然语言处理  版块
|
10月前
|
人工智能 自然语言处理 计算机视觉
|

Janus-Pro:DeepSeek 开源的多模态模型,支持图像理解和生成

Janus-Pro是DeepSeek推出的一款开源多模态AI模型,支持图像理解和生成,提供1B和7B两种规模,适配多元应用场景。通过改进的训练策略、扩展的数据集和更大规模的模型,显著提升了文本到图像的生成能力和指令跟随性能。

2053 20
来自: 多模态  版块
|
10月前
|
人工智能 vr&ar
|

PSHuman:开源单图像3D人像重建技术,一张照片就能生成3D人像模型

PSHuman 是一种先进的单图像3D人像重建技术,仅需一张照片即可生成高度逼真的3D模型,支持面部细节、全身姿态和纹理恢复,适用于影视、游戏、虚拟现实等多个领域。

960 4
来自: 计算机视觉  版块
|
11月前
|
机器学习/深度学习 人工智能 达摩院
|

ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能

ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架,集成了语音增强、分离和音视频说话人提取等功能。该框架基于复数域深度学习算法,能够有效消除背景噪声,保留语音清晰度,并提供先进的预训练模型和训练脚本,支持研究人员和开发者进行语音处理任务。

1969 3
来自: 语音  版块
|
18天前
|
存储 人工智能 算法
|

ModelScope魔搭社区发布月报 -- 25年10月

2025年10月,ModelScope密集发布多模态与大模型更新,并上线国际站、科学智能专区及AIGC工具FlowBench,加速开源生态发展。

238 9
|
1月前
|
存储 缓存 自然语言处理
|

64_模型部署:推理优化策略

随着人工智能技术的飞速发展,大型语言模型(LLM)在自然语言处理、多模态理解等领域展现出惊人的能力。然而,将这些模型从实验室环境部署到实际生产系统中,面临着诸多挑战。根据2025年最新研究数据,大模型部署的主要挑战包括:

152 0
|
4月前
|
人工智能 数据可视化 前端开发
|

蚂蚁的可视化图表 MCP 首发上线!支持超过 25 种的可视化图表生成,也支持生成路书!

蚂蚁 AntV 团队推出可视化图表 MCP 插件,支持 25+ 种图表类型,涵盖统计图、关系图及地图标注、路径地图等,用户只需输入文本即可生成炫酷图表,大幅简化数据可视化流程,提升数据展示效率。

677 23
|
10月前
|
机器学习/深度学习 存储 人工智能
|

MNN:阿里开源的轻量级深度学习推理框架,支持在移动端等多种终端上运行,兼容主流的模型格式

MNN 是阿里巴巴开源的轻量级深度学习推理框架,支持多种设备和主流模型格式,具备高性能和易用性,适用于移动端、服务器和嵌入式设备。

2134 18
来自: 科学计算  版块
|
1月前
|
机器学习/深度学习 PyTorch 算法框架/工具
|

118_LLM模型量化与压缩:从理论到2025年实践技术详解

大型语言模型(LLM)在自然语言处理领域取得了前所未有的成功,但模型规模的快速增长带来了巨大的计算和存储挑战。一个典型的大型语言模型(如GPT-4或LLaMA 3)可能包含数千亿甚至万亿参数,需要数百GB甚至TB级的存储空间,并且在推理时需要大量的计算资源。这种规模使得这些模型难以在边缘设备、移动设备甚至资源有限的云服务器上部署和使用。

320 3
|
9月前
|
机器学习/深度学习 人工智能 JavaScript
|

video-subtitle-master:开源字幕生成神器!批量生成+AI翻译全自动,5分钟解放双手

video-subtitle-master 是一款开源AI字幕生成工具,支持批量为视频或音频生成字幕,并可将字幕翻译成多种语言。它集成了多种翻译服务和语音识别技术,适合视频创作者、教育领域和个人娱乐使用。

1049 0
来自: 多模态  版块
|
10月前
|
人工智能 自然语言处理 并行计算
|

Kokoro-TTS:超轻量级文本转语音模型,支持生成多种语言和多种语音风格

Kokoro-TTS 是一款轻量级文本转语音模型,支持多语言和多语音风格生成,具备实时处理能力和低资源占用,适用于多种应用场景。

1436 5
来自: 语音  版块
|
10月前
|
人工智能
|

LangGraph:构建多代理动态工作流的开源框架,支持人工干预、循环、持久性等复杂工作流自动化

LangGraph 是一个基于图结构的开源框架,专为构建状态化、多代理系统设计,支持循环、持久性和人工干预,适用于复杂的工作流自动化。

1348 12
来自: 自然语言处理  版块
|
11月前
|
开发框架 自然语言处理 JavaScript
|

千问开源P-MMEval数据集,面向大模型的多语言平行评测集

近期,通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval,涵盖了高效的基础和专项能力数据集。

977 8
|
1月前
|
缓存 负载均衡 监控
|

135_负载均衡:Redis缓存 - 提高缓存命中率的配置与最佳实践

在现代大型语言模型(LLM)部署架构中,缓存系统扮演着至关重要的角色。随着LLM应用规模的不断扩大和用户需求的持续增长,如何构建高效、可靠的缓存架构成为系统性能优化的核心挑战。Redis作为业界领先的内存数据库,因其高性能、丰富的数据结构和灵活的配置选项,已成为LLM部署中首选的缓存解决方案。

230 25
|
7月前
|
人工智能 自然语言处理 数据可视化
|

让AI单次生成4万字!WriteHERE:开源AI长文写作框架,单次生成超长文本,小说报告一键搞定!

WriteHERE是基于异质递归规划技术的开源AI写作框架,能动态分解写作任务并管理任务依赖关系,支持单次生成超过4万字的专业报告。

902 55
来自: 自然语言处理  版块
|
7月前
|
机器学习/深度学习 人工智能 编解码
|

AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画

万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。

1288 9
来自: 多模态  版块
|
8月前
|
机器学习/深度学习 人工智能 vr&ar
|

LHM:单图生成3D动画人!阿里开源建模核弹,高斯点云重构服装纹理

阿里巴巴通义实验室开源的LHM模型,能够从单张图像快速重建高质量可动画化的3D人体模型,支持实时渲染和姿态控制,适用于AR/VR、游戏开发等多种场景。

1769 0
来自: 计算机视觉  版块
|
10月前
|
人工智能 自然语言处理 API
|

UI-TARS:字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型

UI-TARS 是字节跳动推出的新一代原生图形用户界面(GUI)代理模型,支持跨平台自动化交互,具备强大的感知、推理、行动和记忆能力,能够通过自然语言指令完成复杂任务。

2498 16
来自: 计算机视觉  版块
|
11月前
|
存储 缓存 物联网
|

MNN推理框架将大模型放进移动端设备,并达到SOTA推理性能!

随着移动端(手机/平板等)算力、内存、磁盘空间的不断增长,在移动端部署大模型逐渐成为可能。在端侧运行大模型,可以有一系列好处:去除网络延迟,加快响应速度;降低算力成本,便于大规模应用;不需数据上传,保护用户稳私。

1733 13
|
1月前
|
机器学习/深度学习 数据采集 人工智能
|

100_RLHF(人类反馈强化学习)原理与实践

在大型语言模型(LLM)的发展历程中,我们见证了模型从简单的文本生成工具,逐渐演变为能够理解复杂指令、进行多轮对话、甚至展示创造性思维的智能系统。然而,这一进化并非仅仅依靠模型规模的增大和数据量的增加,更重要的是训练方法的创新。其中,人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)作为一种革命性的训练范式,在2022年随着ChatGPT的问世而广受关注,并在随后的GPT-4、Claude、Gemini等先进模型中得到广泛应用。

286 3
|
2月前
|
XML 自然语言处理 数据可视化
|

免费!文本表格不会总结、分析?文本表格可视化!帮你轻松解决困扰,保姆级级教程。【附Coze工作流】

本文介绍了如何利用“扣子”平台创建资源,通过可视化工作流处理并分析文档、表格、PDF等内容,帮助用户快速获取文件核心信息。内容涵盖登录、资源创建、工作流配置及运行操作,适用于多种文件格式,如CSV、Excel、PDF等。

594 3
|
2月前
|
人工智能 并行计算 语音技术
|

魔搭社区模型速递(8.23-8.30)

🙋魔搭ModelScope本期社区进展:📟4924个模型,📁357个数据集,🎨99个创新应用,📄 9篇内容:

308 3
|
7月前
|
人工智能 API 开发工具
|

GitHub官方开源MCP服务!GitHub MCP Server:无缝集成GitHub API,实现Git流程完全自动化

GitHub MCP Server是基于Model Context Protocol的服务器工具,提供与GitHub API的无缝集成,支持自动化处理问题、Pull Request和仓库管理等功能。

1331 2
|
8月前
|
存储 人工智能 文字识别
|

pdf-craft:PDF秒转Markdown/EPUB!接入DeepSeek轻松生成电子书,自动整理目录、注释和引文

pdf-craft是一款专注于处理扫描书籍PDF的开源工具,能精准提取正文内容并转换为Markdown/EPUB格式,通过AI算法解决跨页连贯性问题,是学术研究和电子书制作的利器。

1347 10
来自: 自然语言处理  版块
|
8月前
|
机器学习/深度学习 人工智能 NoSQL
|

JAVA接入DeepSeek大模型接口开发---阿里云的百炼模型

随着大模型的越来越盛行,现在很多企业开始接入大模型的接口,今天我从java开发角度来写一个demo的示例,用于接入DeepSeek大模型,国内的大模型有很多的接入渠道,今天主要介绍下阿里云的百炼模型,因为这个模型是免费的,只要注册一个账户,就会免费送百万的token进行学习,今天就从一个简单的可以执行的示例开始进行介绍,希望可以分享给各位正在学习的同学们。

1390 3
来自: 多模态  版块
|
10月前
|
机器学习/深度学习 人工智能 测试技术
|

PsycoLLM:开源的中文心理大模型,免费 AI 心理医生,支持心理健康评估与多轮对话

PsycoLLM 是合肥工业大学推出的中文心理大语言模型,基于高质量心理数据集训练,支持心理健康评估、多轮对话和情绪识别,为心理健康领域提供技术支持。

2778 51
来自: 自然语言处理  版块
|
2月前
|
机器学习/深度学习 数据采集 人工智能
|

通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互

近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。

511 2
|
2月前
|
人工智能 编解码 数据可视化
|

原生支持QwenImage!FlowBench 正式开启公测!本地 + 云端双模生图,AI创作更自由

FlowBench 是由 ModelScope x Muse 团队打造的一站式 AI 工作流创作平台,现已开启全面公测。该平台以工作流为核心,支持本地与云端资源协同运行,面向开发者、设计师及 AI 创作者提供高效、稳定、易用的可视化创作体验。FlowBench 原生支持 QwenImage 图像生成模型,最低仅需 8GB 显存即可实现本地生图,并支持多 LoRA 融合、多图批量生成等强大功能。用户可在 Mac 和 Windows 系统下载使用,同时享受云端与本地自由切换带来的灵活体验。公测期间,FlowBench 团队将持续优化功能,推出更多创新特性,助力用户开启高效 AI 创作之旅。

496 11
|
7月前
|
人工智能 安全 虚拟化
|

Cua:Mac用户狂喜!这个开源框架让AI直接接管你的电脑,快速实现AI自动化办公

Cua是一个结合高性能虚拟化与AI代理能力的开源框架,能在Apple Silicon上以接近原生性能运行虚拟机,并让AI直接操作系统应用。

794 17
来自: 自然语言处理  版块
|
1月前
|
数据采集 人工智能 自然语言处理
|

121_训练评估:困惑度分析 - 分析指标与下游任务关系

在大规模语言模型(LLM)的训练过程中,评估模型性能是一个至关重要但常被简化处理的环节。2025年的研究表明,仅依赖单一指标(如困惑度)来判断模型质量已经无法满足复杂应用场景的需求。困惑度作为语言模型训练中最核心的评估指标,其与下游任务表现之间的关系远比直觉更复杂。本文将深入剖析困惑度的数学原理、计算方法、优化策略,以及其与各类下游任务表现的相关性分析,为大规模语言模型的训练优化提供全面的技术指导。

326 1
|
7月前
|
人工智能 自然语言处理 监控
|

LongPort MCP:证券业首个券商MCP,AI赋能智能投资新时代,散户也能玩转机构级交易

LongPort MCP是长桥集团推出的证券行业首个券商模型上下文协议,通过标准化接口实现AI与金融服务的无缝对接,支持自然语言交互的智能投资服务。

875 8
来自: 自然语言处理  版块
|
10月前
|
人工智能 文字识别 API
|

moonshot-v1-vision-preview:月之暗面Kimi推出多模态视觉理解模型,支持图像识别、OCR文字识别、数据提取

moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型,具备强大的图像识别、OCR文字识别和数据提取能力,支持API调用,适用于多种应用场景。

1119 6
来自: 多模态  版块
|
11月前
|
数据采集 人工智能 自然语言处理
|

Midscene.js:AI 驱动的 UI 自动化测试框架,支持自然语言交互,生成可视化报告

Midscene.js 是一款基于 AI 技术的 UI 自动化测试框架,通过自然语言交互简化测试流程,支持动作执行、数据查询和页面断言,提供可视化报告,适用于多种应用场景。

2672 1
来自: 多模态  版块
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

模型训练数据-MinerU一款Pdf转Markdown软件

MinerU是由上海人工智能实验室OpenDataLab团队开发的开源智能数据提取工具,专长于复杂PDF文档的高效解析与提取。它能够将含有图片、公式、表格等多模态内容的PDF文档转化为Markdown格式,同时支持从网页和电子书中提取内容,显著提升了AI语料准备的效率。MinerU具备高精度的PDF模型解析工具链,能自动识别乱码,保留文档结构,并将公式转换为LaTeX格式,广泛适用于学术、财务、法律等领域。

1479 4
|
1月前
|
人工智能 监控 供应链
|

51_安全性测试:提示注入与红队

在2025年,大型语言模型(LLM)已成为企业数字化转型的核心驱动力,但随之而来的安全挑战也日益严峻。数据显示,全球每月监测到超过50万次针对大语言模型的越狱攻击,这些攻击利用LLM的"黑箱"特性和自主生成能力,突破了传统安全边界。特斯拉自动驾驶系统因对抗性贴纸导致12%测试场景意外加速、加拿大航空聊天机器人误导票价信息被勒令退款、韩国初创公司因AI数据泄露被罚9.3万美元、谷歌Bard曾因错误信息导致市值缩水1000亿美元等真实案例,都凸显了LLM安全的重要性

490 0
|
6月前
|
人工智能 测试技术 API
|

通义灵码 + 魔搭MCP:全流程构建创空间应用

最近,通义灵码上线 MCP(ModelScope Cloud Platform)功能,从之前代码生成及修改的基础功能,到可以使用MCP服务连接更多功能,开发者可以实现从 代码爬取、模型推理到应用部署

1538 27
|
7月前
|
算法 物联网 Swift
|

Qwen3 X ModelScope工具链: 飞速训练 + 全面评测

Qwen于近日发布了Qwen3系列模型,包含了各个不同规格的Dense模型和MoE模型。开源版本中,Dense模型基本沿用了之前的模型结构,差别之处在于对于Q和K两个tensor增加了RMSNorm;MoE模型去掉了公共Expert,其他结构基本与前一致。在模型大小上,涵盖了从0.6B到32B(Dense)和235B(MoE)不同的尺寸。

938 15
|
11月前
|
机器学习/深度学习 编解码 人工智能
|

ColorFlow:腾讯和清华大学联合推出的图像序列着色模型,通过参考图像的颜色对黑白漫画进行着色生成彩色漫画

ColorFlow是由清华大学和腾讯ARC实验室共同推出的图像序列着色模型,通过检索增强、上下文学习和超分辨率技术,确保黑白图像序列的着色与参考图像颜色一致,适用于漫画、动画制作等工业应用。

815 15
来自: 计算机视觉  版块
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Sketch2Lineart:AI绘画工具,自动将手绘草图转换成清晰的线条画

Sketch2Lineart是一款基于人工智能的绘画工具,能够自动将手绘草图转换成清晰的线条画。该工具支持多种功能,如草图转线稿、自动描述生成、细节调整和风格定制等,适用于艺术创作、产品设计、教育培训等多个领域。

917 60
来自: 计算机视觉  版块
|
1月前
|
机器学习/深度学习 开发框架 人工智能
|

81_Few-Shot提示:少样本学习的技巧

在大型语言模型(LLM)时代,提示工程(Prompt Engineering)已成为释放模型潜力的关键技能。其中,Few-Shot Prompting作为一种强大的技术,通过提供少量高质量的示例,显著提升模型在复杂任务上的性能。2025年,随着模型规模和能力的持续增长,Few-Shot Prompting技术也在不断演进,从简单的示例提供发展到更加精细化的优化策略。

150 0
|
1月前
|
缓存 API 调度
|

70_大模型服务部署技术对比:从框架到推理引擎

在2025年的大模型生态中,高效的服务部署技术已成为连接模型能力与实际应用的关键桥梁。随着大模型参数规模的不断扩大和应用场景的日益复杂,如何在有限的硬件资源下实现高性能、低延迟的推理服务,成为了所有大模型应用开发者面临的核心挑战。

279 0
|
5月前
|
Python 语音技术 Windows
|

IndexTTS 部署报错:No module named 'tn'

793 1
|
7月前
|
机器学习/深度学习 人工智能 编解码
|

Text to Bark:让狗狗听懂人话!全球首个AI"狗语"生成器,137种狗狗口音任君挑选

ElevenLabs推出的Text to Bark是全球首个能将文本转换为逼真狗吠声的AI模型,支持多种犬种选择并适配智能家居设备,其核心技术基于深度神经网络训练。

1197 15
来自: 语音  版块
|
9月前
|
人工智能 自然语言处理 PyTorch
|

InspireMusic:阿里通义实验室开源的音乐生成模型,支持文本或音频生成多种风格的音乐

阿里通义实验室开源的音乐生成技术,支持通过简单描述快速生成多种风格的高质量音乐作品。

1358 4
来自: 多模态  版块
|
11月前
|
人工智能 移动开发 前端开发
|

WeaveFox:蚂蚁集团推出 AI 前端智能研发平台,能够根据设计图直接生成源代码,支持多种客户端和技术栈

蚂蚁团队推出的AI前端研发平台WeaveFox,能够根据设计图直接生成前端源代码,支持多种应用类型和技术栈,提升开发效率和质量。本文将详细介绍WeaveFox的功能、技术原理及应用场景。

5863 68
来自: 多模态  版块
|
12月前
|
JavaScript 计算机视觉
|

FLUX.1 Tools 全家桶开源!文末附一键ComfyUI启动链接

Black Forest Labs 发布了 FLUX.1 Tools,一套增强 FLUX.1 文本转图像模型的工具集,包括 FLUX.1 Fill、FLUX.1 Depth、FLUX.1 Canny 和 FLUX.1 Redux,分别用于图像修复、深度引导、边缘检测和图像重组。提供详细的安装指南和模型下载链接,支持用户快速上手并优化图像处理流程。

4071 4
|
6月前
|
编解码 人工智能
|

通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程

通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程

1195 7
|
7月前
|
人工智能 缓存 自然语言处理
|

全球首款开源通用型AI智能体上线!Suna:自动处理Excel/爬数据/写报告等复杂任务一句话搞定

Suna是由Kortix推出的开源通用型AI智能体项目,通过自然语言交互实现浏览器自动化、文件管理、数据分析等复杂任务处理,支持自托管部署,为研究分析和日常工作提供智能辅助。

1544 55
来自: 自然语言处理  版块
|
7月前
|
人工智能 JSON 网络协议
|

音乐人狂喜!AbletonMCP:让AI帮你写歌,一句话生成专业编曲,Demo级作品秒出

AbletonMCP 是一个开源项目,通过模型上下文协议(MCP)将 Ableton Live 与 Claude AI 连接,实现 AI 辅助音乐制作,支持创建、修改 MIDI 和音频轨道等操作。

518 10
来自: 多模态  版块
|
7月前
|
人工智能 自然语言处理 前端开发
|

DeepSite:基于DeepSeek的开源AI前端开发神器,一键生成游戏/网页代码

DeepSite是基于DeepSeek-V3模型的在线开发工具,无需配置环境即可通过自然语言描述快速生成游戏、网页和应用代码,并支持实时预览效果,显著降低开发门槛。

1344 93
来自: 自然语言处理  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14406
内容
6
活动
3695
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互