|
8天前
|
编解码 调度 图形学
|

腾讯混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成_魔搭ModelScope社区-ModelScope魔搭社区

混元世界模型1.1(WorldMirror)发布,支持多视图、视频输入,单卡秒级生成3D场景。兼容CG管线,开源可部署,实现点云、深度、相机等多任务统一预测,性能领先。

109 1
|
1月前
|
数据采集 人工智能 自然语言处理
|

52_领域模型:BioBERT与FinBERT

在大语言模型(LLM)快速发展的今天,通用模型如GPT-4、Claude 3和Gemini虽然在广泛任务上表现出色,但在专业领域如医疗、金融和法律等场景中,往往难以达到专业人员的期待精度。2025年的研究表明,领域特定的预训练模型在垂直领域任务中能够显著超越通用模型,为专业应用提供更可靠的支持。本文将深入剖析BioBERT、FinBERT等代表性领域模型的技术原理、训练方法、性能评估及实际应用案例,探讨垂直领域预训练的独特优势与未来发展趋势。

191 0
|
7月前
|
人工智能 缓存 自然语言处理
|

全球首款开源通用型AI智能体上线!Suna:自动处理Excel/爬数据/写报告等复杂任务一句话搞定

Suna是由Kortix推出的开源通用型AI智能体项目,通过自然语言交互实现浏览器自动化、文件管理、数据分析等复杂任务处理,支持自托管部署,为研究分析和日常工作提供智能辅助。

1543 55
来自: 自然语言处理  版块
|
7月前
|
机器学习/深度学习 人工智能 编解码
|

重定义数字人交互!OmniTalker:阿里推出实时多模态说话头像生成框架,音视频实现唇语级同步

阿里巴巴推出的OmniTalker框架通过Thinker-Talker架构实现文本驱动的实时说话头像生成,创新性采用TMRoPE技术确保音视频同步,支持流式多模态输入处理。

2567 2
来自: 多模态  版块
|
7月前
|
人工智能 JSON 网络协议
|

音乐人狂喜!AbletonMCP:让AI帮你写歌,一句话生成专业编曲,Demo级作品秒出

AbletonMCP 是一个开源项目,通过模型上下文协议(MCP)将 Ableton Live 与 Claude AI 连接,实现 AI 辅助音乐制作,支持创建、修改 MIDI 和音频轨道等操作。

517 10
来自: 多模态  版块
|
1月前
|
存储 机器学习/深度学习 监控
|

67_Transformers库进阶:模型加载与配置优化

随着大型语言模型(LLM)技术的迅速发展,Hugging Face的Transformers库已经成为LLM开发和应用的标准工具包。作为一个开源的深度学习库,Transformers提供了丰富的预训练模型、统一的接口设计以及强大的生态系统,使得研究人员和开发者能够便捷地构建、训练和部署各类语言模型。2025年,Transformers库已经发展到5.x系列,不仅支持最新的GPU架构和量化技术,还提供了更完善的分布式训练能力和内存优化方案。

153 1
|
1月前
|
机器学习/深度学习 数据采集 自然语言处理
|

99_监督微调:Alpaca数据集格式与实现

在大语言模型(LLM)的开发和应用中,微调是将通用预训练模型转化为特定任务专家的关键步骤。监督微调(Supervised Fine-Tuning, SFT)作为微调的一种重要范式,通过人工标注的高质量数据集指导模型学习特定任务的输入输出模式,从而显著提升模型在目标任务上的性能。

489 0
|
3月前
|
编解码 算法 测试技术
|

MiniCPM-V4.0开源,多模态能力进化,手机可用,还有最全CookBook!

今天,面壁小钢炮新一代多模态模型 MiniCPM-V 4.0 正式开源。依靠 4B 参数,取得 在 OpenCompass、OCRBench、MathVista 等多个榜单上取得了同级 SOTA 成绩,且 实现了在手机上稳定、丝滑运行。此外,官方也正式开源了 推理部署工具 MiniCPM-V CookBook,帮助开发者面向不同需求、不同场景、不同设备,均可实现开箱即用的轻量、简易部署。

468 0
|
7月前
|
机器学习/深度学习 人工智能 PyTorch
|

模型手动绑骨3天,AI花3分钟搞定!UniRig:清华开源通用骨骼自动绑定框架,助力3D动画制作

UniRig是清华大学与VAST联合研发的自动骨骼绑定框架,基于自回归模型与交叉注意力机制,支持多样化3D模型的骨骼生成与蒙皮权重预测,其创新的骨骼树标记化技术显著提升动画制作效率。

966 27
来自: 多模态  版块
|
9月前
|
人工智能 安全 机器人
|

LangBot:无缝集成到QQ、微信等消息平台的AI聊天机器人平台

LangBot 是一个开源的多模态即时聊天机器人平台,支持多种即时通信平台和大语言模型,具备多模态交互、插件扩展和Web管理面板等功能。

1634 14
来自: 自然语言处理  版块
|
9月前
|
机器学习/深度学习 并行计算 API
|

Qwen2.5-1M: 支持100万Tokens上下文的开源Qwen模型

两个月前,Qwen团队升级了 Qwen2.5-Turbo,使其支持最多一百万个Tokens的上下文长度。今天,Qwen正式推出开源的 Qwen2.5-1M 模型及其对应的推理框架支持。

1609 28
|
10月前
|
人工智能 编解码 算法
|

Doubao-1.5-pro:字节跳动最新豆包大模型,性能超越GPT-4o和Claude 3.5 Sonnet

豆包大模型1.5是字节跳动推出的最新大模型,采用大规模稀疏MoE架构,支持多模态输入输出,具备低时延语音对话能力,综合性能优于GPT-4o和Claude 3.5 Sonnet。

1706 2
来自: 多模态  版块
|
10月前
|
人工智能 Python
|

JoyCaption:开源的图像转提示词生成工具,支持多种风格和场景,性能与 GPT4o 相当

JoyCaption 是一款开源的图像提示词生成工具,支持多种生成模式和灵活的提示选项,适用于社交媒体、图像标注、内容创作等场景,帮助用户快速生成高质量图像描述。

1343 21
来自: 计算机视觉  版块
|
11月前
|
人工智能 自然语言处理 搜索推荐
|

Open Notebook:开源 AI 笔记工具,支持多种文件格式,自动转播客和生成总结,集成搜索引擎等功能

Open Notebook 是一款开源的 AI 笔记工具,支持多格式笔记管理,并能自动将笔记转换为博客或播客,适用于学术研究、教育、企业知识管理等多个场景。

746 0
来自: 多模态  版块
|
1月前
|
人工智能 监控 安全
|

91_提示注入:安全提示工程

随着大型语言模型(LLM)技术的快速发展和广泛应用,AI系统正以前所未有的方式改变着我们的工作和生活。然而,这种强大的技术也带来了新的安全挑战,其中提示注入(Prompt Injection)攻击已成为最具威胁性的安全问题之一。提示注入攻击通过精心构造的输入,操纵或欺骗AI系统执行非预期行为,可能导致数据泄露、权限绕过、输出不当内容等严重后果

219 0
|
6月前
|
Web App开发 人工智能 JSON
|

Windows版来啦!Qwen3+MCPs,用AI自动发布小红书图文/视频笔记!

上一篇用 Qwen3+MCPs实现AI自动发小红书的最佳实践 有超多小伙伴关注,同时也排队在蹲Windows版本的教程。

854 1
|
7月前
|
人工智能 自然语言处理 监控
|

基于DeepSeek R1改进的AI安全模型!MAI-DS-R1:微软开源AI安全卫士,敏感话题响应率高达99.3%

微软开源的MAI-DS-R1是基于DeepSeek R1改进的AI模型,通过后训练优化将敏感话题响应率提升至99.3%,同时将有害内容风险降低50%,保持原版推理能力并增强多语言支持。

651 3
来自: 自然语言处理  版块
|
8月前
|
人工智能 API 语音技术
|

EmotiVoice:网易开源AI语音合成黑科技,2000+音色情感可控

EmotiVoice是网易有道开源的多语言语音合成系统,支持中英文2000多种音色,通过提示词控制情感输出,提供Web界面和API接口,具备语音克隆等先进功能。

827 43
来自: 语音  版块
|
8月前
|
机器学习/深度学习 编解码 人工智能
|

Qwen2.5-VL Technical Report

Qwen2.5-VL是阿里云团队推出的Qwen系列最新旗舰模型,具备显著提升的基础能力和创新功能。它在视觉识别、对象定位、文档解析和长视频理解等方面实现突破,支持精准的边界框/点定位及复杂输入处理。通过技术创新如窗口注意力、动态帧率采样和绝对时间编码,该模型在多模态任务中表现出色,在多个基准测试中超越顶级闭源模型,适用于从边缘AI到高性能计算的广泛场景。

987 7
|
9月前
|
存储 人工智能 缓存
|

DeepSeek 开源周第三弹!DeepGEMM:FP8矩阵计算神器!JIT编译+Hopper架构优化,MoE性能飙升

DeepGEMM 是 DeepSeek 开源的专为 FP8 矩阵乘法设计的高效库,支持普通和混合专家(MoE)分组的 GEMM 操作,基于即时编译技术,动态优化矩阵运算,显著提升计算性能。

822 3
来自: 科学计算  版块
|
25天前
|
机器学习/深度学习 自然语言处理 前端开发
|

Ling-1T,智渊、思简

今天,我们正式发布Ling 2.0系列的第一款 旗舰非思考模型 - 拥有万亿参数的Ling-1T。推理,是智能的核心表达,更是通用智能体的认知基石。因此,我们持续扩展Ling 2.0 系列模型的自然语言推理能力。Ling-1T沿用 Li…

405 9
|
1月前
|
存储 安全 API
|

73_安全配置:LLM开发环境的全面防护指南

在2025年的AI开发环境中,大型语言模型(LLM)已成为核心技术,但伴随其广泛应用的是日益严峻的安全挑战。据统计,2025年第一季度发生的AI安全事件中,LLM环境配置不当导致的漏洞占比高达43%,造成的损失超过2.1亿美元。本文将深入探讨LLM开发环境的安全配置最佳实践,帮助开发者构建一个安全、可靠的开发环境。

230 0
|
1月前
|
存储 运维 监控
|

57_大模型监控与运维:构建稳定可靠的服务体系

随着大语言模型(LLM)技术的快速发展和广泛应用,如何确保模型在生产环境中的稳定运行、高效服务和安全合规已成为企业和开发者面临的关键挑战。2025年,大模型服务已从实验室走向各行各业的核心业务流程,其运维复杂度也随之呈指数级增长。与传统软件系统不同,大模型服务具有参数规模庞大、计算密集、行为不确定性高等特点,这使得传统的运维监控体系难以满足需求。

222 0
|
7月前
|
人工智能 JSON 自然语言处理
|

让AI听懂你的建模需求!BlenderMCP:自然语言指令直接操控 Blender,一句话生成复杂3D场景

BlenderMCP通过MCP协议实现Blender与Claude AI的无缝集成,支持通过自然语言指令完成3D建模、材质调整等复杂操作,显著提升创作效率。

801 1
来自: 自然语言处理  版块
|
9月前
|
人工智能 运维 Serverless
|

DeepSeek模型部署全过程实践,轻松上手就在阿里云

随着人工智能技术的不断发展,越来越多的企业和个人开始探索如何利用深度学习模型来提升业务效率和用户体验。阿里云推出的【零门槛、轻松部署您的专属 DeepSeek 模型】解决方案为用户提供了多种便捷的部署方式,包括**基于百炼 API 调用满血版、基于人工智能平台 PAl 部署、基于函数计算部署以及基于 GPU 云服务器部署**。本文将从多个维度对这些部署方式进行详细评测,并分享个人的实际体验和观点。

1872 26
|
10月前
|
人工智能 搜索推荐 定位技术
|

AddressCLIP:一张照片就能准确定位!中科院联合阿里云推出街道级图像地理定位模型

AddressCLIP 是由中科院和阿里云联合开发的端到端图像地理定位模型,通过图像-文本对齐和地理匹配技术,实现街道级精度的定位,适用于城市管理、社交媒体、旅游导航等场景。

1326 30
来自: 计算机视觉  版块
|
11月前
|
人工智能 搜索推荐 API
|

Cobalt:开源的流媒体下载工具,支持解析和下载全平台的视频、音频和图片,支持多种视频质量和格式,自动提取视频字幕

cobalt 是一款开源的流媒体下载工具,支持全平台视频、音频和图片下载,提供纯净、简洁无广告的体验

1628 9
来自: 计算机视觉  版块
|
11月前
|
人工智能 API 数据库
|

Browser Use:开源 AI 浏览器助手,自动完成网页交互任务,支持多标签页管理、视觉识别和内容提取等功能

Browser Use 是一款专为大语言模型设计的智能浏览器工具,支持多标签页管理、视觉识别、内容提取等功能,并能记录和重复执行特定动作,适用于多种应用场景。

2790 0
来自: 多模态  版块
|
5月前
|
机器学习/深度学习 自然语言处理 监控
|

ms-swift 部分命令行参数说明

本资源介绍了机器学习训练中的关键参数设置及其影响,包括训练轮数、批量大小、学习率、梯度累积、模型微调等,并提供了针对不同任务和硬件配置的推荐值,帮助提升模型训练效率与性能。

437 4
|
7月前
|
人工智能 算法 API
|

多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!

上海人工智能实验室开源的InternVL3系列多模态大语言模型,通过原生多模态预训练方法实现文本、图像、视频的统一处理,支持从1B到78B共7种参数规模。

1022 6
来自: 多模态  版块
|
7月前
|
人工智能 自然语言处理 Rust
|

【内附榜单】评估AI大模型的代码修复能力!Multi-SWE-bench:字节开源代码修复能力评估基准,覆盖7大主流编程语言

Multi-SWE-bench是首个覆盖Python外7种主流编程语言的代码修复基准,包含1632个真实GitHub问题样本,通过严格筛选与人工验证确保数据质量。

496 0
来自: 自然语言处理  版块
|
7月前
|
数据采集 人工智能 安全
|

32.7K Star!Awesome MCP Servers:开源MCP资源聚合平台,覆盖20+垂直领域

Awesome MCP Servers 是一个开源项目,汇集了3000多个基于Model Context Protocol的服务器实现,支持本地和云端部署,为AI大模型提供丰富的外部数据访问和工具调用能力。

1420 2
来自: 自然语言处理  版块
|
8月前
|
人工智能 网络协议 Java
|

RuoYi AI:1人搞定AI中台!开源全栈式AI开发平台,快速集成大模型+RAG+支付等模块

RuoYi AI 是一个全栈式 AI 开发平台,支持本地 RAG 方案,集成多种大语言模型和多媒体功能,适合企业和个人开发者快速搭建个性化 AI 应用。

1769 77
来自: 自然语言处理  版块
|
8月前
|
机器学习/深度学习 人工智能 JSON
|

Resume Matcher:增加面试机会!开源AI简历优化工具,一键解析简历和职位描述并优化

Resume Matcher 是一款开源AI简历优化工具,通过解析简历和职位描述,提取关键词并计算文本相似性,帮助求职者优化简历内容,提升通过自动化筛选系统(ATS)的概率,增加面试机会。

787 18
来自: 自然语言处理  版块
|
8月前
|
人工智能 安全 生物认证
|

AI-Infra-Guard:腾讯开源AI基础设施安全评估神器,一键扫描漏洞

AI-Infra-Guard 是腾讯开源的高效、轻量级 AI 基础设施安全评估工具,支持 28 种 AI 框架指纹识别和 200 多个安全漏洞数据库,帮助用户快速检测和修复 AI 系统中的安全风险。

849 7
|
9月前
|
人工智能 编解码 语音技术
|

SpeechGPT 2.0:复旦大学开源端到端 AI 实时语音交互模型,实现 200ms 以内延迟的实时交互

SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的端到端实时语音交互模型,具备拟人口语化表达、低延迟响应和多情感控制等功能。

1936 21
来自: 语音  版块
|
10月前
|
机器学习/深度学习 人工智能 文字识别
|

Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式

Zerox 是一款开源的本地化高精度OCR工具,基于GPT-4o-mini模型,支持PDF、DOCX、图片等多种格式文件,能够零样本识别复杂布局文档,输出Markdown格式结果。

821 4
来自: 多模态  版块
|
12月前
|
人工智能 Ubuntu 语音技术
|

ebook2audiobookXTTS:开源电子书转有声书 AI 工具,支持 16 种语言

ebook2audiobookXTTS 是一款开源的 AI 工具,能够将电子书转换为有声书,支持多种电子书格式和 16 种语言。该工具利用 Coqui XTTS 技术实现高质量的文本到语音转换,并提供命令行、Web 界面和 Docker 容器等多种使用方式。

1334 3
来自: 多模态  版块
|
1月前
|
存储 数据采集 自然语言处理
|

56_大模型微调:全参数与参数高效方法对比

随着大型语言模型(LLM)规模的不断增长,从数百亿到数千亿参数,传统的全参数微调方法面临着计算资源消耗巨大、训练效率低下等挑战。2025年,大模型微调技术已经从早期的全参数微调发展到如今以LoRA、QLoRA为代表的参数高效微调方法,以及多种技术融合的复杂策略。本文将深入对比全参数微调和参数高效微调的技术原理、适用场景、性能表现和工程实践,为研究者和工程师提供全面的技术参考。

359 0
|
2月前
|
人工智能
|

黑森林开源Flux.1 Krea Dev!魔搭AIGC专区Day1支持,提供生图与训练定制

FLUX模型又又又更新了! 黑森林联合Krea发布了文生图模型Flux.1 Krea Dev,这是目前最好的开源文生图模型。 魔搭社区第一时间上线Flux.1 Krea Dev,快来AIGC专区抢先体验图片

285 11
|
7月前
|
机器学习/深度学习 人工智能 JSON
|

这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现

Paper2Code是由韩国科学技术院与DeepAuto.ai联合开发的多智能体框架,通过规划、分析和代码生成三阶段流程,将机器学习论文自动转化为可执行代码仓库,显著提升科研复现效率。

795 19
来自: 自然语言处理  版块
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
|

还在想开题报告?SurveyGO卷姬:清华开源学术论文AI写作神器,一键生成文献综述

SurveyGO是清华与面壁智能联合开源的AI论文写作工具,采用LLMxMapReduce-V2技术实现文献智能聚合,能根据用户输入主题快速生成结构严谨、引用可靠的学术综述。

891 1
来自: 自然语言处理  版块
|
7月前
|
人工智能 自然语言处理 API
|

AutoAgent:无需编程!接入DeepSeek用自然语言创建和部署AI智能体!港大开源框架让AI智能体开发变成填空题

香港大学推出的AutoAgent框架通过自然语言交互实现零代码创建AI智能体,支持多模型接入与自动化工作流编排,在GAIA基准测试中表现优异。

985 16
来自: 自然语言处理  版块
|
9月前
|
机器学习/深度学习 人工智能 机器人
|

TIGER:清华突破性模型让AI「听觉」进化:参数量暴降94%,菜市场都能分离清晰人声

TIGER 是清华大学推出的轻量级语音分离模型,通过时频交叉建模和多尺度注意力机制,显著提升语音分离效果,同时降低参数量和计算量。

713 6
来自: 语音  版块
|
11月前
|
机器学习/深度学习 编解码 人工智能
|

InvSR:开源图像超分辨率生成模型,提升分辨率,修复老旧照片为超清图像

InvSR 是一个创新的图像超分辨率模型,基于扩散模型的逆过程恢复高分辨率图像。它通过深度噪声预测器和灵活的采样机制,能够高效地提升图像分辨率,适用于老旧照片修复、视频监控、医疗成像等多个领域。

1906 9
来自: 计算机视觉  版块
|
1月前
|
机器学习/深度学习 存储 缓存
|

115_LLM基础模型架构设计:从Transformer到稀疏注意力

大型语言模型(LLM)的架构设计是其性能的核心决定因素。从2017年Transformer架构的提出,到如今的稀疏注意力和混合专家模型,LLM架构经历了快速的演进。本文将全面探讨LLM基础架构的设计原理,深入分析Transformer的核心机制,详细介绍稀疏注意力、MoE等创新架构,并展望未来架构发展方向。通过数学推导和实践案例,为构建高效、强大的LLM提供全面指导。

351 0
|
1月前
|
机器学习/深度学习 人工智能 芯片
|

42_大语言模型的计算需求:从GPU到TPU

随着2025年大语言模型技术的持续突破和规模化应用,计算资源已成为推动AI发展的关键驱动力。从最初的CPU计算,到GPU加速,再到专用AI加速器的崛起,大语言模型的计算需求正在重塑全球数据中心的基础设施架构。当前,全球AI半导体市场规模预计在2027年将达到2380亿美元(基本情境)甚至4050亿美元(乐观情境),这一增长背后,是大语言模型对计算能力、内存带宽和能效比的极致追求。

224 0

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14406
内容
6
活动
3695
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互