|
1月前
|
人工智能 自然语言处理 语音技术
|

智谱开源GLM-ASR:动动嘴,活就干了

智谱发布并开源GLM-ASR系列语音识别模型,推出桌面端AI输入法。包含云端旗舰模型GLM-ASR-2512与端侧轻量版GLM-ASR-Nano-2512(仅1.5B参数),实现高精度、低延迟、强隐私保护的语音转写。输入法集成大模型能力,支持语音指令、翻译、改写、人设切换、Vibe Coding等功能,让用户“动嘴干活”,提升办公效率。现已免费开放体验。

571 0
|
1月前
|
数据采集 自然语言处理 前端开发
|

智谱 GLM-4.6V开源!能看、能想还能执行「百变」任务

智谱发布GLM-4.6V系列多模态大模型,含106B基础版与9B轻量版,支持128k长上下文,视觉理解达同规模SOTA。原生融合工具调用能力,打通“视觉感知-行动执行”闭环,降价50%,API低至1元/百万tokens,助力图文创作、识图购物、前端复刻等复杂场景。

454 2
|
1月前
|
人工智能 缓存 算法
|

为什么你学了那么多算法,代码性能还是“一塌糊涂”?

本文针对开发者普遍存在的“学了算法却写不出高性能代码”的痛点,提供了一套系统化的“算法优化AI指令”。该指令旨在引导开发者建立“分析-设计-验证”的工程化思维,通过结构化的提问框架,让AI成为辅助性能优化的“私人教练”,从而将零散的算法知识转化为体系化的实战能力。

181 7
|
1月前
|
数据采集 存储 编解码
|

智源RoboCOIN重磅开源!全球本体数最多、标注最精细、使用最便捷的高质量双臂机器人真机数据集来了

北京智源研究院联合多家机构发布全球首个“本体数最多、标注最精细、使用最便捷”的双臂机器人真机数据集RoboCOIN,覆盖15类机器人、18万条轨迹、421项任务,首创“层级能力金字塔”标注体系,推动具身智能迈向真实场景应用。

248 11
|
1月前
|
人工智能 前端开发 JavaScript
|

告别"玄学调试":用这份指令让AI成为你的"赛博华佗"

调试占用了开发者50%的时间?本文提供一套专业的AI调试指令,将大模型转化为"拥有10年经验的代码医生"。通过结构化的诊断-修复-预防流程,告别低效的"玄学调试",实现从"修好Bug"到"根治隐患"的质变。

269 6
|
1月前
|
人工智能 前端开发 测试技术
|

告别 GUI Agent 工程基建噩梦!阶跃星辰开源 4B 模型,本地轻松部署,玩转安卓应用

阶跃星辰开源GELab-Zero,首发4B GUI Agent模型及完整基建,支持一键部署,在多端性能达SOTA。同步推出真实场景评测基准AndroidDaily,推动GUI智能体规模化落地。

353 10
|
1月前
|
机器学习/深度学习 测试技术 API
|

DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理

DeepSeek发布正式版V3.2与高性能Speciale版本,支持思考模式下工具调用,推理能力达全球领先水平。V3.2平衡效率与性能,适用于通用任务;Speciale专注复杂推理,在数学与编程竞赛中表现卓越,已开源并上线API。

572 9
|
1月前
|
传感器 数据采集 算法
|

LET数据集来魔搭了!开源首批超60,000分钟全尺寸人形机器人真机数据

国内最大全尺寸人形机器人真机数据集“LET数据集”正式发布,首批开源超6万分钟高质量数据,覆盖6大真实场景,支持多模态融合与标准化应用,助力具身智能研发,已在魔搭社区开放共享。

236 1
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Z-Image:冲击体验上限的下一代图像生成模型

通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。

2671 9
|
1月前
|
人工智能 算法 架构师
|

你的团队是"精锐特种兵",还是"草台班子"?就差这一份"源代码"

针对技术团队管理混乱、过度依赖个人的痛点,提出用AI指令将经验转化为标准SOP的解决方案。通过工程化思维重构管理流程,实现团队经验的"开源"与"复用",释放核心人才价值。

203 10
|
1月前
|
机器学习/深度学习 人工智能 测试技术
|

NeurIPS 2025 | 浙大、浙工大等团队提出LRMs 自适应思考:简单任务快处理,复杂任务深分析

浙大、阿里云等提出首个LRM快慢思维控制方法,发现特定词可触发思维模式,结合PCA导向与自适应策略,实现无需训练的推理速度调控,在多模型上显著提升准确率并减少耗材。

143 1
|
1月前
|
人工智能 JSON 自然语言处理
|

短难误判率仅2%,新一代网关路由SHG,在P95不升前提下完胜RouteLLM。

在和 RouteLLM 的两档式对比中 RouteLLM 将约百分之 69.3 的短难请求路由至轻量模型,而本文提出的网关系统将短难请求中落入轻档的比例压缩到约 2.4%,整体 P95 几乎不变。实验表明,短难请求构成了一类独立且在实践中高度相关的 LLM 路由稳健性问题,而针对性的、常数级开销的守护机制可以在不增加整体成本和尾部延迟的前提下,大幅缓解这一问题。

186 0
|
1月前
|
机器学习/深度学习 安全 算法
|

PPO最强,DPO一般?一文带你了解常见三种强化学习方法,文末推荐大模型微调神器!

大模型如何更懂人类?关键在于“对齐”。PPO、DPO、KTO是三大主流对齐方法:PPO效果强但复杂,DPO平衡高效,KTO低成本易上手。不同团队可根据资源选择路径。LLaMA-Factory Online让微调像浏览器操作一样简单,助力人人皆可训练专属模型。

448 3
来自: 多模态  版块
|
2月前
|
人工智能 API Python
|

Gemini 3 Nano Banana 的MCP服务器开发设计和 国内直连方案

基于Gemini 3 API开发的MCP绘图工具,支持在Coding客户端中边写代码边生成流程图。项目采用Python实现,兼容Gemini 2.5 Flash与3 Pro图像API,集成超时控制、国内直连路由转发功能,可高效调用AI生图。提供完整GitHub开源代码及在线试用地址,欢迎提交Issue交流。

432 11
|
2月前
|
机器学习/深度学习 人工智能 程序员
|

StackOverflow已经死亡了吗

StackOverflow曾是程序员的“圣地”,但AI崛起正改变这一格局。ChatGPT等工具以高效即时的优势分流用户,使其面临流量下滑与社区文化挑战。而新兴的大模型实验室Lab4AI则融合算力、实践与协作,构建AI时代下的开发者新生态。从问答到实践,开发者社区正在进化。

228 2
|
2月前
|
人工智能 测试技术
|

NeurlPS 2025!多伦多大学TIRE助力3D/4D 生成精准保留主体身份

TIRE提出“追踪-补全-重投影”三阶段方法,实现主体驱动的3D/4D生成。通过视频跟踪识别缺失区域,定制2D模型补全纹理,并重投影至3D空间,提升生成一致性与质量,推动动态场景生成新进展。

130 8
来自: 计算机视觉  版块
|
2月前
|
人工智能 自然语言处理 搜索推荐
|

贝聿铭的 “数字续作”:蚂蚁百宝箱 × 苏州博物馆,用 AI 重构文化地标

苏州博物馆携手蚂蚁百宝箱推出AI助手“小苏苏”,集成展讯、导览、文创推荐等功能,打造“咨询—导览—消费”闭环,以智能服务提升参观体验,助力文博场馆数字化升级。

234 3
来自: 自然语言处理  版块
|
2月前
|
开发框架 人工智能 测试技术
|

字节推出VeAgentBench + veADK,打造可评估、可复现的智能体开发新范式

字节跳动推出VeAgentBench与veADK,打造智能体“开发-评估”闭环。VeAgentBench是覆盖教育、金融、法律等四大场景的开源评估基准,veADK为高效易用的开发框架,支持工具调用、RAG与记忆管理,助力AI智能体可度量、可复现、可落地。

388 11
|
2月前
|
人工智能 安全 搜索推荐
|

杭州AI开源生态大会·魔搭社区开发者嘉年华全回顾

11月22日,杭州AI开源生态大会暨“魔搭社区”开发者中心启用仪式在云谷中心举行。大会汇聚超3000名开发者,发布“两张清单”与AI开源政策包,启用首个线下开发者空间,推动开放、共建、共创的AI生态发展。

415 10
|
2月前
|
机器学习/深度学习 编解码 JSON
|

混元OCR模型宣布开源,参数仅1B,多项核心能力SOTA

腾讯混元推出全新开源OCR模型HunyuanOCR,仅1B参数,基于原生多模态架构,实现端到端高效推理。在复杂文档解析、文字检测识别等多场景表现卓越,支持14种小语种翻译,广泛适用于票据抽取、视频字幕识别等应用,多项指标达业界SOTA水平。

490 8
|
2月前
|
人工智能 前端开发 JavaScript
|

新的LLM交互模式!大模型终于能自己生成交互式 UI 了

Google Research推出的Generative UI,让大模型不仅能生成内容,还能一键创建含地图、图表、小游戏等交互功能的完整网页。告别“文字墙”,迈向“内容即应用”的新时代,82.8%用户偏爱此创新体验。

658 8
|
2月前
|
机器学习/深度学习 编解码 自然语言处理
|

腾讯混元 HunyuanVideo 1.5 开源!

腾讯混元团队开源HunyuanVideo 1.5,一款8.3B参数的轻量级视频生成模型,基于DiT架构,支持文生视频、图生视频,可在14G显存设备运行,生成5-10秒高清视频,具备强指令响应、流畅动作与电影级画质。

560 10
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
|

AgentEvolver:让智能体系统学会「自我进化」

AgentEvolver 是一个自进化智能体系统,通过自我任务生成、经验导航与反思归因三大机制,推动AI从“被动执行”迈向“主动学习”。它显著提升强化学习效率,在更少参数下实现更强性能,助力智能体持续自我迭代。开源地址:https://github.com/modelscope/AgentEvolver

955 38
|
2月前
|
数据采集 人工智能 自然语言处理
|

Meta SAM3开源:让图像分割,听懂你的话

Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。

1340 59
|
2月前
|
人工智能 搜索推荐 小程序
|

全来店×蚂蚁百宝箱:智能体开启连锁餐饮智慧化服务新时代

2025外滩大会,全来店联合蚂蚁百宝箱发布餐饮AI智能体,打造“AI点餐吧”。依托百灵大模型,实现一句话点餐、个性化推荐、精准营销与连锁管控,重构智慧餐饮服务链,推动行业降本增效,开启消费新体验。

286 2
来自: 自然语言处理  版块
|
2月前
|
数据采集 人工智能 自然语言处理
|

Meta SAM3开源:让图像分割,听懂你的话

Meta发布并开源SAM 3,首个支持文本、点、框等提示进行图像与视频分割的统一基础模型,突破传统限制,实现开放词汇概念的精准识别与跟踪,涵盖超400万独特概念,推动视觉分割新发展。

1465 6
|
2月前
|
存储 数据采集 人工智能
|

最佳实践丨让苏东坡“复活”!我用Qwen3-8B实现了与千古文豪的跨时空对话

随着人工智能技术的不断发展,虚拟角色不再只是冰冷的对话机器,而是能够承载历史人物的气质、知识体系乃至精神风貌的“数字化身”。今天,我们将完整揭秘如何基于Qwen3-8B大模型,借助LLaMA-Factory Online平台,打造一个沉浸式的“苏东坡数字分身”,让前沿技术为文化传承注入新的活力。

536 10
来自: 自然语言处理  版块
|
2月前
|
人工智能 调度 开发工具
|

MemOS 正式上线魔搭社区 MCP 广场,让你的智能体拥有「长期记忆」

MemOS 正式上线魔搭社区 MCP 广场,作为首个大模型记忆操作系统,支持标准化记忆读写,7天调用量超14.9万次。开发者可一键集成,让AI具备持久化、可调度的记忆能力,实现连续思考与长期进化。

420 3
|
2月前
|
人工智能 文字识别 物联网
|

ModelScope魔搭社区发布月报 -- 25年11月

魔搭ModelScope三周年庆!见证开源大模型从追赶到领跑,11月硬核更新不断:Qwen3-VL、MiniMax-M2等新模态齐发,AIGC生态爆发,OCR、语音、Agent全面进化。11月22日杭州AI开源生态大会,不见不散!

482 4
|
2月前
|
编解码 物联网 API
|

码上生花:用API链接Qwen-Image系列及衍生LoRA生态模型

Qwen-Image系列开源三月成爆款,凭借中文场景优势与ModelScope平台深度集成,支持文生图、图像编辑及LoRA生态API调用,助力开发者高效创作。

779 1
|
2月前
|
数据采集 文字识别 算法
|

腾讯混元&清华开源15M高质量多模态训练数据,全面开放MLLM迎来质变时刻

腾讯混元与清华推出Bee项目,首创“以数据为中心”的全栈开源方案,通过Honey-Data-15M高质量数据集、HoneyPipe数据增强管线及Bee-8B模型,显著提升全开源多模态大模型性能,缩小与闭源模型差距。

402 4
|
2月前
|
搜索推荐 API Python
|

DeepSeek-V3.1 发布,迈向 Agent 时代的第一步

今日发布DeepSeek-V3.1,支持混合推理架构,提升思考效率与Agent能力。编程与搜索智能体表现显著增强,API已升级并支持Anthropic格式,模型开源,上下文扩展至128K。

658 5
|
2月前
|
人工智能 物联网 测试技术
|

Qwen-Image-Edit:全能图像编辑,驱动内容创作提质增效

通义千问团队开源Qwen-Image-Edit,基于20B模型,支持语义与外观双重编辑、精准中英文文字修改,具备SOTA图像编辑能力,可用于IP创作、风格迁移、文字修复等。

1166 6

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

2
今日
14964
内容
6
活动
3878
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互