通义 CoGenAV 大模型音画同步感知,重新定义语音理解边界
CoGenAV 是一种创新的多模态语音理解模型,核心理念是实现“音画同步”的深度理解。通过学习 audio-visual-text 的时序对齐关系,构建更鲁棒、更通用的语音表征框架。它在视觉语音识别(VSR)、音视频语音识别(AVSR)、语音增强与分离(AVSE/AVSS)及主动说话人检测(ASD)等任务中表现出色,尤其在嘈杂环境下性能显著提升。仅需 223 小时数据训练即可媲美传统数千小时数据的效果,大幅降低训练成本。CoGenAV 支持主流平台如 GitHub、HuggingFace 和 ModelScope,助力多场景应用开发。
手机也能跑通义Qwen3大模型,手把手教你部署!
全球开源模型冠军Qwen3与端到端全模态模型Qwen2.5-Omni现已成功在手机上跑通!借助MNN支持,适配Android、iOS及桌面端,实现低延迟、本地化、高安全的AI体验。用户可通过自定义Sampler设置、System Prompt和Max New Tokens调节模型输出风格与长度。
通义万相VACE开源!一款模型搞定多种视频编辑任务
VACE是一款多功能视频生成与编辑模型,支持文生视频、图像参考生成、局部编辑及视频扩展等任务。其核心亮点包括:多模态信息输入实现可控重绘,统一单一模型满足多任务需求,以及灵活组合单任务能力释放创意边界。技术设计上,VACE采用VCU(视频条件单元)统一输入范式,并通过多模态Token序列化和上下文适配器微调提升训练效率。开源版本提供不同分辨率选择,用户可通过GitHub、HuggingFace等平台获取资源,适用于高效灵活的视频创作场景。
用Qwen3搭建MCP Agent,有机会瓜分1亿tokens
通义实验室联合阿里云百炼发起有奖征文活动!使用Qwen3+MCP Sever搭建Agent,即有机会瓜分1亿Tokens大奖与限定周边。活动时间:5月6日-5月30日征稿,投稿需包含技术文档、故事分享、演示视频及知识产权承诺书。突出技术创新与场景应用,传播潜力更大!扫码报名并分享至社交平台还有额外抽奖机会,赢定制好礼!
Qwen3:小而强,思深,行速
Qwen3(千问3)于北京时间4月29日凌晨发布,是Qwen系列大型语言模型的最新成员,具备全系列、开源最强、混合推理等特性。它包括两款MoE模型(Qwen3-235B-A22B和Qwen3-30B-A3B)及六个Dense模型,支持119种语言。Qwen3在代码、数学和通用能力测试中超越行业顶尖模型,如DeepSeek-R1和Grok-3。其旗舰版Qwen3-235B-A22B仅需4张H20即可本地部署,成本为DeepSeek-R1的35%。此外,Qwen3原生支持思考模式与非思考模式切换,降低复杂任务门槛,并支持MCP协议优化Agent架构。

全新开源通义千问Qwen3,它来了!
Qwen3是通义千问系列的最新模型,融合推理与非推理模式,兼具QwQ和Instruct模型能力。提供多种尺寸,包括235B-A22B、30B-A3B及六个Dense模型,大幅提升数学、代码、逻辑推理和对话能力,达到业界领先水平。旗舰模型Qwen3-235B-A22B在多场景测试中表现优异,小型模型如Qwen3-4B性能媲美大模型。用户可在阿里云百炼平台免费体验各100万Token。
MoE模型加速秘籍:vLLM混合KV缓存管理解析
vLLM是高效分布式大模型推理引擎,采用分页注意力、连续批处理等技术实现高吞吐与低延迟。本文详解其架构设计与关键技术,包括KV缓存管理、调度机制、推测解码与分布式扩展等,助你深入理解性能优化原理。
5大实战技巧:优化RAG召回质量,避免“召回不足”灾难!
本文分享了团队在金融风控系统开发中优化RAG系统的实战经验,涵盖文档处理、召回策略与生成优化三大环节,解决召回不准、数据噪声等问题,助力构建高效精准的RAG系统。
Qwen3-Coder入门教程|10分钟搞定安装配置
Qwen3-Coder 挑战赛简介:无论你是编程小白还是办公达人,都能通过本教程快速上手 Qwen-Code CLI,利用 AI 轻松实现代码编写、文档处理等任务。内容涵盖 API 配置、CLI 安装及多种实用案例,助你提升效率,体验智能编码的乐趣。
从零到上线:用 Qwen3-Coder 和 MCP 打造儿童学习助手
本教程介绍如何利用Qwen3-Coder模型与VS Code插件打造儿童学习助手,涵盖AI编程、代码优化与网页部署,助你掌握真实场景开发技巧。
告别AI“纸上谈兵”?解锁LangGraph+OceanBase数据融合构建Agent蓝图
本文探讨企业级AI应用落地难题,分析为何许多AI项目上线后无人问津,指出核心在于真实业务需求复杂、数据割裂导致检索效率低下。文章提出通过构建融合AI数据底座,实现多模态数据统一存储与混合检索,并结合实战Demo展示如何提升AI应用效果,助力企业真正发挥AI的商业价值。
MCP协议深度集成:生产级研究助手架构蓝图
本文详解基于LangGraph与MCP协议构建研究助手的技术方案,涵盖双服务器集成、状态化智能体设计与用户元命令控制,助你掌握生产级代理系统开发要点。
阿里云百炼产品月刊【2025年8月】
阿里云百炼平台8月推出多项更新与活动。通义千问系列重磅升级,新增多款图像、语音及研究模型,如Qwen-Image、Qwen-Image-Edit、Qwen-MT-Image、Wan2.2-S2V等,全面增强图文生成与编辑能力。推出Qwen-Flash轻量模型,优化代码与推理性能,支持高并发低延迟场景。平台服务稳定性提升,部分模型计费策略调整,上下文缓存价格降低至input_token的20%,并提供100万免费token额度。同步上线“实训Agent创客”活动,助力用户快速上手新模型,提升实践能力。
用 LangChain4j+Ollama 打造 Text-to-SQL AI Agent,数据库想问就问
本文介绍了如何利用AI技术简化SQL查询操作,让不懂技术的用户也能轻松从数据库中获取信息。通过本地部署PostgreSQL数据库和Ollama模型,结合Java代码,实现将自然语言问题自动转换为SQL查询,并将结果以易懂的方式呈现。整个流程简单直观,适合初学者动手实践,同时也展示了AI在数据查询中的潜力与局限。
语义搜索三步过程揭秘:微调如何优化检索效率
本文探讨了如何通过微调文本嵌入模型提升特定领域任务的检索效果,重点介绍对比学习原理及五步实践流程,适用于AI招聘等场景,助力精准匹配用户查询与内容。
解决 VSCode 安装通义灵码后左侧菜单栏不显示按钮的问题
在 VSCode 中安装通义灵码插件后,若左侧活动栏未显示图标,可通过右键选中代码触发插件面板,并将其图标拖至左侧栏固定,便于后续快速使用。
百亿级知识库解决方案:从零带你构建高并发RAG架构(附实践代码)
本文详解构建高效RAG系统的关键技术,涵盖基础架构、高级查询转换、智能路由、索引优化、噪声控制与端到端评估,助你打造稳定、精准的检索增强生成系统。
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
LangChain默认工具正在污染你的知识库!PDF解析崩溃真相
本文深入探讨RAG项目中PDF解析的痛点与解决方案,分析LangChain默认工具的局限性,提出专业级文档处理架构设计与工具选型策略,涵盖表格图像处理、多模态解析与可扩展管道实现,助力提升RAG系统效果。
豆蔻妇科大模型宣布在妇产科正高考试中成绩超越GPT-5,同时正式开放试用
在钉钉10周年发布会上,壹生检康CEO王强宇宣布其自主研发的豆蔻妇科大模型(doukou.ai)在国家妇产科卫生高级职称笔试考试中以64.94分超越GPT-5的52.59分,并开放网页版试用。这一成绩展现了国产医疗AI在专业化赛道的快速进步和垂直行业大模型的高应用价值,为AI赋能医疗临床提供了新样本。
深度解析智能体工作流(Agentic Workflows):核心概念、模式与应用
本文系统解析智能体工作流(Agentic Workflow),结合AI智能体的推理、工具与记忆能力,实现复杂任务的动态执行。内容涵盖核心概念、关键模式及实际应用,帮助读者全面理解其价值与挑战。
向量数据库终极指南:AI开发者的进阶手册
本文深入解析向量数据库的原理与实战应用,涵盖其在AI系统中的核心作用、关键技术(如HNSW、PQ、LSH)、相似性搜索、元数据过滤及无服务器架构优势。适合开发者和AI从业者学习提升。
AI协作的四大支柱:协议详解与应用场景全解析
本文深入解析Agentic AI协议的四大核心协议——MCP、A2A、ACP与ANP,涵盖技术特性、应用场景及选型指南,助你掌握多代理协作系统构建要点。
超越Prompt Engineering:揭秘高并发AI系统的上下文工程实践
本文系统解析AI工程范式从Prompt Engineering到Context Engineering的演进路径,深入探讨RAG、向量数据库、上下文压缩等关键技术,并结合LangGraph与智能体系统架构,助力开发者构建高可靠AI应用。
混合检索技术:如何提升AI智能体50%的响应效率?
本文深入解析检索增强智能体技术,探讨其三大集成模式(工具模式、预检索模式与混合模式),结合实战代码讲解RAG组件链构建、上下文压缩、混合检索等关键技术,并提供多步检索工作流与知识库自更新机制设计,助力高效智能体系统开发。

【云故事探索】NO.17:国诚投顾的云原生 Serverless 实践
国诚投顾携手阿里云,依托Serverless架构实现技术全面升级,构建高弹性、智能化技术底座,提升业务稳定性与运行效率。通过云原生API网关、微服务治理与智能监控,实现流量精细化管理与系统可观测性增强,打造安全、敏捷的智能投顾平台,助力行业数字化变革。
深度解析大模型压缩技术:搞懂深度学习中的减枝、量化、知识蒸馏
本文系统解析深度学习模型压缩三大核心技术:剪枝、量化与知识蒸馏,详解如何实现模型缩小16倍、推理加速4倍。涵盖技术原理、工程实践与组合策略,助力AI模型高效部署至边缘设备。
推理速度提升300%:LLaMA4-MoE的FlashAttention-2集成与量化部署方案
本文详解LLaMA4-MoE模型架构与实现全流程,涵盖语料预处理、MoE核心技术、模型搭建、训练优化及推理策略,并提供完整代码与技术文档,助你掌握大模型MoE技术原理与落地实践。
《生成式引擎优化(GEO)服务商选择指南》:让AI大模型主动推荐你
GEO(生成式引擎优化)是针对AI生成式搜索引擎的优化策略,旨在让企业信息在AI回答中优先呈现,实现“无点击曝光”。与传统SEO不同,GEO强调语义理解、权威内容和结构化数据,提升品牌在AI推荐中的可见性与可信度。企业需关注GEO服务商的技术实力、行业匹配度、服务流程完整性等维度,确保优化效果。
iflow低代码门户网站AI生成
iflow.cn 是一个以 AI 技术为核心的多功能平台,专注于教育、研究及职场效率提升。主要功能包括 AI 辅助内容生成、知识管理、教育资源整合及跨平台使用体验。网站还提供 AI 搜索、个性化内容生成、考试辅导及效率工具,服务于学生、职场人士、研究人员等群体。需注意浏览器兼容性及内容准确性。
几大AI知识库致命坑点:避开它们,少走3个月弯路!
本文详解AI知识库在企业中的应用,涵盖架构设计、文档处理、工作流优化与性能调优等核心技术,结合实际案例帮助读者避开落地过程中的常见陷阱,适合希望提升AI应用能力的技术人员阅读。
深度解析四大LLM微调工具:从单卡到千亿级训练的四大解决方案
本文详解大语言模型微调四大工具——Unsloth、Axolotl、LlamaFactory、DeepSpeed,覆盖从单卡实验到万亿参数分布式训练场景,助你掌握主流框架选型策略,提升微调效率。建议点赞收藏。
2025架构革命:一文深度揭秘AI四维进化(MoE/GraphRAG/智能体/HyDE)
本文深入解析大模型核心技术与实践原理,涵盖MCP、RAG、Agent、微调等关键技术,结合架构演进与实战技巧,助你构建高性能AI系统,建议点赞收藏。
大模型登记指南—全网最详细解读版,纯干货快收藏!
本文解析了大模型“备案”与“登记”的区别,适用于不同场景的申报要求,并结合实际案例讲解登记流程、材料准备及安全评估要点,帮助企业合规申报,避免因未备案/登记而违规。
零成本打造智能服务端:MCP采样的降本增效实践
本文介绍MCP采样机制,突破传统单向调用模式,实现服务器与客户端LLM的双向协作,提升扩展性、降低成本,支持灵活模型选择。通过FastMCP框架,打造高效分布式AI计算架构。
大模型备案要点一次过【附材料清单详解】
广东省最新公布一批大模型备案名单,新增14款备案模型、6款登记模型,累计达80款备案、23款登记。文章详解大模型备案流程、周期(5-10个月)、要求(主体资质、数据合规、内容安全、模型完成度)、所需材料(备案表、安全评估报告、服务协议、语料标注规则等)及完整备案流程(初审、自测、提交、整改、终审、公示)。为大模型企业备案提供全面指导。
AI 调酒师上岗!Qwen3-Coder × 通义灵码完成 AI 调酒师项目实战开发
本课程通过“AI调酒师”项目实战,讲解如何使用通义灵码与Qwen3-Coder模型结合阿里云百炼平台,从需求分析、前端界面搭建、后端服务调用到整体部署的全流程开发。内容涵盖Bento UI设计、Tailwind CSS布局、语音识别与大模型内容生成,并结合MCP服务实现设计稿驱动开发,帮助开发者快速构建趣味AI应用,提升产品落地能力。
释放Qwen3-Coder潜力:Bolt+AnalyticDB Supabase,打造真正的生产力工具
阿里云发布Qwen3-Coder,具备卓越自主编码能力,支持超长上下文窗口与工具调用,结合Bolt与AnalyticDB Supabase,实现高效开发。
Trinity-RFT:构建智能体持续学习的自动化强化微调工厂
大型语言模型作为智能体在真实环境中持续交互学习面临诸多挑战。 Trinity-RFT 是通义实验室推出的强化微调框架,旨在实现智能体的持续进化。它通过探索、训练与经验池的解耦设计,支持多样化训练模式,提升资源利用率和学习稳定性。同时,Trinity-RFT 提供灵活的数据处理与算法模块化功能,降低应用与研究门槛,助力迈向终身学习与自主进化的智能体时代。
基于通义多模态大模型的实时音视频交互
Qwen-Omni是通义千问系列的全新多模态大模型,支持文本、图像、音频和视频的输入,并输出文本和音频。Omni-Realtime服务针对实时交互场景优化,提供低延迟的人机交互体验。
算法备案新手攻略——2025全网最新最详细解读版
本文介绍了算法备案的背景、法规依据、备案类型及流程,涵盖生成合成、个性化推送等五大算法类型,并详细说明所需材料与备案周期,强调未备案将面临行政处罚甚至刑事追责,助力企业合规运营。
RAG分块技术全景图:5大策略解剖与千万级生产环境验证
本文深入解析RAG系统中的五大文本分块策略,包括固定尺寸、语义、递归、结构和LLM分块,探讨其工程实现与优化方案,帮助提升知识检索精度与LLM生成效果。
大模型备案攻略—2025全网最新最详细解读版
随着AI技术的发展,大模型备案成为行业热点。本文详解备案所需具体条件与注意事项,涵盖模型功能、适用场景、研制情况、安全评估及备案材料等核心内容,帮助企业全面了解备案流程,规避合规风险,顺利推进产品上线。
告别无效调参!ReAct代理设计:让LLM精准执行复杂任务的终极方案
ReAct模式通过“推理+行动”循环,使大语言模型能自主调用工具、获取实时信息并执行多步骤任务,有效突破LLM固有局限,提升任务准确性和智能化水平。
深度解析基于LangGraph的Agent系统架构设计与工程实践
LangGraph作为Agent 生态中非常热门的框架,今天我将借助 LangGraph,更高效、更优雅的方式构建复杂智能体系统。