如何在 TensorRT-LLM 中支持 Qwen 模型
大型语言模型正以其惊人的新能力推动人工智能的发展,扩大其应用范围。然而,由于这类模型具有庞大的参数规模,部署和推理的难度和成本极高,这一挑战一直困扰着 AI 领域。此外,当前存在大量支持模型部署和推理的框架和工具,如 ModelScope 的 Model Pipelines API,和 HuggingFace 的 Text Generation Inference 等,各自都有其独特的特点和优势。然而,这些工具往往未能充分发挥 GPU 的性能。
通义千问14B开源!内附魔搭最佳实践
9月25日,阿里云开源通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat,免费可商用。Qwen-14B在多个权威评测中超越同等规模模型,部分指标甚至接近Llama2-70B。阿里云此前开源的70亿参数模型Qwen-7B等,一个多月下载量破100万,成为开源社区的口碑之作。
【提示词工程】从战略到执行的断层怎么填?AI辅助OKR制定实战指南
针对技术团队"瞎忙不增长"的痛点,解析OKR在战略对齐中的核心价值。提供一套经过验证的AI指令,帮助管理者将模糊愿景拆解为可量化、有挑战的关键结果,实现从"任务导向"到"价值导向"的转型。
别再“调教”ChatGPT了!用Qwen2.5打造24小时在线数字分身
在AI时代,专属“数字分身”正从科幻走向现实。依托Qwen2.5-14B大模型、LoRA微调技术及LLaMA-Factory Online平台,仅需四步即可打造会说话、懂风格、能办事的个性化AI助手,让每个人拥有自己的“贾维斯”。
精通RAG:从“能用”到“好用”的进阶优化与评估之道
你的RAG应用是否总是答非所问,或者检索到的内容质量不高?本文聚焦于RAG系统的进阶优化,深入探讨从查询转换、多路召回与重排序(Rerank)等高级检索策略,到知识库构建的最佳实践。更重要的是,我们将引入强大的`Ragas`评估框架,教你如何用数据驱动的方式,科学地量化和提升你的RAG系统性能。
探索 Qwen2.5-Max 的智能:大规模 MoE 模型的飞跃
Qwen2.5-Max 是通义实验室推出的最先进MoE模型,在推理、知识和代码任务中表现卓越,已在超20万亿token上预训练,并通过SFT和RLHF优化。在多项基准测试中领先,如Arena-Hard达89.4,MMLU-Pro为76.1,性能超越DeepSeek V3、GPT-4o等模型,成为当前最佳开源模型。可通过Qwen Chat和API使用,适用于开发者、研究者及AI爱好者探索前沿AI能力。
告别无效调参!ReAct代理设计:让LLM精准执行复杂任务的终极方案
ReAct模式通过“推理+行动”循环,使大语言模型能自主调用工具、获取实时信息并执行多步骤任务,有效突破LLM固有局限,提升任务准确性和智能化水平。
通义万相首尾帧图模型一键生成特效视频!
本文介绍了阿里通义发布的Wan2.1系列模型及其首尾帧生视频功能。该模型采用先进的DiT架构,通过高效的VAE模型降低运算成本,同时利用Full Attention机制确保生成视频的时间与空间一致性。模型训练分为三个阶段,逐步优化首尾帧生成能力及细节复刻效果。此外,文章展示了具体案例,并详细说明了训练和推理优化方法。目前,该模型已开源。
Spark-TTS: AI语音合成的"变声大师"
Spark-TTS 是一款革命性的语音合成模型,被誉为“变声大师”。它通过创新的 BiCodec 技术将语音分解为语义和全局两种 Token,实现对音色、性别、语速等属性的精细控制。结合统一的 LLM 架构,Spark-TTS 简化了传统 TTS 的复杂流程,同时提供了前所未有的灵活性。此外,团队还发布了 VoxBox 开源数据集,为行业提供标准评估基准。尽管在零样本场景下仍存改进空间,但 Spark-TTS 已经开启了语音合成新时代,让个性化、可控的 AI 语音成为可能。
颠覆开发效率!国内首个微服务编排框架Juggle开源啦!
Juggle是国内首个开源的微服务编排框架,专注于解决企业微服务进程中接口重复开发、系统对接复杂等问题。它提供零代码、低代码和AI增强功能,通过可视化拖拽快速组装简单API为复杂接口,支持多协议、多语言脚本和流程多版本管理。相比国外框架如Conductor,Juggle更贴合国内需求,具备高效开发、企业级可靠性及信创适配等优势,助力企业实现敏捷创新与数字化转型。
这个多模态智能体,让电力装备运维越来越“聪明”
DeepSeek的出圈为AI发展开辟新路径,大模型在各行业应用也愈发深入。例如“许继智算”团队在昇腾AI创新大赛中获奖,他们通过大模型解决了电力装备运维中的缺陷检测与风险识别难题。传统电力运维依赖人工,存在效率低、误报率高等问题,而该团队基于多模态大模型,融合文本、声纹、图像等信息,构建“智电灵眸”智能运维平台,大幅提升故障诊断精度与效率。其创新方案已在多个项目试点,识别准确率提升30%以上,故障预警速度提高50%,标志着电力运维进入“智能体”时代。这不仅体现了大模型的实际价值,也为其他行业应用提供了参考范例。
AI 解决方案的安全控制设计与实施
AI 解决方案的安全控制设计与实施涵盖数据安全、模型安全、系统安全及合规治理四大领域。通过数据加密、访问控制、差分隐私等手段保障数据安全;采用对抗训练、联邦学习确保模型安全;利用容器化部署、可信执行环境维护系统安全;并遵循 GDPR 等法规,进行红队测试和应急响应,确保 AI 全生命周期的安全性与合规性。
通义千问赋能CACA指南:构建智慧肿瘤诊疗新生态
本文探讨了如何利用阿里云通义千问大模型,结合中国抗癌协会(CACA)编撰的《中国肿瘤整合诊治指南》,打造新一代智能化临床决策支持系统。该系统通过分层架构设计,实现智能问答、临床决策支持和患者管理等功能,显著提升了医生的工作效率和治疗方案的科学性。
WINDOWS 环境变量设置方法
本文旨在帮助使用Windows电脑的开发者们为其设备配置环境变量,以更好地支持大模型应用的开发工作。文中详细介绍了三种配置方法:一是将环境变量设置为系统级变量;二是在命令行界面通过`SET`命令或`PowerShell`临时设置变量;三是借鉴MAC的方式,创建全局环境变量文件`.zshrc`进行配置。这些方法简单实用,便于根据实际需求选择适合的方式进行配置。
从 CodeGemma 到 CodeQwen1.5:开源编程大模型百家争鸣
笔者最近刚刚试用完 CodeGemma ,准备分享我的心得时,通义千问的 CodeQwen1.5 就也悄然发布。本文主要介绍 CodeQwen1.5 这款开源编程大模型,并展示如何在 VSCode 中使用它帮你提升编程体验。
大语言模型的主流应用领域
大语言模型在多个领域都发挥着重要作用,从新闻报道到金融分析,从智能家居到在线教育、自然语言处理、智能客服、情感分析,它们都在推动技术进步并改善人们的生活质量。
TensorRT-LLM 推理服务实战指南
`trtllm-serve` 是 TensorRT-LLM 官方推理服务工具,支持一键部署兼容 OpenAI API 的生产级服务,提供模型查询、文本与对话补全等接口,并兼容多模态及分布式部署,助力高效推理。
软考通关密钥:计算机系统核心原理全解剖——软件设计师必懂的底层逻辑
专为软考中级软件设计师打造,深入解析CPU架构、存储体系、进制转换、原码补码、浮点数、寻址方式、校验码、RISC/CISC、流水线、Cache、中断、I/O控制、总线及加密技术等核心知识点,结合真题剖析高频考点,构建计算机系统底层知识体系,提升应试与实践能力。
用 LangChain4j+Ollama 打造 Text-to-SQL AI Agent,数据库想问就问
本文介绍了如何利用AI技术简化SQL查询操作,让不懂技术的用户也能轻松从数据库中获取信息。通过本地部署PostgreSQL数据库和Ollama模型,结合Java代码,实现将自然语言问题自动转换为SQL查询,并将结果以易懂的方式呈现。整个流程简单直观,适合初学者动手实践,同时也展示了AI在数据查询中的潜力与局限。
LangChain默认工具正在污染你的知识库!PDF解析崩溃真相
本文深入探讨RAG项目中PDF解析的痛点与解决方案,分析LangChain默认工具的局限性,提出专业级文档处理架构设计与工具选型策略,涵盖表格图像处理、多模态解析与可扩展管道实现,助力提升RAG系统效果。
AI大模型进阶系列(02)基于Spring AI实现AI chatbot助理|一句话让deepseek实现
本文介绍了通过DeepSeek生成一个基于Spring AI的在线AI聊天助手项目的全过程。项目采用JDK17+Spring AI+Thymeleaf+Spring Web技术栈,实现了一个简单的聊天界面,用户可输入内容并获得DeepSeek返回的结果。文章详细描述了从需求明确、项目结构设计到配置参数启动的步骤,并展示了核心代码片段如pom.xml、application.properties及主要Java类文件。尽管功能简单,但体现了AI在编程领域的高效应用,未来有望进一步优化上下文记忆等功能,提升开发体验与效率。
使用CAMEL和Unsloth进行数据生成与Qwen模型微调
本项目结合CAMEL和Unsloth,生成高质量训练数据并对Qwen 7B模型进行微调,提升其在特定内容上的理解和生成能力。我们使用CAMEL生成指令-输入-输出三元组数据,并通过Unsloth的LoRA技术加速微调过程。详细步骤包括环境准备、API密钥设置、模型加载与配置、数据生成与保存、模型训练及推理。最终,微调后的Qwen 7B模型能更好地处理CAMEL社区相关文本。 更多详情请参考: - [CAMEL GitHub](https://github.com/camel-ai/camel)
什么是AI网关?AI网关在企业系统中承担什么角色?
AI大模型的快速发展正推动各行业增长,预计未来十年年均增长率达37.3%,2027年前全球企业在AI领域的投资将达8000亿美元。这促使企业进行战略转型,调整AI应用构建与保护方式。为应对AI创新需求,AI网关概念应运而生,它帮助企业随时随地控制和管理应用流量,提供更高的安全性。AI网关不仅支持多AI模型集成,还提供统一端点、应用程序配置与部署、安全与访问管理等核心功能。面对未来挑战,AI网关需支持模型故障转移、语义缓存等功能,确保AI应用的可靠性和效率。开源项目APIPark.COM为企业提供了一站式AI网关解决方案,简化大型语言模型的调用过程,保障企业数据安全。
【大模型】大型模型飞跃升级—文档图像识别领域迎来技术巨变
通过对GPT-4V和文档识别领域的深入分析和思考,为OCR文档识别领域的研究开辟了新的方向。需求不断增长的背景下,提高识别精度和处理效率成为了迫切需要满足的新应用标准。在这一背景下,出现了: 素级OCR统一模型、OCR大一统模型、文档识别分析+LLM(LanguageModel)等应用的新方向。下面来详细看一下。
LLM 内存需求计算方式
GPU上大语言模型的内存主要由模型权重和KV缓存构成。70亿参数模型以16位精度加载时,权重占约14GB;KV缓存则随批大小和序列长度线性增长,显著影响显存使用,限制推理吞吐与长上下文处理。
告别OOM!这款开源神器,如何为你精准预测AI模型显存?
在 AI 开发中,CUDA 显存不足常导致训练失败与资源浪费。Cloud Studio 推荐一款开源工具——AI 显存计算器,可精准预估模型训练与推理所需的显存,支持主流模型结构与优化器,助力开发者高效利用 GPU 资源。项目地址:github.com/st-lzh/vram-wuhrai
Arthas heapdump(dump java heap, 类似 jmap 命令的 heap dump 功能)
Arthas heapdump(dump java heap, 类似 jmap 命令的 heap dump 功能)
通义万相新模型开源,首尾帧图一键生成特效视频!
通义万相首尾帧生视频14B模型正式开源,作为首个百亿级参数规模的开源模型,可依据用户提供的开始与结束图片生成720p高清衔接视频,满足延时摄影、变身等定制化需求。用户上传两张图片或输入提示词即可完成复杂视频生成任务,支持运镜控制和特效变化。该模型基于Wan2.1架构改进,训练数据专门构建,确保高分辨率和流畅性。
2025年利用AI更好的辅助诉讼案件管理
### 2024年AI的破局与法律行业应用 随着ChatGPT、Kimi等大模型的出现,AI在语言理解和生成上取得显著突破。案件云平台推出「AI智能填充」功能,通过上传图片或PDF,AI能快速识别并提取关键信息,自动填充案件表单,极大提高了律师的工作效率和准确性。用户只需三步:创建案件、上传文件、确认信息,即可完成案件录入,告别繁琐输入,减少人工错误。
【Prompt Engineering 提示词工程指南】文本概括、信息提取、问答、文本分类、对话、代码生成、推理
本文介绍了使用提示词与大语言模型(LLM)交互的基础知识。通过调整参数如温度(Temperature)、最高概率词元(Top_p)、最大长度(Max Length)及停止序列(Stop Sequences),可以优化模型输出。温度参数影响结果的随机性;Top_p 控制结果的多样性;最大长度限制输出长度;停止序列确保输出符合预期结构。此外,频率惩罚(Frequency Penalty)和存在惩罚(Presence Penalty)可减少重复词汇,提升输出质量。提示词需包含明确指令、上下文信息、输入数据及输出指示,以引导模型生成理想的文本。设计提示词时应注重具体性、避免歧义,并关注模型的具体行为
沉浸式学习PostgreSQL|PolarDB 16: 植入通义千问大模型+文本向量化模型, 让数据库具备AI能力
本文将带领大家来体验一下如何将“千问大模型+文本向量化模型”植入到PG|PolarDB中, 让数据库具备AI能力.
如何向大模型注入知识?达摩院通义对话模型SPACE系列探索
如何将人类先验知识低成本融入到预训练模型中一直是个难题。达摩院对话智能团队提出了一种基于半监督预训练的新训练方式,将对话领域的少量有标数据和海量无标数据一起进行预训练,从而把标注数据中蕴含的知识注入到预训练模型中去,打造了SPACE 1/2/3 系列模型,在11个国际公开对话数据集取得SOTA。
别把问卷做成"审讯录":用AI重构与用户的每一次对话
95%的用户调研问卷因为"审讯式提问"而被无视。本文提供一套基于认知心理学的AI指令,将枯燥的填表转化为有温度的对话,帮助开发者和产品经理设计出高完成率、高信度的调研问卷,打破"幸存者偏差",获取真实用户洞察。
被Nature旗下刊物收录!我用AgentScope造了个“AI社科实验室”
科学家用AI模拟学术世界!通义实验室联合人大打造虚拟学术宇宙CiteAgent,基于自研多智能体框架AgentScope,实现数万AI科学家协同仿真,复现引文网络三大经典现象。研究获顶刊《Nature》子刊录用,开创社会科学“实验室”,推动“AI for Social Science”新范式。(回复CiteAgent获取论文)
GenSX (不一样的AI应用框架)架构学习指南
GenSX 是一个基于 TypeScript 的函数式 AI 工作流框架,以“函数组合替代图编排”为核心理念。它通过纯函数组件、自动追踪与断点恢复等特性,让开发者用自然代码构建可追溯、易测试的 LLM 应用。支持多模型集成与插件化扩展,兼具灵活性与工程化优势。
国庆假期倒数第2天!用这个AI指令"温和重启"工作状态,告别节后综合征
国庆假期倒数第二天,你是否正陷入节后焦虑?本文以“系统重启”为喻,剖析生物钟紊乱、心理落差等四大“故障”,并提供AI驱动的渐进式恢复方案。通过个性化指令,生成分阶段行动清单,助你科学调适,平稳过渡到工作状态,实现高效开工。
软考中级软件设计师专项-数据结构与算法上篇
软件设计师考试数据结构模块涵盖数组、链表、栈、队列、树、图等基础结构及其操作,重点考查二分查找、快排与归并排序、树/图的DFS/BFS遍历算法,要求掌握时间与空间复杂度分析,理解哈希、堆的应用场景,强调通过合理选择数据结构优化程序性能,解决存储管理与计算效率问题,为系统设计奠定核心逻辑基础。
📣通义大模型新成员Qwen-VLo,重磅上线,它实现了从“看懂”世界到“描绘”世界
通义千问团队推出全新多模态统一理解与生成模型Qwen VLo,具备强大的图像理解与生成能力。它不仅能“看懂”图像内容,还能基于理解进行高质量再创造,实现从感知到生成的跨越。支持开放指令编辑、多语言交互及复杂任务处理,适用于图像生成、风格迁移、检测标注等多种场景。
算法及模型合规:刻不容缓的企业行动指南
随着AI技术迅猛发展,算法与模型成为企业数字化转型的核心。然而,国家密集出台多项法规,如《人工智能生成合成内容标识办法》等,并开展“清朗·整治AI技术滥用”专项行动,标志着AI监管进入严格阶段。算法备案从“可选项”变为“必选项”,未合规可能面临罚款甚至刑事责任。同时,多地提供备案奖励政策,合规既是规避风险的需要,也是把握政策红利和市场信任的机遇。企业需系统规划合规工作,从被动应对转向主动引领,以适应AI时代的挑战与机遇。
LiveBench放榜:Qwen3斩获全球开源冠军
最新一期LiveBench榜单显示,阿里云旗舰模型Qwen3-235B-A22B荣登全球开源模型冠军,小尺寸Qwen3-32B位列Top3。千问3在指令遵循能力上超越多个顶级闭源模型,位居全球第一。该评测由图灵奖得主Yann LeCun发起,采用动态防污染机制,确保公平性。千问3支持119种语言,具备混合推理架构与强大Agent能力,现已上线阿里云百炼平台,提供免费体验与API调用。
用Qwen3搭建MCP Agent,有机会瓜分1亿tokens
通义实验室联合阿里云百炼发起有奖征文活动!使用Qwen3+MCP Sever搭建Agent,即有机会瓜分1亿Tokens大奖与限定周边。活动时间:5月6日-5月30日征稿,投稿需包含技术文档、故事分享、演示视频及知识产权承诺书。突出技术创新与场景应用,传播潜力更大!扫码报名并分享至社交平台还有额外抽奖机会,赢定制好礼!