|
8小时前
|
机器学习/深度学习 JSON 缓存
|

粗心了

MAXUR 是专为 Qwen3.5-9B 设计的轻量级诊断包(单文件、零外部依赖),内置动态稀疏注意力、自我反思门与上下文压缩器三大推理模块,通过**层替换**深度集成至模型架构,非hook挂载。开箱即用,显著降低幻觉(↓94.4%),提升事实性与长上下文稳定性。

27 0
|
8小时前
|
数据采集 人工智能 自然语言处理
|

Token中文新译名:「符元」——一文七个维度讲清Token的本质定义

拒绝“智元”走私语义,七维拆解 Token 物理本质,定义 AI 时代唯一真名:「符元」。

36 1
|
10小时前
|
人工智能 运维
|

老生常谈之“大模型幻觉” ,今天我i动刀。

连通分量: 1 主分量: 222 节点 孤岛数: 0 桥接脆弱性: 4 个 (low) 低度节点: 5 高度枢纽: 8 Fiedler: 0.178513 ────────────────────────────────────────────────── ■ 模型商用体检报告 (独立产品, 可申请专利) ────────────────────────────────────────────────── 工单号: NSHP-52F30418 模型: ClientModel-Alpha (Qwen2.5-7B class) 参数: 7.0B 指标: hallucination_density

27 1
|
12小时前
|
人工智能 安全 Shell
|

我在做一层面向 AI 系统和自动化系统的外部治理能力:让系统更可控、可审计、可冻结、可回放。

很多 AI 系统的问题,不是能力不够,而是缺少外部治理层。 我当前在做的不是让模型更聪明,而是让系统更可控:让动作可审计、风险可冻结、决策可回放、异常可恢复。 我更关注系统怎样进入生产,而不只是怎样做出结果。

24 0
|
22小时前
|
机器学习/深度学习 缓存 监控
|

大模型应用:矩阵乘加(GEMM)全解析:大模型算力消耗的逻辑与优化.68

GEMM(矩阵乘加)是大模型算力核心,占Transformer计算量90%以上。本文系统解析其数学原理、高维适配、算力测算公式,并详解INT8/INT4量化、矩阵分块、硬件加速与批处理四大优化策略,结合代码示例与性能监控方法,助力高效推理落地。

88 17
|
1天前
|
存储 并行计算 数据可视化
|

大模型应用:GPU的黑盒拆解:可视化看透大模型并行计算的底层逻辑.67

本文深入解析GPU核心架构与大模型算力优化原理,涵盖SM流式多处理器、显存、显存控制器、PCIe接口等关键组件,详解线程级/指令级并行及张量核心加速机制,并通过全流程耗时分析与任务拆分可视化,揭示“数据传输是主要瓶颈”的核心结论,助力高效部署大模型。

68 6
|
2天前
|
监控 并行计算 算法
|

大模型应用:多卡集群跑满14B模型:大模型推理算力应用实践.66

本项目面向10台RTX 4090集群,优化Qwen-14B大模型推理:通过NF4量化压缩显存、动态批处理(基于Amdahl定律)提升GPU利用率至85%+、多卡模型并行均衡负载,解决卡顿、显存溢出与调度不均问题,支撑日均10万次高并发稳定服务。

79 6
|
3天前
|
并行计算 监控 PyTorch
|

大模型应用:大模型算力优化方案:识别突破隐性瓶颈达到效能最大化.65

本文深度剖析大模型落地中“算力跑不满”的隐性瓶颈,从系统(CUDA/驱动/OS)、模型(注意力冗余、激活函数、权重稀疏)、数据(加载、分词、格式)三维度拆解,并提供量化评估方法与场景化优化方案(个人开发/企业推理/边缘部署),助力榨干硬件潜力。

168 5
|
4天前
|
存储 人工智能 安全
|

阿里云OpenClaw部署活动,9.9元起快速部署定制AI助理,轻松养虾

阿里云“一键部署,快乐养虾”活动提供低成本、高效率的OpenClaw超级AI助理搭建方案,实现7×24小时全天候服务。用户可通过简单几步快速完成钉钉/飞书/QQ机器人部署,自动处理会议纪要生成、数据汇总等高频重复工作,提升办公效率。方案支持多端消息聚合、主动任务管理及隐私数据本地化存储。活动期间,用户可享9.9元起部署优惠,轻松构建定制化AI助理,推动智能化办公与生活管理升级。

90 1
|
4天前
|
人工智能 并行计算 监控
|

大模型应用:拆解大模型算力需求:算力是什么?怎么衡量?如何匹配?.64

本文系统解析大模型算力核心概念:从基础定义(类比工厂效率)、核心指标(FLOPS、精度影响、显存带宽)到模型-硬件匹配公式与实战优化(量化、多卡分片、参数调优),覆盖RTX 4090/A100等主流显卡适配策略,助你精准选型、高效部署。

221 25
|
5天前
|
存储 缓存 自然语言处理
|

大模型应用:大模型内存与显存深度解析:我们该如何组合匹配模型与显卡.63

本文深入解析大模型本地部署中内存与显存的核心逻辑,涵盖参数-显存精准计算公式、INT4/FP16等精度占用对比、RTX 4090/5090专属部署代码及多卡分片实践,破除“显存需等于内存”等常见误区,助你科学选型、高效落地。

864 11
|
6天前
|
索引 Windows
|

《给腾讯 WorkBuddy 和字节风控,做了一个“可交接”的审计桥接层(内附 Stage V0.1 闭环架构)》

(视频传不上来啊)别再用“模型幻觉”给 Agent 的失控当借口了。我给腾讯 WorkBuddy 缺的那层治理主干打了个样:Main Project Diff Bridge V0.1 正式闭环。从执行到回放,从差异对照到一键回滚,这套 1MB 级的内核不谈概率,只谈确定性。

81 11
|
6天前
|
人工智能 安全 架构师
|

《WorkBuddy 的“隔离房”缺的治理主干,我用 1MB 内核补上了(Stage V0.1 闭环报告)》

别再迷信大厂的“安全隔离”了。隔离只能挡住暴力破坏,挡不住 AI 的“逻辑蚕食”。 【特别说明:因社区高压技术内容审核限制,45 秒演示视频无法直接上传。但逻辑不打码,看数据说话。】 上周我预警过 WorkBuddy 的风险,现在我带着已跑通的执行层审计内核回来了。

103 13
|
6天前
|
安全
|

《为什么我决定重写 OpenClaw 的核心:Agent 真正缺的不是智商,而是主权骨架》

别再往 Agent 身上贴那些软绵绵的“安全规则”了。那不是治理,那是祈祷。本文公开我重写 OpenClaw 核心的逻辑:用一个 1MB 级的行为审计内核替代所有空洞的对齐。目前 Main Project Diff Bridge V0.1 已正式闭环,实现了从执行到回放、从差异对照到一键回滚的工程主干。如果你还在靠猜意图来防风险,那你可能连 OpenClaw 的门都没摸到。

80 3
|
6天前
|
人工智能 安全
|

AI 审计不该是事后烟:为什么我们需要 1MB 级的运行时“物理熔断”内核?

丢掉那些臃肿的权重和不可预测的概率。在大规模自动化执行面前,Agent 真正缺的不是聪明才智,而是“被管住”的能力。本文公开一套基于离散逻辑的 AI 守卫内核,支持实时 Review、Deny 和一键 Rollback。我们用不到 1MB 的代码,解决了千亿参数模型搞不定的行为归因和事故复现。这是给 Agent 补上的最后一块骨架,也是通往高责任生产环境的唯一路标。

75 2
|
6天前
|
人工智能 JSON 安全
|

一个 1MB 级的 AI 守卫内核:高压叙事下的边界判定、熔断与冻结

对外,它不会因为情绪、恐惧、叙事压力或“更大的善”而交出底层控制权; 对内,它允许输入脏、叙事乱、压力高,但尽量把异常吸收到系统内部,而不是把结构性让步释放到外部动作层。

79 7
|
6天前
|
IDE 安全 Shell
|

Agent Computer Interface 的终局,不会是 CLI

本文批判CLI-first范式,指出其本质缺陷在于将“发命令”误等同于“构建工作环境”。CLI仅提供静态快照,导致Agent需耗费大量推理资源在状态对齐与过期信息识别上。真正出路是构建带生命周期、可原地更新、能自动清理陈旧上下文的Agent App——即把IDE级工作空间嵌入Agent上下文,实现状态一致性与对象化操作。

111 3
|
6天前
|
人工智能 弹性计算 运维
|

阿里云快速部署OpenClaw活动,三种方案可选,仅需9.9元定制AI助理

阿里云快速部署OpenClaw活动正在进行中,9.9元起定制AI助理,三步快速部署。三种方案任选:轻量服务器(限量抢)、免运维云端服务、定制ECS部署。搭配百炼大模型享4.5折优惠,推荐组合套餐支持RPA、智能交互等场景。无论是开发者试水还是企业主转型,都能以超低成本打造7*24小时全能数字员工,助力用户以极低成本实现RPA自动化与智能交互,打造全能数字员工。

384 2
|
6天前
|
机器学习/深度学习 人工智能 数据可视化
|

革命性突破!PathTree问世:AI病理诊断首次学会“像医生一样思考”

在精准医疗时代,清华、中山一院等联合发布PathTree技术,突破AI病理诊断瓶颈。它首创“树状诊断”范式,融合文本引导与双模态交互,让AI像医生一样逐层推理,显著提升肺癌、前列腺癌等复杂亚型判别精度与可解释性,推动AI从“看见”走向“理解”诊断逻辑。

98 2
|
6天前
|
机器学习/深度学习 数据采集 安全
|

大模型应用:联邦学习融合本地大模型:隐私合规推荐的核心流程与实践.62

本文探讨联邦学习与本地大模型(如Qwen1.5-1.8B)融合的推荐方案:在数据不出域前提下,通过加密参数协同训练,破解隐私合规与推荐精度的矛盾,实现“数据可用不可见”,已验证可显著提升稀疏数据门店的推荐准确率。

101 15
|
7天前
|
人工智能 弹性计算 自然语言处理
|

如何快速拥有OpenClaw?使用阿里云轻量应用服务器快速部署流程与常见问题参考

OpenClaw是一款开源的本地优先AI代理与自动化平台,可将AI转变为高效的“数字员工”。通过阿里云轻量应用服务器快速部署,集成阿里云百炼大模型,用户可享受强大的文本生成与任务处理能力,同时利用云服务器的稳定与自主可控优势,打造随时可通过钉钉操控的专属AI服务。文章详细介绍了计费方式、购买与配置流程、个性化配置能力,并解答一些常见问题。

376 1
|
7天前
|
机器学习/深度学习 自然语言处理 搜索推荐
|

大模型应用:电商智能推荐:基于本地大模型的冷启动智能推荐系统实例.61

本文介绍基于Qwen1.5-1.8B-Chat轻量大模型的电商智能推荐系统,解决冷启动、模糊意图理解与可解释性差等痛点;通过语义特征增强、个性化意图解析及自然语言推荐理由生成,提升准确性与用户体验,代码开源、易于中小团队落地。

123 13
|
8天前
|
安全 API 数据安全/隐私保护
|

大模型应用:本地部署 vs 云端调用:成本、隐私、效率、方式的综合考量.60

本文深入对比大模型本地部署与云端调用:前者数据自主、隐私强、长期成本低,但需高性能硬件和运维能力;后者开箱即用、免维护、算力弹性,但存在隐私风险与持续费用。结合成本、隐私、效率三维度,提供清晰选型建议及代码示例。

568 11
|
9天前
|
机器学习/深度学习 自然语言处理 并行计算
|

大模型应用:Mistral-7B-Instruct 中文超长文本处理实战全解析.59

本文介绍基于Mistral-7B-Instruct-v0.3的中文超长文本处理方案:通过4/8位量化(显存低至5GB)、原生滑动窗口(4096窗口+32768上下文)、左填充分词器及中英混合Prompt,实现2万字中文本地高效推理,兼顾性能、质量与私有化部署需求。

185 27
|
9天前
|
人工智能 自然语言处理 数据挖掘
|

阿里云Tokens是如何收费的?收费标准与万亿Tokens扶持和7000万 Tokens 免费体验活动介绍

阿里云Tokens是AI应用的核心计量单位,用于大模型处理、API授权等场景。文章详细阐述了Tokens的定义、计费逻辑与优惠活动:计费上,不同模型(如Qwen-Turbo、Qwen-Max)有不同阶梯计费标准,且输入输出分开计费;优惠活动方面,企业新客可参与“万亿Tokens扶持计划”,至高得2000元返现,还有“7000万Tokens免费体验”活动。企业合理利用可降低AI应用成本,加速商业化落地。

1575 18
|
9天前
|
人工智能 弹性计算 自然语言处理
|

阿里云2026年AI焕新季,马上用千问活动:先用后返至高500元、万亿Tokens扶持、AI焕新礼包规则介绍

阿里云2026年AI焕新季推出千问焕新计划,提供至高500元先用后返优惠,企业新客可享万亿Tokens扶持并申领至高2000元优惠券。领券下单再减1728元,覆盖文本、语音、视觉等全模型。活动包括低至9.9元快速部署OpenClaw,大模型服务节省计划低至4.5折。

829 2
|
10天前
|
机器学习/深度学习 监控 安全
|

再也不怕局部拍屏泄露:一项能抗部分屏幕拍摄的溯源黑科技来了(第10期)

针对“拍屏截取局部”导致传统水印失效的难题,合肥高维数据与中科大联合研发《抗部分屏幕拍摄的溯源水印方法》,首创结构化水印+双阶段深度学习增强技术,支持畸变、裁剪、摩尔纹等复杂干扰下的高鲁棒溯源,已应用于政企保密、版权保护与司法取证等领域。(239字)

105 2
|
10天前
|
机器学习/深度学习 人工智能 机器人
|

大模型应用:稀疏注意力 vs 滑动窗口:大模型扩窗技术完全解析.58

本文详解大模型“扩窗”核心技术:滑动窗口注意力(快而局部,适合中短文本)与稀疏注意力(兼顾局部+跨步+首尾,支持超长上下文)。二者均通过降低O(n²)计算复杂度至线性,解决大模型长文本处理的内存与算力瓶颈,推动其从聊天工具升级为长文档分析、代码全量理解等实用AI。

204 26
|
11天前
|
人工智能 编解码 搜索推荐
|

当所有简历都能被 AI 写漂亮之后:招聘行业真正该如何使用 AI

AI正加速将简历等传统信号“同质化”——人人能写漂亮简历,却难保真实;表达更流畅,但判断力未提升。当AI从“差异化能力”变为招聘基础设施(2025年渗透率达77%),行业核心矛盾已转向**信息损耗、流程损耗与信任损耗**。未来胜负手不在美化表达,而在重建可验证的信号系统、可追踪的行为链路与可信赖的结果闭环。(239字)

180 11
|
11天前
|
人工智能 IDE 开发工具
|

下一代 IDE,没有文本编辑器

当AI自主写代码,开发者角色正从“编码者”转向“指挥官”。本文以独立开发者打造的CodexMonitor为切入点,揭示OpenAI Codex的平台野心——通过开放的App-Server协议,构建AI Agent时代的“操作系统”。它重新定义IDE:无需编辑器,重在多代理协同、安全审批与工作流编排。协议即权力,平台已启幕。(239字)

219 0
|
11天前
|
机器学习/深度学习 算法 数据可视化
|

大模型应用:上下文理解极限:Context Window 与注意力跨度的数学边界.57

本文深入解析大模型长文本处理的三大核心概念:上下文窗口(输入长度上限)、注意力跨度(有效关注范围)与数学边界(算力/显存制约)。三者共同决定模型真实能力,而非仅看“128K”等宣传数字。理解它们是合理选型、优化提示、评估性能的关键。

266 10
|
12天前
|
运维 调度 数据中心
|

Infiniband/以太网,算力组网布线方案

本文详解SuperPOD构建:以32台DGX H100/H200为单元(SU),采用叶脊(Spine-Leaf)网络架构,通过多模光纤/DAC短距连接服务器与叶交换机,单模光纤长距连接叶与脊交换机;支持点对点与结构化布线,提升扩展性、管理效率与运维灵活性。(239字)

168 0
|
12天前
|
存储 机器学习/深度学习 自然语言处理
|

56.大模型应用:大模型瘦身:量化、蒸馏、剪枝的基础原理与应用场景深度解析.56

本文深入对比大模型轻量化三大核心技术:量化(降精度,快部署)、蒸馏(知识迁移,高精度)、剪枝(删冗余,结构精简)。详解原理、分类、适用场景、代码实现及选型建议,助开发者根据硬件条件、精度要求与落地周期科学决策。

422 16
|
12天前
|
人工智能 安全 C++
|

陈恩华 Ai芯片架构

陈恩华AI芯片架构研究成果:融合GEMV三模式(QP_STREAM/F32_PREDECODE/QP_PACKED_TILE)、GEMM(tile)、Attention简化实证及Online Phase在线相位更新,支持NEON加速,精度误差可控,聚焦低功耗高吞吐AI计算。

124 1
|
13天前
|
分布式计算 小程序 Java
|

Java入门学习指南:从零基础到上手写代码(超详细,新手必看)

很多新手入门就急于下载软件、写代码,结果越学越乱。先花5分钟搞懂这3个问题,能帮你节省大量时间。

357 0
|
13天前
|
存储 自动驾驶 物联网
|

大模型应用:高精度量化感知训练(QAT)与低成本后训练量化(PTQ)方案优选.55

本文深入解析大模型量化两大核心技术:后训练量化(PTQ)与量化感知训练(QAT)。涵盖原理、流程、代码实现及选型策略,对比其在精度损失、算力成本、部署效率等方面的差异,助开发者根据数据、算力与精度需求,科学选择最优量化方案。

209 15
|
14天前
|
人工智能 弹性计算 安全
|

阿里云AI焕新季活动:满减券+OpenClaw低至9.9元起,百炼大模型服务4.5折

阿里云2026年AI焕新季活动提供个人用户360元、企业用户1728元满减券礼包,OpenClaw低至9.9元快速部署,千问大模型全尺寸适配多场景。活动还包括千问焕新计划,企业新客可申领至高2000元优惠券,享万亿Tokens扶持。云服务器2核2G配置38元/年起,精选组合购享折扣价。新迁入云用户享5亿算力补贴,预约出海专家可申请至高10万元补贴。

395 12
|
14天前
|
存储 算法 索引
|

大模型应用:量化校准:全局/分组 Min-Max、GPTQ、AWQ 算法最优匹配.54

本文详解大模型INT4量化校准四大算法:全局Min-Max(效率高但精度差)、分组Min-Max(隔离极端值,精度跃升)、GPTQ(按重要性误差补偿,精度优但耗时长)及AWQ(权重均衡+分组量化,精度最高、效率媲美分组,当前生产落地最优解)。

218 6
|
15天前
|
存储 自然语言处理 并行计算
|

大模型应用:大模型量化:INT4与INT8核心差异、选型指南及代码实现.53

本文深入解析大模型INT4与INT8量化技术:从“缩放+映射”本质出发,对比二者在压缩率(75% vs 87.5%)、精度(256 vs 16离散值)、显存占用及适用场景的差异;详解scale/zero_point参数原理,并提供BitsAndBytes实战代码,助力高效本地部署。

424 6
|
16天前
|
自然语言处理 物联网 测试技术
|

大模型应用:中小显存适配方案:大模型微调底座选型指标与应用实现.52

本文聚焦8G显存中小算力场景,以中文电商文案生成为例,提出大模型微调底座选型体系:围绕任务适配性、算力匹配度、生态成熟度等六大核心指标,通过“需求分析—筛选排除—打分排序—验证落地”四步流程,结合量化加载、LoRA微调与实测对比(如ChatGLM-6B vs Qwen-7B),为开发者提供可复用、可落地的精准选型方案。

184 8
|
17天前
|
存储 机器学习/深度学习 缓存
|

RAG 技术在消费医疗场景落地的实践分享:抗干扰语义近邻过滤机制的设计与实现

本文分享RAG在消费医疗场景落地的关键实践:针对知识库中低质营销内容导致的语义污染问题,提出“抗干扰语义近邻过滤机制”。该机制基于局部近邻密度分析,通过无监督聚类识别营销簇,在检索后纯语义层面动态过滤干扰项,无需人工标注。实测污染率从28.4%降至4.7%,NPS提升至89,延迟仅增8ms。(239字)

101 1
|
17天前
|
文件存储 芯片 计算机视觉
|

NSA推理在昇腾芯片上的一种亲和实现方案

本文提出昇腾AI芯片上NSA推理的亲和优化方案:①创新设计稀疏系数矩阵,将compress中importance score计算转为高效矩阵乘,实现online softmax,耗时从200μs降至80+μs;②融合无依赖的select与sliding算子,消除约40μs开销。综合加速比达8.8×,逼近理论极限11.6×。(239字)

95 7
|
17天前
|
存储 数据采集 机器学习/深度学习
|

大模型应用:大模型越大越好?模型参数量与效果的边际效益分析.51

本文揭示大模型“参数量越大效果越好”的误区,详解边际效益递减规律:小模型(1B→7B)提升显著,中等模型(7B→13B)仍具性价比,而超大模型(70B→175B)效果几无增长却大幅增加算力与存储成本。通过控制变量、量化指标与曲线分析,指导读者科学选型——找到效果与成本平衡的最优参数阈值。

328 14
|
18天前
|
人工智能 运维 数据安全/隐私保护
|

OoderAgent-Skills 技术规范设计深度揭秘:构建AI原生时代的技能生态系统

Ooder-Skills 是面向AI原生时代的技能生态系统技术规范,以“技能即一切”为核心,首创多方协同、Agent即用户、独立知识库、数据飞轮四大设计亮点,实现开发者、运维与终端用户的共建共治共享。

113 2
|
18天前
|
人工智能 缓存 架构师
|

模型也是这么认为的

本文探讨AI编程中“顶级模型”与“自动路由”的争论本质——并非模型强弱之争,而是组织对“何为好代码”的标准分歧:架构师重稳定性与长期质量,开发者重效率,管理者重成本与可复制性。核心在于建立任务分层、智能调度与工程兜底的成熟系统。(239字)

84 1

千问大模型

阿里云自主研发的千问大模型,凭借万亿级超大规模数据训练和领先的算法框架,实现全模态高效精准的模型服务调用。https://www.aliyun.com/product/tongyi

0
今日
1846
内容
8
活动
1270
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大模型服务平台百炼