陈恩华 Ai芯片架构

简介: 陈恩华AI芯片架构研究成果:融合GEMV三模式(QP_STREAM/F32_PREDECODE/QP_PACKED_TILE)、GEMM(tile)、Attention简化实证及Online Phase在线相位更新,支持NEON加速,精度误差可控,聚焦低功耗高吞吐AI计算。

看不懂的,可以复制下面调试结果 人工智能查询 我公开的部分研究成果


/Users/chenenhua/Desktop/project/c/ai_芯片/cmake-build-debug/ai_chip

======================================================

[陈恩华 Ai芯片架构]  GEMV + GEMM(tile) + Attention + OnlinePhase

NEON: 已启用(arm64)

======================================================


==================== Part1: GEMV 三模式对比 ====================

ModeA QP_STREAM:     time=0.0611971 s  throughput=0.514032 G-MAC/s

ModeB F32_PREDECODE: time=0.11367 s  throughput=0.276743 G-MAC/s

ModeC QP_PACKED_TILE:time=0.137259 s  throughput=0.229182 G-MAC/s

------------------------------------------------------

【精度审计报告】ModeA vs ModeB

>> max_abs_err: 0.0004119873047

>> MSE:         8.74114365612e-09

>> 警告: 误差偏大。常见原因:

  1) FMA 与非 FMA 的舍入路径差异

  2) 累加顺序不同(线程分块/向量化导致)

  3) clamp 策略不一致

------------------------------------------------------

【精度审计报告】ModeA vs ModeC

>> max_abs_err: 0.0003662109375

>> MSE:         6.91381348006e-09

>> 警告: 误差偏大。常见原因:

  1) FMA 与非 FMA 的舍入路径差异

  2) 累加顺序不同(线程分块/向量化导致)

  3) clamp 策略不一致

【统计】decodeROM 读次数: 94371840

【统计】atanh clamp 次数:  9


==================== Part2: GEMM(tile) 实证 ====================

说明:C[MxN] = A_qp[MxK] * B_f32[KxN]

    Mode0=QP_STREAM decode;Mode1=PREDECODE_TILE decode(更接近硬件 tile buffer)

GEMM Mode0(QP_STREAM):     time=0.587504042 s  throughput=0.456908270939 G-MAC/s

GEMM Mode1(PREDECODE_TILE):time=0.52277325 s  throughput=0.513483534209 G-MAC/s

------------------------------------------------------

【精度审计报告】GEMM Mode0 vs Mode1

>> max_abs_err: 0

>> MSE:         0

>> 结论: 输出对齐良好(误差在可忽略范围内)。


==================== Part3: Attention 简化实证 ====================

Attention(T=128, d=256): time=0.010340916 s  approx_throughput=0.811205506359 G-MAC/s

(注:这是简化估算,用于趋势判断;真正对标需集成到完整 Transformer kernel。)


==================== Part4: Online Phase Update(严谨闭环) ====================

定义:L = 0.5*(y-target)^2,仅允许写回 phase(4bit),budget 控制写回次数

初始输出 y0=-1.7511767149  target=1.39041340351  err(y-target)=-3.14159011841

更新后输出 y1=1.39041435719  err=9.53674316406e-07  本次更新phase数量=131(budget=512)


==================== 【陈恩华 Ai芯片架构 严谨总结】 ====================

1) GEMV 三模式:用于解释 decodeROM 随机访存是否吞掉收益。

  - QP_STREAM:最贴近“直接读 qp + 片上 ROM 解码”的形态,但在 CPU 上可能被 cache 限制。

  - F32_PREDECODE:牺牲部分预解码,换连续内存 + NEON/FMA 更稳定的吞吐。

  - QP_PACKED_TILE:折中方案,模拟硬件 tile buffer,减少乱序访问干扰。

2) GEMM(tile) 已纳入:这是对标 H100 的必要条件(H100 主战场是 GEMM/Attention tile)。

3) Attention 已纳入:证明你的路径可进入 QK^T/softmax/V 的关键结构(仍需更底层 kernel 才能真对标)。

4) Online phase 更新:已明确 loss 与更新规则,并引入 budget(写回频率/安全约束)。

======================================================


进程已结束,退出代码为 0

目录
相关文章
|
19天前
|
人工智能 IDE 开发工具
下一代 IDE,没有文本编辑器
当AI自主写代码,开发者角色正从“编码者”转向“指挥官”。本文以独立开发者打造的CodexMonitor为切入点,揭示OpenAI Codex的平台野心——通过开放的App-Server协议,构建AI Agent时代的“操作系统”。它重新定义IDE:无需编辑器,重在多代理协同、安全审批与工作流编排。协议即权力,平台已启幕。(239字)
279 0
|
27天前
|
JSON 算法 Unix
基于陈恩华马虎算法多阶段统计筛选的椭圆曲线 BSD 候选搜索
Birch–Swinnerton-Dyer猜想(BSD猜想)建立了椭圆曲线L函数与有理点群之间的深刻联系,是千禧年七大数学难题之一。该猜想最初源于Birch与Swinnerton-Dyer对大量曲线所做的计算实验,后续成为数论研究的核心问题之一。
186 15
|
运维 负载均衡 Kubernetes
负载均衡的前世今生——揭秘阿里云ALB Ingress云原生网关
随着云原生发展如火如荼,拥抱云原生成为业界共识,为了更好地支持云原生场景,ALB与ACK/ASK等云原生服务深度集成,阿里云推出了ALB Ingress——云原生Ingress网关。
2318 1
负载均衡的前世今生——揭秘阿里云ALB Ingress云原生网关
|
决策智能 机器人 数据可视化
CEH-Flow-Perception:一种基于双场时空耦合的实时物理驱动动态避障方法 - 陈恩华
本文提出CEH-Flow-Perception方法,首创双场(导通场+学习场)时空耦合势场模型,将动态障碍建模为具短期响应与长期记忆的连续物理场,实现无显式路径规划的实时避障。端到端延迟 33ms,支持遮挡记忆、多智能体协同与可解释因果追溯。
86 4
|
27天前
|
机器学习/深度学习 人工智能 算法
孪生素数分布的大规模计算实验:分段筛实现与经验统计分析
孪生素数猜想断言存在无穷多对形如 (p,p+2)(p,p+2) 的素数,但该猜想至今仍未解决。Hardy–Littlewood 的第一猜想给出了孪生素数计数函数的经典启发式渐近公式,而张益唐、Maynard 与 Polymath8 的工作则证明了存在无穷多对素数,其间隔有统一上界,但这一上界尚未降至 2 [1–3]。
286 13
|
21天前
|
机器学习/深度学习 人工智能 监控
考试作弊行为目标检测数据集(5700张图片已标注)| YOLO训练数据集 AI视觉检测
本数据集含5700张考场图像,精准标注“俯身抄袭”“传递答案”“使用手机”三类作弊行为,采用YOLO标准格式(归一化txt),已划分训练/验证/测试集,适配YOLOv5-v10等模型,助力智能监考系统研发与AI行为识别研究。
|
安全 数据安全/隐私保护 Web App开发
CEH-Orbit 协议技术规范(Spec)V1.0
CEH-Orbit是一种基于格密码的后量子认证协议(V1.0),由陈恩华提出。其核心通过随机掩码生成高维轨道向量,压缩为OrbitHead,结合消息派生挑战,并验证轨道重建一致性,确保抗量子攻击能力。
946 10
|
2月前
|
人工智能 API
千问大模型以32%的份额位居中国企业级大模型调用份额第一
国际市场调研机构沙利文(Frost&Sullivan)发布了最新一期《中国GenAI市场洞察:企业级大模型调用全景研究2025H2》报告,调研用户通过公有云、本地部署、MaaS等使用大模型的不同方式,盘点中国企业级大模型调用市场的全景。2025年下半年,中国企业级市场大模型的日均总消耗量为37万亿Tokens,其中,千问大模型占比32.1%位列第一,成为目前中国企业选择最多的大模型。
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
1273 55
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
眼疾识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了4种常见的眼疾图像数据集(白内障、糖尿病性视网膜病变、青光眼和正常眼睛) 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,实现用户上传一张眼疾图片识别其名称。
670 5
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法

热门文章

最新文章