【AI系统】谷歌 TPU v1-脉动阵列
本文详细分析了谷歌TPU v1的架构与设计,重点介绍了其核心组件如DDR3 DRAM、矩阵乘法单元(MXU)、累加器及控制指令单元,特别是MXU中脉动阵列的工作机制。通过对比TPU v1与CPU、GPU在服务器环境中的表现,展示了TPU v1在提升神经网络计算吞吐量方面的显著优势,尤其是在低延迟和高能效方面。
国产NAS也支持本地部署DeepSeek了:极空间Z423上手
极空间Z423 NAS新增本地部署DeepSeek大模型功能,支持7B和14B两种参数量级模型。本文通过实际测试展示了其性能表现:14B模型运行缓慢,Token输出速度低于每秒10个,而7B模型速度稍快但仍不理想。硬件资源占用高,温度显著上升,风扇噪音增大。作者建议优化交互逻辑、提供局域网接口及更好GPU支持,并预测未来NAS可能加入GPU或NPU以提升推理能力。此功能目前更像战略布局,为后续硬件升级铺垫。
陈恩华 Ai芯片架构
陈恩华AI芯片架构研究成果:融合GEMV三模式(QP_STREAM/F32_PREDECODE/QP_PACKED_TILE)、GEMM(tile)、Attention简化实证及Online Phase在线相位更新,支持NEON加速,精度误差可控,聚焦低功耗高吞吐AI计算。
基于深度学习的钢轨表面伤损细粒度图像识别与目标检测
基于深度学习的钢轨表面伤损细粒度图像识别与视觉测量,实现轨面光带、剥离掉块、波浪磨耗、疲劳裂纹、扣件螺栓的计数及尺寸测量。毕业论文:钢轨表面伤损细粒度图像识别与检测系统。轨面伤损数据集Rail-5k论文:https://arxiv.org/abs/2106.14366同济大学交通运输工程学院 铁道系 张子豪