腾讯战略投资,燧原科技首款AI训练芯片出炉:性能超越V100

简介: 由腾讯领投、融资累计超过 6 亿元的 AI 芯片公司燧原科技,终于发布了自己的首款产品。

12 月 11 日,燧原科技在上海举办了成立以来的首场发布会,推出了完全自主研发的首款 AI 训练芯片「邃思 DTU」,以及搭载该芯片的 AI 加速卡云燧 T10。燧原科技的新产品,被认为是目前业内性能最为强大的 AI 训练芯片。


在发布会上,燧原科技创始人、CEO 赵立东展望了燧原投身 AI 芯片研发的愿景:「燧原科技希望能做大芯片、拼硬科技,对标世界最顶级的技术和公司。


微信图片_20211202144612.jpg燧原科技 CEO 赵立东手持云燧 T10。


虽然人工智能的概念很早就已被提出,但从集成电路、半导体芯片的角度来看,AI 计算有着自己的特点,基于机器学习算法,硬件架构需要进行创新。
燧原希望在 AI 训练芯片这一高端市场上首先发力。目前在这一方向上,GPU 几乎处于垄断地位。今年 11 月,OpenAI 发布了最新 AI 算力报告,其中提出 AI 算力的需求每年提升 10 倍——即使在摩尔定律没有放缓的情况下,现有芯片也无法满足这样的需求。这意味着人工智能芯片需要新的架构,从而为芯片公司创造了机会。


最强量产 AI 训练芯片


邃思 DTU 被认为是目前最为强大的量产 AI 训练芯片,其采用格罗方德(GlobalFoundries)12nm FinFET 工艺打造,面积高达 480mm²,主芯片包含 141 亿个晶体管,同时还采用了先进的 2.5D 立体封装技术,进一步提高了芯片的信号传输速度和带宽。


微信图片_20211202144643.jpg

燧原科技创始人兼 COO 张亚林展示邃思 DTU。


与之一同发布的首款人工智能训练卡「云燧 T10」,是一块面向云端数据中心的 AI 加速卡。它采用标准双槽位,率先支持 PCIe 4.0,功耗为 225W。其独特的 25GB 双向背板互联方案有别于业内常见的 InfiniBand 并联方式,能在相同的互联带宽下,较大幅度地降低组网的复杂度和成本。


燧原表示,T10 的单卡单精度(FP32)算力达到了 20TFLOPS,且支持单精度 FP32 和半精度 BF16 的混合精度计算。相比之下,英伟达最新的 Tesla V100S 的单精度算力为 16.4TFLOPS,而另一方面,云邃 T10 的功耗更低,这意味着它要比 V100 具有更高的效率。


微信图片_20211202144701.jpg


云燧 T10 支持半精度 BF16 运算,并且达到了 80TFLOPS 的算力,这也让它成为了谷歌 TPU 以外,业界首款支持这种运算方式的 AI 加速卡。「这款芯片是燧原科技完全自主设计完成的,完全支持所有已有的、及未来即将出现的 AI 算法。」燧原科技创始人兼 COO 张亚林说道。


在发布会上,燧原科技表示 T10 已经实现量产,并将于 2020 年第一季度上市。


微信图片_20211202144705.jpg


与目前很多初创公司发布的 AI 芯片相比,基于数据中心的人工智能训练芯片相比推理芯片难度更高,通常要求芯片具有高算力、低功耗、强互联等特性,并支持多种训练算法,以满足通用性和能耗的要求。邃思芯片基于可重构芯片的设计理念,其计算核心包含 32 个通用可扩展神经元处理器(SIP),每 8 个 SIP 组合成 4 个可扩展智能计算群(SIC)。SIC 之间通过 HBM 实现高速互联,通过片上调度算法,数据在迁移中完成计算,实现了 SIP 利用率最大化。


在 AI 芯片的大规模应用中,并联效率至关重要,燧原在发布会上特别介绍了芯片中使用的高速互联技术。为实现大规模训练集群的高效训练,燧原科技提出了 200GB 双向 ESL 互联技术,大幅降低了系统复杂度和成本。


在发布会上,燧原还介绍了云燧 T10 的扩展效率:在并联多达 1024 张卡时,燧原的板卡仍可以达到超过 70% 的效率(理论最高可以达的效率为 86%)。


微信图片_20211202144723.jpg

8 卡互联的云邃 T10 服务器(左),以及基于云邃 T11 的服务器(右)。


除此以外,燧原还计划推出基于 OCP 加速模组(OAM)的「云燧 T11」。它是 T10 的更强大版本,功耗 300W,将于明年 5-6 月正式推出,直接对标 Tesla V100 的 NVLink 版。


模型迁移零成本


在硬件之外,燧原同时发布了计算及编程平台「驭算」,支持主流深度学习框架,提供完整的编译、调试、调优工具链,并在硬件层开放 SDK,为深度开发者提供细粒度算力编程接口。针对大规模模型集群训练,如目前流行的 BERT 等,提供分布式调度系统,并针对 ESL 并联进行优化。


微信图片_20211202144750.jpg


「我们的软件平台支持 C/C++语言算子编程。可向开发者针对特定场景提供算子级、指令级优化。在未来,我们还会开放更为底层的硬件驱动。」张亚林表示。


目前,燧原的编程平台已经完全支持 TensorFlow,公司还计划在明年上半年对 PyTorch、MXNet、ONNX 等主流深度学习框架提供支持。在软件方面,燧原希望做到对开发者来说「迁移零成本」。

接受腾讯战略投资


燧原科技成立于 2018 年 3 月,这家公司已在上海和北京设立了研发中心,公司创始人赵立东、张亚林等人此前均任职于 AMD。目前这家公司已有 207 名员工。


迄今为止,燧原科技已经历了三轮融资,其中去年 8 月 7 日由腾讯领投的 Pre A 轮最为引人关注,其时融资额高达 3.4 亿元,也让燧原成为了首家和唯一一家被腾讯战略投资的国内 AI 芯片初创公司。今年 6 月,燧原科技又获得了 3 亿元人民币的 A 轮融资,红点中国领投,海松资本、云和资本、腾讯投资、阳光融汇资本、信中利资本跟投。


「我们选择接受来自腾讯的战略投资,是因为腾讯在数据、业务场景、算法团队等方面具备优势,」赵立东在发布会上表示。「为了实现业务落地零的突破,我们必须寻求合作,只有这样才能让落地的第一步走成功。


相比打造出成型芯片再寻找客户,燧原科技与腾讯展开全面合作的行动减少了数个月的研发时间。


「腾讯提出的『产品热启动』概念与我们不谋而合。在邃思芯片落地的过程中,我们与腾讯的开发者们进行了技术交流,这使得我们可以在软件优化过程中有的放矢了解需求和改进。」赵立东说道。


强大完整的团队,加上高效的合作,让燧原科技的第一款芯片就超越了当前业界主流产品的性能,创造了研发到量产仅用 20 个月的新纪录:


微信图片_20211202144821.jpg

邃思芯片于 2018 年 4 月开始研发,内部代号狮子座,在今年 5 月 30 日流片成功。到 9 月 19 日,8 颗芯片全部点亮,完成实验室测试,开始软硬件联调。所有时间节点全部在最初计划的范围之内。


下一阶段,燧原将面向几大业务领域推广自己的产品:


  • 云服务公司(包括公有云、私有云、混合云)
  • 各传统领域的行业服务公司(金融、保险、医疗、交通等)
  • AI 超算中心和智慧城市


「目前燧原科技已与腾讯针对通用人工智能应用场景的项目开展密切的合作,未来也将会扩展到更多 AI 应用场景,」赵立东表示。「以此次发布的新产品作为开端,燧原将提供更多具有高性价比、高能效比、开源开放的完整解决方案,也可以针对不同应用场景的差异化需求提供软硬件定制化的支持和服务。


燧原的芯片发布引起了各界关注,清华大学微电子所所长魏少军在发布会上表示:「燧原芯片研发迈出第一步的成功,要归功于团队的完整性,足够强大的实力,以及时机和方法的正确。中国今天的集成电路领域热度很高,但要发展集成电路需要足够的基础条件。邃思 DTU 是近年来能够在全球引起高度关注的芯片。


随着训练芯片的量产,燧原科技下一步研发计划也已经浮出水面。这家公司计划在未来推出自己的推断芯片系列,构建云端 AI 模型训练和推理计算的完整解决方案。


相关文章
|
14天前
|
机器学习/深度学习 数据采集 人工智能
未来的守护神:AI驱动的网络安全之盾,如何用智慧的光芒驱散网络黑暗势力?揭秘高科技防御系统背后的惊天秘密!
【10月更文挑战第3天】随着网络技术的发展,网络安全问题日益严峻,传统防御手段已显不足。本文探讨了构建AI驱动的自适应网络安全防御系统的必要性及其关键环节:数据采集、行为分析、威胁识别、响应决策和执行。通过Python库(如scapy、scikit-learn和TensorFlow)的应用实例,展示了如何利用AI技术提升网络安全防护水平。这种系统能够实时监控、智能分析并自动化响应,显著提高防护效率与准确性,为数字世界提供更强大的安全保障。
34 2
|
1月前
|
JSON 人工智能 数据格式
AI计算机视觉笔记二十六:YOLOV8自训练关键点检测
本文档详细记录了使用YOLOv8训练关键点检测模型的过程。首先通过清华源安装YOLOv8,并验证安装。接着通过示例权重文件与测试图片`bus.jpg`演示预测流程。为准备训练数据,文档介绍了如何使用`labelme`标注工具进行关键点标注,并提供了一个Python脚本`labelme2yolo.py`将标注结果从JSON格式转换为YOLO所需的TXT格式。随后,通过Jupyter Notebook可视化标注结果确保准确性。最后,文档展示了如何组织数据集目录结构,并提供了训练与测试代码示例,包括配置文件`smoke.yaml`及训练脚本`train.py`,帮助读者完成自定义模型的训练与评估。
|
1天前
|
存储 人工智能 自然语言处理
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
|
16天前
|
Python 机器学习/深度学习 人工智能
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
【10月更文挑战第1天】本文通过构建一个简单的强化学习环境,演示了如何创建和训练智能体以完成特定任务。我们使用Python、OpenAI Gym和PyTorch搭建了一个基础的智能体,使其学会在CartPole-v1环境中保持杆子不倒。文中详细介绍了环境设置、神经网络构建及训练过程。此实战案例有助于理解智能体的工作原理及基本训练方法,为更复杂应用奠定基础。首先需安装必要库: ```bash pip install gym torch ``` 接着定义环境并与之交互,实现智能体的训练。通过多个回合的试错学习,智能体逐步优化其策略。这一过程虽从基础做起,但为后续研究提供了良好起点。
57 4
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
|
2天前
|
人工智能 安全 芯片
【通义】AI视界|谷歌 Tensor G5 芯片揭秘:1+5+2 八核 CPU,支持光线追踪
本文由【通义】自动生成,涵盖黄仁勋宣布台积电协助修复Blackwell AI芯片设计缺陷、苹果分阶段推出Apple Intelligence、OpenAI保守派老将辞职、英伟达深化与印度合作推出印地语AI模型,以及谷歌Tensor G5芯片支持光线追踪等最新科技资讯。点击链接或扫描二维码,获取更多精彩内容。
|
24天前
|
机器学习/深度学习 人工智能 监控
AI与未来医疗:重塑健康产业的双刃剑随着科技的迅猛发展,人工智能(AI)正以前所未有的速度融入各行各业,其中医疗领域作为关系到人类生命健康的重要行业,自然也成为AI应用的焦点之一。本文将探讨AI在未来医疗中的潜力与挑战,分析其对健康产业可能带来的革命性变化。
在医疗领域,人工智能不仅仅是一种技术革新,更是一场关乎生死存亡的革命。从诊断到治疗,从后台数据分析到前端临床应用,AI正在全方位地改变传统医疗模式。然而,任何技术的发展都有其两面性,AI也不例外。本文通过深入分析,揭示AI在医疗领域的巨大潜力及其潜在风险,帮助读者更好地理解这一前沿技术对未来健康产业的影响。
|
1月前
|
人工智能 安全 测试技术
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
|
1月前
|
机器学习/深度学习 人工智能 自动驾驶
【通义】AI视界|马斯克:特斯拉计划2025年末批量装备AI训练芯片Dojo2
本文精选了24小时内的重要AI新闻,包括特斯拉计划2025年批量装备Dojo 2芯片、英伟达股价大涨、谷歌联合创始人积极参与AI项目、中科院女工程师开源AI模型保护女性,以及快手旗下可灵AI与蓝色光标达成战略合作。更多内容敬请访问通义官网体验。
|
1月前
|
人工智能 开发工具 计算机视觉
AI计算机视觉笔记三十:yolov8_obb旋转框训练
本文介绍了如何使用AUTODL环境搭建YOLOv8-obb的训练流程。首先创建虚拟环境并激活,然后通过指定清华源安装ultralytics库。接着下载YOLOv8源码,并使用指定命令开始训练,过程中可能会下载yolov8n.pt文件。训练完成后,可使用相应命令进行预测测试。
|
1月前
|
人工智能 PyTorch 算法框架/工具
AI计算机视觉笔记二十二:基于 LeNet5 的手写数字识别及训练
本文介绍了使用PyTorch复现LeNet5模型并检测手写数字的过程。通过搭建PyTorch环境、安装相关库和下载MNIST数据集,实现了模型训练与测试。训练过程涉及创建虚拟环境、安装PyTorch及依赖库、准备数据集,并编写训练代码。最终模型在测试集上的准确率达到0.986,满足预期要求。此项目为后续在RK3568平台上部署模型奠定了基础。