寒武纪首场发布会:推出 5 款硬件 1 个平台,AI 芯片 3 年要铺 10 亿台终端

简介:

11 月 6 日,全球 AI 芯片领域的第一家独角兽创业公司寒武纪召开了该公司成立以来的首场发布会,这次发布会的主题是“智能时代的引领者”,可以看到寒武纪的自我定位。

寒武纪首场发布会:推出 5 款硬件 1 个平台,AI 芯片 3 年要铺 10 亿台终端

5 款硬件新品,覆盖云端和终端

在本次发布会上,寒武纪 CEO 陈天石介绍了三款全新的智能处理器 IP 终端产品:面向低功耗场景视觉应用的寒武纪 1H8、拥有更广泛通用性和更高性能的寒武纪 1H16 和面向智能驾驶领域的 1M。

寒武纪首场发布会:推出 5 款硬件 1 个平台,AI 芯片 3 年要铺 10 亿台终端

寒武纪首场发布会:推出 5 款硬件 1 个平台,AI 芯片 3 年要铺 10 亿台终端

寒武纪首场发布会:推出 5 款硬件 1 个平台,AI 芯片 3 年要铺 10 亿台终端

据雷锋网了解,寒武纪早在 2016 年就发布了全球首款深度学习专用处理器——寒武纪 1A 处理器。它是国际上首个商用深度学习处理器产品,能够集成到终端 SoC 芯片,每秒可处理 160 亿个虚拟神经元,每秒峰值运算能力达 2 万亿虚拟突触;在人工智能应用上达到了四核 CPU 25 倍以上的性能和 50 倍以上的能效。

这款处理器被用于华为麒麟 970 手机芯片中。根据华为官方给出的 4 个比例,它拥有极佳的功耗表现:其性能 6.25 倍于 CPU、4 倍于 GPU;NPU 的效能 50 倍于 CPU、6.25 倍于 GPU。不仅如此,这款处理器在应用场景中表现也非常出色,在用 NPU 识别 1000 张图片的过程中,NPU 的整体功耗只在 0.3-0.7W 之间浮动,实际的电池消耗仅为 0.19%(4000mAh 电池)。换句话说:如果电量充足,NPU 完全可以利用一块电池实现 50W 张照片的识别。

寒武纪首场发布会:推出 5 款硬件 1 个平台,AI 芯片 3 年要铺 10 亿台终端

陈天石表示,与寒武纪 1A 相比,三款新品在功耗、能效比、成本开销方面进行了优化,性能消耗比再次实现飞跃式的提升,适用范围覆盖了图像识别、安防监控、智能驾驶、无人机、语音识别、自然语言处理等各个重点应用领域。

除了面向终端的智能处理器 IP 系列,寒武纪还发布面向云端的高性能智能处理器产品线;而在本次发布会上首先亮相的是将在 2018 年发布寒武纪 MLU 100 和寒武纪 MLU 200,这两款芯片主要应用于服务器端的智能处理需求,分别偏重于推理和训练两个用途。

寒武纪首场发布会:推出 5 款硬件 1 个平台,AI 芯片 3 年要铺 10 亿台终端

据雷锋网(公众号:雷锋网)了解,2017 年 10 月 24 日,在中科曙光 2017 智能峰会上,曙光公司专门为人工智能市场开发、设计的专用服务器 “Phaneron”就搭载了寒武纪的产品。Phaneron 主要的业务场景是面向深度学习的在线推理业务环境,它用到的就是寒武纪的高性能处理芯片。

寒武纪首场发布会:推出 5 款硬件 1 个平台,AI 芯片 3 年要铺 10 亿台终端

此外,为了区别于之前的神经网络处理器(NPU),寒武纪将云端芯片产品线命名为机器学习处理器(MLU);这就意味着寒武纪未来将支持多样化的机器学习应用,而非仅仅是深度学习。

寒武纪首场发布会:推出 5 款硬件 1 个平台,AI 芯片 3 年要铺 10 亿台终端

一款软件新品,推进软硬件结合

当下,软硬件结合已经成为人工智能芯片领域的发展趋势;而寒武纪也不出意外地发布了一款专门为开发者打造的寒武纪人工智能软件平台 Cambricon NeuWare,该平台支持 TensorFlow、Caffe、MXNet 等多种主流机器学习框架。

寒武纪首场发布会:推出 5 款硬件 1 个平台,AI 芯片 3 年要铺 10 亿台终端

该软件平台包含开发、调试和调优三大部分,可以同时支持云端和终端的智能处理。雷锋网了解到,该软件平台构建在寒武纪发明的人工智能专用指令集支撑之上;由此,寒武纪拥有了一个软硬件结合的平台,形成了一个完整的基于底层指令集的生态,可以方便开发者进行跨平台应用迁移,能够为云和端一体的人工智能处理打下基础。

寒武纪首场发布会:推出 5 款硬件 1 个平台,AI 芯片 3 年要铺 10 亿台终端

在发布会上,来自华为海思、阿里巴巴、联想、科大讯飞、中科曙光、ARM、旷视科技、地平线等人工智能领域的合作伙伴也一同参与,并对智能产品的发展进行了交流。其中联想高级副总裁贺志强在会场表示,联想已经在与寒武纪进行合作,探讨将寒武纪的 IP 芯片用于智能手机前置摄像头识别的可能性。

寒武纪首场发布会:推出 5 款硬件 1 个平台,AI 芯片 3 年要铺 10 亿台终端

陈天石:3 年之后占有中国高性能智能芯片市场 30% 的份额

在发布会上,寒武纪 CEO 陈天石表示,寒武纪将力争在 3 年之后占有中国高性能智能芯片市场 30% 的份额,并使得全世界 10 亿台以上的智能终端设备集成寒武纪终端智能处理器;如果这两个目标能够实现,寒武纪将“初步支撑起中国主导的国际智能产业生态”。

另外,陈天石还表示,未来人工智能方法将在视觉、语音、自然语言、数据分析、经济金融等各位应用方面大显身手,这就要求未来超级计算机、数据中心、智能手机、嵌入式设备等要进一步智能化,而寒武纪机器学习处理器有望成为这些设备的标配。

寒武纪首场发布会:推出 5 款硬件 1 个平台,AI 芯片 3 年要铺 10 亿台终端

从陈天石这番话,我们能够看出寒武纪的野心。实际上,经历了数轮融资之后,寒武纪在财务实力上也支撑得起这样的野心。

寒武纪在成立之初获得来自中科院的数千万元天使轮融资,之后在 2016 年 8 月获得来自元禾原点、科大讯飞、涌铧投资的 Pre-A 轮融资。今年 8 月 18 日,寒武纪科技宣布完成 A 轮 1 亿美元融资;领投方为国投创业,阿里巴巴、联想、国科投资、中科图灵加入,原 Pre-A 轮投资方,元禾原点创投、涌铧投资继续跟投。在 A 轮融资完成之后,寒武纪的估值超过 10 亿美元,正式成为全球 AI 芯片领域的第一家独角兽创业公司。

“国产 AI 指令集立住了,中国主导世界 AI 产业的机会可能就到来了”

陈天石此前接受雷锋网独家专访时表示,“随着社会逐渐从信息时代过渡到智能时代,AI芯片将是支撑智能计算不可或缺的载体。复杂的深度学习网络计算需求很高,这就需要有更多更强大的计算资源。”

GPU 是目前主流的AI计算平台,但是其基本框架结构毕竟不是为了 AI 所设计的,效率受到很多限制。FPGA 虽然迭代快,可以再短期内满足一定的计算需求,但从计算速度和能耗比来说,和专用的 AI 芯片还是有差距的。目前还有很多公司和高校也在引用跟踪我们前期的成果,研制深度学习专用的 ASIC(比如谷歌 TPU)。


理想中的 AI 芯片应当是一种新型的处理器,能具有广阔的应用面(包括语音、语义、图像、视频、自然语言多模态处理能力),同时具备远超 CPU 和 GPU 的效率。要想达到这一目标,必须要有一套新的 AI 指令集,利用指令进行灵活处理,才有可能在 AI 芯片上把各种算法应用都能支持得又快又好。我们去年提出了国际上首个 AI 指令集,就是朝这个方向的努力。

对于中国在 AI 芯片领域的未来发展机会,陈天石也表示,

其实芯片的成败,除了本身的效率之外,生态是非常关键的环节。过去信息产业,软硬件生态都是建立在 ARM 和 x86 指令集之上的。不遵从这些英美的指令集,芯片做得再好,没有配套应用和软件,也很难在市场上获得成功。而未来的智能时代,可能格局会发生巨大变化,会出现新的AI生态。


中国有最大的 AI 市场,也由寒武纪等一批公司和院校有好的技术,完全有可能影响国际 AI 生态发展。这里面的核心还是 AI 指令集。没有 AI 指令集,AI 芯片应当如何规范化设计,AI 软件如何和底层硬件交互,都是无根之木。这也是为什么我们提出了国际上首个 AI 指令集。


如果从国家硬实力发展角度看,应当对业界进行引导和规范,把国产 AI 指令集树立为产业的标准。只要国产 AI 指令集立住了,中国主导世界 AI 产业的机会可能就到来了。



本文作者:308
本文转自雷锋网禁止二次转载, 原文链接
相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
5天前
|
人工智能 数据可视化 JavaScript
NodeTool:AI 工作流可视化构建器,通过拖放节点设计复杂的工作流,集成 OpenAI 等多个平台
NodeTool 是一个开源的 AI 工作流可视化构建器,通过拖放节点的方式设计复杂的工作流,无需编码即可快速原型设计和测试。它支持本地 GPU 运行 AI 模型,并与 Hugging Face、OpenAI 等平台集成,提供模型访问能力。
46 14
NodeTool:AI 工作流可视化构建器,通过拖放节点设计复杂的工作流,集成 OpenAI 等多个平台
|
19天前
|
存储 人工智能 数据库
Codel:AI代理工具,支持在终端、浏览器、编辑器执行复杂任务和项目
Codel是一款全自主AI代理工具,支持在终端、浏览器和编辑器中执行复杂任务和项目。它运行在沙盒化的Docker环境中,具备自主操作能力,内置浏览器和文本编辑器,所有操作记录存储于PostgreSQL数据库。Codel能够自动完成复杂任务,如创建项目结构、进行网络搜索等,适用于自动化编程、研究与开发、教育与培训以及数据科学与分析等多个领域。
56 11
Codel:AI代理工具,支持在终端、浏览器、编辑器执行复杂任务和项目
|
19天前
|
人工智能 自然语言处理 前端开发
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
Lobe Vidol是一款开源的AI数字人交互平台,允许用户创建和互动自己的虚拟偶像。该平台提供流畅的对话体验、丰富的动作姿势库、优雅的用户界面设计以及多种技术支持,如文本到语音和语音到文本技术。Lobe Vidol适用于娱乐互动、在线教育、客户服务、品牌营销和社交媒体等多个应用场景。
77 7
Lobe Vidol:AI数字人交互平台,可与虚拟人和3D模型聊天互动
|
25天前
|
人工智能 机器人 信息无障碍
11月30日“2024 AI+硬件创新大赛”决赛-杭州西湖体育馆见!
探索AI硬件创新,28强团队决战杭州西湖体育馆
11月30日“2024 AI+硬件创新大赛”决赛-杭州西湖体育馆见!
|
1月前
|
人工智能 安全 JavaScript
Open Interpreter:AI 赋能终端!在终端中对话AI模型进行编程,通过运行代码来完成各种计算机操作任务
Open Interpreter 是一个让语言模型运行代码的强大工具,提供了一个类似 ChatGPT 的界面,支持多种编程语言和丰富的功能。
87 7
Open Interpreter:AI 赋能终端!在终端中对话AI模型进行编程,通过运行代码来完成各种计算机操作任务
|
21天前
|
人工智能 并行计算 程序员
【AI系统】SIMD & SIMT 与芯片架构
本文深入解析了SIMD(单指令多数据)与SIMT(单指令多线程)的计算本质及其在AI芯片中的应用,特别是NVIDIA CUDA如何实现这两种计算模式。SIMD通过单指令对多个数据进行操作,提高数据并行处理能力;而SIMT则在GPU上实现了多线程并行,每个线程独立执行相同指令,增强了灵活性和性能。文章详细探讨了两者的硬件结构、编程模型及硬件执行模型的区别与联系,为理解现代AI计算架构提供了理论基础。
63 12
|
17天前
|
人工智能 算法 搜索推荐
2024 “AI+硬件创新大赛”获奖名单出炉,浙大、上交与复旦联队等夺冠
2024年11月30日,由开放源子开源基金会主办,魔搭社区、英特尔与阿里云共同承办的“AI+硬件创新大赛”总决赛在杭州圆满落幕。
|
18天前
|
人工智能 数据安全/隐私保护 数据中心
“芯片围城”下国产AI要放缓?答案或截然相反
12月2日,美国对华实施新一轮出口限制,将140余家中国企业列入贸易限制清单。对此,中国多个行业协会呼吁国内企业谨慎选择美国芯片。尽管受限企业表示影响有限,但此事件引发了关于AI领域芯片供应的担忧。华为云推出的昇腾AI云服务,提供全栈自主的算力解决方案,包括大规模算力集群、AI框架等,旨在应对AI算力需求,确保算力供给的稳定性和安全性,助力中国AI产业持续发展。
|
27天前
|
存储 人工智能 弹性计算
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理。通过合理优化资源分配、利用自动伸缩及高效数据管理,ECS能显著提升AI系统的性能与效率,降低运营成本,助力科研与企业用户在AI领域取得突破。
47 6
|
1月前
|
人工智能 供应链 安全
AI辅助安全测试案例某电商-供应链平台平台安全漏洞
【11月更文挑战第13天】该案例介绍了一家电商供应链平台如何利用AI技术进行全面的安全测试,包括网络、应用和数据安全层面,发现了多个潜在漏洞,并采取了有效的修复措施,提升了平台的整体安全性。