谷歌打造定制网络CPU 拥有并行计算链接

简介:

谷歌正在悄悄地打造与并行计算和网络有密切联系的处理器,在执行文件的补丁获得LLVM的接纳后,谷歌员工的工作则轻松了许多,因为这将简化维持主体工具链代码的更新过程。

该款名为"Lanai"的处理器内核比较简单,它更多地像是一个装备齐全的微控制器,不太可能运行计算工作负载。但它可能成为一个大规模并行计算机的构建块。

Lanai是个简单的32位级的处理器,有32个32位寄存器,包括:两个固定值寄存器(一个很可能是零);四个状态寄存器,包括程序计数器、堆栈指针和帧指针;并且预留了两个寄存器做线程支持用。Lanai并没有浮点硬件,所以玩不转涉及太多数学的东西。

谷歌软件工程师雅克•皮纳尔(Jacques Pienaar)表示,Lanai的设计蓝图是从教科书《并行计算机系统结构:硬件/软件方法》得到的,该书介绍了如何构建有效率、而同时又能并行处理大量数据的机器。

我们曾听说过谷歌在机器学习系统里在一定程度上用了定制的Nvidia芯片。网络巨头谷歌也在旗下数据中心拿ARM和POWER架构做了些实验性的设计,而且也在玩RISC-V。可以说,我们知道谷歌在探索芯片设计领域;但在公开场合看到谷歌的这样做倒是有点令人惊讶。

Google人士Chandler Carruth表示,“这是我们的内部硬件,所以没有很多可供分享的信息,别人也搞不到相关硬件的。我们在搞后端,有一堆后端要搞,各自为战不可取。尤其是如果有些东西可以在别的后端用上,或是几个后端需要用共同的基础架构,这样做测试起来容易些。“

近日提交的补丁包括:

• LLVM三重性

• Clang支持

• MCExpr和ELF

• Lanai后端(LIB /目标/ Lanai)

尽管源代码更新里没有提及供应商,但Google人士用的是Myricom的LANai链接器,这说明我们今天所见到的Lanai是Myri具有相同名字的高端网络控制器的定制衍生之物。Myricom的资产在2013年被马萨诸塞州的CSPi收购,CSPi主打为数据中心构建超大规模云,以及为数据中心构建超级融合计算和存储硬件。

谷歌的Lanai很可能是基于Myricom的设计,是个高度定制的可编程网络控制器。其目的是要在互联网巨头的数据中心的结构里里植入智能,也许是为了在旗下的服务器仓库里融入一个复杂的软件定义网络。

截止发稿都未能找到谷歌和CSPi的发言人对上述种种作出评论。

本文转自d1net(转载)

相关文章
|
10月前
|
存储 弹性计算 网络协议
阿里云服务器ECS实例规格族是什么?不同规格CPU型号、处理器主频及网络性能参数均不同
阿里云ECS实例规格族是指具有不同性能特点和适用场景的实例类型集合。不同规格族如计算型c9i、通用算力型u1、经济型e等,在CPU型号、主频、网络性能、云盘IOPS等方面存在差异。即使CPU和内存配置相同,性能参数和价格也各不相同,适用于不同业务需求。
696 144
|
算法 JavaScript 数据安全/隐私保护
基于GA遗传优化的最优阈值计算认知异构网络(CHN)能量检测算法matlab仿真
本内容介绍了一种基于GA遗传优化的阈值计算方法在认知异构网络(CHN)中的应用。通过Matlab2022a实现算法,完整代码含中文注释与操作视频。能量检测算法用于感知主用户信号,其性能依赖检测阈值。传统固定阈值方法易受噪声影响,而GA算法通过模拟生物进化,在复杂环境中自动优化阈值,提高频谱感知准确性,增强CHN的通信效率与资源利用率。预览效果无水印,核心程序部分展示,适合研究频谱感知与优化算法的学者参考。
|
10月前
|
存储 弹性计算 网络协议
阿里云服务器ECS实例规格族详细介绍:计算型c9i、经济型e和通用算力u1实例CPU参数说明
阿里云ECS实例规格族包括计算型c9i、经济型e和通用算力型u1等,各自针对不同场景优化。不同规格族在CPU型号、主频、网络性能、云盘IOPS等方面存在差异,即使CPU内存相同,性能和价格也不同。
995 0
|
存储 消息中间件 弹性计算
阿里云服务器ECS计算型c7和通用算力型u1在适用场景、计算性能、网络与存储性能等方面的对比
阿里云ECS服务器u1和c7实例在适用场景、性能、处理器特性等方面存在显著差异。u1为通用算力型,性价比高,适合中小企业及对性能要求不高的场景;c7为企业级计算型,采用最新Intel处理器,性能稳定且强大,适用于高性能计算需求。u1支持多种CPU内存配比,但性能一致性可能受底层平台影响;c7固定调度模式,确保高性能与稳定性。选择时可根据预算与性能需求决定。
608 23
计算网络号的直接方法
子网掩码用于区分IP地址中的网络部分和主机部分,连续的“1”表示网络位,“0”表示主机位。例如,255.255.255.0 的二进制为 11111111.11111111.11111111.00000000,前24位是网络部分。通过子网掩码可提取网络号,如 IP 192.168.1.10 与子网掩码 255.255.255.0 的网络号为 192.168.1.0。此外,文档还介绍了十进制与二进制间的转换方法,帮助理解IP地址的组成与计算。
881 11
|
机器学习/深度学习 存储
YOLOv11改进策略【模型轻量化】| PP-LCNet:轻量级的CPU卷积神经网络
YOLOv11改进策略【模型轻量化】| PP-LCNet:轻量级的CPU卷积神经网络
951 15
YOLOv11改进策略【模型轻量化】| PP-LCNet:轻量级的CPU卷积神经网络
|
机器学习/深度学习 人工智能
Token化一切,甚至网络!北大&谷歌&马普所提出TokenFormer,Transformer从来没有这么灵活过!
Transformer模型在人工智能领域表现出色,但扩展其规模时面临计算成本和训练难度急剧增加的问题。北京大学、谷歌和马普所的研究人员提出了TokenFormer架构,通过将模型参数视为Token,利用Token-Parameter注意力(Pattention)层取代线性投影层,实现了灵活且高效的模型扩展。实验表明,TokenFormer在保持性能的同时大幅降低了训练成本,在语言和视觉任务上表现优异。论文链接:https://arxiv.org/pdf/2410.23168。
404 45
|
机器学习/深度学习 数据采集 人工智能
基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法
层次化Softmax算法通过引入Huffman树结构,将传统Softmax的计算复杂度从线性降至对数级别,显著提升了大规模词汇表的训练效率。该算法不仅优化了计算效率,还在处理大规模离散分布问题上提供了新的思路。文章详细介绍了Huffman树的构建、节点编码、概率计算及基于Gensim的实现方法,并讨论了工程实现中的优化策略与应用实践。
452 15
基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法
|
人工智能 缓存 并行计算
转载:【AI系统】CPU 计算本质
本文深入探讨了CPU计算性能,分析了算力敏感度及技术趋势对CPU性能的影响。文章通过具体数据和实例,讲解了CPU算力的计算方法、算力与数据加载之间的平衡,以及如何通过算力敏感度分析优化计算系统性能。同时,文章还考察了服务器、GPU和超级计算机等平台的性能发展,揭示了这些变化如何塑造我们对CPU性能的理解和期待。
转载:【AI系统】CPU 计算本质
|
SQL 存储 数据处理
别让你的CPU打盹儿:Apache Doris并行执行原理大揭秘!
别让你的CPU打盹儿:Apache Doris并行执行原理大揭秘!
744 1
别让你的CPU打盹儿:Apache Doris并行执行原理大揭秘!

热门文章

最新文章