
云原生转型之路的多系统运维|龙蜥社区系统运维MeetUp
企业面向几百个转型中间态的系统,通过建设统一对象模型,对异源同域的数据进行解析丰富处理,实现多维数据自主关联。算法和机器学习为复杂的体系提供了动态问题感知和预测的能力。在问题发生后基于根因推荐、同源分析等措施快速故障定界并开始应急处置,保障业务的连续性是首要之责,数智化观测为排障和系统调优提供有效的决策能力。

eBPF 加载过程解析与 eBPF 加速容器网络的原理分析 | 龙蜥大讲堂第 57 期
eBPF(extended Berkeley Packet Filter) 是一种可以在 Linux 内核中运行用户编写的程序,而不需要修改内核代码或加载内核模块的技术。简单说,eBPF 让 Linux 内核变得可编程化了。本次分享从原理上分析了它的加载工作过程,解释了它如何保证系统运行稳定以及它能加速网络的原因。

云原生技术在容器方面的应用|龙蜥大讲堂54期
CXL 作为下一代高带宽低延迟的互联协议,即将被广泛应用在数据中心之中。本次活动主要介绍了 CXL 的基础概念和规范,当前 Linux 内核和硬件厂商 Intel 对于 CXL 的支持,以及龙蜥社区对于 CXL 的规划。

核心技术分享: CRI-RM based CPU and NUMA Affinity | 龙蜥大讲堂28期
介绍一种新的 CPU 和 NUMA 绑定方法,并在 CRI 资源管理器 (CRI-RM) 中实现,主要将其用作 K8S 上加速工作负载的解决方案。

龙蜥漏洞管理系统 CVECenter|龙蜥大讲堂 89 期
安全漏洞管理在操作系统社区中一直是一个难题,社区安全人员需要及时响应 CVE 的处理,来保障操作系统的安全。本次直播介绍了龙蜥社区如何基于安全响应流程搭建起一套流程化、自动化的通用平台,来提升安全漏洞的处理效率。

基于可信计算技术保障关键信息基础设施安全
关键信息基础设施对国家安全、经济发展、社会稳定等至关重要,随着网络安全法、网络安全等级保护条例、关键基础设施安全保护条例等法律法规的陆续颁布,结合可信计算等安全技术,为基础设施的完整性一致性保护、供应链安全体系构建提供基础技术支撑也得到越来越多的关注,龙勤和吴保锡概要介绍了可信计算技术体系,以及浪潮信息在可信计算领域的技术实践与探索。

龙蜥系统中基于 Intel Crypto Acceleration 的加速实践
当前安全越来越重视的前提下,越来越多的网站由 HTTP 转为 HTTPS,更多的服务之间会由 SSL/TLS 来建立安全通道进行通讯,在带来安全的同时,性能问题也随之而来。张力在本次演讲中,将从这类场景中的问题介绍开始,分析 SSL/TLS 带来的性能问题,介绍英特尔第三代志强处理器中的密码学加速特性是如何帮助解决这些问题的,并概览该特性在龙蜥系统及部分业务场景中的加速实践,供大家参考使用。

英特尔®资源调配技术(英特尔®RDT)与业务混布
崔龙一开始介绍了多核心服务器上,由于资源共享带来的云上服务 QoS 波动,以及 Intel RDT特性对于内存带宽和 L3 cach e用量的监测和分配技术对于保证 QoS 的保障作用 ,intel RDT 特性在上游 Kernel 的支持情况。接着详细介绍了如何通过 pqos 和 Kernel resctrl 接口使用 Intel RDT。同时还以 speccpu 为例,说明了不同负载,对资源的敏感程度差异较大。最后介绍了一系列 Intel RDT 在实际业务混部中部署的实例。

圆桌讨论:RISC-V 的发展现状和未来方向
在圆桌讨论中,笨叔的一番话语引起了在场嘉宾和观众的强烈共鸣,“我有一个感觉,我们都觉得 RISC-V 最近很火,特别是在国内外高校教学和科研方面,国内大部分的 985 高校,还有部分的 211 高校,他们计算机相关的专业的核心课程已经慢慢取代了原来的 mips 和 x86,转向 RISC-V 作为一个教学,所以高校对 RISC-V 的热情为产业界输出大量的人才,那么对国内自研芯片的发展起到一个推动的作用。另外一方面,我观察到国内做芯片的这些厂商,大部分都是采用 Arm 的 IP 来做,但是已经有不少的厂商,他们也在慢慢尝试采用 RISC-V。大家比较一致的观点,虽然 RISC-V 软硬件生态还不是很完善和完美,但是 RISC-V 是一个趋势,现在正处于趋势的起步阶段。” PLCT 实验室吴伟也表示,“RISC-V 不仅仅只是一个趋势,仅去年一年,全球 RISC-V 芯片的出货量就达到了 100 亿颗,在广大的嵌入式领域中,RISC-V 已经是完完全全地占有了自己的一席之地。而且 RISC-V 也正以惊人的速度向我们视线所及的所有领域开始扩张。”

平头哥在 RISC-V 软件生态的探索和实践
熊健以平头哥最新发布的无剑 600 SoC 平台和曳影 1520 开发板为出发点,阐述了平头哥软件团队对开源社区的贡献,以及龙蜥社区与平头哥 RISC-V 的生态互补。 在无剑 600 平台上,平头哥与龙蜥社区、中科院软件所 PLCT 实验室进行了软硬件全栈的联合优化,完成了 RISC-V 与龙蜥操作系统的 3000 多个基础包适配,并在曳影 1520 上首次运行 FireFox 浏览器、LibreOffice 等大型桌面级软件,以及 Hexo 和 Open Rocket 等基于 NodeJS 和 JAVA 的应用,极大拓展了 RISC-V 的想象力。 平头哥是 RISC-V 国际基金会董事会成员,领导基金会中的数据中心、存储管理、安卓、安全等 11 个技术方向,重要性及数量居世界前列、中国机构首位。在 RISC-V 国际舞台上,平头哥正推进 RISC-V 国际标准制定,推动全球 RISC-V 技术与生态发展。

基于 kata 的 Serverless 产品体系建设
联通数科云原生技术架构师王琦做了《基于kata的Serverless产品体系建设》主题演讲。介绍了联通云基于Kata进行的 Serverless 产品体系的建设。首先介绍了通过国家政策为牵引,联通云深化自主研发和创新能力,聚焦无服务器技术和 kata 相结合,基于联通云双引擎基座建设 Serverless 产品体系,助力联通乃至央国企应用快速上云。然后通过一个 Serverless k8s 具体产品深入讲解了技术架构设计与场景化的需求,以及在对 Kata 进行选型时候所考虑的几个方面内容和优化方式。最后分享了在国内百花齐放的硬件厂商的大环境下, Serverless 和 Kata 结合多种异构 CPU ,通过无服务器技术屏蔽底层硬件差异的一个展望。

详谈龙蜥社区一站式构建平台 ABS | 龙蜥大讲堂 86 期
直播内容: 1)主要介绍软件包构建、镜像构建、内核源码构建、云原生构建 4 大构建服务。 2)ABS 未来规划。 听众受益: 了解龙蜥社区官方构建平台 ABS,熟悉 Anolis OS 软件包、镜像构建流程。 适合人群: 从事操作系统开发,有软件包、镜像构建需求的开发者。 讲师介绍: 单凯伦,龙蜥社区基础设施 Contributor,主要负责基础设施协作工程体系的开发工作,包括社区构建服务平台 ABS、资源服务平台龙蜥实验室、社区官网、测试服务平台 T-One、Bugzilla、邮件列表等。

飞腾在龙蜥社区的开源建设与合作规划
飞腾已完成与龙蜥社区的认证,并展开了联合认证等工作。飞腾已在开放实验室适配中心配置了龙蜥操作系统环境,以配合软件适配工作。自 2020 年飞腾开源软件适配小组成立以来,对各技术领域的大量开源软件进行了适配、迁移和测试。

IAA 加速热迁移方案介绍
IAA 加速器是 Intel SPR 平台携带的用于压缩/解压缩的硬件加速器。刘源详细介绍了 IAA 加速器软件栈, IAA 加速热迁移方案以及 IAA 高效的处理任务、 IAA 压缩无需内存拷贝等技术。

机密计算与龙蜥社区云原生机密计算 SIG 详细介绍
6 月 11 日 ~ 12 日,龙蜥社区联合 Linux 中国,在北京召开的开放原子全球开放峰会现场组织 LUG 线下沙龙活动,与大家一同聊聊开源、聊聊 Linux 、聊聊社区当中的那些最新的技术。

libvirt 虚拟机热迁移流程简介
直播主题:libvirt 虚拟机热迁移流程简介 直播时间:2023 年 05 月 31 日(周三)16:00-17:00 直播内容: libvirt 是用于管理虚拟机的开源项目,是各大基于 OpenStack 二次开发的云平台管理底层 qemu-kvm 虚拟机的核心组件,而热迁移作为虚拟机管理中较为常用的功能,其在稳定性和效率关乎云平台的整体使用体验,本次分享主要讲解虚拟机热迁移在 libvirt 项目中的主要流程及迁移参数作用和影响。 听众受益: 了解 libvirt 虚拟机热迁移整体流程,迁移方式及关键迁移参数作用及影响。 适合人群: 云计算研发人员。 讲师介绍: 李东世,浪潮数据云计算高级研发工程师,负责浪潮数据云平台核心功能开发及维护,主导底层虚拟化相关功能开发、问题定位处理。

【阿里CIO学院“技术攻疫大咖说第十六期】透视盒马:新零售操作系统的秘密
CIO 学院往期视频回看:李飞飞:企业级数据库的前世今生视频回看 及 PDF 下载贾扬清:人工智能算法和系统的进化视频回看 及 PDF 下载丁险峰:AIoT 下的数字世界:工业4.0中国之路探索华先胜:人工智能:是风、是云,还是雨?王刚 :自动驾驶之路上的 “能”与“不能”金榕 :困局与破局:从深度学习到AI三大关键技术五福 :三位一体的中台体系AI·OS与产品实践直播预约小邪:新基建之云上IT研发路司罗:达摩院语言技术研发肖力:企业安全体系发展与最佳实践施尧耘:迈入量子计算产业吴翰清:计算机的再发展世界备份日专题直播:今天你备份了吗?任小枫:高德地图背后的算法演进与创新罗汉堂秘书长讲述:疫情下的全球经济透视盒马:新零售操作系统的秘密我在阿里20年:非典与新冠背后,一个企业的生死与涅槃让机器善解人意:阿里巴巴语音技术的发展之路从金融智能到区块链:金融科技的五大核心技术与未来平头哥:云端一体的数字经济之“芯”触摸全新的文化娱乐: 文娱视频技术、5G构建新消费体验工业互联网:数据驱动的新价值网络钉钉崛起: 疫情中的硬核输出企业面对数字化转型,线上线下一体化的背景下,做为CTO和产研团队,我们所要面对的主要挑战是什么?如何重新定位自身的角色?我们会有什么机会呢?大少做为新零售领军企业盒马的产研负责人,他是如何思考的,又有什么最佳实践呢。通过阿里巴巴研究员大少的直播你将会了解到:1、数字化下企业IT团队的角色变化及挑战2、智能硬件设备对企业信息化的帮助3、新零售数字化下产品最佳实践讲师:何崚(大少)|阿里巴巴研究员、盒马产品技术负责人

阿里云总监课第三期第三节:Linux开源存储技术
课程讲师:吴忠杰(储道)课程纲要:a) Linux存储软件概述b) 内核存储软件堆栈c) 用户态存储软件栈下载PPT链接:https://yq.aliyun.com/download/2999

调测容器实践|龙蜥MeetUp
况明富提出了将调测工具打包到一个容器内,以容器的方式完成调试环境的"一键式"部署。 调试容器部署后,即可在调测容器内对业务容器或主机系统上的目标的调测,所有的调测活动都可以在此调测容器中进行,使用完后清理此调测容器即可,这样也可避免对主机环境产生污染。这种基于容器的调试方式和策略不仅提高了问题诊断的速度和效率,同时也减少了对生产环境的影响,体现了中兴通讯在容器技术和运维实践方面的先进理念和技术实力。

SysOM 健康度和 Livetrace 的评测方法探索|龙蜥MeetUp
Livetrace 作为一种先进的操作系统级性能分析方法,能够通过不断地监测操作系统、容器运行环境以及应用程序等多个层次的性能指标,深入揭示整体性能瓶颈。借助 Livetrace,软件的性能管理更加稳健,性能表现的可预测性得到显著提升。

组装式 OS 可靠性增强组件实践|龙蜥MeetUp
越来越多的场景对可靠性有更高的要求,如基站、卫星、工业网关、智能汽车等,而当前 Linux 聚焦资源管理机制的实现,不重点关注资源使用策略导致的异常,其主要提供了硬件的可靠性处理,整体上没有体系化的管理手段。同时对于操作系统而言,可组装的定制功能将能在不同的场景下最大化功能价值。面对可靠性增强的需求和挑战,中兴通讯进行了组装式 OS 可靠性增强组件实践,充分覆盖系统各类亚健康事件,并进行对应策略处理,尽可能保障系统的可靠运行,同时提供必要的维测信息,方便后续故障定位。设计上采用可组装思路,利用 ftrace、kprobes 及 eBPF 技术进行功能解耦,可以很好地满足多场景下 OS 可靠性增强需求。

高效可靠的处理器微体系结构性能测量技术
在Arm成熟的软硬件生态支持下,Arm架构处理器走进数据中心。应用的跨平台迁移及处理器设计研发均依赖于处理器微体系结构的性能数据,准确、可靠的性能测量是性能工程的重要基础。本次演讲围绕性能测量,着重分享了两项工作。第一项工作是关于如何高效地复用硬件性能计数器进行可靠测量,此项工作主要针对现有工具在复用硬件性能计数器测量时存在的低效行为,通过研究Linux内核性能事件的调度机制,提出一种自适应的性能事件分组方法提高性能计数器的复用效率。第二项工作是关于Arm架构处理器实时内存带宽的通用测量方法,Arm架构的灵活性赋予了各硬件厂商定制处理器的能力。此项工作探索了Arm架构下实时内存带宽测量通用方案的可能性。

AArch64架构调用链性能数据采集原理
调用链 (Callchain) 是软硬件事件上下文信息之一,对性能优化和故障排具有非常重要的作用。如著名的火焰图 (Flamegraph) 就是对调用链信息汇总统计和可视化的结果。但是在调用链收集的过程中,工程师往往因为不了解底层的采集原理导致调用链收集不完整,采集开销不可控等问题。本议题核心介绍了在AArch64架构下调用链采集的原理,比较它们之间的不同和阐述适用场景。同时对Linux内核态和eBPF调用链采集做了一些简单介绍。

阿里巴巴生态应用在Arm平台性能优化实践
Arm作为最为普遍使用的架构,吸引了广大开发者的兴趣。最近阿里巴巴生态核心应用在Arm平台上部署后显示较大的性能差异,通过分析发现主要是CPU前端瓶颈,因此我们在JVM层面进行了针对性优化,提出的代码压缩、热代码集中分配等技术方案在落地后进一步完善性能,给后续更大规模的部署提供了信心;同时,Arm平台也拥有丰富的性能分析工具,比如CoreSight提供了指令流分析的能力,基于这些信息阿里云发现了JVM中编译阈值对profile采集准确性的影响,针对性调整后达到了更佳的性能效果。

阿里云 Confidential Al 最佳实践
为缓解用户对 AI 模型上云产生的隐私与合规问题,阿里云 Confidential AI(CAI)实现了一种覆盖模型数据生命周期的端到端通用框架,揭示了机密计算在 AI 系统安全方面的重要价值。未来,CAI 将利用远程证明体系提供基于软件供应链的可验证代码透明度,为用户提供独立验证 CAI 隐私和安全保证的能力。

操作系统生态兼容与创新的平衡艺术
操作系统生态的发展离不开兼容性与创新的平衡,这是一项复杂的技术挑战。版本隔离、符号版本化等技术解决了版本迭代中的兼容性问题,保障新旧软件共存;通过同源异构和仿真执行,实现了多平台的统一性;通过兼容层和跨平台框架等技术实现了多系统融合,突破了操作系统之间的隔阂。这些技术的实现不仅依赖于工程能力,更需要面向未来的生态思维。兼容性是基础,创新是动力,平衡是关键。唯有技术与生态协同发展,才能构建稳定且充满活力的操作系统生态。

龙蜥社区漏洞管理治理策略与实践
开源软件漏洞治理是构建龙蜥操作系统安全基石的重要一环。本次分享聚焦龙蜥社区的安全漏洞管理体系及其治理策略,包括漏洞情报感知收集、威胁分析与风险评估、漏洞修复及公告披露等流程。同时简单介绍社区在漏洞治理协作上的初步实践,探讨社区漏洞治理未来的优化方向。

开源社区漏洞治理策略与实践
开源软件供应链非常复杂,存在大量的攻击点,谷歌和微软分别给出了开源供应的 SLSA 框架和 S2C2F 框架,里面存在着漏洞攻击、投毒、过程篡改等风险,加之代码开源漏洞更加透明且容易获取。本次分享聚焦供应链漏洞治理,通过成分分析建立 BOM 体系,识别社区研发过程各个环节风险,通过工程能力提升社区漏洞感知、漏洞可达、漏洞修复,E2E 处理漏洞能力。

电信主机安全检测技术
为保障 5G 网络能够有效抵御严重网络攻击,符合国家关键基础设施防护要求,需要对 5G 主机系统的运行安全进行实时监测和风险处置。中兴通讯结合融合了安全设计、主动防御和 AI 等技术,将传统以查病毒、补漏洞为主的黑名单被动防御机制,革新为基于安全设计的白名单主动防御机制。

新手训练营——使用操作系统智能助手OS Copilot轻松运维与编程
云端问道-第 7 期邀请了阿里云操作系统架构师林演介绍《用操作系统智能助手 OS Copilot, 轻松运维与编程》,主要介绍 OS Copilot 的产品架构、优势、功能及使用方法。

基于英特尔平台加速 AI 应用及 LLM 推理性能介绍|龙蜥大讲堂第115期
了解新一代英特尔®至强®可扩展处理器,对深度学习和经典机器学习方面的加速能力;大语言模型推理的常见优化技术;英特尔开源 LLM 高速推理框架 xFasterTransformer 的相关优化策略及效果。

浪潮信息KeyarchOS机密计算实践及解决方案|龙蜥大讲堂108期
了解操作系统及服务器整体解决方案规划、建议;了解如果通过KeyarchOS使能服务器的机密计算能力,并快速构建一个机密计算应用。

Intel 平台新特性助力龙蜥 OS 云计算 | 龙蜥大讲堂101期
了解英特尔最新平台 Sapphire Rapids 和 Emerald Rapids 引入的新特性。介绍英特尔在龙蜥 OS 中的新特性支持,尤其是新特性对虚拟化场景的支持。

龙蜥操作系统
龙蜥社区(OpenAnolis)是面向国际的 Linux 服务器操作系统开源根社区及创新平台,秉承“平等、开放、协作、创新”的原则,理事会由阿里云、统信软件、龙芯、Arm 、Intel 等 24 家国内外头部企业共同组成,有超过 1000 家来自芯片厂商、软件厂商、整机厂商、操作系统厂商等覆盖操作系统全产业链的合作伙伴参与生态共建。