解决“卡脖子”问题,谁在助力大数据基础软件国产化?

本文涉及的产品
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: “数字化”是当今社会最先进和最具穿透力的生产力,近十年保持高速发展。围绕“数字化”构筑的数字经济不仅呈现蓬勃发展态势,而且对经济社会发展的贡献越来越大。

基础软件:数字经济的底座,国家信息网络安全的基础

根据中国信通院发布的《中国数字经济发展白皮书》显示,2020 年,中国数字经济规模达到 39.2 万亿元,占 GDP 比重为 38.6%。同时,数字经济依然保持 9.7% 的高位增长,是 GDP 增速的 3 倍多。

与之相对应,中国网民规模超过 10 亿,互联网普及率超过 70%,手机网民规模超 10 亿。十亿用户接入互联网,形成了全球最为庞大、生机勃勃的数字社会。截至 2021 年 6 月,8.88 亿人看短视频、6.38 亿人看直播,短视频、直播正在成为全民新的娱乐方式;8.12 亿人网购、4.69 亿人叫外卖,全民的购物方式、餐饮方式正在发生悄然变化;3.25 亿人使用在线教育、2.39 亿人使用在线医疗,在线公共服务变得更便利。
image.png

可以说,中国数字经济的“万丈高楼”起于基础软件。没有基础软件的支撑,就没有数字经济的繁荣发展。

事实上,基础软件的重要性远不止于此。它不仅影响中国数字经济的发展,而且事关国家信息网络安全。2013 年 6 月,美国中央情报局前雇员爱德华·斯诺登曝光美国政府的“棱镜”计划,消息一出,全球震惊。2019 年 5 月,美国将华为及 70 家关联企业列入其所谓的“实体清单”,并表示今后如果没有美国政府的批准,华为将无法向美国企业购买元器件。

此后,基础软件领域的“卡脖子”事件越发频繁,比如 2020 年 6 月,美国宣布对哈尔滨工业大学与哈尔滨工程大学实施制裁,禁止两所高校使用美国 MathWorks 公司开发的 MATLAB 软件,而该软件被广泛用于理工科研究中。

毫无疑问,美国对中国核心科技的持续封锁,让我们认识到中国必须要坚持自主创新,将核心关键技术掌握在自己手中,解决关键技术的“卡脖子”难题。

过去多年,中国 IT 行业被视为“缺芯少魂”,基础软件市场更是被外资垄断。根据华西证券研究报告显示,中国三大基础软件领域中,操作系统、数据库、中间件市场外资占比分别为 92.9%、64.8% 和 51.1%。可以说,整个基础软件行业现状令人担忧。

为改变这种现状,夯实数字经济“底座”和确保国家信息网络安全,IT 基础设施国产化替代势在必行。

随着数据的重要性不断提升,大数据成为 IT 基础设施中越来越重要的存在。根据工信部数据,“十三五”时期,中国大数据产业年均复合增长率超过 30%,2020 年产业规模首次超过 1 万亿元。2021 年,国家“十四五”规划明确提出要“激活数据要素潜能”,并将大数据视为已融入经济社会发展各领域的重要应用。

在大数据产业发展中,中国自主研发的大数据基础软件不断发展壮大,已经成为大数据产业发展的基石,成为中国企业数字化转型的数字底座。

换掉 Oracle,星环大数据基础平台 TDH 让效率提升近 10 倍

数字经济不仅是新一轮国际竞争的重点领域,而且做好数字化转型将成为企业制胜未来的关键法宝。国内某农商行为推动业务更快发展,加速数字化转型,采用星环科技大数据基础平台 Transwarp Data Hub 建设大数据平台 ODS,构建了全行数据基础平台,实现从传统 Oracle 数据库向大数据管理平台平滑迁移,数据服务能力和处理效率得到近 10 倍提升。

据悉,该农商 IT 架构复杂,涉及小核心、大总账和四平台以及两总线近上百个系统,落地到 ODS 的结构化数据超过 10TB,且半结构化与非结构化数据量还在不断扩大。这些数据不仅散落存储,而且缺乏统一的数据标准和统一的数据服务平台。

另一方面,新系统虽然建设完成,但旧系统中仍有部分数据未迁移到新系统中,旧 ODS 需要同时支撑两套核心系统运行,运维保障压力日益增大。并且,因使用年限过长,逻辑模型架构过时和硬件资源配置老化,限制了系统的数据服务能力及处理效率。此外,该农商行不断增加的业务量和业务种类、不断建设的新系统、新的监管要求和业务部门的监管考核均对数据服务提出更高的要求。况且,还需保留更久远的历史数据来满足历史数据查询及司法查控等场景要求。

如何解决上述痛点,改善自身的数据服务能力?该农商行决定基于星环大数据基础平台 TDH 搭建大数据平台 ODS,实现了批量处理平台、实时处理平台、历史数据查询平台和 ODS 调度监控功能。

以批量处理平台为例。随着业务的发展,数据量爆发式增长,而该农商行原有的 Oracle 数据库处理效率已经跟不上业务发展。如何保证 IT 系统的高效运转,促进业务发展,成为摆在该农商行面前的重要问题。

在仔细考虑后,该农商行决定替换传统的 Oracle 数据库,选择星环科技关系型分析引擎 Transwarp Inceptor,用它搭建批处理平台。为什么选择 Transwarp Inceptor?一方面,Transwarp Inceptor 是一款用于批处理和数据仓库的关系型分析引擎,它由星环科技自主研发,安全可控,支持 SQL 2003 标准、Oracle PL/SQL 以及 DB2 SQL PL,对 Oracle、DB2 以及 Teradata 也有很好的方言支持。另一方面,是它对 ACID 的支持,可以满足用户对数据处理中一致性和可靠性保障的需求。此外,Transwarp Inceptor 有着优异的大数据分析性能,比 Apache Hadoop 处理速度快 10 倍以上,比 MPP 处理速度快 5 倍以上。

除此以外,该农商行采用星环科技实时流计算引擎 SlipStream 搭建实时数据采集平台,选择星环科技 ArgoDB 搭建了历史数据查询平台,基于 Moia 调度工具实现 ODS 调度监控功能。

除了助力金融行业数字化转型,星环科技也支撑着国家邮政局邮政寄递渠道安全监管“绿盾”工程。该工程大数据平台采用星环大数据基础平台 TDH 和分布式分析型数据库 ArgoDB,涉及场景流式处理、批处理、及时查询和报表查询等,解决了用户原系统各自为政、多平台、数据孤岛的问题,全组件的安全统一配置管理,既解决了用户原开源平台缺乏安全防护的问题,又简化了整个平台的安全管控。

自投入以来,成功地支持“双 11”等多项业务旺季寄递渠道安全服务保障工作。其中,2020 年,双 11 业务高峰期峰值业务是日常业务量的 10 倍,平均业务量是日常业务量的 5 倍,平台运行稳定,做到所有任务 0 积压,无差错。

推进大数据基础软件国产化,星环科技用实际行动说话

自 2013 年成立以来,星环科技始终坚持自主创新,积极致力于打造企业级大数据基础软件,实现大数据基础软件的国产自主可控,结合一系列一体化平滑迁移方案,帮助企业快速实现进口大数据平台等国产化替代,打造自主可控的数据底座,并实现技术、性能、易用性、稳定性、安全性等的全面升级。

image.png

为此,星环科技不断加大自主研发投入,招聘优秀技术人才,不断提升自主研发比例,推出性能更优、速度更快、功能更强大的自研产品,并且开始更多的替代国外产品。

据星环科技 CEO 孙元浩介绍,国产化替代表现在五大方面:

  • 大数据平台方面。星环科技早已实现诸多替代 CDH 的案例,并有能力替代 Cloudera 和 Hortonworks 合并后的 Cloudera Data Platform 和 Cloudera Data Cloud。星环科技的产品能提供更多模型支持,9 种存储引擎支持全部主流的 10 种数据模型,同时提供统一接口、统一计算引擎和更好的 SQL 兼容性。星环科技的产品可以兼容 Oracle、Teradata、DB2,整合了 Cypher 语言,并用容器化技术实现更好的租户隔离,保守来讲,性能提升 2-10 倍,支持快速处理 PB 级别海量数据。目前已经有一千多个用户使用了星环的大数据基础平台产品。
  • 数据库方面。星环科技基于分布式技术打造了分布式交易型数据库 KunDB 和分布式分析型数据库 ArgoDB。KunDB 具有分布式、高性能、高可用等特点,支持复杂查询且性能是 MySQL 的 10 倍以上满足操作型、充分满足高并发、大数据量的交易型业务场景,同时兼容兼容标准 SQL、MySQL 和 Oracle 方言,完整支持 Oracle PL/SQL,在 OLTP 场景中已经能够取代 MySQL 和 Oracle。ArgoDB 作为星环自主研发的分布式分析型数据库,提供多模分析、实时数据处理、混合负载、联邦计算、隐私计算等能力,助力企业湖仓集一体化建设,能够取代 Oracle、DB2 和 Teradata 建设数据仓库,并在多个行业用户中应用落地。
  • 图分析方面。星环科技图数据库 StellarDB 在多个客户中取代开源的或者商用版的 Neo4j,StellarDB 兼容 openCypher 查询语言,提供海量图数据的存储和分析能力,支持原生图存储结构,支持万亿边 PB 级数据存储,并且在某地电信关系图谱场景实现了 9700 亿边规模的存储和稳定运行,真正意义上将万亿级图数据库能力应用落地。同时,StellarDB 具备毫秒级点边查询能力,10+ 层的深度链路分析能力,提供近 30 种的图分析算法,具备数据 2D 和 3D 展示能力,帮助企业用户更快、更高效、更便捷地挖掘海量数据互联价值。
  • 搜索引擎方面。星环科技自研的 Scope 搜索引擎可以替代 ElasticSearch。Scope 兼容 ES 常用接口,具有海量存储能力确保百节点以上规模集群稳定运行,强一致性写入能力确保读写数据不丢。相对于 ES 单节点实例支持的数据量有限,Scope 单实例支持百 TB 级存储能力确保节点资源最高效利用。此外在高可用能力方面,Scope 也有极大的提升,高可用能力确保错误分钟级重启恢复。
  • 数据科学方面。星环科技的 Sophon Base 机器学习建模工具,可以取代 SAS、SPSS 等统计分析软件,Sophon Base 主要特点是在 MLOps 把整个机器学习流程进行优化了,从特征工程到模拟训练、模型上线、模型评估到改进,有一套完整的工具集。星环科技提供了更多分布式机器学习的算法,支持 200 多个高性能分布式 AI 算子确保全计算场景覆盖,同时还支持模型可解释性、联邦学习等场景,更好地支撑模型的业务应用。

除了推出自研产品,助力大数据基础软件国产化替代,星环科技还深度参与和支持信创产业发展。据悉,星环科技作为信创工委会 WG24 大数据工作组的小组组长及副组长单位,牵头制定信创大数据行业标准及规范,且深度参与产品图谱编制、产业白皮书、案例集编撰等工作。

同时,星环科技多个产品进入国产软硬件技术图谱(国家级),包括 TDH、TDS、ArgoDB、KunDB 和 Sophon 等。此外,星环科技还参与了十余项标准制定,牵头多个政府重大科研专项。

写在最后

今天,是一个变革时代。在时代交替和转换之际,异构计算和开源趋势将重塑 IT 底层架构,产业生态走向多元化。这不仅是中国基础软件行业的千载难逢机遇,也是信创产业发展的好局面。当每个细分领域都有一批像星环科技这样的企业出现时,中国信创产业将发展越来越快,越来越好,整个生态也会蓬勃起来!

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
8月前
|
安全 Java 大数据
大数据软件基础(1)—— Linux
大数据软件基础(1)—— Linux
72 0
|
6月前
|
运维 监控 大数据
部署-Linux01,后端开发,运维开发,大数据开发,测试开发,后端软件,大数据系统,运维监控,测试程序,网页服务都要在Linux中进行部署
部署-Linux01,后端开发,运维开发,大数据开发,测试开发,后端软件,大数据系统,运维监控,测试程序,网页服务都要在Linux中进行部署
|
8月前
|
大数据 Linux 虚拟化
大数据软件基础(3) —— 在VMware上安装Linux集群
大数据软件基础(3) —— 在VMware上安装Linux集群
124 0
|
8月前
|
SQL 分布式计算 Java
大数据软件基础(2)—— Java、SQL
大数据软件基础(2)—— Java、SQL
50 0
|
SQL 分布式计算 NoSQL
大数据相关常用软件下载地址集锦
大数据相关常用软件下载地址集锦
|
数据采集 缓存 大数据
大数据软件、阿里云大数据快速解决海量数据
大数据软件、阿里云大数据快速解决海量数据
|
缓存 分布式计算 NoSQL
大数据开发基础的Linux系统的基本的服务/软件部署
Linux系统作为大数据开发的重要基础之一,其服务和软件的部署也是非常关键的一环。本文将介绍大数据开发基础的Linux系统的基本的服务/软件部署。
172 0
|
数据可视化 大数据 Python
Python集成大数据开发软件推送
Python集成大数据开发软件推送
Python集成大数据开发软件推送
|
存储 算法 NoSQL
浅谈软件编程中的8大数据结构
浅谈软件编程中的8大数据结构
240 0
浅谈软件编程中的8大数据结构
|
大数据
强烈推荐大数据软件Splunk,用于分析日志文件
强烈推荐大数据软件Splunk,用于分析日志文件
212 0
强烈推荐大数据软件Splunk,用于分析日志文件