在多元宇宙中,SAS探索下一代数据分析的生产力

简介: 在多元宇宙中,SAS探索下一代数据分析的生产力

今天,我们正开始进入多元宇宙时代。2022年9月底,Meta CEO马克·扎克伯格一再宣称元宇宙将掀开互联网的“新篇章”,Meta Platforms宣布将斥资至少700亿美元押注元宇宙。尽管元宇宙至少还将有十年时间才能渐成气候,但以多个元宇宙平台所主导的未来互联网已在人们的视野中。当所有人都生活在多元宇宙中,如何进行数据处理与数据分析?

SAS公司被Forbes杂志誉为“数据分析之王”。随着全球进入多元宇宙时代,SAS公司也在探索适配多元宇宙的数据分析技术及其生产力,这首先就是将数据分析带入多元宇宙的“底座”——多云、多边缘之中。在2022年9月底举办的SAS Explore 2022大会上,SAS公司展示了与超级云的合作进展以及正在探索的新型数据分析技术。

SAS公司首席执行官Jim Goodnight在SAS Explore 2022大会上强调:“今天的数据正在面临前所未有的复杂程度,而充斥各种错误信息的环境则需要AI平台提供前所未有的AI生产力,这就是为什么SAS公司一直大力投资云原生大规模并行分析与AI平台SAS Viya的重要原因”。无论是前沿分析与AI技术还是行业解决方案,SAS公司都致力于让分析能力更加平民化,为企业和组织带来更高生产力。


继续深化与超级云的集成

毫无疑问,超级公有云是多元宇宙的重要“基建”之一,而微软云则是超级公有云阵营中的前两大厂商,微软也是元宇宙的重要技术提供商,而微软Office 365更是全球商业办公的通用云平台之一,因此与微软云合作将数据分析与AI能力带入全球企业和组织中,是必然之选。早在2020年6月的SAS Global Forum 2020上,SAS公司与微软公司联合宣布结成深度战略合作伙伴,共塑数据分析与人工智能的未来。

经过过去两年的深度合作,在SAS Explore 2022上,双方再次宣布SAS Viya将登陆Microsoft Azure Marketplace,全球用户只需要点击几下即可获得按使用时间计费、提供in-app学习中心和支持多种语言的SAS Viya最新版本,包括SAS Visual Analytics、SAS Visual Statistics、SAS Visual Data Mining和Machine Learning以及SAS Model Manager等全部SAS软件。该模式还通过单一可视化界面支持全代码、低代码和无代码编程,支持SAS和多种开源语言。

市场调研公司IDC的分析与信息管理业务群高级副总裁Dan Vesset就此评论,SAS Viya是市场中最全面的分析平台之一,为用户带来全生命周期的分析——从数据到模型部署与管理,而通过Microsoft Azure Marketplace可以让用户即刻使用和部署这些能力。IDC预测,到2024年,在公有云上部署的分析软件将持续增长,并将达到与在企业本地环境中部署相当的规模。

通过Microsoft Azure Marketplace获取SAS Viya是SAS与微软公司合作的一种方式,此前双方已经合作提供了多种集成的云环境,包括在Office 365中深度集成SAS分析能力。在SAS Explore 2022上,展示了如何在Word、Excel、PowerPoint、Outlook等Office 365应用中,无缝集成使用SAS技术。例如,可以将关联到SAS数据源的数据以图形化方式插入到Office 365应用中,简单点击就可以通过更新SAS数据源的方式对被插入的图形进行刷新,或是切断关联而直接转为静态图片。

前不久,SAS公司还宣布获得微软2022年度全球独立软件供应商(ISV)合作伙伴大奖,双方共同为全球企业用户带来云端的快速数据分析能力,进而提升企业生产力。希腊国家银行(National Bank of Greece)就采用了部署在云端的SAS Viya,显著改善了新分析系统的部署,大幅降低了成本和流程复杂性,同时实现了分析系统的敏捷、速度和效率。


探索下一代分析技术

在将SAS Viya与微软云平台进一步深度集成的同时,SAS公司也在积极探索下一代分析技术。SAS公司首席执行官Jim Goodnight在SAS Explore 2022大会上表示,SAS公司在积极探索的下一代分析技术方向包括:更简化的分析生命周期,从而将精力集中于利用所选择的云,发现新的洞察;更优化的算法,提供比市场上已有算法运行快数倍的速度,从而降低能耗;推进AI伦理,从而进行更有责任的创新;与各种语言集成,提升开发环境的生产力等。

SAS公司执行副总裁及首席技术官Bryan Harris和SAS公司高级分析副总裁Udo Sglavo介绍了SAS公司在探索下一代分析技术方面的具体实践。Bryan Harris强调,SAS技术平台已经实现了Model Ops生命周期的简化、效率和透明,提升了分析的生产力,接下来在云经济、负责任的AI、无处不在的分析以及可组装AI等方面继续探索。

SAS公司高级分析基础技术(Advanced Analytics Foundation)部门专注于研究提升算法的速度、降低运行成本以及算法的可复用性。随着越来越多的企业和组织转向多个公有云,算法的速度与运行成本就显得十分重要,这就是云经济学的价值所在。对于现代公有云架构来说,并非直接将算法部署到云上就能获得更多弹性资源的收益,例如并不是增加更多的计算核就能实现更快的算法运行速度,多数情况是“挂着高速挡位却越开越慢”。

SAS公司从算法、硬件和软件等方面,提升多云环境中的算法速度与性能。简单理解,就是SAS公司比用户更懂数学和计算机实现,同样的计算目标却能用不同的数学模型和计算机实现,在不改变硬件和软件的前提下,大幅提升算法的运行速度和性能。

在SAS Explore 2022上,SAS展示了在公共数据集测试中通过数学和计算机实现的优化所带来的巨大效益:线性回归算法比Spark快5倍多、比H2O快24倍多、比Viya 3.5快4倍多;惩罚线性回归算法比Spark快8倍多、比H2O快28%,并在SAS Viya 4中首次发布;逻辑回归算法比Spark快61%、比H2O快15倍多、比Viya 3.5还要快5倍多;随机森林算法比Spark快91倍多、比H2O快5倍多、比Viya 3.5快7倍多;而在梯度提升算法方面,比H2O快4倍多、比Viya 3.5快9倍多,而Spark则出现了多次失败。除了计算速度快,SAS对算法的优化还能大幅节约CPU资源,将释放的CPU资源用于其它创新任务。

而在促进算法的可重复性及并行计算性能方面,SAS则通过改进浮点计算、计算线程的设计、计算节点的选择、第三方计算编译软件的选用等多方面,实现高可重复和高并行计算性能的算法。特别是通过与公有云厂商的深度合作,SAS获得了更深的算法优化实践经验,能够帮助企业用户更好地获得云经济效益。

在推进负责任的AI算法方面,SAS即将推出Model Card模型卡片,对于算法模型从开发者洞察、数据输入和模型健康程度等方面,为任何对该算法模型感兴趣者提供说明。例如,在开发者洞察方面,记录了该算法的主要用途、主要针对的用户群、超出范围的用例、相关要素说明、警告和推荐等;在数据输入方面,记录了所使用的数据集,相关计算实例数量、目标变量、潜在敏感型变量等……通过普通人也能明白的文字说明,Model Card模型卡片帮助算法工程师、数据分析师等在模型的准确性和公平性之间更好地调节,从而构建更负责任的算法模型。

在无处不在的分析方面,SAS已经推出的极为创新的SAS Container容器,可以将SAS模型部署到笔记本电脑等轻量级环境中。而在可组装的AI方面,SAS将BERT这样的超大规模自然语言模型与基于规则的AI模型结合起来,让企业用户在开发智能客服等应用时可以选择更能理解上下文语言的BERT模型或是简单明了直接执行命令的基于规则的AI算法,从而获得两种AI算法的收益。

此外,SAS还即将提供合成数据功能。实际上,对于AI应用来说,更为稀缺的是输入数据,特别是高质量的训练数据。而产生高质量的训练数据,有一种方法就是人工合成数据,也就是在已有的少量真实数据的基础上,通过基于知识的方式产生新的合乎质量要求的数据,或是通过GAN生成对抗网络等算法对已有数据集进行增强。


用黑客松普及数据分析

随着与微软云战略合作的深入,黑客松活动也成为了SAS公司的标志性品牌活动之一。在微软首席执行官Satya Nadella上任后,将原本小规模的面向开发者的一日黑客松活动,提升到了全公司层面并延长到一周的时间,以成长型思维推动来自员工的草根创新。而在2021年举办的首届SAS黑客松活动,进一步拓展了微软黑客松的组织方式:将时间延长到了一个月的时间,以虚拟化方式面向全球市场,提供与SAS一起用数据分析进行创新的机会。

SAS黑客松活动的宗旨是为全球需要利用数据分析进行创新的公司和商业组织,提供一个非正式商业合作的创新机会——作为公司和商业组织,如果需要用数据分析进行业务创新,就需要正式立项,而仅立项流程以及获得公司高层的批准就需要数月的时间以及接受来自公司的监管。而SAS黑客松活动就可以打破现有公司和商业组织的内部流程,在30天的时间内与来自SAS公司世界级的数据分析专家一起解决实际的问题,从而验证项目的可行性,甚至获得初步的成果。

在2021年的首届SAS黑客松活动中,来自30多个国家和地区,共千余名申请者带来了百余个场景,涉及银行、保险、能源、健康医疗与生命科技、制造、零售、媒体广告、电信和公共服务等10余个行业,他们使用SAS Viya和其它SAS 软件、Microsoft Azure云服务以及开源技术,进行大胆的想象和创新。在2022年的第二届SAS黑客松活动中,来自75个国家的1300余名申请者、代表了135家公司组织的70余支团队参与了活动,近50个团队提交了项目。

2022 SAS黑客松全球冠军团队是由印度尼西亚数据科学家和技术爱好者组成的 JAKSTAT团队,该团队使用基于机器学习的数据分析平台,帮助雅加达政府优化抗疫资金的发放,从而救助了当地的数百万中小微企业。JAKSTAT团队由SAS合作伙伴 StarCore分析公司的 Muhammed Iqbal 领导,利用人工智能和数据建模赋能雅加达政府。而JAKSTAT团队预计,更多的城市将实施其解决方案,见证该创新项目的广泛应用。

20217月,SAS公司宣布至2024年末将做好IPO的筹备2021年,SAS公司的云营收增长了18%,推动公司总体营收增长约10%;此外,SAS公司的欺诈与安全智能方案营收增长了21%、零售方案增长了13%IoT方案增长了10%……这些都预示了SAS公司正稳步走在IPO的道路上。通过SAS Explore 2022大会,可以看到SAS公司在继续加强与微软云的战略合作,不断探索下一代数据分析生产力,以及借用创新的模式向全球普及数据分析能力,这些都显示了SAS公司正积极主导数据分析与AI的未来——在即将到来的多元宇宙中,SAS仍将占据数据分析与AI的“C位”。

相关文章
|
3月前
|
数据可视化 数据挖掘 Java
提升代码质量与效率的利器——SonarQube静态代码分析工具从数据到洞察:探索Python数据分析与科学计算库
在现代软件开发中,保证代码质量是至关重要的。本文将介绍SonarQube静态代码分析工具的概念及其实践应用。通过使用SonarQube,开发团队可以及时发现和修复代码中的问题,提高代码质量,从而加速开发过程并减少后期维护成本。 在当今信息爆炸的时代,数据分析和科学计算成为了决策和创新的核心。本文将介绍Python中强大的数据分析与科学计算库,包括NumPy、Pandas和Matplotlib,帮助读者快速掌握这些工具的基本用法和应用场景。无论是数据处理、可视化还是统计分析,Python提供了丰富的功能和灵活性,使得数据分析变得更加简便高效。
|
2月前
|
数据可视化 算法 数据挖掘
探索Python在数据分析中的应用
在这篇文章中,我们将深入探讨Python语言在数据分析领域的强大应用。Python,作为一门简洁、易学且功能强大的编程语言,已经成为数据科学家和分析师的首选工具之一。本文不仅会介绍Python在数据处理、清洗、分析和可视化方面的关键库,如Pandas、NumPy、Matplotlib和Seaborn,而且还会通过实际案例展示这些库如何被用于解决实际问题。我们的目标是为读者提供一个清晰的指南,帮助他们理解Python在数据分析中的潜力,并鼓励他们开始自己的数据分析项目。
|
5月前
|
SQL 数据可视化 前端开发
从探索式数据分析到现代 BI 仪表盘:Superset 2.0
从探索式数据分析到现代 BI 仪表盘:Superset 2.0
155 0
|
2月前
|
数据采集 机器学习/深度学习 数据可视化
探索Python在数据分析中的应用
本文深入探讨了Python语言在数据分析领域的强大应用能力。随着大数据时代的到来,数据分析已成为企业决策不可或缺的一部分。Python,作为一种高级编程语言,以其简洁的语法、强大的库支持和广泛的社区资源,在数据处理、分析及可视化方面展现出独特的优势。文章首先介绍了Python在数据分析中的主要应用场景,随后详细阐述了几个关键的Python库(如Pandas、NumPy、Matplotlib等)的功能和使用方法,最后通过一个实际案例展示了如何利用Python进行有效的数据分析。通过本文,读者将能够理解Python在数据分析领域的重要性,掌握其基本应用方法,并激发进一步深入学习的兴趣。
18 0
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
探索Python在数据分析中的应用
本文将深入剖析Python语言在数据分析领域的强大应用,通过实际案例展示如何利用Python处理、分析数据,并提取有价值的信息。不同于传统的摘要,我们将从Python的简洁语法、丰富的数据分析库(如Pandas、NumPy、Matplotlib)入手,探讨其在数据预处理、分析及可视化方面的优势。文章还将讨论Python与其他数据分析工具的比较,旨在为读者提供一个全面、深入的理解,帮助他们认识到Python在数据科学中不可替代的地位。
|
2月前
|
数据可视化 数据挖掘 数据处理
探索Python在数据分析中的应用
在这篇文章中,我们将深入探讨Python语言在数据分析领域的强大应用。Python,作为一种高级编程语言,以其简洁的语法、强大的库支持以及广泛的社区资源,成为了数据科学家和分析师的首选工具。本文不仅会介绍Python在数据处理、清洗、可视化以及模型构建中的关键角色,还会通过实际案例,展示如何运用Python解决复杂的数据分析问题。此外,我们将提供一系列高效的技巧和最佳实践,帮助读者提升使用Python进行数据分析的效率和效果。
|
2月前
|
机器学习/深度学习 数据可视化 数据挖掘
探索Python在数据分析中的应用
本文深入探讨了Python语言在数据分析领域的广泛应用,通过实例展示了如何利用Python处理、分析和可视化数据。不同于传统的技术文章摘要,我们将带您一步步了解Python在数据处理过程中的独特优势,包括其丰富的库支持(如Pandas、NumPy和Matplotlib)、易于学习的语法以及强大的社区支持。文章还将介绍一些高效的数据分析技巧和最佳实践,旨在为读者提供一个清晰的指南,帮助他们充分利用Python进行数据分析,从而在数据驱动的世界中做出更加明智的决策。
15 2
|
2月前
|
机器学习/深度学习 数据可视化 数据处理
深入浅出:Python中的异步编程探索Python在数据分析中的应用
在当今高速发展的互联网时代,异步编程已成为提升应用性能和响应速度的关键技术之一。本文旨在深入浅出地介绍Python中的异步编程概念、原理及其实践应用。通过对比同步与异步编程的不同,解析asyncio库的核心机制,并结合实例演示如何在Python项目中有效实现异步编程,本文希望能够帮助读者更好地理解异步编程的魅力,以及如何在自己的项目中运用这一强大的编程范式。 在当今数据驱动的时代,Python已经成为数据科学家和分析师的首选语言之一。本文将深入探讨Python在数据分析领域的实际应用,包括其在数据处理、可视化以及机器学习中的作用。我们将通过实例,展示如何利用Python的强大库(如Pand
12 2
|
2月前
|
数据采集 数据可视化 数据挖掘
探索Python在数据分析中的应用
本文深入探讨了Python语言在数据分析领域的实际应用,从Python的基础知识出发,逐步深入到如何利用Python进行数据处理、分析及可视化。文章不仅讲述了Python在数据分析中的重要性,还通过实例演示了使用Pandas和Matplotlib等库来处理和分析真实数据集的过程。本文旨在为读者提供一个清晰的指南,帮助他们理解如何有效地使用Python进行数据分析,无论是数据科学的新手还是希望扩展技能的专业人士,都能从中获益。
|
2月前
|
数据可视化 数据挖掘 大数据
探索Python在数据分析中的应用
在数字化时代,数据分析成为了企业和研究机构不可或缺的一环。Python,作为一种高级编程语言,因其简洁的语法、强大的库支持以及广泛的社区资源,已经成为数据分析领域的首选工具之一。本文旨在探讨Python在数据分析中的应用,通过实例展示如何使用Python进行数据处理、分析和可视化,并探讨其在未来数据科学中的潜在发展方向。
21 1