持续定义SaaS模式云数据仓库+AI

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本文由阿里云计算平台事业部 MaxCompute 产品经理孟硕为大家带来《持续定义SaaS模式云数据仓库+AI》的相关分享。

一、Why:概述与价值
(一)人工智能的发展历史
人工智能是很早就出现的一个概念,起源于上个世纪50年代,之后由于种种原因人工智能经历了几十年的漫长的消沉的过程,直到最近几年人工智能才火热起来。人工智能的发展其实有三次黄金时期:第一次是人工智能概念提出的时候,学者们以为AI技术能改变世界,但是实际上并没有;第二次是上个世纪80年代左右,此时已经提出了神经网络等模拟人脑思考的算法,但是也并没有得到很快的发展;第三次可以认为是从2010年左右开始的,与前两次不一样的是这次我们有大数据为生产资料,以强大的算力、云计算为基础设施,包括IOT和5g技术的发展,有应用场景驱动,比如说搜索就是一个应用人工智能算法的众多场景之一,所以这次是人工智能发展真正的黄金时期。
image.png
(二)为什么需要MaxCompute+AI
Garter在数据分析领域的是大趋势预测如下:
image.png
从中可以看出,Garter认为在未来数据与分析的边界逐渐模糊,并且预测在2022年,40%的机器学习工作将在非以机器学习为主要目的的平台上(如数据仓库)完成。因此,可以说MaxCompute+AI是大势所趋。

因为数据仓库承载的是整个企业的数据资产,尤其是MaxCompute,它是一个从TB到EB级,能够弹性扩展大量存储能力的数据平台,所以数据仓库内置机器学习的优势非常明显:

1.无需移动数据(数据量大),降低基础设施成本、人工成本、减少数据安全风险;
2.数据访问速度快(让算法找数据);
3.可扩展性强;
4.纯 SQL ML / Python 更易用。

而且数据仓库内置机器学习是各角色均收益的一种集成:对于商务人士来说,新想法可以快速得到快速试验,ROI得到提升;对于数据科学家和数据分析师来说,大部分工作通过SQL/Python实现,易用高效,且模型开发和生产环境可以无缝对接;对于数据库管理员(DBA)来说,数据管理更加简单,安全性更高。

(三)MaxCompute现有的AI能力
MaxCompute的产品特性在之前的讲座中已经具体讲过了,这里不再赘述,其中MaxCompute集成AI的能力主要有:

  • 1.提供SQLML,可以直接使用标准SQL训练机器学习模型,并对数据进行预测分析;
  • 2.Mars:使用python科学计算、机器学习三方库;
  • 3.可以用用户熟悉的Spark-ML开展智能分析;
  • 4.与PAI无缝集成,提供强大的机器学习处理能力。

上述的集成AI能力中,SQLML和Mars是MaxCompute的两个原生AI扩展能力,本文我们重点介绍这两个能力。

image.png

为什么选择SQL和Python这两种语言呢?主要是因为SQL和Python是当前数据处理和机器学习领域中最火的两种语言。下面两张图是SQL查询语言的发展及现状以及Python的发展。

image.png

image.png

对于数据处理语言来讲,关系型数据库,也就是以SQL为基础的关系型数据库,包括类似的数据库目前仍然占据了数据处理引擎的前几名,有着稳健的生态;而Python已经逐渐称为数据分析领域和数据科学领域的主流语言,其有着强大的机器学习生态。因此选择这两种语言作为MaxCompute的AI集成,既是大势所趋,又能减轻使用者的学习成本和迁移成本。

二、What:能力与应用
我们将该项目的名字叫Mars,其最早是意味着Matrix和array,当然现在已经不再局限于这两者,数据维度可以达到非常高的程度;第二是意味着我们向着比登月更高的目标出发,不断的挑战自己。
那么我们为什么要做Mars呢?其主要原因有:

  • 1.为大规模科学计算设计的:传统的大数据引擎编程接口对科学计算不太友好,框架设计也不是为科学计算模型考虑的;
  • 2.传统科学计算大多基于单机,而大规模科学计算需要用到超算,并非普通人所能寄予的能力;
  • 3.传统SQL模型科学计算的处理能力不足,做一些简单的科学计算,比如矩阵转置等等,效率也是非常低;
  • 4.目前R和Python基本上基于单机,其分布式扩展能力比较弱。

目前,Mars是唯一的商业化的大规模科学计算引擎,关于Mars的更多信息大家可以到阿里云官网查找。Mars的基本思路如下图所示,主要是将Python中的主流科学计算和机器学习的库做相应的分布式化处理。

image.png

三、How:最佳实践
下面是一个简单的SQLML的Demo介绍。
首先,我们在DataWorks中新建一个工作流,会发现工作流中有很多组件,我们先建一个临时查询,如下图所示:
image.png

然后新建一张表,其中保存的是关于蘑菇的一些属性,根据这些属性数据,我们可以对其进行分类。
表建立好之后,我们可以将数据导入,因为该数据集比较小,所以我们从本地上传csv文件,将列与表中的字段对应即可:
image.png

之后,我们需要对特征进行onehot编码,其结果如下图所示:
image.png

然后,我们将数据分成训练集和测试集,并且分别将训练集和测试集导入一张单独的表中,之后就可以创建模型了,这里我们用的是逻辑回归,一个常用的二分类算法:

image.png

运行模型,很便捷地就可以得到训练结果:
image.png

通过上面的Demo,我们很容易的就完成了一次机器学习的训练过程,其过程类似与使用SQL中的UDF,简便、高效。上面Demo介绍的是SQLML,如果想使用Mars也非常简单,我们只需要拖拽PyODPS3组件即可,如下图所示。
image.png

目前,Mars已经可以试用,SQLML马上就会和大家见面,欢迎大家进行试用。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
13天前
|
人工智能 自然语言处理 监控
从数据洞察到动态优化:SaaS+AI引领智能化服务新时代
SaaS(软件即服务)结合AI(人工智能),正引领企业解决方案向智能化转型。SaaS+AI大幅提升了工作效率与决策质量。它能自动完成重复任务、简化设置流程、主动识别并解决潜在问题,还能根据用户需求提供个性化推荐和动态优化配置。
62 1
从数据洞察到动态优化:SaaS+AI引领智能化服务新时代
|
1月前
|
存储 机器学习/深度学习 人工智能
【AI系统】微分计算模式
本文深入探讨了自动微分技术,这是AI框架中的核心功能。自动微分分为前向微分和后向微分两种模式,主要通过雅克比矩阵实现。前向模式适用于输出维度大于输入的情况,而后向模式则更适合多参数场景,广泛应用于现代AI框架中。文章还详细解释了这两种模式的工作原理、优缺点及应用场景。
45 2
【AI系统】微分计算模式
|
25天前
|
人工智能 安全 搜索推荐
AI 驱动研发模式升级,蓝凌软件探索效率提升之道
蓝凌软件在引入通义灵码后取得了较明显的效果。目前,蓝凌软件已使用灵码的开发人员中,周活跃用户占比超过90%、根据代码库自动生成的代码占比超33%、代码智能补全占比29%,代码注释率提升了15%,有效提升了产品代码工程化的效能。
|
2月前
|
人工智能 搜索推荐 API
Perplexica:开源 AI 搜索引擎,Perplexity AI 的开源替代品,支持多种搜索模式、实时信息更新
Perplexica 是一款开源的 AI 驱动搜索引擎,支持多种搜索模式和实时信息更新,适用于个人、学术和企业等不同场景。
287 6
Perplexica:开源 AI 搜索引擎,Perplexity AI 的开源替代品,支持多种搜索模式、实时信息更新
|
1月前
|
人工智能 并行计算 调度
【AI系统】CUDA 编程模式
本文介绍了英伟达GPU的CUDA编程模型及其SIMT执行模式,对比了SIMD和SIMT的特点,阐述了SIMT如何提高并行计算效率和编程灵活性。同时简要提及了AMD的GPU架构及编程模型,包括最新的MI300X和ROCm平台。
62 5
|
2月前
|
人工智能 弹性计算 网络安全
一键玩转CoAI:AI工程变现新模式
CoAI是一款强大的AI管理软件,支持多种大模型如OpenAI、通义千问等,具备丰富的UI设计、多模型管理、弹性计费等功能,既适合个人使用也支持企业级部署,帮助用户轻松管理和商业化AI能力。
|
3月前
|
人工智能 算法 JavaScript
无界 SaaS AI 生态大模型:技术在中国,链接全世界
无界 SaaS AI 生态大模型涵盖前端用户界面、后端服务器逻辑、数据库设计、API 接口开发及区块链技术应用。本文提供一个简化框架,介绍技术栈选择、核心功能模块(用户管理、商城、数据确权、链接力、算力算法、AI 生态大模型、全球化支持)及后端示例代码,帮助将商业模式转化为代码。
|
3月前
|
人工智能 算法 JavaScript
无界SaaS与AI算力算法,链接裂变万企万商万物互联
本文介绍了一种基于无界SaaS与AI算力算法的商业模式的技术实现方案,涵盖前端、后端、数据库及AI算法等关键部分。通过React.js构建用户界面,Node.js与Express搭建后端服务,MongoDB存储数据,TensorFlow实现AI功能。提供了项目结构、代码示例及部署建议,强调了安全性、可扩展性和性能优化的重要性。
|
3月前
|
前端开发 算法 JavaScript
无界SaaS模式深度解析:算力算法、链接力、数据确权制度
私域电商的无界SaaS模式涉及后端开发、前端开发、数据库设计、API接口、区块链技术、支付和身份验证系统等多个技术领域。本文通过简化框架和示例代码,指导如何将核心功能转化为技术实现,涵盖用户管理、企业店铺管理、数据流量管理等关键环节。
|
8月前
|
Web App开发 编解码 Java
B/S基层卫生健康云HIS医院管理系统源码 SaaS模式 、Springboot框架
基层卫生健康云HIS系统采用云端SaaS服务的方式提供,使用用户通过浏览器即能访问,无需关注系统的部署、维护、升级等问题,系统充分考虑了模板化、配置化、智能化、扩展化等设计方法,覆盖了基层医疗机构的主要工作流程,能够与监管系统有序对接,并能满足未来系统扩展的需要。
244 5