大数据阿里云产品的简单介绍理解

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:    很多人问,大数据是什么。一个时尚的技术名词,一个互联网时代的标志。给人高端大气上档次的感觉,很多公司不说自己有大数据都不好意思跟别人谈业务。那我就谈谈我的一些看法来结合阿里云的数加大数据产品比较粗俗的介绍下大数据到底是什么。
   很多人问,大数据是什么。一个时尚的技术名词,一个互联网时代的标志。给人高端大气上档次的感觉,很多公司不说自己有大数据都不好意思跟别人谈业务。那我就谈谈我的一些看法来结合阿里云的数加大数据产品比较粗俗的介绍下大数据到底是什么。
    首先,从字面意思”大数据”,那可以感受到,数据量要大,这是一个必须的条件。举一个例子,比方说我要根据一些销售数据做一个报表给老板看,那么几千条数据甚至几万条,我用excel可以很方便的做出来,数据可以保存在自己电脑上。
那么,当数据几十万到几百万,excel就不能做了,就需要把数据放在数据库,比如常见的mysql等关系型数据库,来计算存储等,但是当数据量几千万几亿几十亿以上呢,怎么办?那就需要大量的服务器和更高的配置机器来存储,计算,做出来报表,这其中就需要大数据技术来实现。所以,大数据的根本条件是数据量要足够大。
     说大数据,就不得不说分布式的概念。还是那个做报表的例子,数据量小,放在一个excel表中,放在你自己的一台电脑里存储,数据量大点的时候,放在一台或者独立的放在几台服务器上,再不行就增加配置,装个mysql来管理,但是如果数据量非常大,每天几十Tb过来或者每天要从几十T数据中抽取一些数据来做一些指标给老板看,一台服务器肯定是干不了的,如果把数据分开存储又是相对独立的到几台服务器上肯定会影响数据的总体效果,比如对数据排个顺序。那怎么办呢,是否可以用某种方式或者某个软件把很多台服务器连在一起让他们像一台服务器工作呢,答案是肯定的。这就是分布式系统,把存储和计算分发到每个服务器上来执行,整体看来就像是一台在执行,汇集了多台服务器资源。这种方式或者软件再或者说结构,是阿里云的基础,我们有一个响亮而又充满梦想色彩的名字:飞天系统。那么下面我就围绕数据来介绍,以公司为中心,按照数据从哪里来,来了怎么办,到哪里去这个线路来说下相关概念。

一, 数据从哪里来,怎么来
        一切业务数据化。举个例子,寄快递,最开始大家寄东西要填写快递单,手写的,这些是你的信息,姓名,电话,地址等,这些数据被搜集起来,就变成了最原始的数据,比如你在商场逛随便连人家的免费wifi,抱歉你的信息,从哪个门进来,那个门出去,在哪个店呆了多久等信息被搜集(说这些我会不会被找喝茶),再比如大家喜欢追剧,你在哪个页面看了什么电视什么类型看了多久,评论了什么,用的什么手机搜集成为原始数据。
那如果用户非常多,产生的数据也必然非常大。怎么搜集呢,用什么技术呢,那么比如阿里云产品-日志服务等产品,当然还有其他阿里云产品

官方文档:https://help.aliyun.com/product/28958.html?spm=5176.7618386.3.2.L5fXeB



二,数据来了怎么办

     一切数据业务化。怎么办是说,这么大的数据,怎么去存储,怎么做计算,怎么做成功能或者成什么样的产品呢。

     首先,这样大批量的数据,就可以放在飞天上存储,计算等。那么存储和计算又分很多种,就比如你有一个农场,农场里有很多仓库,仓库里可以放各种东西,比如小麦,你可以放在麦斗里,你也可以装在袋子里堆在那里,你也可以随便倒进仓库就行。可以对这些小麦筛选统计等,那么小麦就是数据,这就是数据仓库,农场上的这个仓库,我们可以对应阿里云的大数据利器ODPS现在叫:Maxcompute。

官方文档:https://help.aliyun.com/document_detail/27800.html?spm=5176.7740343.6.539.HfFlWv

     那么用户可以把海量数据放到odps中,进行存储,计算,以及和其他数据源交互等。类似于你可以把麦子进行筛选,去杂质,选出优质麦子,那就是对应到大数据术语,数据的清洗,过滤。到此看似可以满足基本需求了,如果我有很多地方的麦子要装进仓库,我要对很多仓库里的麦子进行筛选,我还要把筛选出来的优质麦子送到科研单位做实验。问题来了,谁先装进仓库,对谁先筛选或者同时筛选,筛选进度,或者说我就想等一号仓库筛选完了再进行2号仓库的筛选,我需要有人进行调度指挥,筛选完了送到其他各个地方,并且我想整个流程透明化,智能化。怎么办?

   我们对odps进行了封装并且集成了其他一些功能让操作变得可视化,可用易用

官方文档:https://help.aliyun.com/document_detail/30256.html?spm=5176.7843912.6.539.SfmCgC

     用户可以通过可视化的工具-大数据开发套件,来操作odps,另外一个重要的功能是数据同步,把麦子运到其他地方。开发套件中可以界面化配置同步到rds,ads等等各种数据库中,可以定时,可以设置任务的依赖关系和周期,可以预警等等。并且重要的是,目前是免费使用。

     话题回到最开始麦子存放,如果麦子源源不断的运过来,从地里收割一把麦子就立刻通过某种流式的比如传送带送到科研单位,并且传送过程中要进行麦子的筛选,鉴别等操作。怎么办,有没有这种实时的通道,流式的具有筛选功能的传送带呢。首先收割采集麦子的方法,我们有一种了,就是上面的日志服务,可以收割,有一个重要的问题不能忽略,就是收割速度很快,我后面的传送带上筛选工具筛选能力不够,麦子会堆积吧,那有没有一种工具,可以先把搜集的麦子源源不断的临时存放在那里,后面流式传送带上筛选多少就从那里取多少,源源不断的取。有这种工具,它就是datahub-实时数据通道,可以通过日志服务把日志实时上传临时存储,那传送带流式的实时筛选器是什么-阿里云流计算

https://help.aliyun.com/video_detail/55154.html

datahub配合流计算使用,天衣无缝。流计算可以从datahub中取数据做到实时计算分析。

   话题再次回到存放麦子的问题上,比如我有一些麦子需要非常快速的筛选,计算麦子各种指标,比如品种占有比例,注意是要筛选得速度快,领导随时都会来视察,随到随查的那种。我们可以把数据存放在ADS中,眨眼间,千亿数据随意查询:

官方文档https://help.aliyun.com/product/26371.html?spm=5176.7618386.3.8.NgtbKi

    说到数据存储,比如我在农场里不仅是麦子的存放,我还有一些化肥农药汽油什么不是那么规则的物质怎么办呢

官方文档:https://help.aliyun.com/product/31815.html?spm=5176.7618386.3.2.d755W7

    oss能存放非结构化的数据,比如音频,视频,图片等并提供快速访问接口,当然日志数据也是可以存的。那么Maxcompute就不可以存放这些数据,要求要是结构化的,但是Maxcompute2.0可以连接oss间接处理非结构化数据。

三,数据到哪里去

既然领导来视察了,来看麦子的各项指标,你还没准备好excel怎么办,请使用阿里云产品:Quick BI

官方文档:https://help.aliyun.com/document_detail/33813.html?spm=5176.doc53448.6.539.bPiG2B

像使用excel那样操作海量数据的报表,我自己都怕了。

那么,如果你还想做个牛逼的ppt给老板看,或者做个动画看看地图上每个位置的麦子产量,整个双11的那种大屏幕给老板看,幸运的是,datav可以满足

官方文档:https://help.aliyun.com/document_detail/44253.html

领导视察完毕,作出重要指示:

  • 希望地方可以根据历年使用的化肥,农药,种植的地域,播种时间等因素综合考量指定出最佳的丰收计划
  • 希望可以将麦子进行分类,聚类,能够做到下面再有麦子进入仓库可以自动识别它是那种类别

领导的指示不敢怠慢,机器学习来帮你用算法搞定

官方文档:https://help.aliyun.com/product/30347.html?spm=5176.7618386.3.2.sGxA27

   机器学习,是一个名词,通俗一点讲,是希望机器通过算法程序实现拥有像人类一样有学习能力,学习后有经验了,长大了,就能够明辨是非了。这种学科演化为专业学科,并不是说让机器会学习。从技术角度说,它是一个技术学科。是一门多领域交叉学科,涉及概率论、统计学、逼近论凸分析算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

   最后再举一个例子,上淘宝买衣服,发现买了上衣之后,在下面会给你推荐鞋子,裤子或者类似款式的衣服,如果你经常买衣服,会经常给你推荐相关性很强的东西。再比如,刷微博,会根据你经常喜欢点击看哪些视频,给你推荐相同类型的视频。这就是算法实现的,具体来说是推荐算法,属于机器学习学科中的一种算法。如何使用推荐呢

官方文档:https://help.aliyun.com/product/30367.html?spm=5176.7618386.3.2.sgyFWM

     比如微博,用户量巨大,我要对每个用户进行推荐,一个推荐算法的实现运行需要对背后海量的数据进行计算,那就是-大数据。所以说,机器学习,推荐算法是基于大数据技术的。阿里云机器学习,推荐引擎是基于Maxcompute的海量存储和计算能力的。往大的说,实际上这些机器学习学科早就出现了,但是因为没有强大的大数据技术的支撑发展缓慢,近些年来随着大数据技术的发展以及服务器在内存和cpu上的突破得以广泛应用,并且推动人工智能的发展。

    总结:大数据技术并不是阿里云特有,但是阿里云把它变成了一种普惠服务和平台提供给用户。目前各色各样的企业单位把数据放到云上,百花齐放,是信任。安全稳定是第一要则,所以 云若安好,便是晴天。

   如果非让我用一句话总结云计算的话,那便是:彩云之下,万物相连。

有对大数据技术感兴趣的,可以加笔者的微信 wx4085116.目前笔者已经从阿里离职,博客不代表阿里立场。笔者开了一个大数据培训班。有兴趣的加我。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1天前
|
运维 Cloud Native 应用服务中间件
阿里云微服务引擎 MSE 及 API 网关 2024 年 06 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。API 网关 (API Gateway),提供 APl 托管服务,覆盖设计、开发、测试、发布、售卖、运维监测、安全管控、下线等 API 生命周期阶段。帮助您快速构建以 API 为核心的系统架构.满足新技术引入、系统集成、业务中台等诸多场景需要
|
17小时前
|
自然语言处理 算法 API
阿里云百炼产品初体验评测
从小白入门到操作体验,带领大家一期探索阿里云百炼大模型平台的奥秘。
13 0
阿里云百炼产品初体验评测
|
2天前
|
分布式计算 数据可视化 大数据
阿里云大牛熬夜整理的Python大数据小抄,GitHub星标125K!
Python 是一种流行的编程语言,在大数据领域有广泛的应用。Python 拥有丰富的库和工具,可用于数据处理、分析和可视化。 在大数据处理方面,Python 可以与 Hadoop、Spark 等大数据框架集成,实现大规模数据的处理和分析。它也适用于数据清洗、数据转换、数据挖掘等任务。 此外,Python 的数据分析库如 Pandas、NumPy 和 Matplotlib 等,提供了强大的数据处理和可视化功能,使得数据分析变得更加简单和高效。
|
2天前
|
弹性计算 运维 算法
阿里云操作系统智能助手OS Copilot 产品评测的体验和总结
阿里云OS Copilot体验评测:运维者发现其对工作有帮助,给予8分评价,尤其在命令行辅助和代码生成上。然而,新手上手难度较大,提示不清,需改进文档和引导。用户期待更多功能,如多文件分析、环境自动配置,并希望与ECS等产品更好集成。建议增加精准提示和开源参与机会。
|
3天前
|
存储 人工智能 分布式计算
大数据&AI产品月刊【2024年6月】
大数据&AI产品技术月刊【2024年6月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。
|
4天前
|
人工智能 对象存储
【阿里云AI助理】自家产品提供错误答案。阿里云OSS 资源包类型: 下行流量 地域: 中国内地通用 下行流量包规格: 300 GB 套餐: 下行流量包(中国内地) ,包1年。那么这个是每月300GB,1年是3600GB的流量;还是1年只有300GB的流量?
自家产品提供错误答案。阿里云OSS 资源包类型: 下行流量 地域: 中国内地通用 下行流量包规格: 300 GB 套餐: 下行流量包(中国内地) ,包1年。那么这个是每月300GB,1年是3600GB的流量;还是1年只有300GB的流量?
32 1
|
3天前
|
数据采集 运维 Cloud Native
Flink+Paimon在阿里云大数据云原生运维数仓的实践
构建实时云原生运维数仓以提升大数据集群的运维能力,采用 Flink+Paimon 方案,解决资源审计、拓扑及趋势分析需求。
331 0
Flink+Paimon在阿里云大数据云原生运维数仓的实践
|
7天前
|
分布式计算 数据可视化 大数据
阿里云大牛熬夜整理的Python大数据小抄,GitHub星标125K!
Python 是一种流行的编程语言,在大数据领域有广泛的应用。Python 拥有丰富的库和工具,可用于数据处理、分析和可视化。 在大数据处理方面,Python 可以与 Hadoop、Spark 等大数据框架集成,实现大规模数据的处理和分析。它也适用于数据清洗、数据转换、数据挖掘等任务。 此外,Python 的数据分析库如 Pandas、NumPy 和 Matplotlib 等,提供了强大的数据处理和可视化功能,使得数据分析变得更加简单和高效。
|
8天前
阿里云产品六月刊来啦
通义千问2.5正式发布,HPC优化实例hpc8ae正式商业化,详情请点击阿里云产品六月刊
|
2天前
|
存储 关系型数据库 数据库
给阿里云的建议和意见 一个云服务器架构是否可行
摘要(Markdown格式): 在修复阿里云服务器IPv4设置错误时遇到困难,导致服务器远程登录失败及外网访问受阻,耗时三天解决。建议阿里云更新文档,确保设置指导与实际情况一致,例如只需在路由表添加条目关联IPv4。此外,建议优化帮助页面,如采用折叠式设计减少干扰。服务器主要任务是数据分析、存储和分发,文中提出简化服务器框架,消除硬件软件复杂配置,利于初学者和独立开发者快速上手,降低时间成本。该设计旨在减少无用组件,节省资源,同时降低云服务商的人力和支持成本。期望云服务商考虑此类架构创新。目前未知是否有类似产品,期待业界反馈。
204 0
给阿里云的建议和意见 一个云服务器架构是否可行

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute