
能力说明:
具备数据库基础知识,了解数据库的分类,具备安装MySQL数据库的能力,掌握MySQL数据类型知识,基本了解常用SQL语句,对阿里云数据库产品有基本认知。
暂时未有相关云产品技术能力~
阿里云技能认证
详细说明ETL背景在现代的企业里,每个部门都是一个独立的业务条线,由于各部门各自为政,信息的不流通,就形成了“信息孤岛”的尴尬局面,给企业的数据挖掘、报表开发等带来非常大的困难。数据仓库概念的诞生就是为了解决这个问题的,通过一定的技术把各部门的数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后再进入数据仓库,为后续的DSS(决策支持系统)和BI(商务智能)等深度开发奠定基础。而把数据源进行加工与集成的这个过程,就是ETL。 ETL概念ETL的含义是将业务系统的数据经过抽取(Extract)、清洗转换(Transform)之后加载(Load)到数据仓库的过程,目的是为了将企业中零散的、不标准的、不统一的数据整合起来,并输出标准和统一的数据源,为企业决策提供数据依据。实现ETL的方法主要有两种,一种是通过编程语言去实现,但是门槛较高,一般人不易掌握。另一种是借助ETL工具去实现,这种方式比较灵活,而且图形化的界面操作起来比较简单,现在大部分有数据仓库需求的企业都是采用这种方式。 下面以智分析的自助ETL功能为案例模型,对数据抽取、数据转换、数据加载进行详细的介绍。数据抽取1、 确定数据源:文本数据源,kafka数据源,关系数据源,示例数据源,数据集 2、 定义数据接口:对每个源文件及系统的每个字段进行详细说明 3、 确定数据抽取的办法:是主动抽取还是由源系统推送;是增量抽取还是全量抽取;是按照每日抽取还是按照每月抽取。数据转换• 数据采样:通过随机、加权、分层、下采样四种方式对数据源进行抽取• 数据拆分:将原本样本集按照训练集和测试集的方式拆分成2个子集• 数据过滤:按照用户需求,通过写SQL语句,对数据按照过滤表达式进行筛选• 数据合并:将两张表按行或列的方式进行合并• 数据关联:通过内连接、左右连接、全连接的方式对两个表格进行关联• 空值处理、去除重复值、聚合… 数据加载将清洗和转换好的数据直接加载到数据库对应表中,如果是全量方式则采用覆盖的方式,如果是增量则选择追加的方式。 ETL工具选择1、 智分析是由smartbi公司开发的云端SaaS平台,包含了强大的ETL功能,以工作流的形式实现为库表提取数据模型的语义,通过易于操作的可视化工具,将数据加工成具备语义一致性与完整性的数据模型,通过封装ETL算法,将技术分离,可以实现业务人员进行自助ETL操作。2、 Kettle是一款国外免费开源的、可视化的、功能强大的ETL工具,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。但是也有不少缺点,例如打开时速度慢、性能较差、存在着不少无法解决的bug等其他问题,给用户的体验并不是十分的完美。3、 Datastage是一款非常专业的ETL处理工具,为整个 ETL 过程提供了一个图形化的开发环境,它是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集或数据仓库的集成工具。但是价格比较昂贵,企业版的花费每月需好几万的人民币。4、 Informatica与Datastage旗鼓相当,也是一款专业的商业ETL处理工具,依靠图形化的操作界面,无需编程语言便可以完成ETL过程的操作,虽然价格比Datastage略低,但要部署的话也需要不少的预算。ETL的意义在当今社会分秒必争的商业环境里,ETL技术可以大大增强大数据的处理速度,为商业决策赢得更多的宝贵时间,同时也为数据仓库的建立奠定了良好的基础。通常在进行数据分析时会用到BI与ETL这两个工具,但是市面上大部分的BI工具都不具有ETL的功能,而智分析则打破了这个局限,以云端SaaS的BI为基础,推出自助ETL的功能,旨在降低工具操作的复杂度,提供人人都是数据分析师的自助式数据探索工具,让业务人员可以快速挖掘数据中蕴藏的价值,最终实现商业价值的快速提升。
我们大家都知道,EXCEL是工作中最常用的一款数据工具,除了做数据录入,还可以用来写函数公式、做透视表等等,但是这些都是最基本的功能,如果只是会这些,还称不上是一个高手。按照以下对EXCEL熟练程度的定义,EXCEL玩家从新手到专家需要经历五个级别,每个级别的难度都是逐步递升的。所以,要熟练掌握EXCEL不是那么容易的一件事,除了要精通EXCEL之外,还要做大量的练习。这里为大家归纳了五个最高端的EXCEL技能,学会后必然会成为一名厉害的EXCEL专家。1、 VBA如果要说EXCEL中最厉害的功能,VBA敢说第二,没人敢说第一。VBA最厉害的地方是可以让EXCEL实现自动化,彻底解放你的双手,让你不用每天复制粘贴。VBA是一种宏语言,可以通过编写宏代码,制作出高效的小程序,让复杂的工作简易化,减少不必要的重复性工作,大大提高我们的工作效率。但是VBA的入门难度是比较大的,一般人不易掌握。2、连接数据库连接数据库是EXCEL很早之前就已经有的功能,只不过一般人平时用不到这个。在EXCEL的工具栏中点击“数据”,在“获取数据”这里就可以看到EXCEL提供了很多数据库的端口,像市场上比较流行的mysql、sql servers、oracle、access这些数据库基本都支持。连接方法稍微有点复杂,但百度上教程很多,大家可以自行搜索。主要是可以实现在EXCEL中直接调用数据库字段的功能,提高EXCEL的性能处理能力。3、PowerBi系列PowerBi系列(Power Query、Power Pivot、Power View、Power Map)可以说是神一样的存在,简直弥补了EXCEL的所有缺陷,Power Query可以用来做数据查询、转换,Power Pivot可以用来做数据建模和分析,Power View可以用来做数据展示,Power Map可以专门用来做数据的地图化展示,总之是功能非常强大。当然入门也不简单,尤其是晦涩的DAX函数,会让初学者抓狂。如果你想成为骨灰级的玩家,建议把这几个功能给吃透。4、大数据处理你要问我EXCE能不能处理大数据,我可以肯定地告诉你:不可以。因为EXCEL的性能大家都清楚,弱爆了,不要说大数据,就算是小数据,如果电脑配置差的话都够呛。但是也不是没有办法,高手如果要用EXCEL处理大数据的话,通常会借助一个插件,那就是智分析。只要安装在EXCEL中,便可以通过EXCEL上传大容量的本地数据源到云端的数据库中,或者直接让EXCEL连接外部的数据库。数据导入或者连接成功之后,便可以实现连接数据库的功能,可以直接调用云端里的数据字段到EXCEL中进行分析,无需打开庞大的数据源文件,非常给力。5、电子表格这里科普一下电子表格的概念,电子表格基于Excel创新地实现报表设计,满足各种格式的行业监管报表、内部管理报表的需求。包括:清单报表、交叉报表、分组报表等各种形式的报表,可以实现回写录入等强大的功能。以下是一份用智分析电子表格的功能去制作好的一份图表,只要在EXCEL中设置好一定的规则之后,发布在网页端后便可以实现报表回写、报表浏览、数据导出、报表打印等功能,在数字化企业中运用非常广泛。 以上这五个技能属于比较高阶的技能,如果对EXCEL了解不够深的同学,建议先从简单公式或者透视表开始学起,打好了基础再学习高阶的知识。如果你对EXCEL已经足够熟练了,不妨学习一下这几个厉害的技能吧,会让你非常加分。
小李是一家外企的数据分析师,平时处理的都是亿万行级别数据量的报表,为了可以胜任这份工作,小李早早地就学会了各种大数据工具,而且做出来的数据模型高度自动化,效率极高,为公司创造了非常大的价值。因为小李出色的表现,公司年底计划把他提升为公司的数据总监。而小王是一家电商公司的数据专员,除了EXCEL其他的数据工具均不会,如果遇到数据量大的表格,小王就要和同事们一起去加班完成了。因此小王的工作效率非常低,领导也不止一次地去批评他,小王也感到很苦恼。小王进来公司三年了,期间只加过一次薪,而且加的幅度也不大。通过小李和小王的对比可以看出,虽然两人都是从事着类似的工作,但是命运却截然不同,一个是拿着年薪几十万的职场精英,一个是拿着微薄工资职场小职员。那问题来了,为什么两个人做的事情差不多,待遇却有着天壤之别呢?真正导致他们产生差距的原因,是他们对于处理数据的思维不一样,小李接触的是重量级的数据,遇到的问题多,自然就会去学习各种处理大数据的方法和手段,这个过程也是自我增值的过程。而小王对于EXCEL之外的数据处理方法知之甚少,做任何数据分析都只是停留在EXCEL的层面,所以遇到问题时很难突破这个瓶颈,只能望表兴叹了,怪不得毕业好几年了工资一直没怎么涨。哎,看来还是大数据比较香。那么大数据对于普通人来说好不好学呢,其实一点也不难,只要掌握了以下四点概念,我们一样也可以玩转大数据。1、 数据连接目前主要有两种数据数据存储的方式比较通用,一种是EXCEL或者CSV文件,直接保存在电脑里,需要用的话就直接打开,这也是很多中小企业做数据报表最直接的办法。还有一种就是外部数据库的连接,一般大型公司会用这种形式做做数据存储,因为数据量太大,每天的数据量可能在千万行以上,这个数据量是EXCEL无法承受的,因此用数据库做数据存储是最好的方法。那么有没有两种方式都同时支持的系统呢?答案是有的,以下图的智分析为例,提供了EXCEL文件导入的入口,也支持市面上各种主流的数据库端口,一下子就把EXCEL的性能提升到了千万行的级别。2、 EXCEL插件作为一个职场小白,对于工具,最大的问题就是:不会用。这也是很多职场人员的真实写照,毕业好几年了,到头来只会用EXCEL一种工具。这里并不是贬低EXCEL的意思,而是工具对于工作效率来说太重要了,如果摆在你面前的是一份几千万行级别的数据报表,如果你用EXCEL处理的话,你会发现EXCEL根本无能为力,这个时候用其他的大数据工具会更现实。所以除了EXCEL之外,我们也要学习其他更高级的工具。但是这些工具也并不是那么容易就入门,如果不花个一年半载,是没有办法完全掌握的,但是如果基于EXCEL去开发出一个可以处理大数据的插件,相信很多人都可以快速入门,如下图这个插件,只要连接好了数据库,或者在本地上传了文件,在EXCEL中便可以轻松处理千万行级的数据量。3、 自助分析要想在职场中混,有两个知识你必须得会,第一个是EXCEL的透视表,一个是数据库的查询语句,这两个知识都可以让你快速分析数据,得出分析结果。透视表相对来说简单一点,只要通过鼠标的拖拽就可以了,但是EXCEL透视表会有性能的限制,如果数据量太大的话,EXCEL的透视表便跑不动了,非常坑爹。所以我一般用智分析来做大数据的透视,在网页端便可以做透视图,而且没有数据量大小的限制。如果你没学过数据库的话,写查询语句相对来说会难一点,因为这是一门系统的语言,需要一定的逻辑性。但是也有另外的一种方法,就是利用可视化的方式去做数据查询,例如在智分析上,就可以通过鼠标拖拽的方式去做数据查询,通过这样的方式可以快速建立好你的数据集,这样的好处就是不用写数据库查询语句,所有操作只需通过鼠标操作即可,非常方便,这个方法也叫即席查询。4、 数据可视化作为职场上的一名资深打工人,如果你还是只会用以下这种图形做报表的话,领导一定会吐槽这样的图表LOW爆了,连实习生做的图表都比你的好看。EXCEL虽然是一款小巧的数据工具,做图表也非常方便,但是如果要做厉害一点的数据可视化,EXCEL的能力还是偏弱一点。所以,在大数据时代,正确的打开方式应该是像下面智分析做出来的报表一样,具有强大的定制和扩展能力,可以可视化建模,自助式分析,并具有高颜值的可视化效果。如果你能做出这么厉害的报表,领导一定会对你刮目相看,说不定年底的升职加薪就有你的份了。“你在拼多多到处找人砍价,他在滴滴打车求人助力,我在电子厂拧螺丝拧到凌晨”,这是当代打工人对现实生活的无奈。同样地在职场上,优秀的打工人早已经开始了自我提升,学起了大数据,如果你还只是停留在EXCEL的层面上的话,对你未来的职业道路会非常局限,所以想要突破自我,就赶紧认认真真地学习一门处理大数据的工具吧。智分析
Microsoft Excel是Microsoft为使用Windows和Apple Macintosh操作系统的电脑编写的一款电子表格软件。直观的界面、出色的计算功能和图表工具,再加上成功的市场营销,使Excel成为最流行的个人计算机数据处理软件。在1993年,作为Microsoft Office的组件发布了5.0版之后,Excel就开始成为所适用操作平台上的电子制表软件的霸主。截止至2017年,根据微软最新公布的数字显示,世界上有12 亿人使用微软办公软件,世界上每五个成年人中就有一个使用 Excel,足以显示该款软件的强大和普及性。EXCEL是OFFICE的一个组件,全球市场占用率极高,可以说装了微软WINDOWS的PC几乎都装有它。EXCEL主要的作用是进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计财经、金融等众多领域,无论是国内还是国外,EXCE的身影都随处可见。EXCEL是目前最主流的数据分析软件,这是由微软公司的背景以及其几十年来的技术沉淀所决定的,界面简单,功能强大,基于EXCEL去做数据分析是目前绝大部分公司的首要选择。虽然EXCEL目前拥有着最多的受众,但随着数据量的不断增大,每日动辄几百万行甚至上千万行的数据量,EXCEL已经无法应付这么庞大的数据量了,所以许多企业已经开始使用数据库或者BI工具去做数据分析了,因此EXCEL与BI、数据库如何相结合将会是未来一个崭新的课题。在解决EXCEL的痛点问题前,我们先来看一下EXCEL的优缺点对比,从以下的对比中不难看出,EXCEL虽然上手简单,但是要去做一些大数据的处理时,总是会力不从心,已经不能适应信息时代高速发展的各种需求了。优点:• 新人友好度高,易于上手• 使用方便,不需要多掌握一门操作语言• 操作简单,学习成本低缺点:• 共享方面:excel是以电子表格形式进行大数据分析的,不易于数据共享。经常需要共享数据的人一定很崩溃。• 数据源:当所需要的数据源有多个时,整合数据源非常麻烦,而且处理超过100万行的数据时非常慢,甚至会卡死。• 可视化:excel可以完成基本的可视化操作。但是excel是静态的,数据有变动时操作麻烦。EXCEL很多基础功能在我看来是非常好用的,毕竟是全世界中最普及的办公软件,做电子表格和数据可视化的能力都是杠杠的,那么如何不改变EXCEL的基础功能而提高EXCEL的处理能力呢?放眼整个数据行业,还真有一款叫做智分析的数据工具可以解决这些问题,通过其强大而又简洁的功能,可以为企业解决数据库连接、性能瓶颈等问题,其强大的数据处理能力弥补了EXCEL以往的种种缺陷,从而帮助企业解决更多实际工作场景中产生的问题。 智分析是嵌套在EXCEL里进行使用的,无需单独打开使用,只要安装好了,就像是POWER PIVOT一样出现在你的EXCEL工具栏里,与EXCEL结合的天衣无缝,非常简便。只要在工具栏中点击导入文件,便能把百万行甚至是千万行级的数据源导进去,这些数据源会保存在云端的数据库中,不会占用你电脑的内存,对于电脑配置低的同学来说,简直是一个天大的福利,从此再也不用把庞大的数据源保存在电脑里了,云端数据库便可以当成你的一个网络硬盘。 当需要调用数据源的时候怎么办呢?非常简单,点击工具栏中的视图,右边就会出现一个数据集面板,这里可以找到你保存在云端中的数据源,通过拖曳的方式,可以把数据源中的字段拖曳到EXCEL中进行分析,可以选择其中的几个字段,也可以选择多个字段,比EXCEL连接各种数据库的操作方便多了,没有任何技术门槛,只要你会使用EXCEL,就可以轻松上手。如果需要补充新的数据源进去,可以在导入数据的界面里选择“添加到已有表”,就可以把数据追加进去了,然后在EXCEL中点击刷新,便可以实现数据自动更新。智分析另外一个比较厉害的骚操作就是可以制作各种高大上的大屏图表,这些图表精致靓丽,颜色丰富,布局协调,如果你不会制作以下这种高大上的图表,你都不好意思说你是一名专业的数据分析人员。如果你做出一份这么高大上的图表拿给老板看,相信老板一定会对你另眼相看,是不是倍有面子呢?除此之外,智分析还具有完善的安全管理体系,它可以控制用户功能权限、数据访问权限、资源访问权限。支持按用户、用户组、角色进行管理;支持多套应用系统共用同一套用户管理系统;支持多级用户管理体系。如果你的企业里存在着非常多角色用户,每个角色需要分配不一样的数据权限,那么智分析是绝对可以满足你的要求。只有解决了EXCEL的弊端,才能更大地发挥EXCEL的使用价值,而智分析就是搭配EXCEL使用的一款利器,通过插件的形式嵌套在EXCEL中,解决了EXCEL数据性能、数据权限的难题,更把BI的元素融入到了EXCEL中,使你做出的报表更加美观,更能呈现出可指导业务的应用价值。智分析入口
大数据是近年来最热门的一个词,很多企业已经运用成熟的大数据技术去做企业管理,国家也在大力发展信息技术产业,大数据分析师更是招聘市场上炙手可热的香饽饽。但是大数据相关的工作岗位对数学、编程能力的要求都是比较高的,一般人很难在短时间内上手,大部分的人只会用一些最基本的办公软件去处理数据,例如EXCEL等。但是,你还千万别小瞧了EXCEL,虽然EXCEL有一定功能上的缺陷,但是麻雀虽小五脏俱全,应用非常广泛,是一款不可或缺的办公软件。那么究竟EXCEL能不能处理大数据呢?我们通过四宗“最”去了解一下。第一宗“最”:性能最强 EXCEL如果不连接数据库的话,性能可以说弱爆了,分分钟会被其他大数据工具碾压按在地上摩擦,但是微软不甘示弱,让EXCEL具有了连接数据库的功能,只要连接上了数据库,性能一下子提升了百倍。EXCEL支持连接mysql、sql servers、access等常见数据库的连接,只要连接上了,便可以直接在EXCEL中通过拉拽的方式去分析数据库的数据,非常强大。还有一种方法就是通过插件的方式去连接数据库,这个方法相对来说比较简单,无需复杂的操作,只要在网页端上建立好了连接,便可以在EXCEL中的数据集面板里去拉拽数据,也可以把非常庞大的EXCEL或者CSV文件直接导进去云端,再回到EXCEL里进行数据拉拽的操作。第二宗“最”:效率最高EXCEL处理数据效率最高的功能当属数据透视表了,用透视表可以快速对数据进行分析,并在非常短的时间内得出分析结果。透视表的操作方法也非常简单,只要在EXCEL中对数据源插入透视表,便可以通过拉拽把数据通过不同的维度去展示出来,非常实用。但是透视表还是会受到性能的限制,如果数据源太大的话,数据刷不出来。如果要解决这个问题还是用云端的透视分析会给力一点,操作方法和EXCEL是一样的,最重要的是不受数据量大小的限制。例如下图里,我在智分析上就可以网页端去对数据源进行透视,几千万行的数据量在几秒钟之内便可以刷出来了,非常给力。第三宗“最”:最高大上 EXCEL做数据可视化的能力相信没有人会怀疑,不仅可以做静态图表,也可以做动态图表,有些高手做出来的图表甚至可以媲美某些BI软件了,可以说EXCEL做图表展示的能力一点也不差。下面我利用EXCEL和其他BI做出来的图表进行对比,除了美观上比不过BI做出来的图形之外,但是在图形的的灵活性和创造性上,EXCEL的表现非常惊人。当然,如果你会用BI那就更好了,可以与EXCEL进行互补。 第四宗“最”:安全性最高在这个网络发达的信息时代,你是否会担心自己的数据会泄露出去呢?不用担心,EXCEL提供了加密保护的功能,只要对工作簿进行加密保护,别人便没办法打开你的文件进行查阅,这是一个非常实用的功能。通常我会对重要文件进行加密,例如公司内部的一些数据,这个方法可以在一定程度上降低数据泄露的风险。 但是,这个方法也并不是万能的,如果遇到一些EXCEL高手,这个方法就能轻易被攻破了,因此非常机密的数据不建议用这个方法去加密。最好的办法是利用云端对数据进行加密,云端服务器有着严密的防范机制,一般人不能轻易攻破,而且还能对阅读权限进行设置,例如在智分析的云端上,就可以对每个用户设置不一样的阅读权限,下图里的例子,管理员可以看所有区域的数据,但是华北区域的用户只能查阅本区域内的数据,而不能查看其它区域的数据。 不得不说,目前EXCEL依旧是非常实用的一款数据分析工具,只是性能上受到了一些限制,处理大数据时有一些捉襟见肘的感觉,但只要通过正确的方法去对EXCEL的处理能力进行提升,EXCEL便可以脱胎换骨,重新焕发出生命力,让大数据不再成为技术人员的专利,普通人通过EXCEL一样也可以与大数据“掰掰手腕”。智分析入口
2021年01月
2020年12月
2020年11月