数据仓库与数据挖掘(1)|学习笔记

简介: 快速学习数据仓库与数据挖掘(1)

开发者学堂课程【高校精品课北京理工大学数据仓库与数据挖掘(下)数据仓库与数据挖掘(1)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1041/detail/15663


数据仓库与数据挖掘(1)

 

数据仓库与数据挖掘的未来趋势部分本部分我们分三个内容,数据资源、数据利用、数据生态。

首先看数据资源。在数据资源中,我们可以看到世界是由数据来进行描述的,从宏观的宇宙到微观的分子结构,这些数据量都是非常的庞大的,而且的话呢,还在日渐增多,它的种类也非常之多。

image.png

我们看一个例子,在60秒钟,也就是一分钟之内,我们的Twitter,我们的视频,包括我们现在所用的微信,都在日积月累的增长,所以它的增长速度非常之大,这仅仅在60秒钟就增长这么做,大家看看我们的一天,一个月,一年会有多少数据,而且日积月累,从有记录以来到现在已经有很多很多数据了。那么在这种情况下,我们就在想一件事情,我们的数据能干什么?在联合国的可持续发展目标中,定了有17个目标,这17个目标都可以找到数据利用的身影。那么在这种情况下,很多国家把数据当作战略资源来使用,而且数据可以和物质、能量相提并论,成为三大基础设施。

image.png

美国、欧盟、澳大利亚、新加坡相继都把数据当作战略资源,而我们国家也出台了相关的政策条件,而且中央政治局常委对大数据进行集体学习,那么数据可以为我们的经济增长,还有国防等等带来很多的基础支撑作用。

image.png

在这种情况下,我们就不得不在想一件事情,对于数据密集型的科学发现,我们应该如何做?一共有四个科学的范式,开始的时候是几千年之前,我们都是做实验性的,比方说加利特对天观测,那么通过这种观测数据来分析科学的规律。在后来的几百年之前,我们通过是理论,通过理论来进行分析,来总结他的共性。在几百年之前,我们开始进入了计算科学,计算科学就是把仿真等一些事情加入进来的。那么在今天数据爆炸,数据爆炸的情况下,数据会给我们带来哪些改变?所以他的研究方式和原来数据不够的时候那个研究方式就不一样了。在这种情况下,我们的思维,我们的用途,我们的工具都发生了很大的改变,而这种改变直接导致了我们的科学第四范式的产生,也就是数据科学,数据密集型的科学发现。

image.png

我们在这里就不得不提一下,2013年大数据登上数据的技术成熟度曲线的峰顶的时候,几乎到了疯的,那么他为什么会峰顶?因为数据它的软硬件升采集处理和分析的手段增大了,硬件下降,远见升高,而且数据的日积月累速度非常之高,我们就不得不面对这个现实,然后把数据利用起来,所以在技术能力成熟度模型上,他在2013年被推上了峰顶,几乎是否定。

那么在这种情况下,我们就在想了,既然数据这么好,我们也在用它,那么我到底用的怎么样?但是很遗憾的告诉大家,我们正在被数据淹没。我们既可以支持,我们如果要用一个比较常见的一个动画片,刚开始数据来,我们都对他充满期待,但是到了后期,当数据把我们淹没,我们不能利用的时候,我们就你到哪里去哪里好就到哪里去吧,所以的话,就相机了一样了,群只能用,丢了又可惜,所以在这种情况下,数据的利用就非常非常的重要,这也是我们未来趋势当中必须要重视的一件事情。

那么举个例子,比方说相同和相异对于存款借贷信用,还有信用卡这些事情的话,我们都可以分析他,他这里面就会有这么几个问题,相同的数据具有不同的名字,不同的数据具有相同的名字,数据在这里可以发现,在那里也可以发现,不同的关键字却是针对于同样的数据我们举个例子比方说不同的关键字有相同的数据,它对应的有存款和那个信用以及信用卡,所以在这里这里是一个挺大的难题,他本来就是相同和相异给我们带来的困惑,那么在这种情况下,我们有哪些迫切需要解决的问题,或者是说叫瓶颈,我们有这么四个问题我们必须重视,第一数据标注就加标签,数据它是生命的,你必须让它活起来,让它活起来的话就要给他标注。

比方说电话号码来了之后的这么一套数据你不知道,但是你如果给他标上是a的电话号码,它就有了生命。第二你怎样处理和清理数据,数据可能是受污染的,比方说加密了,比方说他有重复,比方说他有故意的话,有故意把一单隐藏起来了,那么在这种情况下,这个数据你如何来处理,如何来把他让他的准确度高一些,让他重复的数据给剔除掉。

第三,你得让法从位置 A 移动的位置 B,我们都知道现在云计算,但是很多人认为从云计算上用网络来做,但他受带宽的影响,怎样从城市北京的数据搬迁移到南京去,事实证明他最大的,最简洁的,最快的方式常常是数据硬盘,而且数据硬盘还是做成了数据硬盘卡顿,那么在这种情况下的话,在大数据时代的一个是我们不得不要考虑的一件事情。第四个,你怎样把每天做的这个事尽可能的快,也就是 how do you do this everyday as quickly as possible,把上面这三件事情怎样做到最快?

而且有个笑话叫天下武功,无快不破。所以那么现在节奏快了,我们要求对数据的利用,对数据的处理也它的速度也提出了更高的要求,那么在这种情况下,我们都不得不对那个数据资源的利用的话,考虑到这样一些事情

相关文章
|
1月前
|
机器学习/深度学习 数据可视化 数据挖掘
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
探索大数据时代的关键技术:数据挖掘、可视化和数据仓库
232 0
|
24天前
|
机器学习/深度学习 算法 数据挖掘
数据仓库和数据挖掘基础
数据仓库和数据挖掘基础
24 1
|
1月前
|
存储 算法 安全
数据仓库与数据挖掘概述
数据仓库与数据挖掘概述
81 3
|
7月前
|
存储 数据采集 大数据
数据治理专业认证CDMP学习笔记(思维导数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第11章数据仓库和商务智能篇
数据治理专业认证CDMP学习笔记(思维导数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第11章数据仓库和商务智能篇
|
8月前
|
存储 数据挖掘 OLAP
数据挖掘(7.1)--数据仓库
数据库因数据处理的需要而产生。例如,在20世纪60年代后期,美国为了战争的需要,将各种情报收集在一起,存储隐藏在计算机内,这就是数据库的起源。随着计算机技术的发展,数据库从文件系统阶段发展为数据库阶段,再到高级数据库阶段。现在,数据库已经广泛应用于实际应用、计算机技术和网络技术中,如分布式数据库、面向对象数据库和网络数据库等。
47 0
|
SQL 运维 监控
[视频]云原生数据仓库 AnalyticDB PostgreSQL 版解析与实践(上)|学习笔记(四)
快速学习[视频]云原生数据仓库 AnalyticDB PostgreSQL 版解析与实践(上)
723 0
[视频]云原生数据仓库 AnalyticDB PostgreSQL 版解析与实践(上)|学习笔记(四)
|
存储 SQL Cloud Native
[视频]云原生数据仓库 AnalyticDB PostgreSQL 版解析与实践(上)|学习笔记(一)
快速学习[视频]云原生数据仓库 AnalyticDB PostgreSQL 版解析与实践(上)
619 0
[视频]云原生数据仓库 AnalyticDB PostgreSQL 版解析与实践(上)|学习笔记(一)
|
存储 SQL 关系型数据库
云上数据仓库的架构方案|学习笔记(三)
快速学习云上数据仓库的架构方案
257 0
云上数据仓库的架构方案|学习笔记(三)
|
SQL 监控 数据挖掘
云上数据仓库的架构方案|学习笔记(二)
快速学习云上数据仓库的架构方案
306 0
云上数据仓库的架构方案|学习笔记(二)
|
弹性计算 搜索推荐 数据挖掘
云上数据仓库的架构方案|学习笔记(一)
快速学习云上数据仓库的架构方案
276 0
云上数据仓库的架构方案|学习笔记(一)

热门文章

最新文章