开发者学堂课程【高校精品课北京理工大学数据仓库与数据挖掘(下):数据仓库与数据挖掘(2)】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1041/detail/15664
数据仓库与数据挖掘(2)
下面请看数据利用。既然知道数据资源很多。而且每个数据资源在用的时候就遇到了瓶颈问题,那么它的利用会如何做?或者说如何做才能最好?
来看对于一个商务系统,知道他有商务的处理和技术的解决方案,这个解决方案,第一部分给个报告,说明它是个什么东西。但是还会要问一件事情,他怎么产生的,这就是我们的第二步阶段,就是分析,第三阶段的话,还想知道他是怎么做的,还有一个如何来操作。那么如何来操作这件事情可以预测,但是更想我要让这个数据产生什么结果,这是终极目标,相应的都对应到数据的利用,
可以看到下面有几个饼图,实际上就是划分的在数据当中所做的努力。
相应的要考虑一件事情,在这个数据挖掘,因为有得了这么多数据,那么数据挖掘有哪些重要的东西要考虑?第一个是挖掘的方法,要去挖掘各种各样的知识,关联聚类、分类,还要挖掘的知识是在多维的空间。而且要让这个挖掘网络的环境变得比较好一些,同时也能够处理噪音、不确定性,还有不完备性的数据,比方说数据缺失。那么在方法当中最后一个就是你挖掘出来这些模式,或者只是他的成效如何,要进行评估,要进行评价才可以使用,或者是叫做有条件指导的挖掘,那么这种情况下才能符合要求,也就是说数据挖掘在数据仓库里,如果说数据资源通过数据仓库把它管起来,那么通过数据挖掘把它分析利用起来,开始看东西。
所以下面的话就有一件事情,用户在这里面起一个什么作用?用户其实很有自己的想法,也很有自己的要求的,我们在分析利用数据的时候,你必须关注到这样一件事情。也就是用户要可以和机器交互,那么人机交互是数据挖掘当中很重要的一个命题,那么它我们在做的时候一般会考虑哪些事情?一个是交互式的挖掘,我给提了要求,然后你挖出来的东西,结果符不符合我的要求,我可以提。那么通过人和机器之间的交互,就可以把你的挖掘的东西渐渐地趋向于你的要求,达到你的目的,但是如果没有交互,那么这个出来什么你就要什么,可能用户不买账。第二就是背景知识,必须要有个场景,那么背景知识你要给他一致才可以。最后一个是要可视化,把这个数据挖掘的结果通过合适的方式表达可视化出来,而这种表达和可视化的是喜闻乐见的,也是用户交互的很重要的一部分。
第三个是他的效率和尺度,那么如果是喜欢这个东西费了很长很长时间才出结果,我现在不求结果,那么这个用户是不买账的,场景也不是买账的,所以效率还比较高,而且这个数据的尺度要大,因为大数据时代,刚才我们看到一个在一分钟,也就是60秒之内产生那么多数据,那么日积月累将会有多少数据,而且各种各样的数据,从这种浩如烟海的数据当中把你想要的东西找出来,不是一件容易的事情,所以对效率提出了更高的要求。那么并行、分布式、流数据,还有一些个增量的数据方法,就不得不让我们去深入的研究。
还有一个就是数据类型的多样性,要能够处理复杂类型的数据,后面会专门来讲这件事情,处理动态的、网络化的和全局的数据资源。还有一个事情就是收集挖掘和社会数据挖掘,不能够脱离社会,脱离需求来而存在,不能够挖掘别人的隐私性,当然大家都有一些个好奇心,但是你的好奇心应该在合理的、合法的情况下来满足你的好奇心,如果违法这是不可以的。
还有一个隐私保护,就是说你看不见的数据,挖掘数据扒你的东西在分析你的行为,如何来做,在这种情况下单独来看一下复杂类型的数据,首先看持续数据,在时间序列的数据当中有相似性的搜索,比如说你想搜什么东西,那么在时间序列当中,比方说一个机器设备的它的运行状态和运行的时间,那么就要看它的子序列的匹配,还有他的那个纬度的降维,以及它给予查询的相似性搜索,那么都知道比较简单的一种方法查询的关键字放进去,但是关键字毕竟搜出来的东西太多了,比方说在百度上用的时候可能有很多很多结果出来,但是如果把数据挖掘的方法放进去,可能如果实现精准搜索。那就是我们所期待的。
第二回归和趋势分析。如果想在时间序列的话,如果到今天,能够把明天预测出来,这多好。回归是一个很好的方式,回归的时候,就是必要用到你的时间,你的周期,或者是你季节的情况,变量,还有随机的移动过程。
讲一个最简单的例子,在心电图上,知道心电图上面的心率,那么可以当做制定的判断依据之一,那么他的心率如果波动太大,如果我们做的工作数据挖掘,能够把我们的东西和医院当中已经有的进行对比,那么我们就可以加快医生诊断的速度,从而挽救人的生命。尤其是在急诊的时候,比方说你要在急诊的时候尽快的过去查他的症状,然后给他提供真正的根据,就做了一个很有意义的事情,这也和国家大健康的政策是匹配的。
那么还有一个是时间序列的模式。在符号类的查询当中,我们都知道以图查图。以符号查符号,比方说地图上的有限画图,你查哪条道路禁,你把那个道路相近的输进去,他就把道路给你查出来了,这是一种符号性的查询方式。那么还有一个就是分类,时间序列的分类,我们有很多很多设备,在一个楼上有很多空调,那么空调运行是不是好的?他是不是里面有肮脏的东西?那么我们可不可以把好的机器和有可能出问题的机器把它分开?那么这种情况下就可能要基于特征的,或者是基于时间序列的方法,就是生物学的序列,生物工程是一个很大的领域,里面的数据也是海量的,那么他两两比较,找出最重要的那一个序列,然后对他后面的发展就可能有好处,
再就是有一种方法是隐性马尔可夫链,或者叫隐性马尔可夫模型,用它这个进行分析生物时间序列,得到生物的模式为下一步的发展来提供决策支持,这也是我们要关心的事情。
还有一个就是图形和网络,图形的图的模式挖掘,比方说频繁的只图模式,封闭的只图等等,再就是统计模型,网络的统计模型,比方说小世界,通过一件事,一封信发出去,最多通过统计的话,六个人到你手里就返回来了,所以这是一个小世界的现象,它里面还有一个skin free叫尺度自由,那么它是个秘密分布的,所以对于这种统计的网络模型上就体现出来。还有一个就是聚类和分类,尤其是亿元网络的分类和聚类的图,它的模块和扫描是不是快,他的聚类的模型和它的基于模式的挖掘是不是满足你的要求,这也是要考虑的事情。
还有一个排序。那么一元神经网络排序的时候,只知道在那个搜索的时候,他是推着圆体,然后为什么一下来他有很多很长的数据在那里,就是因为他按相关性来进行排序,那么聚类是我不知道类别,我把它分成几块,这样挺好。分类是物以类聚,人以群分,我给你分开的。
还有一个角色发现和连接预测,在信息网络当中,比方你在微信当中,你经常联系的也就那么几个,你那个小网络,或者是你在一个网络当中,我们知道那些人经常在一起,这叫社区。那么重要的人,重要的一个团体,或者是重要的路线,这些发现也是我们所关心的。还有一个就是社交网络,那么我经常和谁打电话,那么如果把打电话的频率或当做他的权重,然后把它给做出来的话,我们也可以得到一个很好的网络,而这个网络当中就显示了你和谁联系紧密,你和谁联系稀疏,你哪一部分联系多一些。如果大家有兴趣可以看一看航空网络,交通网络和万维网络。
那么在这种情况下,看就是其他的复杂类型的数据,比方说空间数据,我们到哪里去前来打车,那个为什么快?就是因为它把坐标给这个标出来了,应该是平面坐标,如果再把那个高多少给了你,所以我们打车的时候,然后打那个输进去,然后给我们导航,这其实就是位置。而且世界上百分之八十的数据是和位置有关的,就像现在我站在这里,其实我的坐标就定了,那么这里面有很多事情,比方说距空间聚类、空间分类、空间异常、空间关联、空间位置等等,整体里面还有一个叫做graphic information science,全翻译过来叫地理信息科学,那么它那里面的还有一个专用的模式来发现。
第二就是时空数据,如果刚才讲的有空间,有坐标,我们定下来了,他还要动,比方说我讲完之后我就回学校了,或者是你讲完你听完课之后你就吃饭去了,你要动,而且的话你省了一段时间又得看,那么也要,那么他要和时间连在一起,就是时空数据,那么时空数据常常和移动的目标数据连接在一起的,所以时空数据挖掘是一个难点,比方说轨迹查询,比方说刚才我讲的打车。打开软件的话,如果你经过一段时间,那么你就可以把你打车的那个调出来,还骑单车,那么你的轨迹就出来了。还有一个就是 cyber physical system,赛博空间的系统数据,比方说你看健康、空中交通,还有就是洪水的模拟。
最后一个是多媒体数据,我们知道现在大家的话看什么东西都比较方便的,那么他的社交媒体,还有就是带有地理标签的空间数据,还有时间周期性的序列发现,而且现在的媒体表达形式也多种多样,所以这也是代付一种复杂数据类型,必须给予充足的重视。那么在这种情况下。复杂数据还有一个就是文本数据,那么文本数据大家知道,我们写的字,我们的书都是唯美性质的,我们读的文件也都是,所以文本数据和自然语言处理的话,常常是连在一起的,那么它的集成、分割等等,这里都有很多问题。
再就是外部数据,网络上上面千奇百怪,网络几乎是重现了我们的现实社会,那么它的网络的内容、网络的结构和网络的使用方式,包括我们上网的时候,我们点在那里,点在哪个地方,点的多一点,你有没有发现,当你上浏览浏览一个购物网站的时候,你买了一件事情,第二次你再上的时候,马上就给你送过来了,其实。我们就是被算法控制,但实际上是给你的喜好来给你推荐东西,如果时间久了,就是控制了,你离不开他了。
还有一个就是数据的流,是流数据,那么它是动态的,它的模式和距离还有异常,比方说我们在监测一个病人的时候,他的心里一直都挺好的,结果猛然的平滑了,那就惨了,还有猛然忽高忽低,这也是我们要关注的,这叫异常。或者是一个机器设备,一个空调,它运行的挺好,你要装个传感器,现在有二维码也可也可以生成结果,跳伏很大,那肯定出问题,如果是移动邻居,这段时间他的用电量和用水量非常非常大,超出了常规的使用,那么就可能为我们社会治理带来一些决策的思考、事实。
在这么多事情当中,如何来做呢?或者是再具体一点,数据仓库和数据挖掘有哪些方法来对应它?实际上我们一直在做这件事情,从平台、语言、工具还有的应用的场景一直在向前走,而我们国家在这里面也做出了自己应有的贡献。比方说统计数据挖掘,在里面包含回归、一般性的线性模型、变量的分析、混合效率的模型,还有要素分析,异常分析等等。
在这种情况下,在挖掘的时候就有一个问题,他的角度或者叫视图,那么我们的角度有一个是数据,还要简化,因为出去太多了,人看不了,但是必须简化才可能透过复杂的现象得到简单的数据本质,那么这种数据他的角度,他的结果,所以都要在这里体现出来,比方说你交易的准确性,交易的速度,响应的速度等等,那么有这么多东西的话,你其实就加他主要的就行了,数据的压缩,概率,还有那个统计,比方说概率在统计的时候,你就发现它的联合分布,如果随机变量的联合分布被你刻画出来了,在飞机场这样就好一些了,
在这种情况下,还有一个就是微观的角度,刚才我们在开头的时候讲到,那个在微观世界的有很多很多我们所不知道的一些复杂的数据。但是里面的模式可以让我们的生活变得更好,所以它是有趣的依据。那么也要去做,这里面在哪里呢?
分子生物学和基因上的比较多,模式的发现和主导性的你的主动的去发现数据,那是不一样的。所以在数据当中可以发现很多模式,模式经过检验,而且它能够使用,能解决问题,就成了知识。
那么在数据当中还有一个问题,就是可视化数据挖掘,我在前面讲交互式数据挖掘的时候已经提到这件事情,一张图胜过千言万语,所以数据的可视化,或者是叫数据的可视化,可以让我们认识数据,可视化的数据挖掘可以让我们更好地利用数据,找到数据当中隐含的先前未知的,潜在有用的,最终可以理解的知识,这是我们要干这件事情,但是挖出来之时很多,最好的方式是可视化的,所以可视化的数据挖掘将是未来一个很大的发展领域。
那么归结起来,可以看到和数据挖掘的话,在可视化当中还要涉及到一个是高性能的计算,计算图形学,多媒体系统,人机交互接口,模式识别等等。
而且还有一个设备,如果是把硬件设备加长的话,那么可以让他变得更好。比方说原来的设备那个内存很低,他就很慢,但是现在的话,如果用8K高清的,那就效果不一样了。

