开发者学堂课程【高校精品课-北京理工大学-大数据技术导论:数据可视化(三)】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/857/detail/15600
数据可视化(三)
数据可视化方法和技术:
文本可视化的方法和技术,在大数据时代文本是非结构化数据的典型代表。那文本可视化可以通过可视化方法将文本中蕴含的一些语义特征。比如说他的词频逻辑结构,主题句类动态演化规律的直观地展示出来,
我们首先来看一下对文本内容的可视化对文本的内容可视化最常用的可视化方法称之为叫标签云大家可以看一下课件,这个就是使用标签云技术对2008年奥巴马在民主党大会上的演讲进行的可视化那左图的这个标签云,大家可以看到,他主要是使用一些主题词,然后根据这个主题词出现的频率,或者其他的一些排序的规则,用字体、字体的大小形状和颜色的来表达文本的内容。
除了这种常见的标签云,我们还可以有一种叫作 SparkClouds 的类型的标签云,这种标签,是在传统标签云的基础之上呢,增加了一个时间的信息,
大家可以看到在 SparkClouds 的这样的一个标签云中每一个主题词下面是有一条折线的这个折线代表的是这个主题词,随时间变化它的频率变化。
我们再来看一下文本中,对语义结构的可视化方法对文本与结构的可视化方法有很多种比如说像 DocuBurst,那么这种可视化方法,它是使用环形图来表达的。
其中外圈的单词是内圈单词的赛程延伸,那么除此,我们还可以用网状图来进行,这样的一个文本结构的可视化,比如我们的 Phrase Nets 在这样的一个网络中,每一个单词代表的是一个基本的语义单元单词和单词之间的这个线代表的就是语义单元之间的联系,而方向就代表的就是哪一个语义单元连接到哪一个语义单元,再对文本的语义结构进行可视化的最常用的一种方式就是 Word Tree,Word Tree 是对文本中的每一个句子都是用这样一个树形结构去表达,
那么通过这样的一个 Word Tree 我们很清晰的可以看到每一个单词和他前一个单词以及后面的单词之间的联系,以及这个单词的重要程度那么这个课件上展示这副图,就是使用 Word tree 这种可视化方式对很多本小说进行了一个语义结构的可视化,
文本除了可以精彩的展示,我们还可以使用一些动态效果,比如我们可以加一个时间序列,对这样一个 Twitter上的爆炸性新闻进行一个可视化,来显示它的传播过程那么这一幅图展示的就是 Twitter 在2011年5月1号,当本·拉登被击毙的。
这个消息,在 Twitter上传播开始的时候,那么进入了这个消息被转发和浏览的次数,那么大家从这样的一个折线图,可以很清晰的看到那么在 Twitter 上这种爆炸性新闻,他的传播过程是怎样的。
那除此之外,我们还可以使用一个河流图的形式来动态的展示文本的主题变化,那么比如说像我们课件中,这个展示的就是用一个叫做 tsgf 的文本可视化工具对一个 VisWeek 会议的主题变化的一个可视化,它是用河流的这样一个分裂壮大以及消失来代表文本主题的发展。比如说从图中我们可以看到从2001年开始,那么我们的文本主题沿黑线分为上下两个部分,上面这个部分的主题,是随着时间他经历了一个壮大的过程,然后最后分裂以至消亡,那么下一部分的主题,随着时间的发展,它逐渐变得越来越粗,也就是说它逐渐现在成为了一些热点的讨论话题,那么这个就是对文本的动态可视化的一个展示,再来看一下在数据可视化中的交互式可视化技术有哪样的一些,可视分析是一种通过交互式可视化界面来辅助用户对大规模复杂数据及进行分析推理的科学与技术,其中表征和交互式数据可视化两个最主要的部分,那么我们刚才介绍的这些可视化的这种形式大部分是基于表征的那么交互,主要是要提供一些用户可以用来进行交互的操作,我们来看一下,在数据可视化中交互的手段有哪些,交互的手段,包括选择,包括探索,在布局视频,编码,抽象画过滤和连接等等。那么这些呢,是最基本的交互的手段。
我们将通过一个案例,也就是 RBM 的这样的一个 Clustrophile,这样一个工具来向大家展示在可视化分析中的交互技术,那么这个工具呢,他是一个用来巨类得的交互的可视化工具,我们可以看一下他的整个用界面是由三部分构成,上面是我们的表格部分,
下面的左边是我们经过降为的将一个散点图的可视化表达,那么右边就是用巨类结果的一个热力图的展示,那么大家可以看到在途中的 H 区部分 E 部分,F 部分 G 部分与 D 部分,那么都是提供了比如说像下拉框、条形按钮,语节这样的一些控件来允许用户这样的一个可视化操作,用户可以通过下拉框去选择他所需要使用的这样一个降为方法,可以选择 MDS 这样的,也可以选择 PC 的降为方法,那么在 G 类的部分,用户还可以去设置这样了一个句类的数目,以及句类算法的一些参数,那么这些都是一些最基本的交互式的手段。
那么在这个工具中的它还停留了两个比较新颖的交互方式,一个叫向前映射,所谓的向前映射,就是用户在这个工具中可以选择这个表格中的数据,然后通过手动去改变这个表格中数据的属性的值,同时在散点图中,这个数据会展现它随着数值的改变,展现他的移动轨迹,那么这是一种比较新的交互方式和他相反呢,有一种叫做向后映射的交互方式,你就说用户可以带散点图中去拖动数据的移动那么在我们的这个表格中可以去观察这个数据值的变化,那么这两种交互方式,在句类中是非常有意义的,以上就是我们对数据可视化方法介绍,我们下面再来看一下数据可视化的工具有哪些,那么数据可视化的工具?我们把它主要的划分为三类。
一类就是底层程序框架比较有代表性的,就是我们的 OpenGL Java2D,第二种就是第三方库,比如说像我们的D3,Echart ,Google chart,Highcharts
第三种就是一些特殊类型的软件工具,比如说像这种特殊的工具,我们这里主要是对第三种,他是一种用于操作和管理,基于数据文档的这样的一个文档的函数库,那么它的特点的是基于开源的而且使用数据驱动的方式使用第三种,我们可以灵活的实现各种交互数据可视化的这样一个形式,第二种常用的数据可视化工具,就是百度的Echarts和第三很类似,也是开源的第三模式库,那么它的优势在于 Echarts 可以流畅的运行的 P C 和运动端,而且呢,他基本上是可以兼容所有的 IE 浏览器,第三个向大家介绍的就是一个比较专业化的可视化工具,主要是用于图和网络的可视化Gephi,它也是开源的,那么允许开发者去扩展和重复使用的那么除此之外,还有一些可视化开发工具
以上,就是我们关于数据可视化的一些内容,那么在这个当中,我们主要学习了数据可视化的概念和发展历程,了解了数据可视化的作用。向大家介绍了一些数据可视化的方法和技术。
比如说相图的多维数据的文本数据的以及交互是技术。最后向大家介绍的数据可视化的工具,这就是这一章的主要的学习内容。







