开发者社区> 颜淡慕潇> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

【TigerGraph】图数据库实战入门 —— 数据导入

简介: 该文件总共有27,279行,除第1行是表头外,每行用3列表示一部电影,分别为电影id(movieId)、电影名称(title)和电影类型(genres)。需要注意的是该csv文件用逗号分隔不同的列,而为了处理电影名称中包含的逗号,使用双引号(")转义title列。该文件总共有20,000,264行,除第1行是表头外,每行用4列表示一位用户对一部电影的评分,分别为用户id(userId)、电影id(movieId)、评分(rating)和评分时间(timestamp)。
+关注继续查看

 目录

 

1、数据集介绍

1.1 ml-20m解压之后如图

1.2 movie.csv

1.3 ratings.csv:

二、创建图模型

 2.1 创建人(persion)节点

 2.2 movie节点类型:

2.3 添加边

三、创建数据映射 

3.1 添加movies.csv文件

3.2 添加 ratings.csv文件

3.3 添加映射关系

 3.4 添加映射关系属性

四、载入数据

五、浏览图数据 


请在这里下载并安装TigerGraph终身免费的开发者版本(Developer Edition):https://www.tigergraph.com/download/

我们使用MovieLens 20M数据集,该数据集相关工作请参见引用资料[1]。该数据集包含了138,000位用户针对27,000部电影的2000万条评分记录。数据集的下载地址为:https://grouplens.org/datasets/movielens/20m/

解压缩ml-20m.zip压缩包后,我们来熟悉一下该数据集的数据格式。

1、数据集介绍

1.1 ml-20m解压之后如图

imageimage.gif编辑

1.2 movie.csv

imageimage.gif编辑

该文件总共有27,279行,除第1行是表头外,每行用3列表示一部电影,分别为电影id(movieId)、电影名称(title)和电影类型(genres)。

需要注意的是该csv文件用逗号分隔不同的列,而为了处理电影名称中包含的逗号,使用双引号(")转义title列。 

1.3 ratings.csv:

imageimage.gif编辑

该文件总共有20,000,264行,除第1行是表头外,每行用4列表示一位用户对一部电影的评分,分别为用户id(userId)、电影id(movieId)、评分(rating)和评分时间(timestamp)。

这里的评分时间是用unix时间戳表示的。

在这个数据集中并没有提供用户的个人信息,可能是出于保护用户隐私的考虑。因此在后面的可视化展示中我们看到的用户数据都是被一个数字表示的。

二、创建图模型

图模型由若干节点类型(vertex type)和若干边类型(edge type)组成。可以指定边类型的源节点类型(source vertex type)和目标节点类型(target vertex type)。

图模型是对现实世界的问题的一种直观的抽象。

该电影推荐问题的模型:

节点:人(person)和电影(movie)

关系:打分(rate)

rate的源节点类型为person,目标节点类型为movie。

使用GUI集成开发工具GraphStudio创建图模型。打开浏览器,在地址栏输入安装TigerGraph机器的IP+14240端口访问GraphStudio,载入完成后点击左侧导航栏的Design Schema项进入创建图模型页面:

imageimage.gif编辑

 2.1 创建人(persion)节点

单击下图中黄色箭头所指的工具栏中的按钮即可添加节点类型,在弹出的窗口中设置节点类型名称、主键(primary id)名称和类型、属性(attribute)名称和类型,并根据语义选择节点类型的颜色和图标。

首先添加person节点类型

一个id属性

imageimage.gif编辑

 2.2 movie节点类型:

三个属性:id,title,genres

点击select icon 可以选择图标

点击色值,可以选择颜色

imageimage.gif编辑

 添加成功之后,可以看到如下

imageimage.gif编辑

2.3 添加边

单击下图

第一步中黄色箭头所指的工具栏中的按钮进入添加边类型模式

第二步点击源节点类型

第三步点击目标节点类型

imageimage.gif编辑

在弹出的窗口中设置边类型名称、边类型的有向性(directed)、属性(attribute)名称和类型,并可以选择边类型的颜色。我们输入rate边类型的信息: 

imageimage.gif编辑

至此,我们完成了图模型的创建。可以用鼠标滚轮缩放图模型,也可以用鼠标按住工作面板的空白处拖动整个图模型。

点击工具栏中的发布按钮将图模型发布到TigerGraph系统中。整个发布大概需要2分钟。 

imageimage.gif编辑

三、创建数据映射

数据映射(data mapping)指建立数据模型之间的元素的对应关系。在电影推荐的这个实例中,我们需要建立从csv文件代表的数据模型到图模型之间的对应关系。

这里需要弄清楚模型和元素之间的关系,这种关系类似于面向对象程序设计中类(class)与实例(instance)之间的关系。我们刚刚创建的图模型描述了这些类之间的关系,而我们接下来要向图中载入的数据(元素)则是具体的每一个人、每一部电影和每条某人对某电影的打分。

在由movies.csv文件和ratings.csv文件组成的模型中,文件表头的语义代表了该模型的结构。

movies.csv文件除表头以外的每行数据代表了一个电影元素,我们需要将它映射到图模型中的电影元素。

ratings.csv文件除表头以外的每行数据包含了一个(可能重复出现的)人元素和一个打分元素,我们需要将它映射到图模型的人元素和打分元素。

点击左侧导航栏的Map Data To Graph项进入创建数据映射页面:

imageimage.gif编辑

3.1 添加movies.csv文件

需要将数据文件上传到TigerGraph后台。

有两种方式:1,直接上传:对于小于500MB的文件,可以直接通过GUI上传。

点击下图中黄色箭头1所指的工具栏添加数据源按钮,在弹出的窗口中点击黄色箭头2所指的上传文件按钮,选择本机解压缩后的ml-20m数据集中的movies.csv文件上传。

上传完成后在文件列表中会显示该文件: 

imageimage.gif编辑

 然后将该数据源添加到工作面板上。

在Files on server列表中点击movies.csv文件,GraphStudio后台用算法智能分析数据并推断出文件的分隔符(delimiter)、换行符(end of line)和是否有表头(has header)。

需要在转义字符下拉列表中选择双引号("):

imageimage.gif编辑

 点击添加之后,movies.csv作为一个数据源被添加到工作面板上,表示为一个文件图标。用户可以按住这个图标拖动到任何想要的位置:

imageimage.gif编辑

3.2 添加 ratings.csv文件

 添加ratings.csv文件

再次点击工具栏添加数据源按钮,在弹出的窗口中选择ratings.csv文件添加到工作面板:

imageimage.gif编辑

3.3 添加映射关系

将movies.csv映射到movie节点类型。点击工具栏中的映射数据到图模型按钮,然后点击数据源(movies.csv)图标,然后点击目标节点类型(movie)。这时候一条数据映射关系就被创建了:

imageimage.gif编辑

 3.4 添加映射关系属性

1,先点击数据源表中的某一行(对应于csv文件中的某一列,这种旋转90度的表达方式是ETL中普遍采用的可视化方式)

2,再点击节点类型属性表中的某一行(对应节点的主键或某个属性),就完成了一个属性映射。

这里建立了三条属性映射,你可能注意到原来显示在左侧工作面板该数据映射上面的错误信息消失了,这是因为你创建了对于movie节点类型的主键的映射。

对于节点来说,主键映射是必须的。而属性可以不被映射,在这种情况下当数据加载时这些未被映射的属性会使用默认值。

imageimage.gif编辑

 最后,建立ratings.csv到rate边类型的数据映射。重复与上面类似的操作,最终的映射结果为:

imageimage.gif编辑

最后,点击左上角的发布按钮将数据映射发布到TigerGraph系统。发布所需时间和数据映射的个数相关,这里大概需要几秒:  

imageimage.gif编辑

四、载入数据

接下来让TigerGraph系统根据我们创建的数据映射加载数据。点击左侧导航栏的Load Data项进入加载数据页面,点击工具栏中的开始加载按钮:

imageimage.gif编辑

加载完成之后,如图:

imageimage.gif编辑

五、浏览图数据

下面利用GraphStudio内置的一些图数据浏览功能直观的感受一下刚刚加载的数据。

点击左侧导航栏的Explore Graph项进入浏览图数据页面:

imageimage.gif编辑

点击拾取节点(Pick Vertices)按钮从图数据中拾取5个person节点和5个movie节点。这里的拾取不是随机的,因此每次拾取会返回相同的结果。

如果想要更多的节点,可以修改Enter a number中的数字。这里最大可以输入500。

如果知道节点的主键,可以在Enter vertex id输入框中输入主键的值,然后点击旁边的Search按钮拾取那个节点。配置(Configuration)可以控制拾取节点的类型范围,默认是从全部类型中拾取。你也可以勾选取消一些类型。

imageimage.gif编辑

 默认情况下所有节点显示的标签都是它们的主键。

可以修改设置显示其他属性,设置movie类型的节点显示它们的title属性:

imageimage.gif编辑

 完成修改之后,可以看到工作面板中的movie节点的标题被显示出来了,可视化变得更加直观

imageimage.gif编辑

切换到黑色的纵向导航栏第三个最短路径项。点击选择起始节点(Choose starting vertex)输入框,再随意点击工作面板中的一个节点。再点击选择目标节点(Choose destination vertex)输入框,再随意选择工作面板中的另一个节点。

imageimage.gif编辑

就先到这里了,加油!


版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
java实现遍历树形菜单方法——数据库表的创建
java实现遍历树形菜单方法——数据库表的创建
10 0
带你读《HikariCP数据库连接池实战》之一:阿里中间件实战,第一个案例
本书不仅对市面上常见的连接池组件进行了全方位比较和分析,还以实战的角度深入介绍了高性能HikariCP连接池的使用、原理与维护。
2728 0
JS饼状图表数据分布插件
在线演示 本地下载
816 0
Java数据结构与算法(六)-希尔排序
一、希尔排序的产生 希尔排序(Shell Sort)是插入排序的一种。也称缩小增量排序,是直接插入排序算法的一种更高效的改进版本。希尔排序是非稳定排序算法。
961 0
Java CRC32的用法
1版地址:http://www.repairfaq.org/filipg/LINK/F_crc_v31.html  我参考的地址:http://www.jdzj.com/data/program/1755.htm 下面是我的理解: 感觉,crc32 的用途,就是生成一个唯一的值。 CRC32,定义的方法很少,我用到的有这么两个。 <span style="fo
5672 0
Java在HBase数据库创建表
Java在HBase数据库创建表 要通过Java在HBase中创建一个数据表,首先需要导入hbase-client.jar驱动包。可以在项目pom.xml配置文件中添加依赖: org.apache.hbase hbase-client 1.1.0.1 在添加依赖后,我们需要创建Configuration对象,并指定core-site.xml和hbase-site.xml作为资源文件。
970 0
Java在HBase数据库创建表
版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。 https://blog.csdn.net/chszs/article/details/47836681 Java在HBase数据库创建表 作者:chszs,版权所有,未经同意,不得转载。
613 0
Java实现获得MySQL数据库中所有表的记录总数可行方法
可以通过SELECT COUNT(*) FROM table_name查询某个表中有多少条记录。本文给出两种可行的Java程序查询所有别的记录方法,感兴趣朋友可以了解下 在MySQL中,可以通过SELECT COUNT(*) FROM table_name查询某个表中有多少条记录。如果想知道某个数据库中所有别的记录总数应该怎么做呢?本文给出两种可行的Java程序,解决该问题。 1. 首
1568 0
清空数据库中的所有用户表(删除数据库中的表)
想找一个命令能清空数据库中所有用户表的方法没有找到,只能用一个比较烦琐的方法,不知道有没有更简单的方法? declare @strSqlTmp varchar(8000)declare @strSql varchar(8000)set @strSqlTmp = ''declare online_cu...
667 0
+关注
颜淡慕潇
欢颜如炼 悲苦如戟;浓尽必枯 淡者屡深
文章
问答
文章排行榜
最热
最新
相关电子书
更多
如何运维千台以上游戏云服务器
立即下载
玩转 Tablestore 入门与实战
立即下载
PolarDB-X (开源版)从入门到实战
立即下载