使用HGraphDB进行二度好友推荐-阿里云开发者社区

开发者社区> _陆豪> 正文

使用HGraphDB进行二度好友推荐

简介: 业务场景 某社交软件,需要基于用户的好友关系向用户做二度人脉的推荐。系统中保存的关系有两种,一种是A用户的通讯录中保存了B用户的电话号码,另一种是A用户在app上面关注了B用户。以下图所示的关系为例: 张三和王五,李四,赵六是好友,我们需要向张三推荐孙八、杨九和钱七。
+关注继续查看

业务场景

某社交软件,需要基于用户的好友关系向用户做二度人脉的推荐。
系统中保存的关系有两种,一种是A用户的通讯录中保存了B用户的电话号码,另一种是A用户在app上面关注了B用户。
以下图所示的关系为例:
graph_example

张三和王五,李四,赵六是好友,我们需要向张三推荐孙八、杨九和钱七。

购买HGraphDB服务

在这个例子中,我们使用HGraphDB来实现二度好友推荐的需求。HGaphDB是阿里云HBase产品提供的图存储引擎,基于Apache Tinkerpop栈构建,并使用Gremlin语言进行遍历,更新和查询。HGaphDB图数据库适用于存储、管理、查询复杂并且高度连接的数据,图库的结构特别适合发现大数据集下数据之间的共性和特性,特别善于释放蕴含在数据关系之间的巨大价值。HGaphDB引擎本身并不额外收费,仅收取云hbase费用。
可以参考HGaphDB文档完成实例的购买。

建模

人脉关系是一种典型的图数据结构,而且图可以很方便的进行二度关系的查询,我们可以使用图数据库来实现这个需求。我们把每个用户作为一个顶点,用户之间的关系作为边。
作为一个例子,我们使用Gremlin Console来完成对上述关系的建模,以及示例图的录入。Gremlin Console的安装和配置参见HGraphDB相关文档

按照文档安装并配置好Gremlin Console之后,我们使用如下语句连接到HGraphDB,创建一个新的图:

:remote connect tinkerpop.server conf/remote.yaml session
:remote console
graph = HBaseGraph.open("recommendation","master1-1")
g = graph.traversal()

建立schema:

graph.createLabel(ElementType.VERTEX, "user", ValueType.STRING, "name", ValueType.STRING,"tel", ValueType.STRING)
graph.createLabel(ElementType.EDGE, "tel_relation", ValueType.STRING);
graph.createLabel(ElementType.EDGE, "follow_relation", ValueType.STRING);
graph.connectLabels("user", "tel_relation", "user")
graph.connectLabels("user", "follow_relation", "user")

录入示例图的数据:

zhangsan = g.addV('user').property(T.id, 'user3').property('name','zhangsan').property('tel','13012345673').next()
lisi = g.addV('user').property(T.id, 'user4').property('name','lisi').property('tel','13012345674').next()
wangwu = g.addV('user').property(T.id, 'user5').property('name','wangwu').property('tel','13012345675').next()
zhaoliu = g.addV('user').property(T.id, 'user6').property('name','zhaoliu').property('tel','13012345676').next()
qianqi = g.addV('user').property(T.id, 'user7').property('name','qianqi').property('tel','13012345677').next()
sunba = g.addV('user').property(T.id, 'user8').property('name','sunba').property('tel','13012345678').next()
yangjiu = g.addV('user').property(T.id, 'user9').property('name','yangjiu').property('tel','13012345679').next()

zhangsan.addEdge('tel_relation',lisi)
lisi.addEdge('tel_relation',zhangsan)
zhangsan.addEdge('tel_relation',zhaoliu)
zhaoliu.addEdge('tel_relation',zhangsan)
lisi.addEdge('tel_relation',zhaoliu)
zhaoliu.addEdge('tel_relation',lisi)
lisi.addEdge('tel_relation',qianqi)
qianqi.addEdge('tel_relation',lisi)
zhangsan.addEdge('follow_relation',wangwu)
wangwu.addEdge('tel_relation',sunba)
wangwu.addEdge('follow_relation',yangjiu)

更新

作为一个例子,上面的语句里面,我们一次性把图构建完成了。在生产当中更常见到的情况是,随着系统的运行不断有新用户注册,我们需要更新这个图。例如一个场景是新用户陈十注册,我们通过匹配通讯录发现陈十留过李四的手机号。
为了加快通过手机查用户,我们需要给手机号字段加一个索引:

graph.createIndex(ElementType.VERTEX, "user", "tel",true)

如下语句完成了新用户陈十的注册过程:

chenshi = g.addV('user').property(T.id, 'user10').property('name','chenshi').property('tel','13012345680').next()
lisi = g.V().has("tel","13012345674").next()
chenshi.addEdge('tel_relation',lisi)

陈十关注了王五、赵六:

wangwu = g.V("user5").next()
zhaoliu = g.V("user6").next()
chenshi.addEdge('follow_relation',wangwu)
chenshi.addEdge('follow_relation',zhaoliu)

陈十取关赵六:

g.V('user10').outE('follow_relation').as('e').inV().hasId('user6').select('e').drop()

陈十注销账号:

g.V("user10").drop()

这里通过drop删除顶点后,相应的边也会自动删除。

查询

我们可以用一个简单的语句进行二度人脉的查询:

gremlin> g.V("user3").out().out().valueMap()
==>{name=[yangjiu], tel=[13012345679]}
==>{name=[sunba], tel=[13012345678]}
==>{name=[zhangsan], tel=[13012345673]}
==>{name=[zhangsan], tel=[13012345673]}
==>{name=[zhaoliu], tel=[13012345676]}
==>{name=[qianqi], tel=[13012345677]}
==>{name=[lisi], tel=[13012345674]}

但是这个语句很粗糙,返回的结果里面既有张三自己,也有张三已经认识了的李四、赵六。我们需要过滤掉这些不需要推荐的人:

gremlin> g.V("user3").as('self').out().aggregate('friend').out().where(neq('self')).where(without('friend')).valueMap().dedup()
==>{name=[yangjiu], tel=[13012345679]}
==>{name=[sunba], tel=[13012345678]}
==>{name=[qianqi], tel=[13012345677]}

gremlin查询功能是很强大的,例如我们也可以只给张三推荐他关注的人的好友:

gremlin> g.V("user3").as('self').out("follow_relation").aggregate('friend').out().where(neq('self')).where(without('friend')).valueMap().dedup()
==>{name=[yangjiu], tel=[13012345679]}
==>{name=[sunba], tel=[13012345678]}

判断两个人是不是好友:

gremlin> g.V("user3").outE().as("e").inV().hasId("user4").select("e")
==>e[0e4e63a3-638a-4dd9-8087-59e819896576][user3-tel_relation->user4]

有没有关注过:

gremlin> g.V("user3").outE("follow_relation").as("e").inV().hasId("user4").select("e")
gremlin>

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Java应用中使用ShutdownHook友好地清理现场(转)
  在线上Java程序中经常遇到进程程挂掉,一些状态没有正确的保存下来,这时候就需要在JVM关掉的时候执行一些清理现场的代码。Java中得ShutdownHook提供了比较好的方案。  JDK在1.3之后提供了Java Runtime.addShutdownHook(Thread hook)方法,可以注册一个JVM关闭的钩子,这个钩子可以在以下几种场景被调用: 1)程序正常退出 2)使用System.exit() 3)终端使用Ctrl+C触发的中断 4)系统关闭 5)使用Kill pid命令干掉进程 注:在使用kill -9 pid是不会JVM注册的钩子不会被调用。
707 0
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
4065 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4477 0
Python中lambda的使用,与它的三个好基友介绍!
匿名函数lambda 除了def语句,python还提供了一种生成函数对象的表达式形式。由于它与LISP语言中的一个工具类似,所以称为lambda。 就像def一样,这个表达式创建了一个之后能够调用的函数,但是它返回一个函数而不是将这个函数赋值给一个变量。
1505 0
阿里云服务器安全组设置内网互通的方法
虽然0.0.0.0/0使用非常方便,但是发现很多同学使用它来做内网互通,这是有安全风险的,实例有可能会在经典网络被内网IP访问到。下面介绍一下四种安全的内网互联设置方法。 购买前请先:领取阿里云幸运券,有很多优惠,可到下文中领取。
9423 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
10767 0
+关注
18
文章
0
问答
来源圈子
更多
阿里云数据库:帮用户承担一切数据库风险,给您何止是安心!支持关系型数据库:MySQL、SQL Server、PostgreSQL、PPAS(完美兼容Oracle)、自研PB级数据存储的分布式数据库Petadata、自研金融级云数据库OceanBase支持NoSQL数据库:MongoDB、Redis、Memcache更有褚霸、丁奇、德哥、彭立勋、玄惭、叶翔等顶尖数据库专家服务。
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载