使用HGraphDB进行二度好友推荐

本文涉及的产品
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
RDS AI 助手,专业版
简介: 业务场景 某社交软件,需要基于用户的好友关系向用户做二度人脉的推荐。系统中保存的关系有两种,一种是A用户的通讯录中保存了B用户的电话号码,另一种是A用户在app上面关注了B用户。以下图所示的关系为例: 张三和王五,李四,赵六是好友,我们需要向张三推荐孙八、杨九和钱七。

业务场景

某社交软件,需要基于用户的好友关系向用户做二度人脉的推荐。
系统中保存的关系有两种,一种是A用户的通讯录中保存了B用户的电话号码,另一种是A用户在app上面关注了B用户。
以下图所示的关系为例:
graph_example

张三和王五,李四,赵六是好友,我们需要向张三推荐孙八、杨九和钱七。

购买HGraphDB服务

在这个例子中,我们使用HGraphDB来实现二度好友推荐的需求。HGaphDB是阿里云HBase产品提供的图存储引擎,基于Apache Tinkerpop栈构建,并使用Gremlin语言进行遍历,更新和查询。HGaphDB图数据库适用于存储、管理、查询复杂并且高度连接的数据,图库的结构特别适合发现大数据集下数据之间的共性和特性,特别善于释放蕴含在数据关系之间的巨大价值。HGaphDB引擎本身并不额外收费,仅收取云hbase费用。
可以参考HGaphDB文档完成实例的购买。

建模

人脉关系是一种典型的图数据结构,而且图可以很方便的进行二度关系的查询,我们可以使用图数据库来实现这个需求。我们把每个用户作为一个顶点,用户之间的关系作为边。
作为一个例子,我们使用Gremlin Console来完成对上述关系的建模,以及示例图的录入。Gremlin Console的安装和配置参见HGraphDB相关文档

按照文档安装并配置好Gremlin Console之后,我们使用如下语句连接到HGraphDB,创建一个新的图:

:remote connect tinkerpop.server conf/remote.yaml session
:remote console
graph = HBaseGraph.open("recommendation","master1-1")
g = graph.traversal()

建立schema:

graph.createLabel(ElementType.VERTEX, "user", ValueType.STRING, "name", ValueType.STRING,"tel", ValueType.STRING)
graph.createLabel(ElementType.EDGE, "tel_relation", ValueType.STRING);
graph.createLabel(ElementType.EDGE, "follow_relation", ValueType.STRING);
graph.connectLabels("user", "tel_relation", "user")
graph.connectLabels("user", "follow_relation", "user")

录入示例图的数据:

zhangsan = g.addV('user').property(T.id, 'user3').property('name','zhangsan').property('tel','13012345673').next()
lisi = g.addV('user').property(T.id, 'user4').property('name','lisi').property('tel','13012345674').next()
wangwu = g.addV('user').property(T.id, 'user5').property('name','wangwu').property('tel','13012345675').next()
zhaoliu = g.addV('user').property(T.id, 'user6').property('name','zhaoliu').property('tel','13012345676').next()
qianqi = g.addV('user').property(T.id, 'user7').property('name','qianqi').property('tel','13012345677').next()
sunba = g.addV('user').property(T.id, 'user8').property('name','sunba').property('tel','13012345678').next()
yangjiu = g.addV('user').property(T.id, 'user9').property('name','yangjiu').property('tel','13012345679').next()

zhangsan.addEdge('tel_relation',lisi)
lisi.addEdge('tel_relation',zhangsan)
zhangsan.addEdge('tel_relation',zhaoliu)
zhaoliu.addEdge('tel_relation',zhangsan)
lisi.addEdge('tel_relation',zhaoliu)
zhaoliu.addEdge('tel_relation',lisi)
lisi.addEdge('tel_relation',qianqi)
qianqi.addEdge('tel_relation',lisi)
zhangsan.addEdge('follow_relation',wangwu)
wangwu.addEdge('tel_relation',sunba)
wangwu.addEdge('follow_relation',yangjiu)

更新

作为一个例子,上面的语句里面,我们一次性把图构建完成了。在生产当中更常见到的情况是,随着系统的运行不断有新用户注册,我们需要更新这个图。例如一个场景是新用户陈十注册,我们通过匹配通讯录发现陈十留过李四的手机号。
为了加快通过手机查用户,我们需要给手机号字段加一个索引:

graph.createIndex(ElementType.VERTEX, "user", "tel",true)

如下语句完成了新用户陈十的注册过程:

chenshi = g.addV('user').property(T.id, 'user10').property('name','chenshi').property('tel','13012345680').next()
lisi = g.V().has("tel","13012345674").next()
chenshi.addEdge('tel_relation',lisi)

陈十关注了王五、赵六:

wangwu = g.V("user5").next()
zhaoliu = g.V("user6").next()
chenshi.addEdge('follow_relation',wangwu)
chenshi.addEdge('follow_relation',zhaoliu)

陈十取关赵六:

g.V('user10').outE('follow_relation').as('e').inV().hasId('user6').select('e').drop()

陈十注销账号:

g.V("user10").drop()

这里通过drop删除顶点后,相应的边也会自动删除。

查询

我们可以用一个简单的语句进行二度人脉的查询:

gremlin> g.V("user3").out().out().valueMap()
==>{name=[yangjiu], tel=[13012345679]}
==>{name=[sunba], tel=[13012345678]}
==>{name=[zhangsan], tel=[13012345673]}
==>{name=[zhangsan], tel=[13012345673]}
==>{name=[zhaoliu], tel=[13012345676]}
==>{name=[qianqi], tel=[13012345677]}
==>{name=[lisi], tel=[13012345674]}

但是这个语句很粗糙,返回的结果里面既有张三自己,也有张三已经认识了的李四、赵六。我们需要过滤掉这些不需要推荐的人:

gremlin> g.V("user3").as('self').out().aggregate('friend').out().where(neq('self')).where(without('friend')).valueMap().dedup()
==>{name=[yangjiu], tel=[13012345679]}
==>{name=[sunba], tel=[13012345678]}
==>{name=[qianqi], tel=[13012345677]}

gremlin查询功能是很强大的,例如我们也可以只给张三推荐他关注的人的好友:

gremlin> g.V("user3").as('self').out("follow_relation").aggregate('friend').out().where(neq('self')).where(without('friend')).valueMap().dedup()
==>{name=[yangjiu], tel=[13012345679]}
==>{name=[sunba], tel=[13012345678]}

判断两个人是不是好友:

gremlin> g.V("user3").outE().as("e").inV().hasId("user4").select("e")
==>e[0e4e63a3-638a-4dd9-8087-59e819896576][user3-tel_relation->user4]

有没有关注过:

gremlin> g.V("user3").outE("follow_relation").as("e").inV().hasId("user4").select("e")
gremlin>
目录
相关文章
|
1月前
|
存储 人工智能 自然语言处理
OpenSpec技术规范+实例应用
OpenSpec 是面向 AI 智能体的轻量级规范驱动开发框架,通过“提案-审查-实施-归档”工作流,解决 AI 编程中的需求偏移与不可预测性问题。它以机器可读的规范为“单一真相源”,将模糊提示转化为可落地的工程实践,助力开发者高效构建稳定、可审计的生产级系统,实现从“凭感觉聊天”到“按规范开发”的跃迁。
4231 19
|
存储 数据格式 计算机视觉
MATLAB读取图片并转换为二进制数据格式
MATLAB读取图片并转换为二进制数据格式
427 1
|
机器学习/深度学习 自然语言处理 文字识别
方案测评 | 多模态数据信息提取极速体验
多模态数据信息提取方案基于先进AI技术,能高效处理文本、图像、音频和视频等不同格式文件,提取有价值信息。该方案通过深度学习、自然语言处理等技术,实现结构化信息挖掘与分析,支持批处理模式,显著提高大规模数据处理效率,降低业务成本。用户可通过阿里云平台一键部署,无需数据搬运,确保高效安全的数据处理体验。此方案在性能和易用性上表现出色,具有广泛的应用价值和市场前景。
|
5月前
|
Java 测试技术 编译器
@GrpcService使用注解在 Spring Boot 中开始使用 gRPC
本文介绍了如何在Spring Boot应用中集成gRPC框架,使用`@GrpcService`注解实现高效、可扩展的服务间通信。内容涵盖gRPC与Protocol Buffers的原理、环境配置、服务定义与实现、测试方法等,帮助开发者快速构建高性能的微服务系统。
1152 0
|
监控 JavaScript 前端开发
确定使用 `defer` 属性还是 `async` 属性来异步加载 JavaScript
【10月更文挑战第24天】选择使用 `defer` 属性还是 `async` 属性来异步加载 JavaScript 是一个需要综合考虑多个因素的决策。需要根据脚本之间的依赖关系、页面加载性能要求、脚本的功能和重要性等因素来进行权衡。在实际应用中,需要通过测试和验证来确定最适合的加载方式,以提供更好的用户体验和页面性能。
267 56
|
机器学习/深度学习 存储 自然语言处理
深度学习之多轮对话系统
基于深度学习的多轮对话系统是一种能够在多轮对话中保持上下文连贯并生成自然回复的系统,主要用于客服、智能助理等需要交互式交流的场景。通过深度学习的技术,特别是自然语言处理中的预训练模型和序列生成模型,这类系统已在准确理解、生成自然语言的质量上取得显著进展。
1218 2
kettle开发篇-记录关联(笛卡尔积)
kettle开发篇-记录关联(笛卡尔积)
683 0
|
安全 Shell Linux
记录VulnHub 靶场——Escalate_Linux渗透测试过程
本文档描述了一次靶场环境的搭建和渗透测试过程。首先,提供了靶机环境的下载链接,并建议在VMware或VirtualBox中以NAT模式或仅主机模式导入。接着,通过Kali Linux扫描发现靶机IP,并用Nmap扫描开放端口,识别出80、111、139、445、2049等端口。在80端口上找到一个shell.php文件,通过它发现可以利用GET参数传递cmd命令。
951 0