基于知识图谱的实时资讯流实践

简介: 本文整理自北京深鉴智源科技有限公司架构师郑荣凯,在深入浅出OceanBase第四期的分享。

基于知识图谱的实时资讯流实践


摘要:本文整理自北京深鉴智源科技有限公司架构师郑荣凯,在深入浅出OceanBase第四期的分享。


本篇内容主要分为六个部分:

1.微澜用知识图谱做了什么?

2.为什么选择知识图谱?

3.什么要在知识图谱中加入NewSQL

4.NewSQL在微澜的系统中如何选型?

5.微澜如何实现?

6.用户问答

 

一、微澜用知识图谱做了什么?

image.png

北京深鉴智源科技有限公司的产品微澜是一款用于查询技术、行业、企业、科研机构、学科及其关系的且具有十亿级实体,百亿级关系的知识图谱应用。


微澜是全球第一个基于人工智能的个人认知提升助手(PCA)及创新的外部知识管理工具。微澜有助于启发及解决工作、学习及生活中的有效选择及效率问题;打破“信息茧房”,消除“内卷”。

image.png

微澜在知识架构上增加了新闻资讯的架构。假如用户关注了苹果公司,系统会持续推送有关苹果公司的新闻,以及与这条新闻相关的实体。

 

二、为什么选择知识图谱?

image.png

微澜的客户一般在行业上游,挖掘商业逻辑。所以客户需要的信息相对比较宏观,需要更大的知识图谱,更多的实体承载这个架构。


微澜的客户注重平衡“特殊”与“一般”。客户既要普适的结论也需要一些特殊性的结果,从而观察相关领域的风险以及机遇。


与此同时,微澜的客户注重因果推断,他们希望所有的数据、结论能够溯源。

image.png

大卫休谟曾经说过:“运用归纳法的正当性,永远不可能从理性上被证明。”如果采用归纳法,归纳以往的数据、经验、结论。用这些数据推断未来的可能性,这件事情永远不可能,在理性上被证明。

image.png

Inductive Reasoning(归纳推理)是从观察到的现象得出的一个结论,一个原则。假设看到的所有羊都是白的,利用Inductive Reasoning(归纳推理)总结羊一定全都是白色的。


Deductive Reasoning(演绎推理)是已经知道一个原则,利用这个原则去预测看到的现象。假设一个定律是所有的乌龟都有壳。现在出现一个乌龟,就可以预料到这个乌龟一定也有壳。

image.png

思想关系与事实之间的区别,通常被称为“休谟之叉”,即Hume's Fork。通常带有负面暗示,即休谟可能非法排除了不适合这两个类别或同时适合这两个类别的有意义的命题。


休谟对知识的二分法被称为“休谟之叉”。它是后来西方哲学认识论中分析命题和综合命题划分的先导,从“休谟之叉”又可以推出诸多不同标准下的知识,如先天的和后天的知识、分析的和综合的知识、必然的和偶然的知识,而这些知识的区分标准都已被“休谟之叉”点破。

image.png

以苹果公司为例,它存在着四万多个核心技术,所有的核心技术都可以在微澜溯源。

image.png

微澜发的新闻架构是基于知识图谱扩展的。实体一和实体二之间有关系,所以实体一关的新闻与实体二的新闻,也有潜在关系。

image.png

如上图所示,一个实体连着三条新闻,在不同的时间,发生了这三条新闻。所以微澜可以组成关于这个实体新闻流的时间线,便于用户理解实体发展的商业过程。

image.png

在微澜的知识图谱业务中,很多场景需要向展示复杂的关系。同时,微澜的数据中存在一些超级节点,根据微澜的业务场景,超级节点是用户最可能访问的节点。


所以超级节点不能被简单归类到长尾问题。


某个机构在某领域的排名特别高,但在全局或者其他领域一般。在这种场景下,微澜必须显示排序属性,并且对于全局排序项,进行拟合标准化。

使每个维度的数据方差都为1,均值都为0。以便用户进行局部排序,方便用户查询。

 

三、为什么要在知识图谱中加入NewSQL

image.png

为了解决上述问题,微澜在知识图谱中加入NewSQL,把图中的一度关系问题转化为传统RDBMS中的联合主键即可解决图数据库中海量数据排序下推的问题。


对于小公司而言,在数据量大的情况下,NewSQL的运维成本和件成本都很低。


传统DBMS容错方案的重点是保障数据更新不会丢失。NewSQL除了这点以外,还能最小化停机时间,使其一直保持应用在线。

 

四、NewSQL在微澜的系统中如何选型?

image.png

微澜有30亿的records数据,但没有复杂分库分表的运维能力。而ScyllaDB无法适应新业务的查询要求,所以微澜需要一个能实现传统RDBMSquery功能的数据库。


除此之外,微澜需要进行周期性的大量写入。所以微澜在OceanBaseTiDBCockroachDB之间选型。


Tikv采用Range的方式分区,但微澜更需要hash的分区方式,因为微澜的业务更偏向于单点查询而非范围查询,写入速度比较慢,无法适应微澜周期性的大量写入的业务场景


CockroachDB(小强数据库)是PG型数据库,团队之前接触的比较少,对于单表的数据量支持一般,不符合业务需求。


OceanBase有优秀的写入能力,支持hash分区策略。对于单表大数据量的支撑强而有力,有良好的社区支持,支持B tree索引策略复合业务。对于Paxos的极致应用使得任务的并行粒度很细,可以把性能尽可能发挥出来。

image.png

经过综合考虑,微澜最终选择使用OceanBase。在微澜的所有业务中,微澜选择使用OceanBase来存储图谱中所有的一度关系。图数据库无法覆盖的海量关系查询排序已经被完美解决。


对比之前微澜使用的ScyllaDB,作为NewSQLOceanBase,自然比NoSQL数据库能覆盖更多的业务场景,比如多个条件的筛选并排序。现在微澜两周一次30亿records的数据更新已经在OceanBase上被验证了很多次,可以适配微澜的业务需求。


微澜采用推送架构而不是拉取架构,类似于微博给千万级大V单独建表推送给关注者的逻辑,用户不管是关注数个百万级新闻的实体还是只关注单个新闻数量很少的实体得到消息推送的速度都基本一致。

 

五、微澜如何实现?

image.png

微澜的业务架构,如上图所示。首先,用户在后端,关注一个实体。然后,微澜关联到实体ID,在用户资讯表,关联ID的新闻。最后,写入用户资讯表,将新闻展示给用户。

image.png

相比传统的资讯平台,由于知识图谱的加入并且与新闻深度耦合,可以扩展更多比如针对某实体的新闻时间线,查询两条新闻之间的关系以及获取领域交叉等功能。


知识图谱采用演绎法而非传统技术分析的归纳法,推理结果保证是存在的事实而非通过分析得到的推论,领域交叉运算可溯源且真实可靠。

 

六、用户问答


问:现在的集群规模有多大?

答:微澜只有三台机器。

 

问:这些模型是固定好的?还是根据即时需求生成的?

答:大部分大部分是固定好的。如果客户对微澜提出了新的需求,微澜在生产新的功能,满足相关的需求。

 

问:你们怎样控制合并机制?

答:在业务方,手动合并。目前微澜还没有完全解决合并问题,但现在可以正常运行。

 

问:OceanBase在知识图谱的用法,可以复制到类似的业务场景下吗?这种场景有什么突出的特点?

答:原生的存储数据的形式不具有排序功能。OceanBase可以索引,做更多复杂的业务。

相关文章
|
6月前
|
缓存 监控 算法
京东item_search_best 畅销榜接口深度分析及 Python 实现
京东item_search_best接口可实时获取京东各品类畅销商品排名、销量、价格等核心数据,支持多维度榜单分析与品牌竞品监控,助力商家精准选品、制定市场策略,全面把握消费趋势。
|
6月前
|
监控 前端开发 安全
Netty 高性能网络编程框架技术详解与实践指南
本文档全面介绍 Netty 高性能网络编程框架的核心概念、架构设计和实践应用。作为 Java 领域最优秀的 NIO 框架之一,Netty 提供了异步事件驱动的网络应用程序框架,用于快速开发可维护的高性能协议服务器和客户端。本文将深入探讨其 Reactor 模型、ChannelPipeline、编解码器、内存管理等核心机制,帮助开发者构建高性能的网络应用系统。
437 0
|
8月前
|
数据采集 人工智能 调度
传统IT企业如何在AI时代中找准定位、实现转型升级?—— 解析传统IT企业的AI转型策略
本文AI专家三桥君探讨传统IT企业在AI浪潮中的转型策略,提出从工具提供商向业务成果交付者的商业模式转变。核心观点包括:构建"操作系统式AI"技术架构、发展"智能体经济"组织模式、采用SMART策略实现高效部署。三桥君强调AI转型需商业模式、组织架构与技术体系的全面革新,为传统IT企业提供系统性转型框架。
504 0
|
9月前
|
存储 Java
银行余额生成器,银行汇款回执单生成器, 银行转账p图【仅供娱乐学习用途】
这是一套基于Java的银行交易记录模拟教学系统,包含BankSimulator和Main两个核心类。BankSimulator类通过Transaction静态嵌套类实现交易记录。
|
8月前
高维结构投影系列(三):四力其实不止四力:看到的是投影而已
现代物理难统一四大基本力:引力为何无法量子化?强力为何极强却短程?弱力为何只作用左手粒子?电磁力为何最对称?本文提出全新视角:四力并非独立机制,而是同一高维张力结构在不同维度的投影表现。引力是结构凹陷的回弹,强力是张力锁死的爆发,弱力是方向性剪枝,电磁力则是共振传播面。四力本是一体,只是我们看到的是其不同“切面”。统一之路,或在于还原结构本质,而非数学拼凑。
304 0
|
12月前
|
存储 人工智能 自然语言处理
知识库管理:全流程智能化中枢,驱动企业信息资产高效流转
智能系统的知识库管理技术可以深度融合AI技术与精细化流程控制,提供从内容创建到版本追溯的全生命周期管理。支持多模态数据统一存储(文本、语音、图像等),实现自动化审核、智能分类与语义检索,确保企业知识资产的安全存储与高效利用,助力业务持续优化。核心功能包括多角色协作编辑、动态标签管理、历史版本追溯及毫秒级语义检索,大幅提升信息管理效率与准确性。
598 9
|
小程序 关系型数据库 MySQL
Gitee项目分享——学之思开源考试系统,食堂大妈看完都学会了
Gitee项目分享——学之思开源考试系统,食堂大妈看完都学会了
|
SQL 数据库 数据库管理

热门文章

最新文章