如何利用知识图谱进行破案

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 知识图谱是典型的多学科交叉领域,涉及到图数据库,知识工程,机器学习,大数据等多个领域,同时又可以在多个业务场景中进行应用,比如基于知识图谱+大数据可以对警方破案提供帮助。我们可以使用阿里云的GDB图数据库产品,帮我们快速搭建知识图谱的应用。

利用知识图谱进行破案的业务逻辑

利用知识图谱进行破案需要有强大的反欺诈识别能力,需要将人工业务逻辑和大数据引擎结合起来。
通常数据源会来自不同的维度,对于操作的人员,比如警方来说,需要允许他们通过多种方式快速浏览,查找和分析自己想要的信息。此外,在产品设计中还需要对考虑到各种高度敏感的安全问题。

基于知识图谱技术,大数据平台需要集成数据集成、搜索、知识管理、协作、发现这五大板块。下面,我来一一给你讲解下:

数据集成:可以从不同的数据源中获取数据,并且可以基于语义网(Ontology)来创建实体

搜索:需要为分析师提供了多种搜索机制,使他们能够找到匹配的数据,并且挖掘出数据间的关系,从而发挥数据的价值。
最常用是快速搜索(Quick Search),这一切的基础是需要一个很好的本体。此外,基于知识图谱,我们还可以生成复杂的搜索查询(布尔逻辑,变音位,模糊值),甚至是环形检索(Search Around)

知识管理:所有数据都可以根据其授权级别赋权给其他用户。
协作:允许分析师在私人调查中开始调查,也可以将调查结果共享给其他用户。同样,分析师可以选择接受其他用户的更新,以便进一步开展工作。
发现:反欺诈是许多企业面临的共性需求,这里可以通过寻找趋势的算法来进行聚类预测

以上的五大模块是同性的,但是用户的需求往往是个性化的,包括案件的内容以及破案的逻辑,因此需要人类智慧和大数据产品的结合。我们可以用下面的流程图代表大数据运作的基本原理。
Step1,首先需要有数据,这里就需要有数据采集、清洗、集成。
Step2,然后是建模,建模是高度依赖于任务的,因此也是依赖于人的经验总结,比如犯罪分子可能存在的行为特征。
Step3,最后指导任务的完成,这个过程,当我们把各种数据集成,建立各种模型后,就可以自动化的执行任务。
当然我们知道,需求非常多样化,因此也需要多样化的任务处理模型,来处理不同的任务。而且任务和任务之间往往是有关联的。所以基于知识图谱来完成破案,是个非常庞大复杂的系统,但是基本原理也离不开下面的流程图

2.png

如何使用知识图谱进行破案的?

知识图谱技术可以让我们从完成从数据端到智慧端的过程,具体实现途径如下图所示。
在数据端,一般数据量巨大,我们采用分布式数据采集系统,可以支持文档、网页、视频、传感器等采集的数据,先进行清洗存储,输出为基础数据。
在信息端,我们对数据进行语义处理,比如特征提取、事件识别、文本挖掘等,然后通过实体识别、角色识别、关系识别输出语义结构化数据。
在知识端,我们对知识进行建模,需要对本体进行建模、映射、存储,构建知识体系,输出知识库。
在智慧端,我们需要业务规则,包括进行图分析等计算,最后转化为人机可视化的交互方式方便用户进行可视化关联分析、问答、语义搜索等。

我们以安然破产的数据分析案例为例。首先面临的问题是:安然公司破产,指控其CEO(David Delaney)与Mariner公司发生内幕交易,缺乏证据。但是基于知识图谱,我们可以挖掘出更多有价值的信息:
1.png

在数据层:司法将安然内部的30万封邮件进行了公开
在信息层:我们需要对文本进行分类,实体抽取,事件抽取,并对文本中的角色、关系进行识别。发现邮件中指导的人员都是在哪个公司担任什么样的角色。并且对邮件中提到的内容及事件进行识别。
在知识层:可以发现有近千条提及Mariner公司的邮件中,David发出的3封邮件对其公允价值进行计算。并通过进一步的关联挖掘,得到相应的知识:
1)David对Mariner公司的公允价值计算虚假高估
2)邮件发出的时间 vs. David出售Mariner公司股票时间同轴匹配
3)全部邮件中的人名抽取,关联分析David关联人员
在智慧层:综合以上的知识,可以得出:
1)David 发出虚估Mariner公司公允价值的邮件时间节点与其出售该公司股票的时间吻合
2)David邮件关联人员中,有多人在Mariner公司重要部门担任要职

知识图谱是个非常有用的技术,它可以将数据转化为信息,进一步处理加工为知识,最后通过更高级别的综合和预测能力转化为智慧,对知识进行具体的应用。在技术使用中,我们可以使用阿里云的图数据库GDB,帮我们搭建知识图谱的应用,它可以把知识抽取和清洗出来,然后存入GDB中提供查询。这样当用户进行查询时,就可以直接把答案告诉用户。比如人物之间的关系是怎样的。此外,在GDB产品中,还可以结合多种数据分析方法,比如label propagation algorithms(LPA) 、LabelRank等社区发现算法,可以帮我们识别欺诈行为,这些都已经广泛应用到信用卡欺诈,电子商务欺诈,保险欺诈等场景中。

相关实践学习
阿里云图数据库GDB入门与应用
图数据库(Graph Database,简称GDB)是一种支持Property Graph图模型、用于处理高度连接数据查询与存储的实时、可靠的在线数据库服务。它支持Apache TinkerPop Gremlin查询语言,可以帮您快速构建基于高度连接的数据集的应用程序。GDB非常适合社交网络、欺诈检测、推荐引擎、实时图谱、网络/IT运营这类高度互连数据集的场景。 GDB由阿里云自主研发,具备如下优势: 标准图查询语言:支持属性图,高度兼容Gremlin图查询语言。 高度优化的自研引擎:高度优化的自研图计算层和存储层,云盘多副本保障数据超高可靠,支持ACID事务。 服务高可用:支持高可用实例,节点故障迅速转移,保障业务连续性。 易运维:提供备份恢复、自动升级、监控告警、故障切换等丰富的运维功能,大幅降低运维成本。 产品主页:https://www.aliyun.com/product/gdb
目录
相关文章
|
17天前
|
人工智能 自然语言处理 数据库
探索人工智能的世界:构建智能问答系统之实战篇
【6月更文挑战第8天】本文档介绍了如何使用Python进行Milvus数据库操作,包括环境安装、基本操作如连接数据库、创建集合、插入和查询向量数据、创建索引、删除数据等。此外,还展示了使用LangChain库与HuggingFaceEmbeddings集成,简化操作。最后,演示了如何结合openai模型定制交互式问答系统。整个过程旨在帮助读者理解如何将预训练模型与数据库集成以实现特定任务。
|
2月前
|
数据采集 人工智能 JSON
跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA)
跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA)【2月更文挑战第1天】
 跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA)
|
2月前
|
机器学习/深度学习 人工智能 监控
【AI 现况分析】AI 算法偏见和歧视分析
【1月更文挑战第27天】【AI 现况分析】AI 算法偏见和歧视分析
|
9月前
|
机器学习/深度学习 物联网 算法框架/工具
数字时代的自我呈现:探索个人形象打造的创新工具——FaceChain深度学习模型工具
数字时代的自我呈现:探索个人形象打造的创新工具——FaceChain深度学习模型工具
数字时代的自我呈现:探索个人形象打造的创新工具——FaceChain深度学习模型工具
|
10月前
|
机器学习/深度学习 人工智能 算法
编织人工智能:机器学习发展总览与关键技术全解析
编织人工智能:机器学习发展总览与关键技术全解析
128 0
|
10月前
|
机器学习/深度学习 人工智能 算法
编织人工智能:机器学习发展历史与关键技术全解析
关注TechLead,分享AI领域与云服务领域全维度开发技术。本文全面回顾了机器学习的发展历史,从早期的基本算法到当代的深度学习模型,再到未来的可解释AI和伦理考虑。文章深入探讨了各个时期的关键技术和理念,揭示了机器学习在不同领域的广泛应用和潜力。最后,总结部分强调了机器学习作为一种思维方式和解决问题的工具,呼吁所有参与者共同探索更智能、更可持续的未来,同时关注其潜在的伦理和社会影响。
288 0
|
机器学习/深度学习 自然语言处理 网络架构
AIGC背后的技术分析 | 自然语言处理
本文主要介绍深度学习领域中自然语言处理部分。
168 1
AIGC背后的技术分析 | 自然语言处理
|
机器学习/深度学习 算法 数据挖掘
AIGC背后的技术分析 | 强化学习
PyTorch是当前主流深度学习框架之一,其设计追求最少的封装、最直观的设计,其简洁优美的特性使得PyTorch代码更易理解,对新手非常友好。 本文主要介绍深度学习领域中强化学习部分。
242 0
AIGC背后的技术分析 | 强化学习
|
机器学习/深度学习 人工智能 文字识别
AIGC背后的技术分析 | 计算机视觉
深度学习领域技术的飞速发展,给人们的生活带来了很大改变。例如,智能语音助手能够与人类无障碍地沟通,甚至在视频通话时可以提供实时翻译;将手机摄像头聚焦在某个物体上,该物体的相关信息就会被迅速地反馈给使用者;在购物网站上浏览商品时,机器也在同时分析着用户的偏好,并及时个性化地推荐用户可能感兴趣的商品。原先以为只有人类才能做到的事,现在机器也能毫无差错地完成,甚至超越人类,这显然与深度学习的发展密不可分,技术正引领人类社会走向崭新的世界。 PyTorch是当前主流深度学习框架之一,其设计追求最少的封装、最直观的设计,其简洁优美的特性使得PyTorch代码更易理解,对新手非常友好。
203 0
AIGC背后的技术分析 | 计算机视觉
|
机器学习/深度学习 自然语言处理 算法
AIGC背后的技术分析 | 知识图谱
知识图谱是知识工程的一个分支,以知识工程中语义网络作为理论基础,并且结合了机器学习、自然语言处理以及知识表示和推理的最新成果,在大数据的推动下受到了业界和学术界的广泛关注。知识图谱对于解决大数据中文本分析和图像理解问题发挥了重要作用。 下述内容使用知识图谱和深度学习进行数据分析,该案例需要使用pip工具安装以下第三方库:
4366 0