利用“大数据、云计算”提高情报分析以打击反恐

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 导读:  美国国防部长卡特曾赴硅谷招募顶尖科技人才。近年来的信息大爆炸使得五角大楼不得不将目光聚焦硅谷,以打击反恐。神秘的大数据平台Palantir就是美国CIA、FBI等寻求的合作对象。Palantir最为人津津乐道的案例有两个,一是此前美国政府追捕本拉登行动中,Palantir扮演了重要的情报分析的角色;二是Palantir协助多家银行追回了纳斯达克前主席麦道夫BernieMadoff所隐藏起来的数十亿美元巨款。

导读:

 美国国防部长卡特曾赴硅谷招募顶尖科技人才。近年来的信息大爆炸使得五角大楼不得不将目光聚焦硅谷,以打击反恐。神秘的大数据平台Palantir就是美国CIA、FBI等寻求的合作对象。Palantir最为人津津乐道的案例有两个,一是此前美国政府追捕本拉登行动中,Palantir扮演了重要的情报分析的角色;二是Palantir协助多家银行追回了纳斯达克前主席麦道夫BernieMadoff所隐藏起来的数十亿美元巨款。



在进入正题之前,我们先来看一个例子:


0?wx_fmt=jpeg


美国国防部长卡特(AshCarter)曾赴硅谷招募顶尖科技人才。近年来的信息大爆炸使得五角大楼不得不将目光聚焦高科技硅谷,以打击反恐。美国中央情报局的CTOGusHunt表示,为了提高情报分析能力,他们已经加快了运用云计算的步伐。


神秘的大数据平台Palantir就是美国CIA、FBI等寻求的合作对象。Palantir最为人津津乐道的案例有两个,一是此前美国政府追捕本拉登行动中,Palantir扮演了重要的情报分析的角色;二是Palantir协助多家银行追回了纳斯达克前主席麦道夫BernieMadoff所隐藏起来的数十亿美元巨款。


Palantir在洛杉矶警局通过技术与业务的深入交流与合作,采用Palantir的Gotham平台,构建了一-套洛杉矶警局的语义知识搜索挖掘平台,用于日常的警方业务工作中。该平台全面整合警情日志文档、电子表格数据、数据库等结构化数据和电子邮件、文档、图片、录像等非结构化数据,对各类多源异构,繁杂的信息进行清洗梳理,总结提炼为八个关键的信息实体:人、车、位置、罪案、逮捕、文件、备注与其他。实体本身还有不同的属性,不同个体之间还存在这相应的知识关联。Palantir公安大数据语义知识搜索平台建立以后,警方就可以通过非常简洁的前端搜索页面,来搜索指定的各类实体与线索。


0?wx_fmt=jpeg


Palantir的搜索结果与百度等通用搜索引擎完全不一样,并不完全基于关键词,而是探索搜索背后的关联关系,搜索结果如上图所示。这里,中间的焦掉是搜索的嫌疑人“Michael Barton”,通过Palantir平台,可以快速将各类庞杂的数据通过可视化平台的形式汇聚到一起,最终我们发现该犯综合立体化视图,其中包括:使用的手机,入境记录,逮捕时开的车,逮捕的案子,同时涉嫌一起盗窃案,包括已有的两次审讯记录。点击任何一个节点,右边会展示其详细的属性与其他实体的关联关系。例如,点击该车,可以展示出该车的历史所有被抓拍的照片与数据。办案人员同时可以根据关联连接一层一层往下挖,并人机互动,补充各种筛选条件,将模糊的破案线索逐步求精,最后极大的提高破案准确性与效率。


综合大数据的前沿技术进展,可以综合研判出大数据反恐平台背后的三大关键技术:知识图谱、大数据人机可视化交互、非结构化精准搜索与挖掘。分别介绍如下:


◆ ◆ 

知识图谱


知识图谱本质上是一种语义网络,图中的结点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。 Palantir在图一中使用的就是知识图谱的技术,其中嫌疑犯、车、手机等都节点属于知识图谱中的实体,而边就是实体之间的关系。知识图谱允许用户搜索引擎知道的所有事物、人物或者地方,而且能够显示查询的实时信息。知识图谱技术表征了公安大数据的本质语义关联,比传统的关系型数据库更加自由多样化,更适合于公安的办案。


◆ ◆ 

大数据人际可视化交互


运用了大数据可视化、知识图谱化、地图GIS化等手段,同时开放了大量方便的人机交互接口,实现了人与机器的完美融合,也实现了人与人之间的协同工作,大大提升了警务人员掌控数据的能力。


◆ ◆ 

非结构化语义精准搜索与挖掘


非结构化大数据指的是文本、图像与视频等信息,比传统结构化数据的信息量大得多,非结构化语义精准搜索与挖掘,是指在知识图谱的基础上真正理解用户的搜索请求,不再拘泥于用户所输入请求语句的字面本身,而是透过现象看本质,准确地捕捉到用户所输入语句后面的真正意图,并以此来进行搜索与挖掘,从而更准确地向用户返回最符合其需求的搜索结果。


大数据分析工具和技术,结合文本挖掘、机器学习以及本体建模,已成为进行军事安全威胁预测、检测和早期阶段预防的第一道防线。如今大数据和数据科技,通过改进协作和数据分析,减低了情报调查过程的繁琐程度,以便机构更轻易地检测到国家安全威胁。


通过分析恐怖分子日常各种信息,如通话、交通、购物、交友、电子邮件、聊天记录、视频等,对恐怖行为发生前进行预警和事后分析排查,越来越成为国际预防反恐的通用手段之一。


阿里巴巴集团CTO王坚曾表示:“今天任何人做事都不可能完全避开互联网,犯罪分子也不例外,敌人都用上了互联网手段,国家反恐必须用上大数据分析了。具备了数据分析的能力并不是说能百分百解决问题,但肯定可以大大提高反恐能力,以及实施恐怖行为的成本。”就像在红绿灯前装摄像头,不可能杜绝闯红绿灯的行为,但肯定减少。


0?wx_fmt=jpeg


事实上,国内也有科研院所、企业等机构进行了深入的研究。据国内学者相关研究成果显示,采用大数据分析模型对恐怖袭击历史数据中隐含的可演化信息进行学习,利用所获取的结果进行未来的恐怖袭击预测。预测过程中融入多步时间序列预测中的递推计算的思想,将每一步预测的不确定性作为下一次预测迭代的输入要素加以充分考虑。仿真结果证实,利用大数据分析的预测精度和效率都高于传统模式。据公开报道,通过对社交网络等信息的大数据挖掘,我国成功破获多个涉恐案件。而随着数据量的增长,利用大数据来打击犯罪的比例正在提高。


大数据是手段 预警预测是目的——


大数据的本质是系统通过处理采集到的所有数据,去提取其特征和共性的信息。通过大数据的处理使得所有的数据都有价值。通过大数据的处理,把传统认为没有价值的信息也能够产生非常有价值的信息,大数据的核心价值是通过数据分析达到预警预测的目的。因此,在反恐领域,借助大数据分析,从各种综合数据中,诸如社交网络信息、个人活动信息以及公安视频监控数据等等中能够预测出重点监控人员将要实施的恐怖袭击事件,并作出预警提示,成为未来视频监控发展目标。


我国对公安大数据的初步探索——


我国公安大数据方面的主要工作包括情报抽取、自动脱敏、分类、聚类、特征挖掘、关联挖掘等工作。情报抽取主要从文本表述中抽取各类案情要素,如嫌疑人姓名、身份证、性别、案由等;自动脱敏技术是将敏感信息自动替换,脱敏后的信息无法追溯到具体的个人,不再涉及公民隐私,而公安部门可以根据脱敏的对照库,实现信息还原。下图是我们利用公安某局脱敏后的15万数据自动生成的毒品、诈骗、盗窃三类警情的宏观可视化特征画像。


公安作为与海量证据、线索、数据、信息打交道的部门,使用好已有的数据信息,将门类庞杂、种类繁多的海量公安数据进行整合,建立统一的公安大数据语义知识网搜索平台,全面而深入挖掘信息之间的关联关系,这对于提取关键线索、提高办案效率具有非常重要的现实意义,更对于优化警力部署、提前制定预案,将违法犯罪事件扼杀在萌芽状态具有重大指导意义。


未来可以做的还有很多——


1、以知识图谱来整合各类数据:与美国情报界一样,公安当前的信息分散、孤立,部分信息不一定准确,大数据本身的特点就是价值密度低、参差不起,庞杂多样。因此,梳理公安的知识体系,将各类数据库整合为统一的知识图谱,以国际统一的本体网络语言OWL表示知识,并利用知识图谱技术实现公安大数据的推理与应用;


2、构建公安大数据的业务平台,而不是简单的信息系统:与一般的公安信息系统不一样,我们需要提供并不是一个傻瓜式的查询输出系统,而是一个较好的工作平台,利用人机接口,辅助警方从复杂大数据中发现清晰的线索,帮助得到辅助问题的答案。简单的打个比方来说,公安大数据平台提供的不是直接的鱼,而是钓鱼的工具与方法。因此,公安的大数据平台不能做成简单的查询系统,而是业务平台,可以快速简便地开发各类SaaS(软件即服务)应用,警务人员可以查询信息,还可以简单灵活地组合各类模块,将业务人员的经验与技术人员的大数据技术紧密结合。


3、实施创新驱动发展战略,突破已有的思维定势,大力引进公安大数据相关的知识图谱技术、大数据可视化、语义分析计算等前沿技术。可以将公安大数据脱敏后大力开放,供国内专家学者作为研究开发使用,广泛地获取外脑支撑。

 原文发布时间为:2016-09-24

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
23天前
|
存储 大数据 测试技术
用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
在大数据环境中,数据存储格式直接影响查询性能和成本。本文探讨了 Parquet、Avro 和 ORC 三种格式在 Google Cloud Platform (GCP) 上的表现。Parquet 和 ORC 作为列式存储格式,在压缩和读取效率方面表现优异,尤其适合分析工作负载;Avro 则适用于需要快速写入和架构演化的场景。通过对不同查询类型(如 SELECT、过滤、聚合和联接)的基准测试,本文提供了在各种使用案例中选择最优存储格式的建议。研究结果显示,Parquet 和 ORC 在读取密集型任务中更高效,而 Avro 更适合写入密集型任务。正确选择存储格式有助于显著降低成本并提升查询性能。
123 1
用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
|
2月前
|
分布式计算 Hadoop 大数据
Jupyter 在大数据分析中的角色
【8月更文第29天】Jupyter Notebook 提供了一个交互式的开发环境,它不仅适用于 Python 编程语言,还能够支持其他语言,包括 Scala 和 R 等。这种多语言的支持使得 Jupyter 成为大数据分析领域中非常有价值的工具,特别是在与 Apache Spark 和 Hadoop 等大数据框架集成方面。本文将探讨 Jupyter 如何支持这些大数据框架进行高效的数据处理和分析,并提供具体的代码示例。
49 0
|
4天前
|
安全 网络安全 云计算
云计算与网络安全:技术融合与挑战分析
【9月更文挑战第31天】本文将深入探讨云计算和网络安全之间的关系,包括云服务、网络安全、信息安全等技术领域。我们将从云计算的基本概念和特性出发,分析其在网络安全方面的优势和挑战,并探讨如何通过技术和策略来提高云计算的安全性。同时,我们也将讨论网络安全在云计算环境下的重要性,以及如何通过有效的安全措施来保护云服务的安全。最后,我们将通过代码示例来展示如何在云计算环境中实现网络安全。
13 3
|
7天前
|
JSON 数据可视化 数据挖掘
Polars函数合集大全:大数据分析的新利器
Polars函数合集大全:大数据分析的新利器
15 1
|
20天前
|
存储 分布式计算 Hadoop
大数据分析的工具
大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军事监控,视频和图像档案,及大型电子商务。
27 8
|
1月前
|
存储 大数据 数据挖掘
【数据新纪元】Apache Doris:重塑实时分析性能,解锁大数据处理新速度,引爆数据价值潜能!
【9月更文挑战第5天】Apache Doris以其卓越的性能、灵活的架构和高效的数据处理能力,正在重塑实时分析的性能极限,解锁大数据处理的新速度,引爆数据价值的无限潜能。在未来的发展中,我们有理由相信Apache Doris将继续引领数据处理的潮流,为企业提供更快速、更准确、更智能的数据洞察和决策支持。让我们携手并进,共同探索数据新纪元的无限可能!
81 11
|
2月前
|
分布式计算 数据可视化 大数据
Vaex :突破pandas,快速分析100GB大数据集
Vaex :突破pandas,快速分析100GB大数据集
|
2月前
|
大数据 机器人 数据挖掘
这个云ETL工具配合Python轻松实现大数据集分析,附案例
这个云ETL工具配合Python轻松实现大数据集分析,附案例
|
2月前
|
数据采集 人工智能 安全
AI大数据处理与分析实战--体育问卷分析
本文是关于使用AI进行大数据处理与分析的实战案例,详细记录了对深圳市义务教育阶段学校“每天一节体育课”网络问卷的分析过程,包括数据概览、交互Prompt、代码处理、年级和学校维度的深入分析,以及通过AI工具辅助得出的分析结果和结论。
|
2月前
|
消息中间件 前端开发 安全
第三方数据平台技术选型分析
这篇文章分析了第三方数据平台的技术选型,涵盖了移动统计平台、自助分析平台和BI平台的不同代表厂商,讨论了它们的数据源、使用要求和适用场景。
40 2

热门文章

最新文章

下一篇
无影云桌面