聚焦开放数据:全球恐怖袭击事件数据库

简介:

在Kaggle上发布数据是各个组织机构去接触形形色色对求知和协作充满热情的数据科学家的一种方式。(译者注:Kaggle是一个数据建模和数据分析的竞赛平台。企业和研究者可在其上发布数据,统计学者和数据科学家可在其上进行竞赛以产生最好的模型。)对于START(the National Consortiumfor the Study of Terrorism,研究恐怖袭击及应对恐怖袭击的全国性联盟)的Erin Miller博士而言,把START的全球恐怖袭击事件数据库(GlobalTerrorism Database:https://www.kaggle.com/START-UMD/gtd)发布到Kaggle上,让kaggle的用户来分析这些数据,能帮助他们对恐怖袭击有新的认识。


在这篇访谈里,Erin Miller博士将介绍Kaggle用户将如何在业余时间对这个涵盖了超过150,000次袭击事件的惊天数据集进行建设性的分析,从而得出可能挑战公众对恐怖袭击的认识的新见解。我们还将继续介绍更多关于全球恐怖袭击事件数据库的内容,以及如何获取和分析它的开放数据来为反恐事业添砖加瓦。


开始


在START联盟中,你的背景和角色是什么?


我(译者注:Erin Miller博士)是马里兰大学(University of Maryland)的一名刑事学家,目前任START全球恐怖袭击数据库(GTD)项目的项目经理。我从十二年前开始当助教清理这个数据库的原始数据,到现在管理着整个项目团队、工作流程、资源、以及与最终用户和相关研究项目之间的互动。


能不能跟我们介绍一下START联盟?


START是由美国国土安全部和大学计划办公室于2005年创建的一个高级研发中心(åCenter of Excellence)。这个高级研发中心的理念是为了让综合性大学里的研究者去关注与国土安全有关的问题。START的组织框架是社会科学。我们开发了一系列科研、培训和教育资源,用于对恐怖袭击的因果研究。


你能描述一下全球恐怖袭击事件数据库吗?


全球恐怖袭击事件数据库(GTD)是一个收录了全球恐怖袭击事件的数据库,最早可追溯至1970年。GTD的发展是一个漫长的历程,目前它包括了超过150,000次恐怖袭击的数据,并用超过100个变量来详尽地描述袭击发生的时间和地点,袭击者和受害者是谁,袭击者使用的策略,袭击的结果是什么,等等。所有的数据都基于未分类信息–––大部分来自媒体的报道。而且数据的收集工作还在持续地进行中,我们每年都会更新GTD数据库。


随着在线媒体的发展,我们还开发出“混合”数据收集策略。我们利用一些自动化方法(自然语言处理,机器学习模型)来筛选每个月几百万篇的新闻报道,再通过人工阅读选出来几千篇关于恐怖袭击的报道来尽可能精确地添加新的数据库条目。

 

深入数据


你希望公布这些数据给公众进行分析将如何帮助到你们的工作和这个世界?


基于原则上和实际中的一些原因,让用户了解和使用GTD一直是我们工作的一个重点。一开始我们花了几年的时间来整理和数字化成千上万条手写数据记录,从那时起我们在START网站上的GTD数据库就已经比较规范。我们发现人们对关于恐怖袭击这个热点的客观数据越来越感兴趣,而且让Kaggle这么大的数据分析用户群来使用这些数据要比我们继续像过去十年这样自己使用这些数据能产生重大发现的可能性要大得多。


此外,对于任何数据采集项目而言,透明度非常关键。其中很重要的一点是让人们可以了解到这些数据是如何采集的以及每条记录长怎么样的,这样可以增加大家使用数据的灵活性和数据本身的可信度。最后,让用户使用这些数据有利于提高数据本身的质量。改善数据精确度的最好方式就是去关注它,从而发现潜在问题以便我们审查和改进。


你们在Kaggle上分享这些数据的动机是什么?


两个原因:第一,Kaggle这个平台有一些比我们自己的系统更出色的功能。它允许用户做自定义分析,然后分享给其他用户。这个功能非常有用,能够推动更多的合作和新的发现。


第二,尽管我们在START网站分享数据已经差不多十年了,但我们的用户群体与Kaggle的用户群体似乎只有少量的重叠。可能因为我们和Kaggle的用户往往来自不同的圈子,有着不一样的技能和兴趣。Kaggle用户可能很难“偶然”发现GTD网站,那么在Kaggle上分享GTD的数据是一个让更多人去了解和使用GTD的好机会。

 

Kaggle用户群


到目前为止,你最喜欢的Kaggle用户对GTD数据的分析工作是什么?


Kaggle上已经有很多对GTD数据的分析,我们很难跟踪所有的这些分析。但这也是Kaggle的一个优点:各种技能水平的用户(包括初学者)都能在上面找到一些数据进行练习。


我特别喜欢Umesh的“使用Highcharter来探索全球恐怖袭击”的分析。(译者注:Highcharter是一个网络可视化工具Highchart在R里面的程序包。)Umesh的分析不仅使用了多种可视化工具,他的许多图表还包含了一些承前启后的要点。这表明他了对数据有着非常深入的了解。要知道用图表来总结这些数据是一件多么具有挑战性的工作。


Pranav Pandya的“世界范围内的恐怖袭击 ”项目也相当出色。尽管我对恐怖袭击的模式已经相当了解,但新用户会觉得PranavPandya对美国恐怖袭击数据的分析非常有趣(就像Abigail Larion的分析一样),因为这些结果公然挑战了大众对恐怖袭击的认知。


迄今为止最让你感到惊奇的方面是什么?


我喜欢Kaggle用户如何去激励其他的Kaggle用户参与到项目中来。我和许多出色的分析人员进行过一对一的接触,但是我的社交平台经验(好吧,主要是Twitter)是:当GTD被提及时,常常是因为人们争论恐怖袭击这个问题时,有人给出GTD的连接来试图证明他们的观点。


当人们出于兴趣(而不是作为日常工作的一部分)来研究GTD数据,他们往往变得更具积极性。我喜欢阅读来自Kaggle的关于有人试图回答另一个用户的问题或者只是评论说“你的工作超赞,谢谢!”这类的电子邮件。


如何看待利用GTD数据进行反恐行动?


GTD数据库可以通过多种形式来协助反恐行动:从提供各辖区内出现的恐吓与密谋以及它们如何随时间变化等基本信息,到更复杂的试图分析在既定情境中什么类型的反恐策略更有效。我很乐意看到GTD能为决策者提供准确且有用的数据。


关于开放数据的思考


你认为开放数据将如何改变世界?


我认为开放数据非常有用,尤其对Kaggle读者。然后我想重点讨论一下使用开放数据在这个瞬息万变的世界里的将会遇到的一个潜在问题:当这些数据被多次处理和重新发布后,用户可能无法查到数据的原出处,甚至可能想当然的接受处理后的数据。但不要忘了这就像某些经改写的新闻可能会偏离作者的原意一样,某些对原始数据的处理很可能改变了数据本身。


在过去的几年里,为了收集GTD的数据,我们幸运地得到了来自美国司法部、美国国土安全部和美国国务院的资助。但GTD的运营是一个相当劳动密集的工作,它涉及到马里兰大学的研究人员和学生。而START 是一个非营利性研究联盟。尽管GTD已被数据科学家、政策制定者、媒体、研究人员和教育工作者广泛使用,但我们并不能预测未来能否持续地获得维持数据采集的资金。所以我鼓励所有开放数据的用户:如果你觉得一个数据集有用,我建议你花点时间去了解它来自哪里。如果你发现它确实有用,请考虑给采集此数据的机构发送一条使用记录,这将帮助该机构继续获得相关部门的资助。


对于那些有兴趣学习如何分析START数据的人,你有什么建议?


我最大建议是去看一看GTD的代码书(http://www.start.umd.edu/gtd/downloads/Codebook.pdf) 。关于恐怖袭击的数据往往不是那么简单直接,GTD代码书能帮助新老用户解答很多关于这些数据的问题。


那些对数据采集感兴趣的用户还可以看看GTD的培训模块。这些培训旨在展示GTD数据库的特点以及一些需要注意的地方。此外,我们还介绍了在MS Excel中如何使用数据透视表(PivotTables)进行数据的互动演示,而这里面的原理也适用于其他分析工具。

 

原文发布时间为:2017-5-13

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
3月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
27天前
|
数据采集 数据库 Python
有哪些方法可以验证用户输入数据的格式是否符合数据库的要求?
有哪些方法可以验证用户输入数据的格式是否符合数据库的要求?
132 75
|
3月前
|
存储 监控 数据处理
flink 向doris 数据库写入数据时出现背压如何排查?
本文介绍了如何确定和解决Flink任务向Doris数据库写入数据时遇到的背压问题。首先通过Flink Web UI和性能指标监控识别背压,然后从Doris数据库性能、网络连接稳定性、Flink任务数据处理逻辑及资源配置等方面排查原因,并通过分析相关日志进一步定位问题。
263 61
|
2月前
|
SQL 存储 运维
从建模到运维:联犀如何完美融入时序数据库 TDengine 实现物联网数据流畅管理
本篇文章是“2024,我想和 TDengine 谈谈”征文活动的三等奖作品。文章从一个具体的业务场景出发,分析了企业在面对海量时序数据时的挑战,并提出了利用 TDengine 高效处理和存储数据的方法,帮助企业解决在数据采集、存储、分析等方面的痛点。通过这篇文章,作者不仅展示了自己对数据处理技术的理解,还进一步阐释了时序数据库在行业中的潜力与应用价值,为读者提供了很多实际的操作思路和技术选型的参考。
51 1
|
2月前
|
存储 Java easyexcel
招行面试:100万级别数据的Excel,如何秒级导入到数据库?
本文由40岁老架构师尼恩撰写,分享了应对招商银行Java后端面试绝命12题的经验。文章详细介绍了如何通过系统化准备,在面试中展示强大的技术实力。针对百万级数据的Excel导入难题,尼恩推荐使用阿里巴巴开源的EasyExcel框架,并结合高性能分片读取、Disruptor队列缓冲和高并发批量写入的架构方案,实现高效的数据处理。此外,文章还提供了完整的代码示例和配置说明,帮助读者快速掌握相关技能。建议读者参考《尼恩Java面试宝典PDF》进行系统化刷题,提升面试竞争力。关注公众号【技术自由圈】可获取更多技术资源和指导。
|
2月前
|
前端开发 JavaScript 数据库
获取数据库中字段的数据作为下拉框选项
获取数据库中字段的数据作为下拉框选项
61 5
|
3月前
|
SQL 关系型数据库 数据库
国产数据实战之docker部署MyWebSQL数据库管理工具
【10月更文挑战第23天】国产数据实战之docker部署MyWebSQL数据库管理工具
261 4
国产数据实战之docker部署MyWebSQL数据库管理工具
|
3月前
|
关系型数据库 MySQL 数据库
GBase 数据库如何像MYSQL一样存放多行数据
GBase 数据库如何像MYSQL一样存放多行数据
|
3月前
|
消息中间件 资源调度 关系型数据库
如何在Flink on YARN环境中配置Debezium CDC 3.0,以实现实时捕获数据库变更事件并将其传输到Flink进行处理
本文介绍了如何在Flink on YARN环境中配置Debezium CDC 3.0,以实现实时捕获数据库变更事件并将其传输到Flink进行处理。主要内容包括安装Debezium、配置Kafka Connect、创建Flink任务以及启动任务的具体步骤,为构建实时数据管道提供了详细指导。
199 9
|
3月前
|
关系型数据库 分布式数据库 数据库
云栖大会|从数据到决策:AI时代数据库如何实现高效数据管理?
在2024云栖大会「海量数据的高效存储与管理」专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。

热门文章

最新文章