邮件门的迷宫 希拉里邮件数据探索-阿里云开发者社区

开发者社区> 野狩> 正文

邮件门的迷宫 希拉里邮件数据探索

简介:
+关注继续查看

11月9日中午,不关心也不懂政治的我忽然非常感动,多少,我们在朋友圈的直播里见证了一个以一敌万的故事,这不是武侠小说,也不是好莱坞电影,而是2016年美国大选,几个黑客掀起的希拉里邮件门,多少让川普弯道超车,让看起来稳赢的希拉里最后黯然退场,黑客应该争取了关键的, 超过两位数的的支持率。

11月10日,美国著名的黑客Kim Dotcom在Twitter如是说(他的彪悍人生可自行google)
image

什么是邮件门

邮件门是希拉里以及周边的重要人物的电脑被黑客攻击/内幕爆料的后,通过wikileaks(维基解密)在网上公开的邮件。

邮件门之前,我没有怀疑过美国的民主与科学, 然而事实上有人的地方就有江湖,邮件门的关键词颠覆了我的世界观,沙特财团的联系、政治现金、邪教、买官、媒体串通......

更要命的是非常可疑的暗杀事件,许多反对希拉里的人都会以非常奇怪的方式集中式死掉
image

大选期间维基泄密被长城封了,因此我爬取了维基泄密上三份邮件泄密的所有数据,https://github.com/zhouningyi/us_selection_crack 如果你对数据有兴趣,可以直接在这里下载

解读网络的基本知识

在我们的理解里,这世界上的事物与关系,正如点与线:点是实体,线是他们的联系,比如人是实体,而2人的电话是是他们发生了一种联系,正如两个点和他们的连线,同理,发货人和收货人是点,物流是线,收款人和借款人是点,交易是线,两边的邮箱是点,邮件是线。

一封邮件是1一个人给n个人的通信,你写邮件的时候可以给一个人,也可以给一个组,所以一封邮件表达的人与人的通信关系,基本是这个样子(发件人为from,收件人为to):

image

可以想象,许许多多的邮件构成了一个网络, 但因为我们几份数据的采集不一样,网络的构成其实是有差异的,比如说DNC的邮件是是服务器的邮件被复制,还原了一个组织的内部沟通,所以并没有一个特别显著的中心,而podesta和希拉里的邮件,都是自己的邮箱被公开,所以还原了一个人的联系记录,他们就很显然地处于网络的核心位置,但其实这些网络也是较为复杂的,本质上,这是一个他们社交关系的2度网络:即你给希拉里发了邮件,抄送或发送a、b、c(小黄点),其实a、b、c和希拉里不认识,但确实有关联,大家都在一个以项目作为划分的圈子里,因此之后我们会在网络图里经常会看到这样的结构

image

力引导布局

某种意义上说,网络关系和形状可以关系不大,比较下面两种网络, 因为点和点的链接没有变,其实本质上是一样的:

image

然而,两种图给我们的感受是完全不一样的,因此在这个领域,有一种术语叫layout(布局), 简而言之layout就是给点线排位置,影响的是图最后的形状。

假设我们有1000个邮箱,其中的邮件往来关系可能有1000000 = 1000 * 1000种,如果考虑邮件的方向 有 2000000种,然而事实上,人以群分,物以类聚,我们的社交关系、电话联络、邮件往来、交通网络都会形成聚落关系,你可能和你的小学同学是个两两认识的联系网络,身边的同事,兴趣圈的朋友同样是聚集的小网络,而聚落之间的通信则很少,道路网络也是一样,城市和城市密集的路网之间是稀疏而漫长的的高速公路和国道省道......

如果要刻画这种疏密有致的聚类关系,我们可以用力引导布局(Force Layout)算法实现。

不明觉厉的名词背后,往往是简单而朴素的直觉,力引导图的本质是什么,回忆中学的物理,如果一组正电荷在一起,一定是因为同性相斥四散而去,而如果正电荷之间有了弹簧,弹簧之间互相吸引,则会取到一个平衡。那如果弹簧就是邮件关系,我们就可以让互相联系的组织因为引力聚集在一起,而不联系的群落之间则互相疏离,我们就会得到一张网络关系图,比如:

希拉里网络

希拉里是个对科技发展有点淡漠的老人,她热爱黑莓手机,中间手机坏了几次,换完手机牌子还是黑莓,也许因为希拉里经常用手机发东西,所以邮件经常只言片语,其实有用的信息不是很多,但其集中度很有意思。

希拉里三大亲信

如果在希拉里网络关系 点击一下,一张高度集中的网络猛然呈现

希拉里的邮件两万七,但联系人仅三百多,而且最后归结到3个超级联系人,集中度令人惊叹,比如这是谢丽尔.米尔斯( Cheryl.Mills), 和希拉里发了4400封邮件,外加希拉里回了1000多封,也就是,希拉里1/5的邮件和她发的。

image

当然这3个联系人里最有名的当属胡马(Huma),如果对邮件门有个大致的了解,应该知道胡马的丈夫Weiner的出轨门,Weiner因为在色情网站上发裸照等等事情被FBI捉拿,然后被爆出电脑里藏了大量希拉里的机密邮件,也是FBI开始调查希拉里的理由之一。

如果我们把这3个邮箱头往google一搜索,信息一下子就丰富了,和生于1947年的希拉里比,三大心腹人种各异,而且都是小鲜肉,最老的也和希拉里差了20岁, 如果算上从podesta邮件组发现的 Robby Mook, 这位哥也是70后。

中文名 英文名 职位 族裔 出生
杰克·苏利文 Jake.Sullivan 希拉里竞选团队资深政策顾问, 希拉里当国务卿时的政策主任,之后做了副总统拜登的政策主管。很长一段时间以来希拉里一遇到问题就会去找Sullivan,如果希拉里能入主白宫,他很有可能成为国家安全顾问 白人 1976
谢丽尔.米尔斯 Cheryl.Mills 曾是一名律师和商人, 曾为克林顿总统的弹劾案进行辩护。2015 年,她曾经被要求在国会班加西事件听证会上作证。 黑人 1965
胡马 Huma. Abedin 1996年大二去白宫实习时分配到希拉里手下, 从此她再没离开过她 巴基斯坦印度裔美国人 1976

希拉里和竞选会很少联系

我们知道希拉里竞选会的主席是Podesta,而三大邮件门事件中,丑闻最多的就是Podesta,所以我们可以在搜索框右边选择邮件搜一下Podesta,然而结果极为惊人,这么一位老伙计,希拉里几乎从来不联系,仅有的联系也是Happy Birthday现在能不能通个电话一类的...

image

这里面有几个可能,首先希拉里的邮件是美国政府有选择性公开的,所以可能没把Podesta和希拉里的联系公开出来,此外美国政府公开的邮件里只有名字没有邮箱,而去 Podesta的邮件可视化搜索希拉里的几个邮箱,发现只也只联系几个人。

事实上希拉里有无数马甲。为了查清楚明细, 按照网络的资料,搜集了希拉里的一堆邮箱:

邮箱名 特征 时限
hr15@att.blackberry.net ? - 2009年3月18日
hr15@mycingular.black-berry.net 黑莓邮箱 临时使用
hrod17@clintonemail.com 被黑客进攻后改的邮箱 2009年3月18日 - 2013
hdr29@hrcoffice.com
SMSGS@state.gov 官方邮箱 发送致全体工作人员的邮件
SSHRC@state.gov 官方邮箱 安排日程
hdr22@clintonemail.com

在podesta邮件中,除了Podesta本人,发现和希拉里联系仅有的几个人:

邮箱 联系人
hrod17@clintonemail.com robbymook2015@gmail.com, robbymook@gmail.com
hdr29@hrcoffice.com robbymook2015@gmail.com, re47@hillaryclinton.com, oshur@hillaryclinton.com

这个联系人里其实没几个人,比如三个邮箱都属于 Robby Mook,希拉里竞选会的经理

因此,有个小结论:

希拉里通过三大亲信和外界联系,包括Podesta

我们去 Podesta的邮件可视化 搜索下几个朋友的邮箱,马上就出来了,三大亲信都联系了Podesta,但其实,三大亲信很可能都有好几个邮箱,比如胡马就至少有3个:

名字 邮箱 和Podesta联系次数
Jake.Sullivan jake.sullivan@gmail.com 70多次
Huma. Abedin huma@hrcoffice.com huma@clintonemail.com ha16@clintonemail.com 100多次
Cheryl.Mills cheryl.mills@gmail.com 600多次

image

Podesta邮件门探微

Podesta的邮件破解源于一封钓鱼邮件,黑客伪造了一个看起来很正常的邮件链接,podesta点击了一下,导致十年来的邮件完全被黑客复制了一份,Podesta比希拉里勤勉多了,十年来邮件数据库dump文件就有数百兆(全是文字啊亲)。

Podesta 邮件总览

Podesta的邮件长达十年之久。

因此,这个聚类囊括了Po主席十年的联系关系,如果我们用颜色区分邮箱的域名,这种分布其实和邮件网络的聚类很接近,相同颜色的点都在一起。

左下方的多是其大学law.georgetown.edu 圈子的邮件 ,圆圈里的邮箱主要是希拉里身边的人,邮箱要不是 hillaryclinton.com 的 要不是hrcoffice.com的。右上角的基本是现任政府的,要么是barackobama.com 的要么是 ptt.gov的。

还有些小的聚落,比如albrightstonebridge.com 是一咨询公司,有意思的是你可以在dnc和podesta的邮件体系里发现好几个咨询公司,这些应该都是政府的智囊团。

image

搜索名字包含Podesta的邮箱,发现有好多个,左上角可能是他家亲戚的邮箱,他们也和主席发邮件。

而很有意思的是右下角的邮箱podesta@law.georgeton.edu ,这个应该是他在学校申请的邮箱,找他的人一堆从来不回, 因此很可能别人发邮件抄送了2个邮箱,但他是回复在另一个邮箱,而且,联系这个邮箱的人基本不给他gmail的邮箱发东西,我觉得,po主席尽可能用其他邮箱发邮件而不用gmail的。

image

单独联系Podesta的人是谁?

podesta身边有好多点,这些邮件有几个特点

1、基本上只有直接和Podesta联系的人才会被引力吸到中心

2、大部分点很小,即没有发太多的邮件

其中很多发了很多邮件的邮箱从来就没收到回信,也不是Podesata的高冷,打开其中的一个,发现原来都是推送的新闻,想想也是,这些邮箱发送的信息很多,但从来没有抄送过谁,所以就被吸到中心了。

image

但还有不少人是Podesta回过邮件的。你想,为啥这些人直接联系了Podesta,却从来基本从来没有抄送别人?,很可能是因为密不告人,如果是公事公办,一般也会抄送下老板什么的,如果我们进入这个区域,是很容易发现一些情况的,

比如(更多资料在这里) :

1、 POLITICO分管政治的主编Glenn Thrush, 有一封邮件是如何为希拉里团队写枪文。

image

2、美联社记者Julie Pace为了希拉里团队写枪文。

image

3、赫芬顿邮报记者Brent Budowsky写信给Podesta为自己的文章"The Magic of Bill 
Clinton"邀功。Podesta的回复只是一个字"Yep", 而Brent Budowsky自告奋勇去伪装出一种支持桑德斯的立场,这样桑德斯败选后,更有利于他去说服桑德斯支持者出来投希拉里的票。不过老哥确实挺有耐性的,写了250多封邮件,只回了30几封

image

4、雅虎记者Katie Couric为希拉里写枪文。这位亲实在和Podesta联系太少了,才写了2次邮件,好不容易才把页面参数调整了(把很小的点找出来,电脑卡成翔了)才找到了这位同学。

image

DNC邮件门

DNC(Democratic National Committee,DNC) 是民主党全国代表大会,基本是美国总统选举初期的时候开始,而这份数据是这个组织近一年来的所有邮件,据说这份数据是罗马尼亚黑客'Guccifer 2.0'搞出来的:

首先,list一下关键人物,这些身份在危机泄密里面都是有说明的:

职务 姓名 数量 邮箱
通讯总监 Luis Miranda 10770 MirandaL@dnc.org
国家财政总监 Jordon Kaplan 3797 kaplanj@dnc.org
财务总监 Scott Comer 3095 ComerS@dnc.org
金融数据与战略总监 Daniel Parrish 1472 ParrishD@dnc.org
财务总监 Allen Zachary 1611 allenz@dnc.org
高级顾问 Andrew Wright 938 wrighta@dnc.org
北加州财务总监 Robert(Erik)Stowe 751 stowee@dnc.org

DNC的网络聚落像一只昆虫,头部是Jordon Kaplan 和 Scott Comer为主的财务和财政系,他们和许许多多外部的团体沟通,而身子则是DNC内部的骨干,业务为主的人员。

当我们点开头部财务系的周边的关联公司,可以发现主要是服务软件公司,策略咨询公司,金融服务公司,律师事务所等等, 这些公司可能是和dnc有资金上的往来,需要审批。而财务系统其实和公司内部同事讨论比较少,因此形成了一个独立的头部。

image

如果我们通过内容搜索一个和财务关系不大的词,但是和政治有关,比如china, 就会发现都是业务核心部分的左下角的人在讨论:

image

而希拉里身边的人,邮箱域名为 hillaryclinton.com 就是左下方的一堆大黄点,他们不和财务系统人打交道,也不是很边缘化,处在网络中处于下部的位置

但身子右下方有个很大的点,周边围绕了一圈外部的公司,这个点是通讯总监Miranda,从他周边的联系邮箱看,他主要联系网络媒体和传统媒体,LGBT网站,教师工会之类的非经济往来的机构,也和dnc内部的同事联系非常多,其邮件活动的覆盖可谓壮观,但其实并不怎么和头部的财务系统打交道:

image

对这部分邮件,已经有许多很详细的解读 俺的英语太蹩脚,还是自行阅读吧。

更多有意思的探索

邮件只是整个事件的冰山一角,所有的人都深知邮件的危险性,比如一封谈论权钱交易的邮件里,huma说,这种事情最好还是别用邮件说了,也许因此,这些文件极大地激发了美国选民的想象力。

image

所有的邮件数据都是非常庞大的记录,比如podesta,数据前后长达十年。因此你根据线索搜索许许多多和政治无关的关键字,也可以发现很多有意思的东西,比如搜索 zhangwangli,都可以找到邮件里的中国人。

又比如搜索 “alibaba”,也能发现许多报道,而且alibaba总是和Jack Ma的关键词一起出现, 比如马老板是美国人的座上宾,在DNC的一封来自白宫的邮件里,工作人员询问为什么马云出现在白宫, 然后另一个人巴拉巴拉说了一堆马云是奥巴马的朋友一类的话:

Jack Ma, the founder of Alibaba, was spotted leaving the White House. Can you tell us anything about why he was here?

但如果你搜索 "tencent", "baidu", 则基本无所获,但如果你搜索 "wechat",则发现微信的使用已经深入到了白宫的政治社交圈,比如dnc和podesta的邮件里都有好多相关内容,有些外国人在邮箱里留了自己的微信号以便交流(搜了下竟然真找到了某哥们...),也有些微信号留的是宣传的公众号。

如果你搜索和国内政治有关的话题,才发现,原来希拉里以及周边的人都是非常关心中国的政治形势的,里面好多是Cheryl.Mills 发的,这里面非常有意思,当然这里不便多说。。。。。。

我们这辈子应该都没机会去美国从政了, 看着这份大数据集,是不是有种身临其境的感觉?

一些技术栈介绍

在技术社区写这么水的文章,感觉很过意不去,简单讲述技术栈:
1、前端主要基于d3.js,做force layout,并实现了简单的前端搜索
2、文字搜索主要基于postgres,通过ts_query的方式去查询ts_vector格式的文章,词云的统计也基本在ts_vector基础上做的,速度都很快

广告

如觉得文章有点意思,欢迎关注我的个人公众号,不定期发更新:
非常感谢RDS 团队德歌对俺的postgres的支持
image

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4504 0
使用OpenApi弹性释放和设置云服务器ECS释放
云服务器ECS的一个重要特性就是按需创建资源。您可以在业务高峰期按需弹性的自定义规则进行资源创建,在完成业务计算的时候释放资源。本篇将提供几个Tips帮助您更加容易和自动化的完成云服务器的释放和弹性设置。
7773 0
地理数据可视化探索——SLS的地图演变之路
伴随着阿里云日志服务(SLS)面向的客户群体不断变化,接入的日志数据种类日益增多,地理类数据成为了日志数据分析中越来越常见的一类数据形式。数据可视化应用的火爆发展,地理数据的可视化也萌发出了大量的需求,大规模地理数据可视化分析,从业务上来看一直是个难点,地理数据的存储,计算,分析,可视化,产品应用等各个方面都需要综合起来考虑。
964 0
带你和Python与R一起玩转数据科学: 探索性数据分析
本系列将介绍如何在现在工作中用两种最流行的开源平台玩转数据科学。先来看一看数据分析过程中的关键步骤 – 探索性数据分析。
2994 0
+关注
野狩
数据可视化工程师@阿里云
2
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载