Palantir的起源
Palantir曾被称为是美国最神秘的创业公司,因为它的客户中包括了美国的CIA和FBI等情报部门和反恐机构。非政府客户中包括了摩根大通、美国银行、美国证券交易委员会等金融机构。目前Palantir估值在410亿美金,预计明年IPO上市。这样一家明星公司是和大数据相关的,并且通过大数据帮助政府进行安防以及反欺诈的分析。
在2001年11月2日,安然公司宣告破产,这起美国历史上最大的倒闭事件震惊全球。同时,安然留下的30万封电子邮件,成为了当时最大规模的公开司法信息数据库。Palantir通过数据整合,对电子邮件进行自然语义分析,发现近千条邮件提及到Mariner公司,并通过关联挖掘发现安然CEO David对Mariner公司的公允价值计算虚假高估,同时通过关联计算发现David邮件中的人员,有很多人在Mariner公司担任要职。
在美国安防领域Palantir也扮演了重要的情报分析角色,此前美国政府追捕本拉登行动中,CIA正是依靠Palantir的协助,才找到了本拉登的踪迹。如今Palantir软件已经遍布美国的警务市场,在加州洛杉矶警察局,每天使用Palantir进行办公已经成为了必备的工具。当然Palantir成立的起因并不是针对警务市场,而是创始人Peter Thiel在早期创业中遇到的实际问题。
Peter Thiel是硅谷创业之父,也是Paypal的联合创始人,2002年Paypal被eBay收购,他转变成为投资人,投资了包括:Facebook,LinkedIn,Yelp,Quora等知名互联网公司。
在Palantir成立之前,Paypal曾经深受欺诈问题的困扰。很多犯罪分子通过Paypal进行洗钱。为了防止可疑的资金转移,Paypal工程师开发了一套软件对交易进行一一排查。通过匹配用户过去的交易记录,以及正在进行的资金转移来查找可疑的账户行为并进行冻结,避免了数千万美元的损失。而在Paypal被eBay收购之后,Peter Thiel想到这一反欺诈工具可以为政府提供服务。于是Peter Thiel创立了Palantir,目前为止70%员工是研发人员。这个名字也是他起的,名字来源于《指环王》,它是一个可以穿越时空看到一切的水晶球。
Palantir的业务逻辑
Palantir最早的业务逻辑来在于PayPal的反欺诈系统。这为Palantir平台奠定了基础,它可以把人工业务逻辑和强大的数据引擎完美的结合起来。Palantir不仅可以同时处理多种数据来源,并且可以允许用户通过多种方式快速浏览,查找和分析自己想要的信息。当然,Palantir对各种安全问题高度敏感。
在我看来,Palantir是基于知识图谱技术,提供了数据集成、搜索、知识管理、协作、发现五大板块的大数据分析平台。知识图谱是个非常有用的技术,它可以将数据转化为信息,进一步处理加工为知识,最后通过更高级别的综合和预测能力转化为智慧,对知识进行具体的应用。
基于知识图谱,Palantir提供了以下的五大支柱能力,我来一一给你讲解下:
数据集成:
Palantir提供了许多方法来从不同的数据源中获取数据,并且可以基于语义网(Ontology)来创建实体
搜索:
Palantir为分析师提供了多种搜索机制,使他们能够找到匹配的数据,并且挖掘出数据间的关系,从而发挥数据的价值。最令人印象深刻的是它的环形检索(Search Around),其中最常用最重要的是快速### 搜索(Quick Search)
当然这一切的基础是需要一个很好的本体。Palantir提供了生成复杂的搜索查询(布尔逻辑,变音位,模糊值)的能力,同时无需了解复杂的查询语法。
知识管理:
Palantir的所有数据都可以根据其授权级别赋权给其他用户。
协作:
Palantir允许分析师在私人调查中开始调查,也可以将调查结果共享给其他用户。同样,分析师可以选择接受其他用户的更新,以便进一步开展工作。
发现:
反欺诈是许多企业面临的共性需求,在Palantir中通过寻找趋势的算法来进行聚类预测。
这五大支柱都是Palantir的技术支柱,在实际应用过程中,需求往往是个性化的,包括案件的内容以及破案的逻辑,因此需要人类智慧和大数据产品的结合。我们可以用这个流程图代表大数据运作的基本原理。首先需要有数据,这里就需要有数据采集、清洗、集成。然后是建模,建模是高度依赖于任务的,因此也是依赖于人的经验总结,比如犯罪分子可能存在的行为特征。最后指导任务的完成,这个过程,当我们把各种数据集成,建立各种模型后,就可以自动化的执行任务。当然我们知道,需求非常多样化,因此也需要多样化的任务处理模型,来处理不同的任务。而且任务和任务之间往往是有关联的。Palantir是个非常庞大复杂的系统,但是基本原理也离不开下面的流程图。这个是拆分成最小任务单元的流程图。
Palantir是如何使用知识图谱进行破案的?
知识图谱技术可以让我们从完成从数据端到智慧端的过程,具体实现途径如下图所示。
在数据端,一般数据量巨大,我们采用分布式数据采集系统,可以支持文档、网页、视频、传感器等采集的数据,先进行清洗存储,输出为基础数据。
在信息端,我们对数据进行语义处理,比如特征提取、事件识别、文本挖掘等,然后通过实体识别、角色识别、关系识别输出语义结构化数据。
在知识端,我们对知识进行建模,需要对本体进行建模、映射、存储,构建知识体系,输出知识库。
在智慧端,我们需要业务规则,包括进行图分析等计算,最后转化为人机可视化的交互方式方便用户进行可视化关联分析、问答、语义搜索等。
我们以Palantir介入安然破产的数据分析案例为例。首先Palantir面临的问题是:安然公司破产,指控其CEO(David Delaney)与Mariner公司发生内幕交易,缺乏证据。
在数据层:司法将安然内部的30万封邮件进行了公开
在信息层:Palantir需要对文本进行分类,实体抽取,事件抽取,并对文本中的角色、关系进行识别。发现邮件中指导的人员都是在哪个公司担任什么样的角色。并且对邮件中提到的内容及事件进行识别。
在知识层,Palantir可以发现有近千条提及Mariner公司的邮件中,David发出的3封邮件对其公允价值进行计算。并通过进一步的关联挖掘,得到相应的知识:
1)David对Mariner公司的公允价值计算虚假高估
2)邮件发出的时间 vs. David出售Mariner公司股票时间同轴匹配
3)全部邮件中的人名抽取,关联分析David关联人员
在智慧层,综合以上的知识,可以得出:
1)David 发出虚估Mariner公司公允价值的邮件时间节点与其出售该公司股票的时间吻合
2)David邮件关联人员中,有多人在Mariner公司重要部门担任要职
做别人不擅长的,并提供更高的价值
现如今Palanti公司总共拥有两大产品线:Palantir Gotham和Palantir Metropolis,分别应用于国防安全与金融领域。我们能看出来,这两个产品的逻辑都是大数据VS反欺诈。
首先数据量巨大,整个美国国土的数据,以及线上互联网的公开数据,以及各个渠道可以收集上来的数据都是Palantir的数据源。这样的数据体量基本上是其他机构没法获得,也无法处理的。另外Palantir让人们记住的还是他能做别人做不来的业务,比如分析出安然CEO的交易内部,本拉登的踪迹,包括给各大银行提供用户反欺诈行为分析。
当然这个过程也不是一蹴而就的,Palantir成立于2004年,到了到了2008 年,也就是公司成立四年后,美国情报机构依然是 Palantir 的唯一客户。但情报机构的使用,最终成为了 Palantir 进入其它市场的“门票”。卖给政府要花的时间更多,整个流程很长,但是一旦成功切入,你就获得了非常有价值的客户。而得到 CIA的背书,大银行就会非常愿意与Palantir合作。
这个漫长的过程,就好比Palantir做大数据收集和分析一样,不仅仅是个技术活,还是个长期的工作。在长期积累这件事上,Palantir就已经打败了其他竞争对手,提供了其他公司无法提供的价值,因此也在市场上具有更高的定价权。使用Palantir软件的费用在500万到1000万美金不等,需要预付20%,在使用满意后再付尾款。并且Palantir是一家没有市场、没有公关没有销售团队的公司。这对现在竞争激烈的市场来说,是非常神奇和难得的。