Palantir:硅谷最神秘的独角兽

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 曾经在创业初期分析过Palantir这家公司,作为和大数据领域以及ToB领域的独角兽,Palantir毫无疑问是最神秘也是最成功的公司之一。这篇文章梳理了Palantir的起源,业务逻辑,以及典型的案例,如果你对技术感兴趣,或者打算进行技术创业,希望这篇文章能对你有一些启发。

Palantir的起源

Palantir曾被称为是美国最神秘的创业公司,因为它的客户中包括了美国的CIA和FBI等情报部门和反恐机构。非政府客户中包括了摩根大通、美国银行、美国证券交易委员会等金融机构。目前Palantir估值在410亿美金,预计明年IPO上市。这样一家明星公司是和大数据相关的,并且通过大数据帮助政府进行安防以及反欺诈的分析。

在2001年11月2日,安然公司宣告破产,这起美国历史上最大的倒闭事件震惊全球。同时,安然留下的30万封电子邮件,成为了当时最大规模的公开司法信息数据库。Palantir通过数据整合,对电子邮件进行自然语义分析,发现近千条邮件提及到Mariner公司,并通过关联挖掘发现安然CEO David对Mariner公司的公允价值计算虚假高估,同时通过关联计算发现David邮件中的人员,有很多人在Mariner公司担任要职。

在美国安防领域Palantir也扮演了重要的情报分析角色,此前美国政府追捕本拉登行动中,CIA正是依靠Palantir的协助,才找到了本拉登的踪迹。如今Palantir软件已经遍布美国的警务市场,在加州洛杉矶警察局,每天使用Palantir进行办公已经成为了必备的工具。当然Palantir成立的起因并不是针对警务市场,而是创始人Peter Thiel在早期创业中遇到的实际问题。

Peter Thiel是硅谷创业之父,也是Paypal的联合创始人,2002年Paypal被eBay收购,他转变成为投资人,投资了包括:Facebook,LinkedIn,Yelp,Quora等知名互联网公司。

在Palantir成立之前,Paypal曾经深受欺诈问题的困扰。很多犯罪分子通过Paypal进行洗钱。为了防止可疑的资金转移,Paypal工程师开发了一套软件对交易进行一一排查。通过匹配用户过去的交易记录,以及正在进行的资金转移来查找可疑的账户行为并进行冻结,避免了数千万美元的损失。而在Paypal被eBay收购之后,Peter Thiel想到这一反欺诈工具可以为政府提供服务。于是Peter Thiel创立了Palantir,目前为止70%员工是研发人员。这个名字也是他起的,名字来源于《指环王》,它是一个可以穿越时空看到一切的水晶球。

Palantir的业务逻辑

Palantir最早的业务逻辑来在于PayPal的反欺诈系统。这为Palantir平台奠定了基础,它可以把人工业务逻辑和强大的数据引擎完美的结合起来。Palantir不仅可以同时处理多种数据来源,并且可以允许用户通过多种方式快速浏览,查找和分析自己想要的信息。当然,Palantir对各种安全问题高度敏感。

在我看来,Palantir是基于知识图谱技术,提供了数据集成、搜索、知识管理、协作、发现五大板块的大数据分析平台。知识图谱是个非常有用的技术,它可以将数据转化为信息,进一步处理加工为知识,最后通过更高级别的综合和预测能力转化为智慧,对知识进行具体的应用。
2.png

基于知识图谱,Palantir提供了以下的五大支柱能力,我来一一给你讲解下:

数据集成:

Palantir提供了许多方法来从不同的数据源中获取数据,并且可以基于语义网(Ontology)来创建实体

搜索:

Palantir为分析师提供了多种搜索机制,使他们能够找到匹配的数据,并且挖掘出数据间的关系,从而发挥数据的价值。最令人印象深刻的是它的环形检索(Search Around),其中最常用最重要的是快速### 搜索(Quick Search)
当然这一切的基础是需要一个很好的本体。Palantir提供了生成复杂的搜索查询(布尔逻辑,变音位,模糊值)的能力,同时无需了解复杂的查询语法。

知识管理:

Palantir的所有数据都可以根据其授权级别赋权给其他用户。

协作:

Palantir允许分析师在私人调查中开始调查,也可以将调查结果共享给其他用户。同样,分析师可以选择接受其他用户的更新,以便进一步开展工作。

发现:

反欺诈是许多企业面临的共性需求,在Palantir中通过寻找趋势的算法来进行聚类预测。

这五大支柱都是Palantir的技术支柱,在实际应用过程中,需求往往是个性化的,包括案件的内容以及破案的逻辑,因此需要人类智慧和大数据产品的结合。我们可以用这个流程图代表大数据运作的基本原理。首先需要有数据,这里就需要有数据采集、清洗、集成。然后是建模,建模是高度依赖于任务的,因此也是依赖于人的经验总结,比如犯罪分子可能存在的行为特征。最后指导任务的完成,这个过程,当我们把各种数据集成,建立各种模型后,就可以自动化的执行任务。当然我们知道,需求非常多样化,因此也需要多样化的任务处理模型,来处理不同的任务。而且任务和任务之间往往是有关联的。Palantir是个非常庞大复杂的系统,但是基本原理也离不开下面的流程图。这个是拆分成最小任务单元的流程图。
图片alt

Palantir是如何使用知识图谱进行破案的?

知识图谱技术可以让我们从完成从数据端到智慧端的过程,具体实现途径如下图所示。
在数据端,一般数据量巨大,我们采用分布式数据采集系统,可以支持文档、网页、视频、传感器等采集的数据,先进行清洗存储,输出为基础数据。
在信息端,我们对数据进行语义处理,比如特征提取、事件识别、文本挖掘等,然后通过实体识别、角色识别、关系识别输出语义结构化数据。
在知识端,我们对知识进行建模,需要对本体进行建模、映射、存储,构建知识体系,输出知识库。
在智慧端,我们需要业务规则,包括进行图分析等计算,最后转化为人机可视化的交互方式方便用户进行可视化关联分析、问答、语义搜索等。

我们以Palantir介入安然破产的数据分析案例为例。首先Palantir面临的问题是:安然公司破产,指控其CEO(David Delaney)与Mariner公司发生内幕交易,缺乏证据。
在数据层:司法将安然内部的30万封邮件进行了公开
在信息层:Palantir需要对文本进行分类,实体抽取,事件抽取,并对文本中的角色、关系进行识别。发现邮件中指导的人员都是在哪个公司担任什么样的角色。并且对邮件中提到的内容及事件进行识别。
在知识层,Palantir可以发现有近千条提及Mariner公司的邮件中,David发出的3封邮件对其公允价值进行计算。并通过进一步的关联挖掘,得到相应的知识:
1)David对Mariner公司的公允价值计算虚假高估
2)邮件发出的时间 vs. David出售Mariner公司股票时间同轴匹配
3)全部邮件中的人名抽取,关联分析David关联人员
在智慧层,综合以上的知识,可以得出:
1)David 发出虚估Mariner公司公允价值的邮件时间节点与其出售该公司股票的时间吻合
2)David邮件关联人员中,有多人在Mariner公司重要部门担任要职

做别人不擅长的,并提供更高的价值

现如今Palanti公司总共拥有两大产品线:Palantir Gotham和Palantir Metropolis,分别应用于国防安全与金融领域。我们能看出来,这两个产品的逻辑都是大数据VS反欺诈。

首先数据量巨大,整个美国国土的数据,以及线上互联网的公开数据,以及各个渠道可以收集上来的数据都是Palantir的数据源。这样的数据体量基本上是其他机构没法获得,也无法处理的。另外Palantir让人们记住的还是他能做别人做不来的业务,比如分析出安然CEO的交易内部,本拉登的踪迹,包括给各大银行提供用户反欺诈行为分析。

当然这个过程也不是一蹴而就的,Palantir成立于2004年,到了到了2008 年,也就是公司成立四年后,美国情报机构依然是 Palantir 的唯一客户。但情报机构的使用,最终成为了 Palantir 进入其它市场的“门票”。卖给政府要花的时间更多,整个流程很长,但是一旦成功切入,你就获得了非常有价值的客户。而得到 CIA的背书,大银行就会非常愿意与Palantir合作。

这个漫长的过程,就好比Palantir做大数据收集和分析一样,不仅仅是个技术活,还是个长期的工作。在长期积累这件事上,Palantir就已经打败了其他竞争对手,提供了其他公司无法提供的价值,因此也在市场上具有更高的定价权。使用Palantir软件的费用在500万到1000万美金不等,需要预付20%,在使用满意后再付尾款。并且Palantir是一家没有市场、没有公关没有销售团队的公司。这对现在竞争激烈的市场来说,是非常神奇和难得的。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
人工智能 运维 安全
出海首单落户日本,众安要做全球保险科技引路人
出海首单落户日本,众安要做全球保险科技引路人
261 0
出海首单落户日本,众安要做全球保险科技引路人
|
人工智能
[转]日本工程院院士:中国科技创新可以从日本学什么?
“我们必须要短平快吃东西,不吃东西科研维持不了。”