美国大数据产业地图和数据科学家必备工具-数据源

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

数据专家不能只生活在R语言或Excel表格里。他们需要工具来获得质量拔尖且可用于预测分析的数据。其实我觉得这正是统计学家和数据专家的区别所在。在我看来,统计学家 使用数据进行回归分析。而 数据专家 需要切实获取数据、进行回归分析、沟通结果、展示模式,并超越所在机构当时的局限,立足于制高点带领大家寻求切实可行的突破发展。鉴于他们需要统筹整个数据通道,我希望这个数据生态系统可以罗列出数据专家门常用的重要工具和使用方法,以及工具之间的交互联系。

  第一部分:数据源

数据是整个数据生态系统的源头。总的来说,数据源可分为数据库、应用和第三方数据三类。

1,数据库

结构化数据库早于非结构化数据库出现。结构化数据库每年有约250亿美元的市场,你可以在数据生态系统图里看到众所周知的Oracle,和一些新创公司譬如MemSQL等。结构化数据库储存有限的数据列,一般由结构化查询语言(SQL)运行,用于数据可靠完善至关重要的领域,比如说财政和运营。

对结构化数据库有一个重要假设,那就是查询数据时必须能得到一致且完善的结果。想一想谁绝对需要这样一种结构化数据库?对了,就是你的银行。它们存储账户信息、个人姓名、借款等等,必须随时分毫不差地知道你账户中的金额。

而另外一种则是非结构化数据库。情理之中,非结构化数据库是由数据专家们开拓的,因为数据专家眼中的数据与账户并不相同。数据专家不太在意查询结果绝对一致,他们更关注数据的灵活性。因此, 非结构化数据在许多方面降低了对数据存储和查询的要求 。

很多非结构化数据库是谷歌获得成功的直接产物。谷歌尝试把互联网存储在数据库中,其野心和工程之庞大可想而知。MapReduce是一种用于这种数据库的技术,虽然它一定程度上没有结构化查询语言 (SQL)那么强大,但是 用户可以依据需要来调整和扩充它们的数据 。MapReduce的数据使用甚至已经超出了谷歌的初始预期。比如现在谷歌可以在所有网站间查询,并根据网站之间的互相链接来调整搜索结果。这种可量化的灵活查询使谷歌获得了巨大的竞争优势,因此雅虎和其他公司以巨额投资来开发这种技术的开源版本,名叫Hadoop。

此外,非结构化数据库通常所需的 储存空间通常更小 。在过去数据存储十分昂贵,因此几年前,一些主要的互联网公司不得不每隔几个月就清空一次数据库。现在这种情况已难以想象了。 从强大的推荐引擎,到世界级的翻译系统,到令人难以置信的存货管理,都建立于这些数据之上。

非结构化数据库一般来说没有结构化数据库那么精确,但对于许多应用(尤其是数据科学界),这个折衷是值得的。举例来说,

比如你的非结构化数据库在100个机器上运行,但是其中有一个当机了。这时你仅用99台机器(而非100台)来决定向用户推荐观看一部特定的电影,也完全可行。这种类型的数据库看重灵活性,量化以及速度,哪怕不能随时保证完全精确。

还有一个更有名的例子。一个软件公司创建了一个基于Hadoop的非结构化数据库软件Cloudera。来看看它有多大的成长空间吧:7年前,我接到风投的电话,他们预期Cloudera在全球有10到15家公司的市场,去年Cloudera已获得了将近10亿美元的融资。 随着数据专家取代财务和会计,成为最主要的数据消费者,数据库将会越来越走进每一个人的生活 。

2,商业应用

十年前,没有人想过能把重要的商业数据存在云端,如见这却早已成为了现实。这也许是商业的IT基础结构的最大转变之处。 我在数据库生态系统中列出了四种主要的商业应用,分别是销售、营销、产品和消费者,每一种功能都有多种SaaS应用可供选择。

SalesForce 应该是首先掀起这股趋势的并最先获得成功的。他们把软件开发的目标人群是终端用户(销售团队),而非单个的首席技术官。这对他们的用户十分有用,在此过程中,大家也能看到公司客户能够信任地把重要公司数据放在云端。 销售数据不再存在于用户自己安装的内部数据库,而是被放在云端,由致力于保证数据可用且稳定的云端公司提供服务。

其他公司也纷纷效仿这种做法。如今基本上每个商业部门都有一个对应的数据应用。

Marketo存储营销数据,

MailChimp存储电子邮件,

Optimizely存储A/B测试数据,

Zendesk存储顾客满意度,诸如此类。

为什么这是相关的呢?如今每个商业部门都有强大的数据库,由数据专家分析并用于预测分析。数据量很大,却零散地分布在多个应用之中。比如说你在SugarCRM 中查看某个消费者的信息,但是当你想知道这名顾客的服务记录时,需要去ZenDesk中查看。而如果你想要知道他是否支付了最近的账单,则要去查Xero。所有的数据都被存放在不同的地点,网站和数据库中。 商业数据被转移到了云端,可以存放更多的数据了,但是这些数据被零散地存放在全世界的不同服务器的不同应用里。

3,第三方数据

第三方数据出现得比结构化和非结构化数据库都早得多。Dun & Bradstreet从1841年就开始卖数据了。随着数据对每个机构都愈发重要,这个领域也将会获得长足的发展。 在数据库生态系统图中,我大体把第三方数据分成四个领域,分别是

商业信息数据,

社交媒体数据,

网页爬虫和

公开数据。

3.1,商业信息数据

商业信息数据开始最早。 我上面提到了Dun & Broadstreet,商业数据购买对许多商业机构来说都至关重要。商业数据能回答所有B2B公司至关重要的问题:我们的销售团队该找谁谈?如今,这些数据更被扩展应用至网上地图和高频交易等领域。

新创的数据卖方如Factual,不仅售卖商业数据,更倾向于从这些高盈利的新型领域起步。

3.2,社交媒体数据

社交媒体数据虽然是新兴产物,但发展很快。

通过智能PR公司对社交媒体中的文本作情感分析,营销人员能够切实地了解到品牌热度与影响力,并有效评估品牌价值。

你可以从Radian6 和DatSift里看到全部细节。

3.3,网络爬虫

接下来我们来看看网络爬虫,我个人认为这是一个很有发展潜力的领域。如果能够把所有网站都作为数据源,由数据科学团队发展和分析,真不知道还有多少新型商业和技术会由此而生。如今从事网络爬虫的重要公司包括 import.io和kimono,我认为这个领域将在接下来几年呈现爆炸式的增长。

3.4,公众数据

最后,当然还要提及公众数据。如果没有数据专家团队的支持, 不知道奥巴马总统是否还能够赢得2004年的大选,这可能也是后来奥巴马大力推动 Data.gov 的原因。许多地方政府也紧随其后。

亚马逊网络服务 存放了许多惊人的公众数据,囊括从卫星图像到安然公司的邮件等各个方面。这些庞大的数据系列可以帮助扩大新型商业,训练更智能的算法,并解决许多实际问题。

这个领域发展快速,甚至出现了 Enigma.io 这种专门帮助企业使用公众数据的公司。

3.5,开源工具

开源数据储存的种类激增,尤其是在非结构化数据的存储方面, Cassandra ,redistribute , Riak , Spark , CouchDB 和 MongoDB 等都大受欢迎。它们多数专注于公司应用,另外也着重于数据工程的生态系统。通过这个 交互式地图 你将可以一睹最受欢迎的开源数据存储及开采工具的概貌。


本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
存储 分布式计算 数据可视化
大数据常用技术与工具
【10月更文挑战第16天】
117 4
|
2月前
|
消息中间件 分布式计算 关系型数据库
大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL
大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL
48 0
|
4月前
|
分布式计算 DataWorks 关系型数据库
MaxCompute 生态系统中的数据集成工具
【8月更文第31天】在大数据时代,数据集成对于构建高效的数据处理流水线至关重要。阿里云的 MaxCompute 是一个用于处理大规模数据集的服务平台,它提供了强大的计算能力和丰富的生态系统工具来帮助用户管理和处理数据。本文将详细介绍如何使用 DataWorks 这样的工具将 MaxCompute 整合到整个数据处理流程中,以便更有效地管理数据生命周期。
132 0
|
4月前
|
数据可视化 大数据 定位技术
GIS:开源webgl大数据地图类库整理
GIS:开源webgl大数据地图类库整理
126 0
|
26天前
|
机器学习/深度学习 搜索推荐 大数据
大数据与教育:学生表现分析的工具
【10月更文挑战第31天】在数字化时代,大数据成为改善教育质量的重要工具。本文探讨了大数据在学生表现分析中的应用,介绍学习管理系统、智能评估系统、情感分析技术和学习路径优化等工具,帮助教育者更好地理解学生需求,制定个性化教学策略,提升教学效果。尽管面临数据隐私等挑战,大数据仍为教育创新带来巨大机遇。
|
2月前
|
存储 分布式计算 大数据
大数据的工具都有哪些?
【10月更文挑战第9天】大数据的工具都有哪些?
78 1
|
3月前
|
存储 分布式计算 Hadoop
大数据分析的工具
大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军事监控,视频和图像档案,及大型电子商务。
44 8
|
2月前
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
39 0
|
2月前
|
分布式计算 Hadoop 数据挖掘
6个常用大数据分析工具集锦
6个常用大数据分析工具集锦
57 0
|
3月前
|
分布式计算 Hadoop 大数据
28个大数据的高级工具汇总
文章汇总了28种大数据高级工具,并对Hadoop、Spark、Storm等关键技术进行了详细介绍,同时还提供了获取大数据集的多个资源链接。
72 0