大数据行业风口下的数据源服务商

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

大数据

外部分析

政策

2015年7月 国务院办公厅发布《关于运用大数据加强对市场主体服务和监管的若干意见》表示将充分认识运用大数据加强对市场主体服务和监管的重要性、运用大数据提高为市场主体服务水平、运用大数据加强和改进市场监管、推进政府和社会信息资源开放共享、提高政府运用大数据的能力和积极培育和发展社会化征信服务等。

2014年6月,国务院常务会议通过《“互联网 +” 行动指导意见》明确了推进 “互联网 +”,促进创业创新、协同制造、现代农业、智慧能源、普惠金融、公共服务、高效物流、电子商务、便捷交通、绿色生态、人工智能等若干能形成新产业模式的重点领域发展目标任务,并确定了相关支持措施。

经济

根据 International Data Corporation 的报告显示,全球大数据市场规模年增长率为 40%,在 2017年 将达到 530 亿美金,大数据市场增速约为信息通信技术市场增速的 7 倍。

行业

行业综述

数据源行业是数据产业的基础和支撑,数据源上游行业为大量的数据产生者,包括政府、机构、企业和个人。数据源的下游行业,即数据源服务的主体,与上游行业类似,同样为政府、机构、企业和个人。

根据 Bloomberg 的研究,大数据数据源行业属于大数据产业六大类型之一,其他类型为基础设施类、分析类、应用类、跨基础设施类和开源项目类。数据源公司的泛指提供围绕 “数据源” 的服务商。

在数据开放、共享和销售方面,美国等欧美国家有更为成型的商业模式,美国数据中介市场在 2012年 的市场规模达到 1500 亿美元,相当于美国政府情报工作总预算的两倍,获利模式为出售消费者信息。

竞争格局

由于国内数据源行业仍在发展初期,没有具有垄断优势的公司,多数公司为某一产业或领域的数据公司。数据源公司模式和类型不尽相同,总结如下:

  • 综合平台:集数据采集、加工和流通功能的平台,代表公司是数据堂
  • 众包采集平台:通过众包方式采集数据,代表公司有数据堂和夏陌科技
  • 产业类平台:立足不同行业的数据提供商,代表公司包括同花顺、恒生电子、华风气象、票管家和凯立德等。

发展趋势

1. 数据需求增长

随着互联网和科技的发展,政府决策、公共服务、交通物流、医疗健康、金融、电信等领域对数据的需求会越来越大。

受国家对 “互联网 +” 模式的鼓励,传统企业将逐渐的对业务进行互联网升级和改造,传统企业连同互联网公司将产生大量的数据需求。

2. 重要性加强

由于企业应用数据的能力越来越重要,数据应用能力成为如 Zara、Netflix 和 Google 等世界五百强企业的核心竞争优势,以数据为基础的决策能力帮助企业选择发展方向。现在以及未来,越来越多的企业会产生围绕数据的多方面需求。

在美国,数据源服务的主要应用领域为市场营销,数据交易公司为企业提供的数据可以帮助企业丰富产品种类、制作符合消费者喜好的产品、定制个性化的服务等。

3. 数据供给增多

伴随数据需求产生的还有更多的数据供给。在中国,以阿里、百度和腾讯为首的互联网企业推动大数据应用和行业的发展。现在中小互联网公司正在快速发展,这些互联网公司会产生庞大的数据。当传统企业信息化程度提高后,同样会产生更多可被利用的数据。

公司研究

公司介绍和所处行业位置

数据堂是数据源服务提供商,主要业务包括数据采集、制作、共享和应用等服务,以及大数据存储、管理、挖掘、分析的系统解决方案。

数据堂的商业模式可以概括为两个方面,一是面向 B 端客户提供定制化数据源服务,二是大数据交易平台。数据堂的 B 端客户包括百度、腾讯、阿里巴巴等,主要业务有代采集、处理和制作数据或出售和租赁数据。数据堂的 C 端客户是需要数据的个体,可以通过数据交易平台购买和租赁数据。

由于数据源市场空间很大,行业发展处于初期状态,数据堂竞争对手数量很少,且均不具有垄断优势,暂未形成强烈的竞争关系。

核心竞争力

1. 数据采集能力

数据堂的众包采集平台具有获取数据的优势,众客堂用户有 46 万人,这些用户可以完成数据采集任务或直接是数据产生的主体。当数据堂服务的企业产生对某类数据的需求时,数据堂会直接通过众客堂采集数据。众客堂用户还是数据堂处理数据的方式之一,同样通过众包的模式众客堂用户可甄别数据的真伪和有效性。

2. 数据处理能力

数据堂技术团队来自中国 NEC 研发部,具有超过十年的数据技术经验。数据堂非结构化处理能力可覆盖的方面包括消费票据处理、人脸识别、物体识别和精细分类数据处理。同时,数据堂还具备数据融合和整合技术能力,可以将不同来源的数据关联起来。

3. 洞悉未来数据需求领域能力

数据的产生先于数据需求的产生,更早更准的判断未来数据的需求重点可以帮助数据源企业提早布局。数据堂团队在数据领域的经验和与互联网公司的项目合作可以帮助数据堂提早布局数据采集重点,数据堂经营的数据商城Data Mall也是数据堂主要的需求收集入口之一。

4. 数据资源积累

数据资源是依托上述三个能力产生的,是最核心的竞争优势。作为行业内最先成立的数据源公司,数据堂享有先行者的优势,而先行者的优势集中体现在数据资源的积累上。数据资源和数据能力的协同共同构成数据堂的核心竞争力。

5. 客户基础和长期合同

数据堂拥有很强的客户基础,主要合作的公司为互联网和高科技制造公司,包括百度、腾讯、阿里、联想和华为等。数据堂与以上大公司维持稳定的客户和长期合作关系。客户基础和长期项目合同是数据堂稳定的收入来源,并且,与大公司的合作可以帮助数据堂加强品牌力以及进一步吸引同样的高价值客户,为数据堂带来稳定的业务增长和整体发展。

财务分析

数据堂 2013年、2014年 和 2015年 上半年的销售收入分别为 1279.8 万元、1837.5 万元和1987.8 万元。2014年 的销售收入较 2013年 增长了 43.57%,而 2015年 上半年销售收入同比增长 346.28%

数据堂的年报中解释,销售收入增加的原因主要是由于与大企业的合作,如百度、三星和华为等,2014年 数据堂与百度合作的收入占其总收入的三分之一左右。

三个会计周期内,数据堂的营业成本分别为 540 万元、989 万元和 706 万元;管理费用分别为 318 万元、653 万元和920 万元;销售费用分别为 23 万元、128 万元和 154 万元;财务费用分别是 0、13 万元和 14 万元。

数据堂解释,营业成本增加的主要原因是业务拓展所需技术人员增加,导致营业成本增加。数据堂在 2014年 公司大幅增加员工数量、组建销售团队和租赁办公场所,导致管理费用和销售费用大幅增加。2014年 公司从银行获取贷款 500 万元,因此产生财务费用。

三个会计周期内,毛利率分别为 57.79%、46.17%和 64.46%。毛利率在 2014年 出现下降的原因是总营业成本的提高。整体来看,该行业为数不多的营业成本就是人力成本,因此在未来可以维持一个相对稳定的毛利率水平。

归属于挂牌公司股东净利润为 365 万元、166 万元和 90 万元。基本每股收益 0.28 元、0.11 元和 0.06 元。数据堂营业利润受营业成本和管理费用的影响很大,由于数据堂高度依赖高端技术人员,导致成本逐年增加,而成本增速超过业务增速,所以导致毛利率和净利率下降。

数据堂 2013 至 2015 上半年财务数据以及变化情况

大数据

大数据

风险和挑战

舆论对数据涉及的安全和隐私问题的态度

数据和 “人” 的信息息息相关,目前的技术手段,例如数据脱敏,无法确保根本上脱去数据的 “敏感部分”,而一旦这些敏感部分被还原并泄漏出去,舆论压力可能会影响整个数据行业的发展。

在美国,美国联邦贸易会 Federal Trade Commission 正在研究相关法律来保证消费者更多的接触到数据源交易公司的业务,给消费者更大的对数据的控制能力。

柠檬市场

企业作为数据的主要生产者之一,并不是一个稳定的供给者,而像 BAT 这种持有大量且商业价值很高数据的公司,可能并不愿意为获得短期的利益而变现数据价值,而愿意做数据变现的公司掌握的数据体量可能满足不了数据使用者的需求,数据的质量也可能存在一些差距。

技术人员供给不足

互联网和高科技的技术人才是稀缺资源,由于培养高端技术人员周期很长,无法通过短时间培训上岗,技术人才供给可能成为限制数据堂发展的因素之一。


本文作者:佚名

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
消息中间件 分布式计算 关系型数据库
大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL
大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL
63 0
|
2月前
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
68 0
|
7月前
|
DataWorks 关系型数据库 MySQL
dataworks问题之数据源一直失败如何解决
DataWorks数据集是指在阿里云DataWorks平台内创建、管理的数据集合;本合集将介绍DataWorks数据集的创建和使用方法,以及常见的配置问题和解决方法。
|
5月前
|
分布式计算 Oracle 大数据
MaxCompute产品使用合集之没有数据源,只是将批量状态和时间写入Oracle表里,该如何操作
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
JSON 分布式计算 大数据
MaxCompute产品使用合集之使用数据服务功能,但发现ODPS数据源不支持,该如何解决
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
4月前
|
分布式计算 DataWorks 关系型数据库
DataWorks操作报错合集之新建MAXComputer数据源时,如何解决报错ODPS-0420095: Access Denied
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
6月前
|
存储 分布式计算 大数据
MaxCompute产品使用合集之显示的数据源只有一个,但是一直绑定不上,是什么导致的
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
MaxCompute产品使用合集之显示的数据源只有一个,但是一直绑定不上,是什么导致的
|
6月前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用问题之ods层离线同步任务,数据源的一张表新增了字段。如何更改可以不影响当前节点和下游任务的运行
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
数据采集 大数据 关系型数据库
数据架构问题之什么是传统大数据架构的数据源
数据架构问题之什么是传统大数据架构的数据源
|
5月前
|
分布式计算 DataWorks 关系型数据库
MaxCompute操作报错合集之配置mysql数据源querysql模式,同步到MC时遇到报错,该怎么处理
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。