大数据创业,数据哪里来?需要跨过几道坎?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

这篇文章考虑了很久也没下笔,一方面想写得干货一些,一方面又想写得引人入胜一些,纠结来纠结去,终于决定还是以一个中立的用户角度去写,尽量写得大众化一些。

 大数据创业,数据哪里来?需要跨过几道坎?

2013年5月10日,在淘宝十周年晚会-马云退休演讲中,马云说:这是一个变化的时代。还有人没搞清楚PC,移动互联网来了;还没搞清楚移动互联网,大数据来了。而变化的时代是年轻人的时代。

马云说的这句话很关键,他不仅提到了大数据,而且更是用一句话阐述了互联网从PC时代,进化到移动互联网时代,然后从移动互联网时代进阶到了大数据时代。有几个关键点很重要:

PC时代,全球催生了大量的互联网上市企业,包括谷歌、亚马逊、新浪、搜狐、新东方等等;

移动互联网时代,中国创业热潮风生水起,不仅有大量的移动互联网(包括手游)企业赴美上市,更是诞生了无数个创业奇迹;如:陌陌科技公司、中国手游娱乐集团有限公司均在纳斯达克上市;飞鱼科技、云游控股(Forgame)和蓝港互动均在香港上市;而掌趣科技和北纬通信在深圳证券交易所成功挂牌上市。移动互联网不仅为我们的生活带来了便利,更是把创业热潮推向了历史最高峰。

现在问题来了,大数据时代,创业热潮是不是应该比移动互联网时代更加热闹呢?大数据时代如何创业?大数据创业的门槛又有哪些呢?

先回答第一个问题:大数据时代,创业热潮是不是应该比移动互联网时代更加热闹呢?

据我了解,不是。走在中关村创业大街上,你能收到的100份融资BP里,可能有99份都是APP和O2O项目,但99家里90%以上会重视大数据。

那么大数据时代如何创业呢?请先了解一下大数据的创业门槛。

门槛一:数据

大数据大数据,没有数据怎么玩?那么数据从哪里来呢?

像百度、腾讯和阿里巴巴这样的BAT企业,本身就积累了大量的数据,所以他们玩起大数据来,多半是“闷声发大财”。当然了,也可以举几个BAT企业 玩大数据的例子,比如说百度旗下的“百度迁徙”、“百度精算”、“百度舆情”、“百度大数据预测引擎”等等,都是百度的大数据产品应用;阿里巴巴的话, “阿里云”、“支付宝-花呗”、“支付宝-借呗”“芝麻信用”、“蚂蚁金服”等等,都应用了大数据技术。而腾讯方面,“腾讯广点通”、“腾讯云分析”和微 信等也都应用了大数据技术。

尔等屌丝没有数据,如何玩呢?

首先,你可以通过第三方购买数据,比如说,数据堂就有很多数据出售和分享;
其次,你可以用爬虫爬回一些数据来存储;
再者,通过给企业、开发者、站长等等授权使用大数据工具来积累数据。这方面的新创企业包括Talkingdata、友盟和DataEye等。
最后,使用免费的政府、企业、和机构开放数据。比如说高德数据的API接口微博商业数据API接口等等。

总体来说,解决好数据源是大数据创业的必要门槛。关键看你创业的项目是什么。

门槛二:硬件

在北京,我曾经参观过一家大数据初创企业,当时他们还没有拿到融资。我去他们的办公区发现一幕特别心酸的事情。他们的员工挤在一间很小的屋子里办公,而两件较大的屋子都用来安放大数据存储服务器。

大数据的存储量是很惊人的,这对机房和硬件设备也提出了新的挑战。这一点和移动互联网不太一样,你做一个APP,用电脑搞开发,服务器用云服务器就行,按需购买。但是大数据不行,你没法把自家的数据存储在别人的云服务器上,一方面是安全因素,另外一方面也有产权因素。硬件也是大数据创业的门槛之一,但不是最大的门槛。

顺便补充一句,我曾经参观过的那家大数据新创企业,目前已完成百万美元的A轮融资,现在他们家的办公区特别宽敞,恭喜星图数据。

门槛三:人才

我认为大数据创业的最大门槛在于人才。和做APP不一样,大数据创业你一个人乃至几个人都是没法玩转的。初创企业你就往10-15人这样的团队先招 人吧,这样的团队要包括Hadoop工程师、算法工程师,数据建模工程师、架构师、NoSQL工程师、BI工程师等等,全都是技术要求较高、薪资要求也很 高的人才。大数据人才有多贵?在美国,在R、NoSQL和MapReduce方面需求的专业人才薪水达到了每年约11万5千美元,在中国也便宜不到哪里 去,没有年薪30万,你很难招到一个大数据人才。

据中国商业联合会数据分析专业委员会统计,未来中国基础性数据分析人才缺口将达到1400万,而在BAT企业招聘的职位里,60%以上都在招大数据人才。也就是说,技术很牛的大数据人才,他的选择面很宽,要么早就进入BAT企业,要么也是在不错的企业拿着高薪,你要挖这样的人才,除了钱,股票、期权、福利等等,都是必须付出的代价。

2015年-2016年是大数据人才最为匮乏的两年,原因很简单,各大刚刚开通了大数据科目的院校,学生还没毕 业;而招聘市场上的大数据人才需求量远远已经供不应求。除了BAT企业,通信企业、电力企业、金融银行行业、医疗行业、工业、游戏行业等等,哪个行业不是 都在招大数据人才?创业公司要在这么严峻的人才环境中找到适合自己的大数据技术人才,门槛可不止是钱。

门槛四:技术

说了人才,就要说技术了。大数据技术不是你懂C++或者R语言就够了的,大数据有一整套自己的技术体系,包括统计、编程、JAVA、数据库、 Hadoop、Spark、NoSQL、机器学习、自然语言处理、算法、数据可视化等等技术。光是Hadoop需要用到的技术和编程语言就有很多项。而且 市面上的大数据工具每家用的还不一样,用开源软件(如Hadoop、Spark)或者用SAP(SAP HANA)需要的技术也不一样。技术要求较高,而拥有大数据综合技术的人才又较少,这也成为了制约大数据创业的最大问题。

门槛五:钱

其实我不想写钱,但是又必须写钱。大数据行业创业不缺资本,只要你创业项目的商业模式没问题,并且技术能力强, 且团队靠谱,无论在中国还是在美国,融个A轮还是没有问题的,资本关注度很热。但是你在拿到融资之前,自己启动的资金就需要一大笔。人才、硬件和技术成本 都较高。这么理解吧,如果说,几个好朋友凑50万花3个月可以做一个APP项目,那么要在大数据行业创业的话,请先准备600-800万再来玩。

门槛六:商业模式

中国互联网上最赚钱的行业是什么?我认为是电子商务和网络游戏。电子商务和网络游戏也是互联网变现最快的行业。而大数据,它的变现能力不如网络游戏 和电子商务那般简单直接。在我拜访过的很多企业中,他们手里有钱、有数据、有人才也有技术,但是他们不知道自己手里的数据可以拿来做什么。也就是说,大数 据目前没有最明朗最直接的商业模式。

大数据只有和业务场景结合,才能产生价值。

大数据就像石油原油一样,你知道它在哪里,你可以开采它,但是开采出来你还需要冶炼,并且经过减压蒸馏、加氢精制、溶剂精制、溶剂脱蜡等炼制过程, 成为成品油后运送到各个加油站,让汽车加满油后产生了动力才实现最终价值。大数据也一样,需要一整套复杂的过程才能实现商业价值。

那么你可能会问了,大数据交易算不算是商业模式呢?

我个人觉得,要看交易的是什么东西?原始的非结构化的数据,后面数据清洗需要太多的工序,数据存储也是很大的成本,这样的交易代价太高。我相信无论是企业用户也好,还是个人用户也好,大家更倾向于购买“拿来就能用”的大数据数据源。

你说京东和腾讯完成首笔大数据交易,我觉得就是一个笑话,京东和腾讯的大数据不早就整合在一起了么?我用微信直接就能在京东购物,数据是互通的,何必交易?

所以说,大数据创业最难的还是在于商业模式的思考,如果你没有找到一条让大数据变现的渠道,那么千万不要忙着拉团队创业。大数据行业创业,光有idea是不够的,跑通整个商业模式才是关键。

回答最初的问题来,大数据如何创业呢?我认为是:

一、找到一个大数据商业突破口;搞清楚你要用大数据解决什么问题,你的用户是谁?商业逻辑是什么?
二、找到一笔启动资金;
三、最好自己就懂一些大数据相关技术。
四、找到几个可以与你同甘共苦的伙伴。
五、找到你的数据来源,最好是独家的数据来源。

事实上,其实我认为目前不要着急去做大数据项目,做大数据处理工具是个不错的方向,可以先从做BI(商业智能)、CRM、ERP系统开始,等你有了客户,有了数据之后,回转头来做大数据项目,会更加水到渠成。

下面回答两个大家经常问的问题:

大数据人才培训算不算大数据项目呢?

我认为不是,它应该叫做培训/教育项目。

那么市面上那么多的大数据培训企业,选哪家好呢?

我的回答是,都不选。如果你是技术类应届毕业生,建议先找份实习的工作,找个靠谱的师父跟着学,一边做项目,一遍自学大数据相关知识,遇到不懂不明 白的直接问师父好了。实践比学习更重要。如果你不懂技术,那么请先学习计算机基本编程技术,把C语言和C++等学会。学完再来想,自己到底还要学什么。大 数据培训不是针对没有技术的底层人员,而是需要一定的技术基础的。如果你的数据分析技术为0,那么可以先学好Excel,心急可吃不了热豆腐哦。


本文作者:诺蓝

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
4天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
45 7
|
4天前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
14 2
|
16天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
58 1
|
1月前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
48 3
|
11天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
26 3
|
11天前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
39 2
|
14天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
46 2
|
16天前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
49 2
|
18天前
|
存储 安全 大数据
大数据隐私保护:用户数据的安全之道
【10月更文挑战第31天】在大数据时代,数据的价值日益凸显,但用户隐私保护问题也愈发严峻。本文探讨了大数据隐私保护的重要性、面临的挑战及有效解决方案,旨在为企业和社会提供用户数据安全的指导。通过加强透明度、采用加密技术、实施数据最小化原则、加强访问控制、采用隐私保护技术和提升用户意识,共同推动大数据隐私保护的发展。