车品觉:大数据如何帮助企业决策

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

大数据也是未来最重要的生产要素。目前在大数据营销、大数据信用与风险控制类应用方向有了不少成功的实践。我们相信未来的创新模式将会围绕着数据的跨界融合衍生出数据服务新产业。企业内外数据、线上线下数据融合产生化学反应,基于数据的创新模式给我们无限想象空间。


◆ ◆ 

大数据领域正在出现的三大颠覆性变化


最近,我去了一趟美国,看到了大数据的几个变化,这些变化有可能极大地改变世界。第一个变化是开始从被动搜集数据,转变为主动搜集数据。在美国接触了一个公司,他们现场给我们表演,电视里在播出一个新闻,他们把手机放在电视机旁,手机很快识别出这是CNN新闻频道和正在讲的内容。我们三个人拿出自己的手机,手机同时播不同的三首歌。他们的软件很快辨别出这三首歌是什么,而同时电视里的新闻还在播放,所以软件识别出来的是三首歌和作为背景正在播放的新闻。这意味着非结构性的数据编程结构性数据,开始从被动搜集数据,转变主动搜集数据。


第二个变化是非实时转实时。滴滴打车的数据可以说明不同地点的人流情况。但这对零售业有什么用处呢?即使零售业得到了这些数据,但如何触达它的用户群呢?大家知道,这个世界有一个DSP,DSP是一个中间方,记录用户去了哪个网站,用了什么APP。当这个人使用APP时,这个数据告诉DSP,这个人出现在了某一个地方。DSP就帮商户把广告放进去,做智能投放。由于背后有大数据支撑,这个投放在很短的时间内就能完成。这种对营销来说,绝对是一个颠覆。


另外,还有一个非常重要的变化是对话。美国有两大公司,几乎同时宣布了一个战略性的科技——对话的人工智能。比如在你的房间有一个音响,这个音响同时是一个传感器。当你说我要买一个酱油,音响会和你说:“老板,你是不是要买你之前买过的酱油?”你说:“不是,我要买新的”。它就会告诉你,新的酱油和那个同样差不多的有几种,建议你要选择哪种。这个变化将引发一个大的颠覆。


◆ ◆ 

大数据与隐私


说到大数据,不得不提的是大数据与隐私这个问题。

这次在美国,见到一个在隐私问题上给美国总统提意见的专家。他说,关于个人隐私会有一个颠覆性的变化,这一变化在欧洲已经开始了,现在是美国。过去,当用户使用一个应用时,都会和应用方签订一个东西,标明用户同意把自己的数据交给应用方,去改善用户体验。但是,大部分人都不知道自己同意的是什么,仅仅是点击了“同意”。美国的法律对此准备有所修改,这可能会改变大数据产业使用数据时候的权利。在这个变化中有个问题,数据分可识别数据、不可识别数据。互联网的数据,有的数据可以识别是你,有的不可以识别是你。当你不能完全知道他是谁,没有办法和他说你是否同意时该怎么办。现在美国正在认真讨论类似的事情。


另一个问题是数据的拥有权是谁?早期大家对数据拥有权是用实物来定法律,后来发现这条路撞墙了。数据的可爱之处就是看见就看见了,不在于你拿着还是我拿着。这个问题在法律、大数据行业中已经开始关注。


关于隐私问题,大部分用户更多是希望平衡好,你不能拿到我的数据我一点好处都没有,你拿了数据使用我一点都不知道,这不行。所以,问题就谁有权利控制?比如脸书,每一次使用用户数据,会告诉用户,这个数据会在某个点里使用,这就涉及数据使用透明和是否可控的权利问题。这个行业里面很多人不想讲这个问题,但并不是不知道。但这是我们做大数据的人,必须要慢慢解决的,否则这是一个定时炸弹。当然,有大量的数据不相关隐私,比如用1000个人或者5000个人的数据算出来的结果。当做大数据营销的时候,有没有把他捆绑在5000个人当中营销?美国有些法案很可爱,个人数据的隐私问题不是放在单独的方案当中,而是放在行业里面。当时我问专家,为什么要放在行业里面?他说,个人隐私和行业有关,如果是卖药的,个人隐私的监管会非常严格。如果这个东西属于游戏类的个人数据,相对简单一些。而欧洲,整个法律是一套过去,不讲行业。欧洲人认为,隐私是一个人的底线。而美国,认为价值和隐私之间可平衡。这些都是未来大家都会议论的课题


◆ ◆ 

做好数据关联、数据产品的迭代


大数据的本身是异构异类的数据。就像裁缝把不同的材料缝成一件衣服一样,需要很多技术把数据连接起来,使这些数据可以使用。就像不同材料缝合在一起,中间会有一些缝合处,美国任何一个做大数据的人,都会告诉你数据关联很难。美国可以把数据关联起来的公司有几家。美国大数据行业在产业链上,是可以分工的。你干这个,我干那个,大家协同把东西做出来。这个和中国的情况是有区别的。


要把大数据整合起来,数据源是否好,这个非常重要,另外就是测试。有没有一个环境,可以让我进行数据测试,把这个数据试着用在不同的环境会怎么样。数据是迭代的,算法是迭代的,产品服务也是迭代的。数据有不同的版本、算法有不同的版本,我们要找到最优、同一个语境下最好的算法,达到最好的服务。


◆ ◆ 

企业在大数据时代要变经验驱动为数据驱动


大数据对于企业来说,需要将大数据变成企业的洞察力、行动力。10年前商业决策的人都是靠经验驱动,用数据证明自己的判断是对的。而数据驱动,是要拥有足够的数据,从而通过数据本身发现一些以前没有看到的东西。比如,我们曾经发现购物网站的搜索,有一些人搜索过的关键词,两个月之后会成为比较流行的关键词。当我们深入进去分析数据时,数据告诉我们,在购物里面也有达人。购物达人看的东西和普通人不一样,他们有自己的方法寻找自己想要的商品。如果能跟踪这些达人,可以找到用一般推荐引擎无法找到的东西。


一个学习的完整体系,简单来讲,首先有目标定义,之后进行决策、行动、拿到行动结果之后学习。人类学习的一般方法,都是根据这个链路进行,这叫“自学习”。用自己的经验慢慢积累,进行一个自我循环。




当我们开始做大数据的时候,你会发现,别人的数据会成为你的经验。你也可以把别人的数据代入自己的决策,学习到别人的经验,这叫“集体智慧”。大数据当中找到别人的集体智慧。大数据里的创新可以有三个层面:数据的创新、算法的创新和服务的创新。




下面这张幻灯片中有四个坐标:数据集中、数据分散、问题清楚、问题不清楚。过去我们可以解决的是数据集中、问题很清楚的部分。后来开始出现很多碎片化、分散的数据,我们发现可以用零散的、没有集合、没有结构化的数据,更好地解决原来的问题。举一个例子,有一个网站虽然有几亿用户群,但只有几百万人在这个网站里买彩票。这个网站如何可以找到更多用户来自己的网站上买彩票呢?按以往方法,先描述买彩票的人是什么样的。经验认为男的比较喜欢买彩票,年纪应该是25到35岁。而用大数据的方法是想猜用户下一步想做什么。可以看4周之内用户有没有看过彩票的内容,如果有,那他就是一个希望要买彩票的人,只是没有在网站里买。用这个思路,我们发现,买彩票的女性比男性多,而且往往是在办公室里买的多。这样数据就指明了哪些人在哪些地点是最好去做营销的。



对于数据零散且问题不是很清楚,大数据同样可以解决。比如在面对不知道客户是什么样的人,只知道这些人是重复购买的人,而想要用大众标签去描述这些人时,可以先猜1000个人,对他们进行营销,发现有些人被猜对,有些人被猜错。对猜对的那部分人要继续深入,慢慢就会越做越准确。这就是我通常讲的用数据、养数据。


一个公司有没有大数据能力,一般看他有没有预测能力和行动能力。但是布点/收集、存储/刷新、识辨/关联,也很重要。前者是如何让数据更容易使用,后者是如何让数据更有效关联在一起。这个闭环如果可以做好,就可以做一个非常好的数据产品。




◆ ◆ 

衡量数据是否好的6大标准


衡量数据是否好的6大标准:有没有、准不准、细不细、全不全、稳不稳、快不快

好的数据的衡量标准是缺一不可。缺少一个数据质量就会下降。有的数据很稀缺,很独家,那是数据价值。数据质量,主要要看准不准。但还要看全不全,如果你只拿到安卓的数据,没有拿到苹果的数据,那也不全。一段段很零散的数据买过来,没有连续性的数据也是不行的。需要找很可靠的伙伴来提供算法、数据、服务。


一家公司是否能用好自己的数据,首先要看一个公司高管、员工有没有意愿,接着看工具。有意愿、有能力、有工具的前提下才谈到整个公司一定要对数据有自己的方向,有组织保障,以及执行到位。


信息数据化的情况还没有结束,包括应用无线化。对话性的产品,将是颠覆世界的产品。互动的产品,将来或许会越来越多,这也是我们在创新产品时候非常大的机会点。

 

原文发布时间为:2016-04-16

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
存储 数据采集 监控
大数据技术:开启智能决策与创新服务的新纪元
【10月更文挑战第5天】大数据技术:开启智能决策与创新服务的新纪元
|
1月前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
112 2
|
2月前
|
Oracle 大数据 数据挖掘
企业内训|大数据产品运营实战培训-某电信运营商大数据产品研发中心
本课程是TsingtaoAI专为某电信运营商的大数据产品研发中心的产品支撑组设计,旨在深入探讨大数据在电信运营商领域的应用与运营策略。通过密集的培训,从数据的本质与价值出发,系统解析大数据工具和技术的最新进展,深入剖析行业内外的实践案例。课程涵盖如何理解和评估数据、如何有效运用大数据技术、以及如何在不同业务场景中实现数据的价值转化。
61 0
|
4月前
|
存储 大数据 数据处理
解锁时间旅行新姿势!EMR DeltaLake 如何让你在大数据海洋中畅游历史,重塑决策瞬间?
【8月更文挑战第26天】DeltaLake是由DataBricks公司开源的大数据存储框架,专为构建高效的湖仓一体架构设计。其特色功能Time-Travel查询允许用户访问数据的历史版本,极大增强了数据处理的灵活性与安全性。通过独特的文件结构和日志管理机制,DeltaLake实现了数据版本控制。用户可通过指定时间戳或版本号查询历史数据。
55 2
|
5月前
|
存储 机器学习/深度学习 大数据
参与开源大数据Workshop·杭州站,共探企业湖仓演进实践
Apache Flink 诚邀您参加 7 月 27 日在杭州举办的阿里云开源大数据 Workshop,了解流式湖仓、湖仓一体架构的最近演进方向,共探企业云上湖仓实践案例。
181 12
参与开源大数据Workshop·杭州站,共探企业湖仓演进实践
|
5月前
|
存储 算法 数据可视化
云上大数据分析平台:解锁数据价值,驱动智能决策新篇章
实时性与流式处理:随着实时数据分析需求的增加,云上大数据分析平台将更加注重实时性和流式处理能力的建设。通过优化计算引擎和存储架构等技术手段,平台将能够实现对数据流的高效处理和分析,为企业提供实时决策支持。通过优化计算引擎和存储架构等技术手段,平台将能够实现对数据流的高效处理和分析,为企业提供实时决策支持。
802 8
|
4月前
|
Java Spring 开发者
解锁 Spring Boot 自动化配置的黑科技:带你走进一键配置的高效开发新时代,再也不怕繁琐设置!
【8月更文挑战第31天】Spring Boot 的自动化配置机制极大简化了开发流程,使开发者能专注业务逻辑。通过 `@SpringBootApplication` 注解组合,特别是 `@EnableAutoConfiguration`,Spring Boot 可自动激活所需配置。例如,添加 JPA 依赖后,只需在 `application.properties` 配置数据库信息,即可自动完成 JPA 和数据源设置。这一机制基于多种条件注解(如 `@ConditionalOnClass`)实现智能配置。深入理解该机制有助于提升开发效率并更好地解决问题。
79 0
|
5月前
|
存储 监控 数据挖掘
云上大数据分析平台:赋能企业决策,挖掘数据金矿
5.3 场景化 针对不同行业和领域的需求特点,云上大数据分析平台将推出更多场景化的解决方案。这些解决方案将结合行业特点和业务场景进行
180 7
|
5月前
|
存储 分布式计算 数据可视化
ERP系统中的大数据分析与处理:驱动企业智能决策
【7月更文挑战第29天】 ERP系统中的大数据分析与处理:驱动企业智能决策
428 0
|
6月前
|
机器学习/深度学习 数据采集 大数据
大数据技术下的企业智能决策支持系统
大数据技术下的企业智能决策支持系统
223 0
下一篇
DataWorks