深入浅出——大数据那些事

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 点击标题下「大数据文摘」可快捷关注   现在,大数据是一个被滥用的流行词,但是它真正的价值甚至是一个小企业都可以实现。通过整合不同来源的数据,比如:网站分析、社交数据、用户、本地数据,大数据可以帮助你了解的全面的情况。


 

现在,大数据是一个被滥用的流行词,但是它真正的价值甚至是一个小企业都可以实现。通过整合不同来源的数据,比如:网站分析、社交数据、用户、本地数据,大数据可以帮助你了解的全面的情况。大数据分析正在变的越来越容易,成本越来越低,而且相比以前能更容易的加速对业务的理解。

 

大数据通常与企业商业智能(BI)和数据仓库有共同的特点:高成本、高难度、高风险。以前的商业智能和数据仓库的举措是失败的,因为他们需要花费数月甚至是数年的时间才能让股东得到可以量化的收益。然而事实并非如此,实际上你可以在当天就获得真实的意图,至少是在数周内。

 

为什么使用大数据?

数据在呈爆炸式的速度增长。其中一个显著的例子来自于我们的客户,他们大多使用谷歌分析。当他们分析一个长时间段数据或者使用高级细分时,谷歌分析的数据开始进行抽样,这会使得数据的真正价值被隐藏。现在我们的工具Clickstreamr可以收集点击级的巨量的数据,因此你可以追踪用户在他们访问路径(或者访问流)中的每一个点击行为。另外,如果你加入一些其他的数据源,他就真正的变成了大数据。

 

更完整的解析

大数据并不仅仅是大量的数据。他的真正意义在于根据相关的数据背景,

来完成一个更加完整的报告。举个例子,如果你把你的CRM数据加入到你网站的数据分析当中,你可能就会找到你早就知道的高价值用户群。她们是女性,住在西海岸,年龄30至45,花费了大量的时间在Pinterest和Facebook。

 

现在你已经被这些知识武装起来了,那就是如何有效的设定和获取更多高价值的用户。类似Tableau和谷歌这样的公司给用户带来了更加强大的数据分析工具(比如:大数据分析)。Tableau提供了一个可视化分析软件的解决方案,每年的价格是2000美金。谷歌提供了BigQuery工具,他可以允许你在数分钟内分析你的数据,并且可以满足任何的预算要求。

 

大数据是什么?

由于大数据往往是一个混合结构、半结构化和非结构化的数据,因此大数据变得难以关联、处理和管理,特别是和传统的关系型数据库。当谈到大数据的时候,高德纳公司(Gartner Group,成立于1979年,它是第一家信息技术研究和分析的公司)的分析师把它分成个3个V加以区分:

  • 量级(Volume):大量的数据

  • 速率(Velocity):高速的数据产出

  • 多样性(Variety):多种类型和来源的数据。

正如我们所说,大部分的企业每一天在不同的领域都在产出大量的数据。这里给出一组样本数据的来源及类型,他们都是企业在做大数据分析时潜在的收集和聚合数据的方式:

  • 网站分析

  • 移动分析

  • 设备/传感器数据

  • 用户数据(CRM)

  • 统一的企业数据(ERP)

  • 社交数据

  • 会计系统

  • 销售点系统

  • 销售体系

  • 消费者数据(例如益佰利的数据、邓氏商联的数据或者普查数据)

  • 公司内部电子表格

  • 公司内部数据库

  • 位置数据(空间位置、GPS定位的位置)

  • 天气数据

但是针对无限的数据来源,不要去做太多事情。把焦点放在相关的数据上,并且从小的数据开始。通常以2-3种数据源开始是一个好的建议,比如网站数据、消费者数据和CRM,这些会让你得到一些有价值的见解。在你最初进入大数据分析之后,你可以开始添加数据源来促进你的分析,并且公布更多的分析结果。想要获得更多关于大数据细节的知识,可以去查阅维基百科的大数据词条。

 

大数据的好处

大数据提供了一种识别和利用高价值机会的前瞻性方法。如果你想,那么大数据可以提供如下好处:

  • 根据数据背景获得更完整的情况

  • 利用数据驱动做出更好的商业决策

  • 降低商业风险

  • 市场上最好的解决方案

  • 开发出更好的定制化产品或服务

  • 更好的预测客户的需求和想法

  • 迅速适应市场

  • 在实时数据的趋势和预测上更加主动

  • 建立精确的生命价值周期(LTV)、地图和用户类型

  • 阅读更长和更复杂的属性窗口(用于网站点击流数据)

  • 对通过细分的更复杂的导航进行可视化,并且改善你的转化漏斗(用于网站点击流数据)

 

并不适用所有人

请记住,大数据分析并不适合所有人。如果你没有安装并且制定分析中的目标、没有准备好归因模型、再营销和高级细分,那么你就没有为大数据做好准备。

如果你把谷歌分析使用到了极限,特别是由于他的采样数据。那么你已经准备好接触大数据的皮毛了。

 

入门级大数据解决方案

目前有一大批面向企业级的大数据解决方案,比如甲骨文、SAP,、IBM、EMC和惠普。但是。这篇文章是面向寻找入门级大数据解决方案的中小型企业的读者。下面我们将讨论数据分析的输出,并且分享两个相对廉价的解决方案,从而帮助你开始使用大数据分析。

 

分析结果的输出

目前对于大多数企业而言,数据分析主要还是针对核心数据。然而在未来,数据分析将不会采用采样数据,并且会结合其他来源的数据,使用更加复杂的工具(比如Tableau)去分析他。谷歌分析是一个伟大的工具,但是你能获得的结果目前已经到达极致了。

汇总数据的第一步往往是你输出数据分析的过程。

 

如果你是一个谷歌分析高级版的用户,这将很容易被推进。因为谷歌分析高级版集成了BigQuery功能来帮助企业推动大数据分析。(学习更多的关于数据分析及BigQuery的集成,请查看视频)

如果你是一个谷歌分析标准版的用户,也不用担心。我们已经开发了一个工具,它可以导出未采样的谷歌分析数据,并且把数据推送到BigQuery,或者其他的可以做大数据分析的数据仓库或者数据工具中。一旦你导出了你的数据,你可以做好准备把它导入到一个大数据分析工具中进行存储、处理和可视化。这就给我们带来了最好的入门级大数据解决方案。

 

谷歌大数据解决方案

 

谷歌BigQuery是一个网络服务,它能够让你执行数十亿行的大规模的数据集的交互分析。重要的是它很容易使用,并且允许精明的用户根据需求开发更加大的功能。BigQuery采用你容易承受的按需定价的原则,当你开始存储和处理你的大数据查询时,每个月的花费只有几百美金。事实上,每个月前100GB的数据处理是免费的。随着你需求的增长,你可以拓展你的数据需求,并且为这部分需求买单。最好的消息是,BigQuery使得大数据存储和处理适用于所有人。

 

Tableau大数据解决方案

 

Tableau提供了4个强大的功能(也许更多)来促进大数据分析和预测分析。

  • Salesforce连接器允许你轻松的连接CRM和销售数据(更快、更容易的连接CRM和销售数据,所以如果你使用Salesforce,没有什么理由不加入大数据)

  • 谷歌分析链接可以帮助你更容易的创建自定义的仪表盘和报告(然而这个功能依旧需要升级才能变的更好)

  • 谷歌BigQuery连接器可以快速的分析在谷歌免费的网络服务中的大量数据。

  • 为任何点击行为的分析添加预测的功能(真正快速的预测)

     

数据分析师是关键

企业想要利用大数据,是需要一个数据分析师的。他必须知道不同数据的用法,并且要授予工具连接数据的权限。

当一个数据分析师使用BigQuery或者Tableau来完成提取和合并数据时,他们可以发现在大型数据集合当中的隐藏的模式。这才是大数据分析的关键。它可以是决策者做出更好的决策,并且加强了更精细颗粒度的数据段的识别。

利用这个新技能,你可以发现不同的用户与网站的互动行为。你可以在谷歌分析中以此来创建新的高级细分规则并且针对你的市场或者网站活动做出更高的价值分析。

 

发现不明情况内的价值

你的很多不同的数据隐藏不明的情况,这些是希望被发现并告知的。开始把网站分析、CRM、社交数据、位置数据等不同的数据源进行结合。这会使你的数据有了相关的背景,并且允许你通过数据看到一个更加完整的情况。这一定会让你胜出竞争对手。

为了说明这点,我们举个例子,通过大数据分析汇总社交数据、位置数据、客户数据、销售数据,你可以发现在旧金山的社会化媒体的趋势。这使你可以利用用户需求的增加来增加特定地区的库存。

不要忘了大数据分析的黄金法则:关注点,在正确的时间关注正确的商业问题。


原文发布时间为:2014-03-17


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
1天前
|
弹性计算 运维 搜索推荐
三翼鸟携手阿里云ECS g9i:智慧家庭场景的效能革命与未来生活新范式
三翼鸟是海尔智家旗下全球首个智慧家庭场景品牌,致力于提供覆盖衣、食、住、娱的一站式全场景解决方案。截至2025年,服务近1亿家庭,连接设备超5000万台。面对高并发、低延迟与稳定性挑战,全面升级为阿里云ECS g9i实例,实现连接能力提升40%、故障率下降90%、响应速度提升至120ms以内,成本降低20%,推动智慧家庭体验全面跃迁。
|
2天前
|
数据采集 人工智能 自然语言处理
3分钟采集134篇AI文章!深度解析如何通过云无影AgentBay实现25倍并发 + LlamaIndex智能推荐
结合阿里云无影 AgentBay 云端并发采集与 LlamaIndex 智能分析,3分钟高效抓取134篇 AI Agent 文章,实现 AI 推荐、智能问答与知识沉淀,打造从数据获取到价值提炼的完整闭环。
343 90
|
9天前
|
人工智能 自然语言处理 前端开发
Qoder全栈开发实战指南:开启AI驱动的下一代编程范式
Qoder是阿里巴巴于2025年发布的AI编程平台,首创“智能代理式编程”,支持自然语言驱动的全栈开发。通过仓库级理解、多智能体协同与云端沙箱执行,实现从需求到上线的端到端自动化,大幅提升研发效率,重塑程序员角色,引领AI原生开发新范式。
814 156
|
2天前
|
数据采集 缓存 数据可视化
Android 无侵入式数据采集:从手动埋点到字节码插桩的演进之路
本文深入探讨Android无侵入式埋点技术,通过AOP与字节码插桩(如ASM)实现数据采集自动化,彻底解耦业务代码与埋点逻辑。涵盖页面浏览、点击事件自动追踪及注解驱动的半自动化方案,提升数据质量与研发效率,助力团队迈向高效、稳定的智能化埋点体系。(238字)
244 156
|
3天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
10天前
|
机器人 API 调度
基于 DMS Dify+Notebook+Airflow 实现 Agent 的一站式开发
本文提出“DMS Dify + Notebook + Airflow”三位一体架构,解决 Dify 在代码执行与定时调度上的局限。通过 Notebook 扩展 Python 环境,Airflow实现任务调度,构建可扩展、可运维的企业级智能 Agent 系统,提升大模型应用的工程化能力。
|
人工智能 前端开发 API
前端接入通义千问(Qwen)API:5 分钟实现你的 AI 问答助手
本文介绍如何在5分钟内通过前端接入通义千问(Qwen)API,快速打造一个AI问答助手。涵盖API配置、界面设计、流式响应、历史管理、错误重试等核心功能,并提供安全与性能优化建议,助你轻松集成智能对话能力到前端应用中。
791 154