【独家科普】揭秘大数据的分析方法

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:     编注:“大数据文摘”的很多读者亲友,一些纯粹的大数据爱好者,甚至有一部分企业管理者经常在后台向我们建议,希望我们能把大数据的分析系统做一个简单的介绍,不要“只见案例,不见原理”。于是Larry就自告奋勇来为大家做一个科普,带领读者亲友们一探究竟,让我们来揭开大数据推荐系统神秘的面纱!     说到大数据,神马根据数据进行精准营销啊,神马更了解你的客户啊,神马啤酒尿布超市推送商品预测怀孕亚马逊预测式发货等等,你谷歌百度搜狗有道一气,都是说推荐系统如何如何牛逼的,但是没人介绍推荐系统到底是啥样的。

 

  编注:“大数据文摘”的很多读者亲友,一些纯粹的大数据爱好者,甚至有一部分企业管理者经常在后台向我们建议,希望我们能把大数据的分析系统做一个简单的介绍,不要“只见案例,不见原理”。于是Larry就自告奋勇来为大家做一个科普,带领读者亲友们一探究竟,让我们来揭开大数据推荐系统神秘的面纱!

 

  说到大数据,神马根据数据进行精准营销啊,神马更了解你的客户啊,神马啤酒尿布超市推送商品预测怀孕亚马逊预测式发货等等,你谷歌百度搜狗有道一气,都是说推荐系统如何如何牛逼的,但是没人介绍推荐系统到底是啥样的。今天来八一八。过年了,干货全当送礼。

  先看看系统架构吧。大多推荐系统架构基本是这样的:

  架构图看了,那就分别细说一下。

   先说数据底层。或者叫基础数据层。这一层基本是在做数据的整合和批量处理。数据整合主要是整合产品系统的用户行为、日志等数据和相关运营监控系统的数据。一般是以客户的id为主键或key,形成一个大宽表。之后通过算法的批量计算进行聚类,分类等操作。形成的数据结果反馈至中间计算层。

   中间计算层通过基础数据层的结果进行实时的小批量计算,将结果推送到进线计算层。

   进线计算层结合中间计算层的结果和用户的实时使用和反馈进行结合。实时给出结果。

   呵呵,是不是和看绕口令一样?那看下面的例子。

   你要听歌。打开一个appapp里面就会有“今日推荐”,这个基本上是中间计算层的数据。还有一个就是猜你喜欢。“猜你喜欢”基本上是进线计算层的数据。还有就是音乐类型啊,场景啊,这个基本上就是基础数据层的批处理跑出来的。

   上面的内容权作科普。基本上告诉了大家推荐系统的架构是怎样的。

   下面来点真正的干货!


 1.推荐系统依赖全量数据。以一个音乐app产品为例。用的人多,反馈越多,可用作分析的用户数据就越多。数据越多,那些原本的数据挖掘算法,就会基于你的这个app训练得更好。或者说更适合于你自己的产品。所以说,你要想做一个好的app,花钱做推广吧。

2.算法很重要,但是需要逐步完善。算法是一个工具,工具用的好需要好的工匠。工程师作为工匠要快速的进行算法的完善,以便能够符合app的长期运营战略。以音乐app产品为例,短期的算法改进可能会让你有大量的用户,但是由于多种因素变化,某个或某些算法可能存在“半衰期”--就是说基于这个算法,你改进了很多次,但是计算结果用户都不喜欢。这个其实就是需要一个长期的稳健的规划。如何设计和改进你的算法策略和算法计划很关键。

3.了解你的产品。不管你的推荐系统是应用的电商网站,还是用于音乐app,还是其他。了解你的产品本身很重要。例如音乐类app产品,在应用中,用户对音乐场景的选择粘度要远高于对音乐类型的选择粘度--“忧伤时候必须听的歌”,“失恋必听30首”这样的歌单的点击会高于“R&B;最牛100首”,“史上重金属经典50首”这样的歌单。这种情况下其实算法是帮不了你的,只能通过你对产品的感情了。



原文发布时间为:2014-01-25

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号
相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
26天前
|
数据采集 人工智能 分布式计算
ODPS在AI时代的发展战略与技术演进分析报告
ODPS(现MaxCompute)历经十五年发展,从分布式计算平台演进为AI时代的数据基础设施,以超大规模处理、多模态融合与Data+AI协同为核心竞争力,支撑大模型训练与实时分析等前沿场景,助力企业实现数据驱动与智能化转型。
117 4
|
2月前
|
消息中间件 NoSQL 数据可视化
数据说了算,可你得“听得快”——聊聊大数据里的实时分析
数据说了算,可你得“听得快”——聊聊大数据里的实时分析
79 2
|
3月前
|
数据采集 人工智能 算法
数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
91 1
|
2月前
|
SQL 存储 机器学习/深度学习
基于 Dify + Hologres + QWen3 进行企业级大数据的处理和分析
在数字化时代,企业如何高效处理和分析海量数据成为提升竞争力的关键。本文介绍了基于 Dify 平台与 Hologres 数据仓库构建的企业级大数据处理与分析解决方案。Dify 作为开源大语言模型平台,助力快速开发生成式 AI 应用;Hologres 提供高性能实时数仓能力。两者结合,不仅提升了数据处理效率,还实现了智能化分析与灵活扩展,为企业提供精准决策支持,助力数字化转型。
479 2
基于 Dify + Hologres + QWen3 进行企业级大数据的处理和分析
|
2月前
|
存储 Java 大数据
Java 大视界 -- Java 大数据在智能家居能源消耗模式分析与节能策略制定中的应用(198)
简介:本文探讨Java大数据技术在智能家居能源消耗分析与节能策略中的应用。通过数据采集、存储与智能分析,构建能耗模型,挖掘用电模式,制定设备调度策略,实现节能目标。结合实际案例,展示Java大数据在智能家居节能中的关键作用。
|
2月前
|
人工智能 边缘计算 分布式计算
ODPS 在 AI 时代的引领潜力与突破方向分析
阿里云 ODPS 凭借超大规模数据处理、多模态架构与 Data+AI 融合优势,正引领 AI 时代数据革命。其弹性算力支撑大模型训练,多模态处理提升数据利用率,AI 工程化能力完善。但实时性、边缘计算与跨云协同仍存短板。未来将重点突破智能数据编织、异构计算调度、隐私增强平台与边缘云端协同,加速行业落地。结合绿色计算与开放生态,ODPS 有望成为 AI 驱动的数据基础设施核心。
77 0
|
3月前
|
数据采集 搜索推荐 算法
Java 大视界 -- Java 大数据在智能教育学习社区用户互动分析与社区活跃度提升中的应用(274)
本文系统阐述 Java 大数据技术在智能教育学习社区中的深度应用,涵盖数据采集架构、核心分析算法、活跃度提升策略及前沿技术探索,为教育数字化转型提供完整技术解决方案。
|
3月前
|
存储 缓存 分布式计算
OSS大数据分析集成:MaxCompute直读OSS外部表优化查询性能(减少数据迁移的ETL成本)
MaxCompute直读OSS外部表优化方案,解决传统ETL架构中数据同步延迟高、传输成本大、维护复杂等问题。通过存储格式优化(ORC/Parquet)、分区剪枝、谓词下推与元数据缓存等技术,显著提升查询性能并降低成本。结合冷热数据分层与并发控制策略,实现高效数据分析。
|
3月前
|
数据采集 自然语言处理 算法
朋友圈里的“数据局”——聊聊大数据与社交媒体分析的那些事儿
朋友圈里的“数据局”——聊聊大数据与社交媒体分析的那些事儿
136 0
|
传感器 分布式计算 安全
Java 大视界 -- Java 大数据在智能安防入侵检测系统中的多源数据融合与分析技术(171)
本文围绕 Java 大数据在智能安防入侵检测系统中的应用展开,剖析系统现状与挑战,阐释多源数据融合及分析技术,结合案例与代码给出实操方案,提升入侵检测效能。

热门文章

最新文章