【独家科普】揭秘大数据的分析方法

简介:     编注:“大数据文摘”的很多读者亲友,一些纯粹的大数据爱好者,甚至有一部分企业管理者经常在后台向我们建议,希望我们能把大数据的分析系统做一个简单的介绍,不要“只见案例,不见原理”。于是Larry就自告奋勇来为大家做一个科普,带领读者亲友们一探究竟,让我们来揭开大数据推荐系统神秘的面纱!     说到大数据,神马根据数据进行精准营销啊,神马更了解你的客户啊,神马啤酒尿布超市推送商品预测怀孕亚马逊预测式发货等等,你谷歌百度搜狗有道一气,都是说推荐系统如何如何牛逼的,但是没人介绍推荐系统到底是啥样的。

0

 

  编注:“大数据文摘”的很多读者亲友,一些纯粹的大数据爱好者,甚至有一部分企业管理者经常在后台向我们建议,希望我们能把大数据的分析系统做一个简单的介绍,不要“只见案例,不见原理”。于是Larry就自告奋勇来为大家做一个科普,带领读者亲友们一探究竟,让我们来揭开大数据推荐系统神秘的面纱!

 

  说到大数据,神马根据数据进行精准营销啊,神马更了解你的客户啊,神马啤酒尿布超市推送商品预测怀孕亚马逊预测式发货等等,你谷歌百度搜狗有道一气,都是说推荐系统如何如何牛逼的,但是没人介绍推荐系统到底是啥样的。今天来八一八。过年了,干货全当送礼。

  先看看系统架构吧。大多推荐系统架构基本是这样的:

0

  架构图看了,那就分别细说一下。

   先说数据底层。或者叫基础数据层。这一层基本是在做数据的整合和批量处理。数据整合主要是整合产品系统的用户行为、日志等数据和相关运营监控系统的数据。一般是以客户的id为主键或key,形成一个大宽表。之后通过算法的批量计算进行聚类,分类等操作。形成的数据结果反馈至中间计算层。

   中间计算层通过基础数据层的结果进行实时的小批量计算,将结果推送到进线计算层。

   进线计算层结合中间计算层的结果和用户的实时使用和反馈进行结合。实时给出结果。

   呵呵,是不是和看绕口令一样?那看下面的例子。

   你要听歌。打开一个appapp里面就会有“今日推荐”,这个基本上是中间计算层的数据。还有一个就是猜你喜欢。“猜你喜欢”基本上是进线计算层的数据。还有就是音乐类型啊,场景啊,这个基本上就是基础数据层的批处理跑出来的。

   上面的内容权作科普。基本上告诉了大家推荐系统的架构是怎样的。

   下面来点真正的干货!


 1.推荐系统依赖全量数据。以一个音乐app产品为例。用的人多,反馈越多,可用作分析的用户数据就越多。数据越多,那些原本的数据挖掘算法,就会基于你的这个app训练得更好。或者说更适合于你自己的产品。所以说,你要想做一个好的app,花钱做推广吧。

2.算法很重要,但是需要逐步完善。算法是一个工具,工具用的好需要好的工匠。工程师作为工匠要快速的进行算法的完善,以便能够符合app的长期运营战略。以音乐app产品为例,短期的算法改进可能会让你有大量的用户,但是由于多种因素变化,某个或某些算法可能存在“半衰期”--就是说基于这个算法,你改进了很多次,但是计算结果用户都不喜欢。这个其实就是需要一个长期的稳健的规划。如何设计和改进你的算法策略和算法计划很关键。

3.了解你的产品。不管你的推荐系统是应用的电商网站,还是用于音乐app,还是其他。了解你的产品本身很重要。例如音乐类app产品,在应用中,用户对音乐场景的选择粘度要远高于对音乐类型的选择粘度--“忧伤时候必须听的歌”,“失恋必听30首”这样的歌单的点击会高于“R&B;最牛100首”,“史上重金属经典50首”这样的歌单。这种情况下其实算法是帮不了你的,只能通过你对产品的感情了。



原文发布时间为:2014-01-25

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
21天前
|
存储 消息中间件 监控
【Flume】Flume在大数据分析领域的应用
【4月更文挑战第4天】【Flume】Flume在大数据分析领域的应用
|
1月前
|
Cloud Native 数据处理 云计算
探索云原生技术在大数据分析中的应用
随着云计算技术的不断发展,云原生架构作为一种全新的软件开发和部署模式,正逐渐引起企业的广泛关注。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势与挑战,并探讨如何利用云原生技术提升大数据分析的效率和可靠性。
|
1月前
|
存储 消息中间件 大数据
Go语言在大数据处理中的实际应用与案例分析
【2月更文挑战第22天】本文深入探讨了Go语言在大数据处理中的实际应用,通过案例分析展示了Go语言在处理大数据时的优势和实践效果。文章首先介绍了大数据处理的挑战与需求,然后详细分析了Go语言在大数据处理中的适用性和核心技术,最后通过具体案例展示了Go语言在大数据处理中的实际应用。
|
1月前
|
数据采集 运维 数据挖掘
API电商接口大数据分析与数据挖掘 (商品详情店铺)
API接口、数据分析以及数据挖掘在商品详情和店铺相关的应用中,各自扮演着重要的角色。以下是关于它们各自的功能以及如何在商品详情和店铺分析中协同工作的简要说明。
|
3月前
|
关系型数据库 MySQL Serverless
高顿教育:大数据抽数分析业务引入polardb mysql serverless
高顿教育通过使用polardb serverless形态进行数据汇总,然后统一进行数据同步到数仓,业务有明显高低峰期,灵活的弹性伸缩能力,大大降低了客户使用成本。
|
3月前
|
机器学习/深度学习 数据采集 算法
大数据分析技术与方法探究
在当今信息化时代,数据量的增长速度远快于人类的处理能力。因此,如何高效地利用大数据,成为了企业和机构关注的焦点。本文将从大数据分析的技术和方法两个方面进行探究,为各行业提供更好的数据应用方向。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
大数据分析的技术和方法:从深度学习到机器学习
大数据时代的到来,让数据分析成为了企业和组织中不可或缺的一环。如何高效地处理庞大的数据集并且从中发现潜在的价值是每个数据分析师都需要掌握的技能。本文将介绍大数据分析的技术和方法,包括深度学习、机器学习、数据挖掘等方面的应用,以及如何通过这些技术和方法来解决实际问题。
52 2
|
2月前
|
API
GEE案例分析——利用sentinel-3数据计算空气污染指数(Air Pollution Index,简称API)
GEE案例分析——利用sentinel-3数据计算空气污染指数(Air Pollution Index,简称API)
106 0
|
3月前
|
数据挖掘
离线大数据分析的应用
离线大数据分析的应用
|
3月前
|
机器学习/深度学习 存储 人工智能
大数据处理与分析技术:未来的基石
在信息化时代,数据已成为企业发展和决策的基础。而随着数据量的不断增长,传统的数据处理方法已经无法满足现代企业的需求。因此,大数据处理与分析技术的出现成为了新时代的必需品。本文将介绍大数据处理与分析技术的概念,意义、应用场景以及未来发展趋势。
50 3

热门文章

最新文章