演讲精华:车品觉“实战大数据”高峰论坛

简介:
0.jpg 搜索引擎如何优化?

0

上图中,上面是“货”,下面是“人”,大部分人只能看到“爆款”产品,但是有非常多的产品是无法看到的。所以我们通过优化搜索引擎,希望更多的、适合的产品展现在更多人的面前,但是效果不好。可是我们想了一个方法,在人群中先找到一个“达人”——所谓“达人”就是比比其他人更会挑选商品的人,TA们比人群中其他人的能力强,总能挑到物美价廉的商品。在大数据样本中,一般会有“达人”出现。定义了“达人”后,我们跟踪达人的行为,看TA是如何找到商品的?学习“达人”的搜索方式后,我们找到更多的好商品和店铺。然后我们会找到更多的“达人”,不断的寻找新的“达人”,但是必须要有足够的样本量,因为今天我是“达人”,未必明天还是“达人”。所以,流程如下图:

(1) 定义达人

(2) 侦测达人行为

(3) 发现特色长尾商品发现小而美卖家

(4) 揣摩达人决策

(5) 发现达人

0

大数据也有盲点

0

举个例子,今天早上我看到一件好的衬衫,上班后,在网上搜索,准备下单,这时老板找我去开会,我只能停止搜索。在会上,我觉得比较无聊,用手机继续搜索衬衫,结果看到广告,就花了100元买了一块手表。如果从后台数据分析会得出两个结论:(1)用户APC上搜索后,对那款衬衫不感兴趣(2)用户B在手机买了一块手表。如果不是这个人戴一个GoogleGlass,是无法还原真实的购物、浏览过程的,是不知道用户A和用户B是一个人,用户A并不是对衬衫不感兴趣,而是因为没有时间。所以,盲点是:以交易为核心而非以浏览为核心

数据也有生命周期

0

数据是有生命周期的,不是所有数据都有用的,比如搜集一个关于网站浏览的数据,通常过了18个月,这个数据就没有用了。因为经过18个月,整个网站可能都变了。整改网站的变化会影响数据的生命周期。听说美国要做些法律改变,一个公司搜集个人的数据,只能保存最近6个月的数据。

最近的思考

(1) 数据开放还是不开放

(2) 数据存还是不存,如果存存多久?

0

数据十诫

(1) 好的问题、答案就在里面

(2) 在实践中提炼数据

(3) 让数据变成TechnologyEnable更多人

(4) 让数据跟着“人”走

(5) 木有数据质量,神马数据都是浮云

(6) 以假设数据都能够获取去思考问题;

(7) 大数据安全,不是监管

(8) 利用数据拿到更多有用的数据

(9) 建立数据的数据,才有进步

(10) 让人做人擅长做的事、让机器做机器擅长做的事

趋势

0

DTData Technology

CIConsumer Intelligence,就是以用户为中心的一种说法


原文发布时间为:2014-04-26


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
SQL 分布式计算 数据可视化
滴滴出行大数据数仓实战
滴滴出行大数据数仓实战
118 0
滴滴出行大数据数仓实战
|
4月前
|
SQL 分布式计算 大数据
【大数据技术Spark】DStream编程操作讲解实战(图文解释 附源码)
【大数据技术Spark】DStream编程操作讲解实战(图文解释 附源码)
43 0
|
4月前
|
分布式计算 Java 大数据
【大数据技术Hadoop+Spark】HDFS Shell常用命令及HDFS Java API详解及实战(超详细 附源码)
【大数据技术Hadoop+Spark】HDFS Shell常用命令及HDFS Java API详解及实战(超详细 附源码)
218 0
|
4月前
|
安全 大数据 API
elasticsearch|大数据|elasticsearch的api部分实战操作以及用户和密码的管理
elasticsearch|大数据|elasticsearch的api部分实战操作以及用户和密码的管理
64 0
|
4月前
|
SQL 分布式计算 数据库
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
102 0
|
4月前
|
分布式计算 大数据 Scala
【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战(超详细 附源码)
【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战(超详细 附源码)
94 1
|
16天前
|
机器学习/深度学习 人工智能 安全
Azure Databricks实战:在云上轻松进行大数据分析与AI开发
【4月更文挑战第8天】Databricks在大数据分析和AI开发中表现出色,简化流程并提高效率。文中列举了三个应用场景:数据湖分析、实时流处理和AI机器学习,并阐述了Databricks的一体化平台、云原生弹性及企业级安全优势。博主认为,Databricks提升了研发效能,无缝集成Azure生态,并具有持续创新潜力,是应对大数据挑战和加速AI创新的理想工具。
41 0
|
2月前
|
分布式计算 大数据 Java
Spark 大数据实战:基于 RDD 的大数据处理分析
Spark 大数据实战:基于 RDD 的大数据处理分析
125 0
|
4月前
|
SQL 存储 大数据
手把手教你大数据离线综合实战 ETL+Hive+Mysql+Spark
手把手教你大数据离线综合实战 ETL+Hive+Mysql+Spark
98 0
|
4月前
|
机器学习/深度学习 分布式计算 搜索推荐
【大数据技术】Spark MLlib机器学习协同过滤电影推荐实战(附源码和数据集)
【大数据技术】Spark MLlib机器学习协同过滤电影推荐实战(附源码和数据集)
79 0

热门文章

最新文章