LinkedIn首席数据科学家谈数据分析

简介:

本文讲的是LinkedIn首席数据科学家谈数据分析,在互联网企业中,LinkedIn是一家出了名的“慢公司”,但LinkedIn也是最成功的社交网络,用户品质、广告价值都是行业翘楚,秘密在于LinkedIn有一个高效的数据科学家团队。

  作为社交网络,LinkedIn并不是最大的,也不是生长最快的。成立于2003年的LinkedIn, 花了500天, 才达到了100万用户。然而,作为全球最大的职业社交网络,LinkedIn的后劲十足。今天,LinkedIn每6天就新增100万用户。平均每秒有两个新增用户。每年,LinkedIn的用户搜索量达到了42亿。LinkedIn的数据分析团队每天要分析200TB的数据来更好地了解用户。

  为什么人们现在如此的关心统计和数据,为什么数据科学家成了最性感的工作,最近,在TiE的峰会上, LinkedIn的首席数据科学家Manu Sharma 接受了采访,揭秘了LinkedIn的数据分析的工作:

  问: 能介绍一下LinkedIn的数据科学吗?

  答:LinkedIn就是用户的职业社交网络,在这个网络上,如果人们想找你却找不到那么你就可能失去一个机会。 因此,对用户来说,保持状态和资料的时时更新非常重要。LinkedIn的业务, 就是建立在对这些数据进行分析的基础上的。为了达到对数据实时快速处理的目的,我们开发了自己独特的算法,叫Metropolis。它可以每天实时处理10亿条数据。具备开源的解决方案 Voldemort, Kafka,和Zoie 那样的功能。

  数据科学家需要具备好奇心和直觉。他们需要想的问题是:我能用这些数据来做什么呢? 我需要问什么样的问题?这些数据能告诉我什么? 他们还需要足够的直觉来了解他们所采用方法的局限性。数据科学家的工作包括,采集数据,整理数据,建立正确的模型,测试模型,还要有一定的编程能力。一个数据科学家需要具备这些技能,而这些技能也是一个初创企业在建立它的数据科学家团队所需要的技能。

  问: LinkedIn数据应用的重点是那几个方面?

  答:LinkedIn的数据应用主要在三个方面:

  1. 开发创新的数据产品

  2. 从内部数据发现趋势和机会

  3. 推动业务成长

  比如”推理算法”被用来根据用户的数据进行一些信息的推测。 这一点对于将来的产品设计尤其重要。比如说, LinkedIn就采用了“推理算法”推出了“你可能知道的人”这个功能。 这对增加用户粘性和提高用户口碑传播有极大的帮助。LinkedIn是最早推出这一功能的。现在,这个功能已经成为了社交网络的必备功能了。

  此外,通过用户在资料里关于技能的描述文本,我们通过文本提取和文本分析,建立起一套技能的关键子字典。通过聚类算法,可以产生很多很有意思的发现来帮助我们提高服务或者推出产品。

  此外, 通过对各个行业的用户数据分析,还可以对行业或者整个经济进行一些预测。(编者: 比如说某个行业进行了裁员,或者某些行业的招聘计划增加等等) 这样做的一个优点是,这些数据不是来自与问卷调查,这些是用户实实在在的行为数据。 所以,在美国总统经济政策报告里,这些数据也会被采用。这些数据同样的对企业的发展也很重要。

  问:数据分析最佳实践的原则是什么?

  答:

  1. 数据量越大越好

  2. 原始数据比加工数据好

  3. 数据标准和数据质量非常重要

  4. 简单模型比复杂模型要好

  5. 建模就是要不断进行试错。

作者: 王玉圆

来源: IT168

原文标题:LinkedIn首席数据科学家谈数据分析

相关文章
|
机器学习/深度学习 数据可视化 大数据
深度解析数据分析、大数据工程师和数据科学家的区别
数据越来越多的影响并塑造着那些我们每天都要交互的系统。不管是你使用Siri,google搜索,还是浏览facebook的好友动态,你都在消费者数据分析的结果。我们赋予了数据如此大的转变的能力,也难怪近几年越来越多的数据相关的角色被创造出来。
2168 0
|
算法 大数据 数据库
数据分析师、数据科学家、大数据专家三个职位的区别
版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。 https://blog.csdn.net/chszs/article/details/80658582 数据分析师、数据科学家、大数据专家三个职位的区别 2018.6.11 版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。
1156 0
|
人工智能 物联网 数据挖掘
非数据科学家如何进行数据分析?
文章讲的是非数据科学家如何进行数据分析,Gartner报告称,到2018年,大多数业务人员和分析师都将通过自助式BI工具来准备和分析大数据。虽然目前国内的发展现状无法在2018年达到自助式分析的局面,但这一趋势无法否认。
1219 0
|
机器学习/深度学习 算法 数据可视化
硅谷资深数据科学家教你认清探索性数据分析(EDA)的价值
本文主要介绍了探索性数据分析的价值,说明了探索性数据分析(EDA)是什么以及详细介绍了两种假设,另外文中分析了探索性数据分析对于建模而言是很重要的一步,能够帮助数据科学家找到模型结果出错的原因。
2127 0
|
机器学习/深度学习 算法 数据可视化
硅谷资深数据科学家教你认清探索性数据分析(EDA)的价值
本文主要介绍了探索性数据分析的价值,说明了探索性数据分析(EDA)是什么以及详细介绍了两种假设,另外文中分析了探索性数据分析对于建模而言是很重要的一步,能够帮助数据科学家找到模型结果出错的原因。
3535 0
|
1天前
|
数据采集 数据可视化 数据挖掘
R语言与Python:比较两种数据分析工具
【4月更文挑战第25天】R语言和Python是目前最流行的两种数据分析工具。本文将对这两种工具进行比较,包括它们的历史、特点、应用场景、社区支持、学习资源、性能等方面,以帮助读者更好地了解和选择适合自己的数据分析工具。
|
7天前
|
机器学习/深度学习 数据挖掘 计算机视觉
python数据分析工具SciPy
【4月更文挑战第15天】SciPy是Python的开源库,用于数学、科学和工程计算,基于NumPy扩展了优化、线性代数、积分、插值、特殊函数、信号处理、图像处理和常微分方程求解等功能。它包含优化、线性代数、积分、信号和图像处理等多个模块。通过SciPy,可以方便地执行各种科学计算任务。例如,计算高斯分布的PDF,需要结合NumPy使用。要安装SciPy,可以使用`pip install scipy`命令。这个库极大地丰富了Python在科学计算领域的应用。
12 1
|
8天前
|
数据可视化 数据挖掘 Python
Python中数据分析工具Matplotlib
【4月更文挑战第14天】Matplotlib是Python的数据可视化库,能生成多种图表,如折线图、柱状图等。以下是一个绘制简单折线图的代码示例: ```python import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [2, 4, 6, 8, 10] plt.figure() plt.plot(x, y) plt.title('简单折线图') plt.xlabel('X轴') plt.ylabel('Y轴') plt.show() ```
13 1