今天不谈电商，只聊搜狐的大数据实践！-阿里云开发者社区

今天不谈电商，只聊搜狐的大数据实践！

2017-09-01 1248

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

简介：

ZD至顶网服务器频道 05月31日新闻消息（文/于泽）：整天看到、听到的都是各个电商企业的大数据实践，今天换个口味，聊聊互联网行业，谈谁呢？搜狐。虽然从业务线来划分，搜狐有焦点、搜狐汽车、畅言、说吧……，不过在笔者看来这些统一都可以归结为互联网，业务模式基本是服务读者，靠的是广告和内容。因此，如何精准地投放广告、推送内容就显得尤为关键，而这正是搜狐大数据所要做的。

按搜狐大数据平台负责人、研发中心高级经理、搜狐-英特尔联合创新实验室搜狐负责人彭毅的话说，随着大数据的热度越来越高，大家对数据的价值越来越重视，运用数据指导业务的发展，满足用户不断的新需要成为搜狐业务发展的新动力。在这样的背景下，搜狐成立了一个大数据项目小组，内部代号“大耳狐”。

搜狐大数据平台负责人、研发中心高级经理、搜狐-英特尔联合创新实验室搜狐负责人彭毅

据彭毅介绍，最开始他们做的主要是为了满足业务部门对于数据处理平台的计算需求，通俗地讲就是提供平台支撑。不过随着业务的不断发展，只做这些已经难以满足实际的业务需求，所以他们现在也在做更多的扩展，比如在满足底层平台技术和业务线需求的前提下，他们正在考虑深度学习方面的研究。

言归正传，还是从搜狐正式开始做大数据方面的工作，也就是大数据项目组的成立说起。从去年年初成立到现在不过一年多的时间，这一年彭毅和他的团队可以说做了不少工作，从搭建平台，包括技术选型（Hadoop、Spark等）、硬件选型到平台部署、应用调试。这其中，他们参考了很多像Facebook、推特等广泛使用大数据技术厂商所公开的一些资料，并最终在英特尔的协助下确定了现有的硬件选型，包括CPU型号、内存大小、硬盘个数、网络吞吐量等均做了权衡。

在此基础上，搜狐部署了其基于开源Hadoop版本做的搜狐自有的Hadoop平台。彭毅表示，在底层调优上，包括计算力的高效使用，以及如何在英特尔架构平台把性能发挥到极致，双方进行了非常深入的合作。目前，经过几次扩容升级，当前搜狐大数据平台已经有1000台物理机左右的规模，现有平台数据在30PB。

看得出大数据在搜狐内部需求的迅猛增长，在采访中，搜狐大数据平台核心技术人员、搜狐研发中心高级研究员王帅表示，他们每天产生的日志数据在20TB左右，产生的各种数据在60TB-200TB之间，虽然无法与BAT同日而语，但就整个业界平均水平而言，搜狐每天所产生的量是非常可观的，到这也就不难理解为什么他们在短短一年间就进行了几次扩容。

在采访中，王帅还特别举了一个大数据实际应用的例子，广告的精准投放。他说，用户在使用各种产品时会产生各种行为数据，比如点击了什么、浏览了什么、搜索了什么，这些数据可以实时收集，然后经过卡夫卡集群做中间的数据调度，再把它们导入Hadoop集群，业务部门根据收集回来的数据做精准计算，像用户画像之类的，然后根据结果反推，进行精准的广告投放。

看起来似乎并不难，其实并不容易，最简单地讲，每个用户每天的数据都在发生变化，所以每天都需要重新计算，这个计算量可想而知。当然，这只是其中一个方面，在谈到做大数据过程中所遇到的挑战时，彭毅也是百感交集。他说，几乎每一块，包括平台、软件、硬件、底层架构都可能遇到难题，比如搜狐遇到一个很实际的问题就是从旧有的Hadoop平台迁移到新的平台上，这其中他们费了不少力气。

而这其实也正是笔者相对即将应用大数据的用户所说的话，大数据应用绝对不是像很多人说说那么简单，做起来会涉及到方方面面的内容，所以选几个靠谱的合作商还是很有必要的。

最后分享一下搜狐大数据团队的人员构成，1000台机器的集群，猜猜有多少人？在维护这个平台的大概只有两三个人，总的项目组成员也不过十几个。据彭毅介绍，得益于英特尔的协助以及大耳狐平台的开发，他们只有十几个人就能完成这些研发、维护的工作。其中这十几个人中有一部分负责和大数据平台相关的维护工作，他们的职责是让整个集群的运维管理更智能化；另一部分主要是做Hadoop大数据相关的技术研究，包括兼容性、前瞻性（大数据技术的演进）等，还有最后一部分是面向用户的，如何更好地结合用户需求做一些优化、调整。

“通过使用我们的产品，为用户提供更为精准的内容，是作为搜狐这样一个媒体公司一直以来追求的目标”，彭毅这样总结他们大数据应用的目标。而这或许应该是大数据对所有用户的最终价值体现。

原文发布时间为：2016-05-31

本文作者：李祥敬

本文来自云栖社区合作伙伴至顶网，了解相关信息可以关注至顶网。

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

今天不谈电商，只聊搜狐的大数据实践！

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

今天不谈电商，只聊搜狐的大数据实践！

热门文章

最新文章

相关课程

相关电子书

相关实验场景