超牛叉技术支撑的成人网站

本文涉及的产品
云数据库 Redis 版,社区版 2GB
推荐场景:
搭建游戏排行榜
简介:

0

上网之人,多少都会接触过成人网站。这是一个举世公认的事实。


不过这是一个难以洞察的领域,因为相关数据少之又少。我们知道成人网站都是那些在互联网上有着超高流量的网站。根据 Google DoubleClick 的 Ad Planner 服务(通过cookie跟踪网民)显示,全球 Top 500 网站中,就有数十个成人网站。全球最大的色情网站 Xvideos 每月网页浏览量(Page Views,PV)高达 44 亿,是 CNN 或 ESPN 新闻网站的 3 倍,是 Reddit 的 2 倍。LiveJasmin 也不小。除了 Google 和 Facebook 等大站,其他网站在YouPorn、Tube8 和 PornHub 面前都是小巫见大巫。


虽然网页浏览量是一个很好的起始点,但它们仅告诉我们某些色情网站比某些非色情网站要受欢迎。40亿的PV,听起来很多,但当我们把那些X站用户实际在做的事考虑进来,成人网站的大小和规模就有点明朗了。


规模

0

色情网站和非色情网站的主页区别是访客的平均停留时间。诸如 Engadget 等新闻网站的平均停留时间是 3 – 6 分钟,大约是是阅读 1 – 2 篇文章。然而色情网站的停留时间,大约是在 15 – 20 分钟。


大部分网站的内容主要是文本和图像,而成人大站则是视频。EXT首页完全加载大约是几兆数据,打开一篇文章,大约是500kb数据。访问色情网站,假设是打开一个 480×200 低分辨率的视频,每秒传输 100 kb 数据。15 分钟的话,那就大约是 90 MB 数据了。


XVDO 每月有 3.5 亿访问次数,乘以 90 MB,那就每月传输大约 29 PB 数据,也就是每秒传送数据约 50 GB。做个对比,你家网络连接可能每秒传送两兆(2 MB),XVDO是你家的 25,000 倍。


简而言之,色情网站是在处理天文数字级别的数据。在原始带宽(Raw Bandwidth)方面,能与之匹敌的网站,也就只有 YouTube 或 Hulu,而 YouPorn 却又是 Hulu 的 6 倍。


基础设施

就支持视频所需的资源,数据存储器、CPU 周期、I/O 和带宽,远超过文本和图像所需要的资源。


当然了,虽然每个网站的情况又不一样了,但大部分成人站点都有 50 至 200 TB 的成人资料。对一个网站来说,这是个大数目(Google、Facebook、Blogger 和 Youtube 之流存储的数据比这还要多),好在现在 2 TB 的硬盘便宜。


CPU 周期和 I/O 会影响视频流和 PV 数量。首先,色情网站要提供动态、可搜索的海量视频数据库,然后点播视频时,从硬盘读取文件,再网络上传输。如果你有过在局域网传送大量大文件的经历,你就会知道网络系统的压力有多大了。


硬件设备情况,实际上我们几乎无法知晓,因为色情网站也没公布过。虽然如此,但我们讨论的大型色情网站会有四核服务器、千兆交换机、负载均衡器。在软件方面,大部分大型色情网站都会使用超高吞吐量的数据库(比如 Redis )来存储和提供视频,还有轻量级的 HTTP 服务器(比如 Nginx )。


最后说带宽。还是以 Xvideos 为例(基于 Ad Planner 的数据估测),大型色情网站必须有足够的连通性(connectivity)来支撑每秒 50 GB(400Gbps )。这还只是平均传输速率。在高峰期间,Xvideos 或许要 1,000Gbps (1Tbps) ,或更高 。在伦敦和纽约直接的连通性也才 15Tbps。

有很多方法来处理高流量:自己搞个数据中心,或者去大数据中心租赁几排架的服务器,或者使用诸如 Amazon AWS 和 Microsoft Azure 之类的云服务。


真实案例

YPN是全球第二大的色情网站,足够提供研究数据。另外要说一下,DoubleClick 的 Ad Planner 中的估测数据比实际数据要低很多的。


YPN有“超过 100 TB 的干货”,每天网页浏览量超过 1 亿。总而言,这相当于每天传送 950 TB 数据(大部分都是视频流),每月大约传送 29 PB。Xvideos 肯定不止 28 PB 这个估测值了,它可能是每月 35 – 40 TB。

0

在高峰期,YPN每秒得响应 4000 个网页,相当于有每秒 100 GB 或(800 Gbps )的突发流量。这相当月每秒传送 10+ 张双层 DVD。


在软件方面,YPN的主数据库是 Redis,用 MySQL 作为管理工具,用于管理和向 Redis 簇中添加数据。后端是 Perl 和 MySQL,不过在 2011 年改成了 PHP + Redis。HTTP 服务器是 Nginx,同时用 HAProxy 和 Varnish 做负载均衡。Redis 服务器可以每秒处理 30 万请求,每小时记录下 8 – 15 GB数据,包括访客日志、行为数据等。据说 Redis 可以抗住 2 亿的日 PV。


(译注:2012年2月份,YPN的技术人员 Eric Pickup 在 Google 群组宣告他们网站改用 Redis DB 后。扛住了每天1亿PV浏览量,每秒30万请求,已经坚持 2 周。Eric 还将去加拿大一个技术大会分享经验。)


令人悲伤的是,YPN拒绝透露硬件设备信息。从 YPN的 CDN 的 IP 地址来看,它应该没有使用云服务,应该托管在某地的大型数据中心。


互联网每天大约处理 1/2 EB 数据,相当于每秒处理 50Tb, YPN的 800Gbps 这个数字,几乎就占了互联网中每秒流量的 2%。而全球有几十个和 YouPorn 规模相当的色情网站。互联网流量中色情内容占据了 30%,这个说法也就不是不现实的哦。

(译注:1 EB = 1024 PB = 1024 * 1024 TB = 1024 * 1024 * 1024 GB)


The internet really is for porn.



原文发布时间为:2014-11-11

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
搜索推荐 大数据
突破创新桎梏 互联网金融需深挖精准人群
突破创新桎梏 互联网金融需深挖精准人群
120 0
|
设计模式 搜索推荐
分析︱传统企业将面对移动互联网个性化浪
分析︱传统企业将面对移动互联网个性化浪
分析︱传统企业将面对移动互联网个性化浪
|
机器学习/深度学习 供应链 搜索推荐
神秘的「京东大脑」如何保障买买买的用户体验?
「京东大脑」的实施情况。所谓「京东大脑」,是京东2015年年初启动的新项目,其核心目标也是围绕着「效率」两个字,即如何利用机器学习的技术提升京东电商平台的运营效率。
225 0
神秘的「京东大脑」如何保障买买买的用户体验?
|
存储 监控 数据可视化
【案例现场】“贴身战”背后,是精细化运营的实力较量
大数据时代企业除了在基础建设中更为重视数据以外,对执行力和速度的响应要求也越发严格。BI软件也不再仅仅是一个工具,更是一套契合数智化时代的决策管理方案,通过对数据的整合,融入业务逻辑,供给执行层行动指南,供给管理层决策参考,及时把控整体业务,发现业务问题,调整经营决策,从而不断改善整体业务,推动业务增长。
【案例现场】“贴身战”背后,是精细化运营的实力较量
|
机器学习/深度学习 数据采集 运维
技术揭秘 | 互联网广告黑产盛行,如何反作弊?
有人的地方就有江湖。广告作为互联网公司商业变现最为直接快捷的途径,广告作弊已经形成了一个有完整链条的黑产行业。如何通过技术手段识别并防范广告作弊?本文通过介绍常见的广告计费模式和虚假流量的获益形式和发生机制,分析广告点击反作弊的核心问题,分享相关的反作弊实践经验,详解反作弊技术体系及核心算法。
技术揭秘 | 互联网广告黑产盛行,如何反作弊?
眼球网站经济学之我见——在网站上建立现代的经济体系,互联网营销
  请大家原谅我一下子发这么多文章,因为我真的是很难的有时间这么畅快的写一些东西出来了。对于挤出其他人的文章,我已经有很深的愧疚感了,真诚致歉。如果真有人觉得在这段时间内发文章不划算,可能导致自己文章被很快的刷掉,那么我建议你可以把你的文章存两天再发出来。
947 0
|
搜索推荐
互联网时代的应用设计,互联网营销
  在互联网时代如何开发一个成功的应用?先发放一万份调查问卷,找几十个人关在黑屋子里花两年时间研发,然后期待着一旦推出就颠覆整个互联网?我不得不抱歉地说,以这样一种方式研发一款互联网应用,在互联网时代已经不太适用。
1025 0
|
UED C++
从技术角度看人人网,互联网营销
  去年开始,不知道哪门子脑子搭线了,开始有点想念以前的学生生活了,虽然我的学生生活充满了刀光剑影(主要是我出去打别人,回家我妈教训我)和遗憾,但还是有点想念。想念大学的实验室,大学的水煮鱼,高中的球场生活,高中的那帮“混混”同学们……。
932 0

热门文章

最新文章