开发者社区> 晚来风急> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

WOT2016黄慧攀:海量日志处理可以不用Hadoop或Spark

简介:
+关注继续查看

如今,随着云计算、移动互联网、物联网、大数据等技术的快速发展,企业逐渐认识到,数据的价值,对数据的挖掘分析能力已经成为企业的核心竞争力。对于互联网企业,最有价值的数据都蕴藏在网站的日志中。从日志中,我们可以知道网站的访问量,应用的使用量、用户的相关数据,使用偏好等关键信息,从而更好的改善服务质量,更好的满足用户的需求。

但是随着企业的用户规模不断扩大,以及数据量的爆炸式增长,日志的管理和分析变得越来越具有挑战性。近日,51CTO记者采访了【WOT2016互联网运维与开发者峰会】特邀讲师,又拍云CTO黄慧攀,就海量日志处理系统架构进行探讨。

黄慧攀是2010年加入又拍云,现任又拍云 CTO。他是 aLiLua Web 开发框架的作者,拥有 14 年互联网从业经验,技术经验涵盖范围比较广,早期以前端 Web 开发为主,后期逐步转到底层研发方向,在高性能网络服务、分布式存储系统等方面有较深入的研究。随着公司发展,团队不断扩大,相应职责细分,目前主要做技术规划和团队建设的工作。

黄慧攀此次将会在WOT 2016互联网运维与开发者峰会上带来主题为《海量日志处理系统架构》的演讲。那么海量日志对于企业来说为何如此重要呢?黄慧攀认为,日志的可挖掘价值确实非常多,比如广告领域可以通过日志回溯到某个具体的用户对什么产品或服务感兴趣,从而驱动给该用户投放什么类型的广告。这也是现在很热门的大数据领域中很重要的一项。而日志对于又拍云来说,重点是在分析平台整体性能,并在这些数据的基础上做系统优化。另外一个部分则是为给客户提供便利而做的统计分析工作。

那么在信息爆炸的时代,处理海量日志的挑战又有哪些呢?海量日志的日志数据量非常大,大到单台服务器无法存储和处理的量级。目前,又拍云现在每天收集到的访问日志就超过4TB的压缩数据,如果解压出来高达120TB文本数据。黄慧攀表示,处理如此庞大的数据量确实面临很多挑战,光收集存储这些原始日志都会成为问题,后续的处理和统计的难度就更大了。

现在,业界在处理海量日志采用比较流行的Hadoop或Spark等分布式计算系统,这样的开源技术无需考虑系统架构。黄慧攀强调,如果要针对特定的业务场景,企业自己研发日志处理系统则需要一定的经验,比如如何规范数据,如何做数据分布处理和汇总数据等等。

虽然Hadoop和Spark都是业界比较流行的开源技术,但是面向特定的业务场景很难做到尽善尽美。为此,又拍云独辟蹊径,开发了海量日志处理系统,来解决日处理TB级的压缩日志数据的方法。至于使用了哪些技术,黄慧攀则卖起了关子,感兴趣的用户可以关注在WOT 2016互联网运维与开发者峰会第二天上午的 【大数据与运维】专场中黄慧攀的有趣分享。


本文作者:鸢玮

来源:51CTO

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构)
 文章转载自: http://blog.csdn.net/v_july_v/article/details/670407 从hadoop框架与MapReduce模式中谈海量数据处理 前言     几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理。
1389 0
+关注
9363
文章
243
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载