开发者社区> 隐林> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

【大数据干货】轻松处理每天2TB的日志数据,支撑运营团队进行大数据分析挖掘,随时洞察用户个性化需求。

简介: “用户每天产生的日志量大约在2TB。我们需要将这些海量的数据导入云端,然后分天、分小时的展开数据分析作业,分析结果再导入数据库和报表系统,最终展示在运营人员面前。”墨迹天气运维部经理章汉龙介绍,整个过程中数据量庞大,且计算复杂,这对云平台的大数据能力、生态完整性和开放性提
+关注继续查看

免费开通大数据服务:https://www.aliyun.com/product/odps

“用户每天产生的日志量大约在2TB。我们需要将这些海量的数据导入云端,然后分天、分小时的展开数据分析作业,分析结果再导入数据库和报表系统,最终展示在运营人员面前。”墨迹天气运维部经理章汉龙介绍,整个过程中数据量庞大,且计算复杂,这对云平台的大数据能力、生态完整性和开放性提出了很高的要求。

关于墨迹天气

北京墨迹风云科技股份有限公司于2010年成立,是一家以“做卓越的天气服务公司”为目标的新兴移动互联网公司,主要开发和运营的“墨迹天气”是一款免费的天气信息查询软件。“墨迹天气”APP目前在全球约有超过5亿人在使用,支持196个国家70多万个城市及地区的天气查询,分钟级、公里级天气预报,实时预报雨雪。提供15天天气预报,5天空气质量预报,实时空气质量及空气质量等级预报,其短时预报功能,可实现未来2小时内,每10分钟一次,预测逐分钟逐公里的天气情况。特殊天气提前发送预警信息,帮助用户更好做出生活决策。在墨迹天气上,每天有超过 5 亿次的天气查询需求和将近20亿次的广告请求,这个数字甚至要大于 Twitter 每天发帖量。墨迹天气已经集成了多语言版本,可根据手机系统语言自动适配,用户覆盖包括中国大陆、港澳台,日韩及东南亚、欧美等全球各地用户。

挑战

墨迹运营团队每天最关心的是用户正在如何使用墨迹,在他们操作中透露了哪些个性化需求。这些数据全部存储在墨迹的API日志中,对这些数据分析,就变成了运营团队每天的最重要的工作。墨迹天气的API每天产生的日志量大约在2TB左右,主要的日志分析场景是天气查询业务和广告业务。
“用户每天产生的日志量大约在2TB。我们需要将这些海量的数据导入云端,然后分天、分小时的展开数据分析作业,分析结果再导入数据库和报表系统,最终展示在运营人员面前。”墨迹天气运维部经理章汉龙介绍,整个过程中数据量庞大,且计算复杂,这对云平台的大数据能力、生态完整性和开放性提出了很高的要求。 之前墨迹使用国外某云计算服务公司的云服务器存储这些数据,利用Hadoop的MapReducer和Hive对数据进行处理分析,但是存在以下问题:
1.成本:包括存储、计算及大数据处理服务成本对比阿里云成本很高。
2.网络带宽:移动端业务量大,需要大量的网络带宽资源支持,但数据上传也需要占用网络带宽,彼此之间相互干扰造成数据传输不稳定。

解决方案及架构

针对上述情况,墨迹将日志分析业务逐步迁移到阿里云大数据平台-数加平台之上。 
新的日志分析架构如页面下方架构图所示。
方案涉及的阿里云数加平台组件有:
阿里云数加-大数据计算服务MaxCompute产品地址https://www.aliyun.com/product/odps
• 大数据开发套件(DataIDE)https://data.aliyun.com/product/ide
• 流计算(StreamCompute,规划中)https://data.aliyun.com/product/sc
• 流式数据发布和订阅(DataHub)
另外,由于每天产生的数据量较大,上传数据会占用带宽,为了不影响业务系统的网络资源,客户开通了阿里云高速通道,用于数据上传。通过此种手段解决了网络带宽的问题。
通过阿里云数加日志分析解决方案,墨迹的业务得到以下提升:
1.充分利用移动端积累下来的海量日志数据。
2.对用户使用情况和广告业务进行大数据分析。
3.利用阿里云数加大数据技术,基于对日志数据的分析,支持运营团队和广告团队优化现有业务。


收益

1.迁移到MaxCompute后,流程上做了优化,省掉了编写MR程序的工作,日志数据全部通过SQL进行分析,工作效率提升了5倍以上。
2.存储方面,MaxCompute的表按列压缩存储,更节省存储空间,整体存储和计算的费用比之前省了70%,性能和稳定性也有很大提升。
3.可以借助MaxCompute上的机器学习算法,对数据进行深度挖掘,为用户提供个性化的服务。
4.阿里云MaxCompute提供更为易用、全面的大数据分析功能。MaxCompute可根据业务情况做到计算资源自动弹性伸缩,天然集成存储功能。通过简单的几项配置操作后,即可完成数据上传,同时实现了多种开源软件的对接。

架构图

TB1hT5EOVXXXXc_apXXXXXXXXXX-940-459.png

140654438e20ad34f9d780ebe629104e32a8d6af

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
金融数据智能峰会 | 数据规模爆炸性增长,企业如何进行精准决策?云原生数据仓库数据化运营实战分享
在日前的2021阿里云金融数据智能峰会——《云原生驱动数智化运营的“增长黑马”》专场上,阿里云数据库资深技术专家魏闯先 从数据价值链路角度切入,为大家解读云原生数据仓库如何支撑数据化运营、全链路营销和阿里集团双11业务,并展示金融客户最佳实践案例和应用场景。本文内容根据演讲录音及PPT整理而成。
0 0
阿里云实时大数据解决方案,助力企业实时分析与决策
简介: 2020年双11,云原生实时数仓首次在阿里巴巴双11核心数据场景落地,实现商业全链路实时化,毫秒级海量数据处理能力。搜索推荐业务数据开发效率提升4倍,菜鸟物流包裹数据链路从小时级优化到3分钟,考拉分钟及小时业务1分钟内完成,大数据的实时分析与决策在瞬息万变的市场竞争中成为了标品!今天,我们将向大家分享阿里云实时大数据解决方案,助力企业实时决策。
0 0
游戏数据运营融合分析最佳实践
针对游戏行业数据分析实时性高、结构化和非结构化数据融合需求,构建游戏数据运营融合分析一体化架构。
0 0
【云栖号案例 | 医疗健康】美甲帮通过数加搭建大数据平台 针对百万用户的精细运营
美甲帮希望更好的提升客户使用体验,为业务赋能,提升业务洞察能力。通过数加平台业务更敏捷、智能、具洞察力,快速响应新业务的数据及分析需求。
1666 0
蚂蚁金服数据洞察分析平台DeepInsight:人人都是数据分析师
小蚂蚁说: 大数据时代,由数据驱动的用户行为分析、运营分析、业务分析无疑是最被关注的“热词”,尤其对于拥有海量数据的大中型企业来说,对数据的需求已远远超越了传统数据报表所能提供的范畴。如何运用自助式BI实现当代企业精细化运营,已成为企业运营管理的新课题。
3919 0
阿里云移动数据分析,帮助移动开发者实现大数据精细化运营
阿里云移动数据分析能提供SDK及Api接口,帮助客户采集App用户行为数据;也提供多类型多维度的分析报表,能同时与数据计算、数据应用、移动应用组合成一个数据应用生态。
3036 0
+关注
隐林
阿里云大数据产品专家,擅长MaxCompute、机器学习、分布式、可视化、人工智能等大数据领域;
文章
问答
来源圈子
更多
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。
+ 订阅
相关文档: MaxCompute
文章排行榜
最热
最新
相关电子书
更多
数据智能驱动的企业增长之道——深度洞察用户、提升企业CLV
立即下载
聚星台—客户运营核心大数据 与算法技术
立即下载
海量业务场景下个性化安全运营之道
立即下载