云场景实践研究第85期:墨迹天气

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 墨迹天气的API每天产生的日志量大约在2TB左右,主要的日志分析场景是天气查询业务和广告业务。墨迹天气通过借助阿里云数加平台的能力,可以充分利用移动端积累下来的海量日志数据,并且对用户使用情况和广告业务进行大数据分析。

更多云场景实践研究案例,点击这里:【云场景实践研究合集】联合不是简单的加法,而是无限的生态,谁会是下一个独角兽

墨迹运营团队每天最关心的是用户正在如何使用墨迹,在他们操作中透露了哪些个性化需求。这些数据全部存储在墨迹的API日志中,对这些数据分析,就变成了运营团队每天的最重要的工作。墨迹天气的API每天产生的日志量大约在2TB左右,主要的日志分析场景是天气查询业务和广告业务。墨迹天气通过借助阿里云数加平台的能力,可以充分利用移动端积累下来的海量日志数据,并且对用户使用情况和广告业务进行大数据分析。此外,利用阿里云数加大数据技术,基于对日志数据的分析,可以支持运营团队和广告团队优化现有业务。

“用户每天产生的日志量大约在2TB。我们需要将这些海量的数据导入云端,然后分天、分小时的展开数据分析作业,分析结果再导入数据库和报表系统,最终展示在运营人员面前。”

——章汉龙

墨迹天气运维部经理

正如上述展现的,整个过程中数据量庞大,且计算复杂,这对云平台的大数据能力、生态完整性和开放性提出了很高的要求。


采用的阿里云产品

  • 阿里云大数据计算服务 MaxCompute(原ODPS)
  • 阿里云大数据开发套件(DataIDE)
  • 阿里云流计算(StreamCompute)
  • 阿里云流式数据发布和订阅服务(DataHub)

为什么使用阿里云

对于用户正在如何使用墨迹的数据的分析是墨迹运营团队每天的最重要的工作,整个过程中数据量庞大,且计算复杂,这对云平台的大数据能力、生态完整性和开放性提出了很高的要求。

墨迹天气可以借助阿里云的力量提升数据分析工作的效率,并且可以节省存储空间,并且提升性能和稳定性。


关于 墨迹天气

墨迹天气所遇到的数据挑战

墨迹运营团队每天最关心的是用户正在如何使用墨迹,在他们操作中透露了哪些个性化需求。这些数据全部存储在墨迹的API日志中,对这些数据分析,就变成了运营团队每天的最重要的工作。墨迹天气的API每天产生的日志量大约在2TB左右,主要的日志分析场景是天气查询业务和广告业务。

“用户每天产生的日志量大约在2TB。我们需要将这些海量的数据导入云端,然后分天、分小时的展开数据分析作业,分析结果再导入数据库和报表系统,最终展示在运营人员面前。”墨迹天气运维部经理章汉龙介绍,整个过程中数据量庞大,且计算复杂,这对云平台的大数据能力、生态完整性和开放性提出了很高的要求。之前墨迹使用国外某云计算服务公司的云服务器存储这些数据,利用Hadoop的MapReducer和Hive对数据进行处理分析,但是存在以下问题:
1. 成本:包括存储、计算及大数据处理服务成本对比阿里云成本很高。
2. 网络带宽:移动端业务量大,需要大量的网络带宽资源支持,但数据上传也需要占用网络带宽,彼此之间相互干扰造成数据传输不稳定。


为什么选择阿里云?

墨迹天气基于阿里云的解决方案及架构
针对上述情况,墨迹将日志分析业务逐步迁移到阿里云大数据平台-数加平台之上。新的日志分析架构如页面下方架构图所示。

9d8c9a13a49ae58e90910bec11dc1cc55b4e9b6c

方案涉及的阿里云数加平台组件有:大数据计算服务(MaxCompute,原名ODPS)、大数据开发套件(DataIDE)、流计算(StreamCompute,规划中)、流式数据发布和订阅(DataHub)。另外,由于每天产生的数据量较大,上传数据会占用带宽,为了不影响业务系统的网络资源,墨迹天气开通了阿里云高速通道,用于数据上传。通过此种手段解决了网络带宽的问题。
通过阿里云数加日志分析解决方案,墨迹的业务得到以下提升:
1. 充分利用移动端积累下来的海量日志数据。
2. 对用户使用情况和广告业务进行大数据分析。
3. 利用阿里云数加大数据技术,基于对日志数据的分析,支持运营团队和广告团队优化现有业务。


墨迹天气拥抱阿里云所带来的成效

墨迹天气迁移到MaxCompute后,流程上做了优化,省掉了编写MR程序的工作,日志数据全部通过SQL进行分析,工作效率提升了5倍以上。在存储方面,MaxCompute的表按列压缩存储,更节省存储空间,整体存储和计算的费用比之前省了70%,性能和稳定性也有很大提升。此外还可以借助MaxCompute上的机器学习算法,对数据进行深度挖掘,为用户提供个性化的服务。阿里云MaxCompute提供更为易用、全面的大数据分析功能。MaxCompute可根据业务情况做到计算资源自动弹性伸缩,天然集成存储功能。通过简单的几项配置操作后,即可完成数据上传,同时实现了多种开源软件的对接。


关于墨迹天气的更多实践详情:云场景实践研究第2期:高德
原文发布日期:2018-01-31
云栖社区场景研究小组成员:贾子甲,仲浩。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
C++
基于Qt的简易音乐播放器设计与实现
基于Qt的简易音乐播放器设计与实现
567 0
|
消息中间件 监控 算法
深入理解Linux进程管理与优化:原理、调度和资源控制详解
深入理解Linux进程管理与优化:原理、调度和资源控制详解
410 0
|
8月前
|
关系型数据库 MySQL PHP
新手教程:PHP入门教程
《PHP入门教程》涵盖PHP简介、环境搭建、第一个PHP脚本、基本语法、表单处理、函数定义及进一步学习方向。PHP是一种开源脚本语言,适合Web开发。环境搭建可使用XAMPP/WAMP/MAMP或手动安装Apache、PHP和MySQL。通过编写简单代码和处理表单,逐步掌握变量、字符串、数组、条件语句和循环等基础语法。最后介绍数据库操作、会话管理和面向对象编程等高级特性。
288 70
|
存储
图解CRM(客户关系管理)全流程
CRM客户关系管理全流程解析
3094 0
|
6月前
|
搜索推荐 API 开发者
京东商品详情优惠券API接口全攻略
京东商品详情优惠券API接口为电商开发者和商家提供了精准查询、获取详细信息及实时监测优惠券状态的功能。通过商品ID,可筛选出特定商品的定向或店铺通用优惠券,获取面额、使用门槛、领取条件等详尽信息,并监测优惠券的领取情况。该接口支持多种筛选参数,满足个性化需求,助力电商业务拓展与创新。示例代码展示了如何使用Python调用此接口,实现优惠券信息的高效获取。
513 23
|
机器学习/深度学习 算法 PyTorch
PyTorch Lightning:简化深度学习研究与开发
【8月更文第27天】PyTorch Lightning 是一个用于简化 PyTorch 开发流程的轻量级封装库。它的目标是让研究人员和开发者能够更加专注于算法和模型的设计,而不是被训练循环和各种低级细节所困扰。通过使用 PyTorch Lightning,开发者可以更容易地进行实验、调试和复现结果,从而加速研究与开发的过程。
433 1
|
12月前
|
存储 缓存 Java
JAVA并发编程系列(11)线程池底层原理架构剖析
本文详细解析了Java线程池的核心参数及其意义,包括核心线程数量(corePoolSize)、最大线程数量(maximumPoolSize)、线程空闲时间(keepAliveTime)、任务存储队列(workQueue)、线程工厂(threadFactory)及拒绝策略(handler)。此外,还介绍了四种常见的线程池:可缓存线程池(newCachedThreadPool)、定时调度线程池(newScheduledThreadPool)、单线程池(newSingleThreadExecutor)及固定长度线程池(newFixedThreadPool)。
|
Java 物联网 数据处理
Java中的软件架构模式与演进趋势
Java中的软件架构模式与演进趋势
|
机器学习/深度学习 算法 数据挖掘
【Python 机器学习专栏】Python 机器学习入门:基础概念与流程
【4月更文挑战第30天】本文介绍了Python在机器学习中的重要性,机器学习的基础概念和分类,包括监督学习、非监督学习和强化学习。Python因其丰富的库(如Scikit-learn、TensorFlow、PyTorch)、简单易学的语法和跨平台性在机器学习领域广泛应用。文章还概述了机器学习的基本流程,包括数据收集、预处理、特征工程、模型训练与评估等,并列举了常用的Python机器学习算法,如线性回归、逻辑回归、决策树和支持向量机。最后,讨论了Python机器学习在金融、医疗、工业和商业等领域的应用,鼓励读者深入学习并实践这一技术。
289 2
|
安全 关系型数据库 MySQL
MySQL数据库——视图的更新、视图作用以及案例
MySQL数据库——视图的更新、视图作用以及案例
563 0