日志计算驱动业务增长 让天下没有难分析的日志
OLAP计算引擎是一架机器,而操作这架机器的是编程语言。使用者通过特定语言告诉计算引擎,需要读取哪些数据、以及需要进行什么样的计算。编程语言有很多种,任何人都可以设计出一门编程语言,然后设计对应的编译器做解析。SQL语言从发明出来到现在已经经历了近半个世纪,是什么让SQL持续的焕发青春呢?本文将介绍SQL的理论基础和各种高端玩法。
Pandas是一个十分强大的python数据分析工具,也是各种数据建模的标准工具。Pandas擅长处理数字型数据和时间序列数据。Pandas的第一大优势在于,封装了一些复杂的代码实现过程,只需要调用接口就行了,避免了编写大量的代码。Pandas的第二大优势在于灵活性,可以实现自动化批量化处理复杂的逻辑,这些工作是Excel等工具是无法完成的。因而Pandas介于Excel和自主编写程序之间,兼具灵活性和简洁性的数据分析工具。
随着互联网的极速发展,海量用户产生的海量日志,每天都在急剧膨胀。数据仓库就像一个个油井一样,我们都知道这里边有矿,但是怎么从矿里边挖出有价值的信息,一直是困扰矿主的最大问题。如果缺乏强大的分析工具,或者数据分析能力,积累再多的数据的数仓,都会变成数据坟墓:花了大力气采集过来数据,然后打包放到冷存仓库里边,一直没有任何访问,直到一天磁盘空间满了,把最老的数据清理掉。我们的决策,往往是依赖于个人的经验和直觉,而不是基于数据所呈现给我们的信息。而要从数据中挖掘出有用的信息辅助我们做决策,一方面需要强大的数据分析工具,一方面需要专业的数据分析经验。
Join是数据库和数仓中最常用的一个感念了。在关系型数据库的数据模型中,为了避免数据冗余存储,不同的数据往往放在不同的表中,分为事实表和维度表,这样做可以极大的节省数据存储空间。但是在分析数据时,则需要通过join把多表关联起来分析。可以说,做数据分析,绕不开的一个话题就是join。而join有多种类型,在使用上有不同的使用方式,而在实现上也有不同的实现方式。不同的使用方式和实现方式,则会造成性能上的天差地别。本文尝试由表及里梳理join的使用和内部实现方式,通过了解内部实现,了解如何写出一个高性能的join SQL。
运维工程师在通过日志调查问题时,或者通过日志搭建监控系统时,不仅需要查看原始的日志内容,还需要把日志经多深度加工分析,例如计算每分钟的延时,每分钟的流量等等监控。这些数字指标,如果能够通过可视化的手段直观的展示出来,会更直观、有效的理解监控数据。今天我们介绍一种比较简洁、也比较酷的可视化方式,就是在终端上直接通过命令行可视化分析日志。
成本管家是基于SLS强大的存储引擎和计算引擎,提供对阿里账单的分析能力。针对客户常见的分账需求,费用优化需求,给出通用的解决方案。成本管家内置了对原始账单的查询,一些内置的通用报表,告警,和定时报告功能。内置的报表包括了账单的月度总览,明细报表,ECS,OSS,SLS等常见的产品定制报表。成本管家内置的报表满足了通用的场景。但是对于一些客户一些定制话的需求,成本管家通过SQL语言,可以自由的分析账单,功能上不逊于excel,而计算能力上远超excel。
云时代对账单分析的强烈需求 对于传统的IT运维,通常上线机器,首先需要预估需求,然后申请预算,再发起采购单,等待采购完成,到最终上线,整个流程已经横跨几个月,甚至到1年。 云时代的到来,云厂商巨大的资源池,保证任何客户任意时刻都有足够的资源使用。
背景 在成本管家中,SLS提供了云产品账单的数据,通过SLS强大的分析和可视化能力,帮助客户分析云产品账单,优化成本。在发布后在客户中间引起强烈的反馈,不少客户要求在账单中增加实例名,Tag,资源用量等信息,通过更多维度数据做分账。
2019年12月18日,阿里云宣布AI智能账单分析功能“成本管家”正式上线,这是国内云厂商首次把数据智能技术与账单系统结合,推出的正式产品。让用户从低效的账单获取、整理和分析的工作中解放出来。让AI为用户整理账单、预测未来的消费趋势以及挖掘异常账单。
云时代对账单分析的强烈需求 对于传统的IT运维,通常上线机器,首先需要预估需求,然后申请预算,再发起采购单,等待采购完成,到最终上线,整个流程已经横跨几个月,甚至到1年。 云时代的到来,云厂商巨大的资源池,保证任何客户任意时刻都有足够的资源使用。
DevOps是什么? 对于传统的软件研发而言,开发,测试,运维,运营,有不同的岗位进行分工协作,以保证质量和专业度,同一件事情,依赖不同岗位的排期、沟通、协调,效率难免会有打折。而对于互联网业务来说,快速的迭代,对人力的需求非常强烈,不大可能有足够的人力支撑这么多岗位。
数据质量决定运营分析的质量 在上文中,我们介绍了GrowthHacking的整体架构,其中数据采集是整个数据分析的基础,只有有了数据,才能进行有价值的分析;只有高质量的数据,才能驱动高质量的运营分析.可以说,数据质量决定了运营质量。
增长关乎产品的存亡 增长!增长!增长!业务增长是每一个创业者每天面临的最大问题。无论你的产品是APP,还是web,或者是小程序,只能不断的维持用户的增长,才能向资本市场讲出一个好故事,融资活下去。活到最后的产品,才有机会盈利。
简介 Presto是一个facebook开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。presto的架构由关系型数据库的架构演化而来。presto之所以能在各个内存计算型数据库中脱颖而出,在于以下几点: 清晰的架构,是一个能够独立运行的系统,不依赖于任何其他外部系统。
上一篇文章,我们讲了Presto的架构。Presto是一款内存计算型的引擎,所以对于内存管理必须做到精细,才能保证query有序、顺利的执行,部分发生饿死、死锁等情况。 内存池 Presto采用逻辑的内存池,来管理不同类型的内存需求。
做业务的人,常常需要面临以下问题: 产品的受欢迎程度怎么样?该重点投入到哪个功能中? 各个营销渠道的流量怎么样? 该向哪个渠道投入更多资源? + 各个阶段的转化率、留存率有多少?有哪些瓶颈点需要优化? 如果没有数据,就只能够靠瞎猜,靠经验来判断。
精通日志查询: 如何翻页获取日志和计算结果 日志服务提供一站式的日志采集、存储、查询、计算功能。交互式的日志采集体验,释放用户的运维压力,解放用户的双手; 交互式的查询分析体验,让用户自由的构建数据模型、探索式分析挖掘数据深层。
同比环比函数 同比函数用于把当前区间的计算结果和之前一个指定区间的结果进行比较。 函数 含义 样例 compare(value, time_window) value为double或long类型,time_window为秒。
支持对NAS下大量访问日志进行查询分析、并提供开箱即用的报表及灵活开放的报表与报警功能。帮助NAS用户管理自己的数据看板,实时了解访问明细,审计敏感操作,诊断问题,实时报警等。
1. 日志信息不够丰富,怎么破 在日志分析场景中,我们经常遇到这样的问题,日志中的信息不完善。例如,日志中包含了用户的点击行为,但是却缺少用户的属性,例如注册信息、资金、道具等信息。 而产品PD、运营同学分析日志的时候,往往需要这种联合分析用户的属性和行为,例如分析用户地域对付费习惯的影响。
场景 日志服务内置了20+类SQL函数。面对用户复杂的业务场景,例如使用json来沉淀业务数据,普通的SQL函数可能就无法满足需求,需要一些用户自定义处理逻辑。为了处理json类的业务数据,我们可以采用把json展开成多行的形式进行统计分析,今天我们介绍使用UDF(lambda)的方式来编写自定义逻辑,处理json、array、map类型的数据。
场景 通常,我们处理数据,一列数据类型要么是字符串,要么是数字,这些都是primitive类型的数据。在某些比较复杂的业务场景下,我们会在一列中使用复杂的格式,例如数组array, 对象(map),json等格式来表示复杂的数据,例如: __source__: 11.
在日志分析场景中,我们经常会遇到数据分散在各地场景,例如: 1. 用户操作、行为相关的数据在日志中 2. 用户属性、注册信息,资金、道具等状态存在DB中 3. 根据1和2我们需要对用户进行分层统计,将最后的计算结果写入DB中供报表系统查询 因此为了做分析,我们要在日志服务Logstore.
面向用户的在线产品,例如游戏行业,需要实时的关注流量情况,如果流量突然降低,那么我们得立刻检查,是否是宕机了,或者进程异常,避免影响用户体验。那么怎么设置这样的告警呢?接下来通过日志服务来介绍。 完整的报警语句 先贴个完整的告警语句: * | select time,pvPerSec, lastPvPerSec, diff,diff >1.
提取异常日志是个大难题 面对海量的日志(TB乃至PB级别),如何从日志中挖掘出异常信息对于大部分的开发者而言是一个大难题。例如,判断机器的延时是否正常,部分request是否正常。通常,我们对于异常的数据,要及时的报警,以尽快的处理。
增长黑客系列:今天比昨天增长多少?快使用环比函数来分析日志 在我们平时分析业务时,一个最重要的指标就是,今天比昨天增长多少,本周比上周增长多少;或者同上一个周期相比增长最大的分类是哪个?这些问题,可以使用一个SQL来分析。
日志自动化、智能化分析对于AI需求 通常,我们分析日志,是为了两个目标: 对数据有个整体的概览,例如,生成一天内的报表。 对异常数据进行挖掘,例如,对特殊的日志进行告警。 日志分析,通常对分析者有这些要求: 对业务数据的熟悉程度要求比较高。
阿里云日志服务是针对日志类数据一站式服务,用户只需要将精力集中在分析上,过程中数据采集、对接各种存储计算、数据索引和查询等琐碎工作等都可以交给服务。2017年9月日志服务加强日志实时分析功能(LogSearch/Analytics),可以使用查询+SQL92语法对日志进行实时分析。
简介 mysql作为非常流行的关系型数据库,很多软件支持通过mysql传输协议和sql语法获取mysql数据。用户只需要对sql语法熟悉,即可完成对接。日志服务提供了mysql协议查询和分析日志数据。
简介 一直以来,日志服务提供了 以restfull API方式写入、查询日志数据,管理自己的项目及日志库。现在日志服务新增提供了mysql 接口,用户可以使用jdbc连接到日志服务,通过标准的sql语法进行查询和计算。
提到日志实时分析,很多人都会想到很火的ELK Stack(Elastic/Logstash/Kibana)来搭建。ELK方案开源,在社区中有大量的内容和使用案例。阿里云日志服务产品在新版中增强查询分析功能(LogSearch/Analytics),支持对日志数据实时索引与查询分析,并且对查询性能和计算数据量做了大量优化。
简介 成交账单是电商公司的核心数据,是一系列营销和推广活动最终的转化成果。这些数据包含了很多有价值的信息:从这些数据出发,可以描绘出用户画像,为下一步的营销提供方向。账单数据还能提供货物的受欢迎程度,为下一步备货提供准备。
简介 很多个人站长在搭建网站时使用nginx作为服务器,为了了解网站的访问情况,一般有两种手段: 使用CNZZ之类的方式,在前端页面插入js,用户访问的时候触发js,记录访问请求。 分析nginx的access log,从日志中挖掘有用信息。
简介 出租车公司记录了每一次载客交易发生的信息细节,包括上下客时间、经纬度、路程距离、支付方式、支付金额、缴税额等信息。详细的数据,为出租车公司的运营提供了极大的帮助,例如,了解哪些时间段比较热门,对应增加运行车次;哪些地区需求比较广泛,调度更多车辆前往。
12年入手kindle dxg,用了几年年,看pdf的利器,感觉很不错, 2016年夏天的时候,kindle突然出现频繁的锁屏和解锁。在网上搜了一下,只有在贴吧找到一个类似的问题,但是没有解决方案,联系amazon的客服,客服也没办法解决。
史上最全“大数据”学习资源整理 2016-05-17 Hadoop技术博文 当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。
个人站长如何分析自己的网站,这里有第一手的经验
日志服务如何收费,如何优化您的账单
分布式系统的调试是一个大难题,多个进程是如何协作的?如何查看延时消耗在哪里?本位为你揭秘阿里云的调试利器,基于日志服务的Tracer工具。
日志服务使用正则式提取日志的字段信息,为了让朋友们快速了解如何使用正则式,这里总结了一下常见的正则式的书写方法。
使用日志服务遇到什么困难?这里有本指南分享给大家
<p>do while 相对于while循环而言,平时用的非常少,因此有一些问题也非常的容易出错。</p> <p>比如,在do while的循环体中,假如有一个continue,那么你觉得这个continue会跳转到do呢?还是条传到while呢?</p> <p><br></p> <p>答案是跳转到while,直接执行while里边的判断条件</p>
<p>对于一个新手而言,第一次使用wordpress搭建个人博客,而且要在不同的环境上work,包括mac,ubuntu。再搭建的过程中遇到了很多的问题,通过一步步调试,逐步定位</p> <p>问题所。</p> <p>比如wordpress在上传图片的时候会自动生成缩略图,这个在mac上工作的很好,但是移植到ubuntu上的时候,缩略图生成不了了。</p> <p>通过一步步添加日志的
wget -r -l1 -np -nd http://your_url/your_folder/<br>
<p style="border:0px; font-family:'Helvetica Neue',Helvetica,Arial,sans-serif; font-size:15px; margin-top:0px; margin-bottom:1.625em; outline:0px; padding-top:0px; padding-bottom:0px; vertical-ali
<span style="color:rgb(55,55,55); font-family:'Helvetica Neue',Helvetica,Arial,sans-serif; font-size:15px; line-height:24px; background-color:rgb(255,255,255)">使用boost序列化时,如果一个变量没有初始化,那么序列化会导致程序运行
<pre style="border:0px; font-family:'Courier 10 Pitch',Courier,monospace; font-size:13px; margin-top:0px; margin-bottom:1.625em; outline:0px; padding:0.75em 1.625em; vertical-align:baseline; backg