开发者社区> 刈刀> 正文

启明星-开篇

简介: 启明星是我们的数据分析平台, 相信和大多数公司的数据分析平台一样, 它的主要作用就是收集后台服务日志,活动日志,客户端埋点日志,崩溃日志等, 进行解析, 清理后,统计传统的指标信息,评估活动效果,监控服务性能,客户端性能等。
+关注继续查看
    这一段时间一直忙着低头赶路,现在终于有机会停下来整理一下行囊了。
    这一路上, 经历过下里巴人, 也体验过阳春白雪, 我们一直在进步。
    之所以文章开篇称为启明星,不只是因为我们的数据平台称为启明星,也因为平台从无到有,从1.0到2.0的这个过程,它像一颗启明星一样, 将我从之前那迷茫的、混沌的黑暗中带了出来,我明确了自己的发展方向, 在这技术的汪洋中找到了自己的那一叶孤岛,也看到了今后职业生涯的无数可能。
    人生能遇到一个这样的项目,能开启自己的职业生涯,那无疑是幸运的。
    启明星已经与我结下了很深厚的姻缘。
    若干年后,抬头仰望那一望无际的星空,相信启明星任然会给予我无限的信心。

     废话不多说, 步入正文。
     启明星是我们的数据分析平台, 相信和大多数公司的数据分析平台一样, 它的主要作用就是收集后台服务日志,活动日志,客户端埋点日志,崩溃日志等, 进行解析, 清理后,统计传统的指标信息,评估活动效果,监控服务性能,客户端性能等。在数据分析的基础上,我们也开始了机器学习,数据挖掘的工作,这就是我们的另一个平台-数据秀.
    每个公司的做法各有不同,但是基本的功能点都是一样的。从启明星1.0到启明星2.0, 我们摸索着走过来,我不敢说我们的做法是好的, 但我们的很多经验是值得分享出来的。我相信我们的经验是最全面的。 ?从服务端日志格式, 客户端埋点日志加密方式, 服务端nginx ?ip透传, 到日志收容,日志清洗,日志解密, 从数据仓库,数据立方 到OLAP 架构, 从hadoop的分布式计算,到storm的流计算,spark的迭代计算, 从简单的BI统计,到复杂的机器学习算法, 无不涉及。
    接下来我们就来具体了解一下在整个平台构建过程中涉及到的方方面面
  1. 启明星1.0 (下里巴人)
    1. 日志记录
      1. 应用服务器和web服务器
      2. access_log
      3. web服务器ip透传
      4. 在线日志和离线日志
      5. 埋点日志加密策略和上传策略
      6. 日志服务器
    2. 日志收容
      1. flume-ng
      2. logstash, scribe, chukwa, kafka, flume对比
    3. 日志处理
      1. hadoop
        1. hdfs
        2. mapreduce
        3. yarn
      2. ETL
        1. 非法日志的过滤条件
        2. 正则表达式
        3. 数据仓库相关理论(数据立方体, 上钻,下卷,切面等)
      3. OLAP
        1. 轻量级的olap框架Mondrian
        2. mongo集群用作OLAP框架
          1. 分片集群概念
          2. mr
          3. aggregate框架
      4. Dump层(从数据仓库导出到olap层)
        1. dump-job
        2. dump-core
        3. dump-mapping
      5. 任务调度
        1. oozie,azkaban
        2. 工作流监控
    4. 服务
      1. 统一化参数
      2. SQL parser
      3. 负载均衡
        1. nginx
    5. 展现
      1. bootstrap
      2. highchart, nvd3, chart.js
      3. amd, cmd( require.js)
    6. 其他
      1. elasticsearch对OLAP的支持到底靠不靠谱
      2. 一直憧憬的实时
  2. 启明星2.0 (阳春白雪)
    1. 日志记录
      1. 与1.0相同,接入了更多的日志,比如H5的日志,开放平台的日志,埋点日志除了app的之外,还有车机的,
    2. 日志收容
      1. TT的接入
      2. SLS与TT的异同
      3. 与传统日志收容框架相比
      4. 日志收容监控(基线, 同比, 环比等)
    3. 日志处理
      1. odps
        1. 表结构存储
        2. 支持sql
        3. 完整的生态系统
        4. 摩萨德任务监控
      2. ETL
        1. sql,udf
        2. mr
      3. OLAP
        1. DRDS
        2. Oceanbase,garuda
        3. 大数据量下OLAP框架: facebook的pinot, apache的kylin等
      4. DATAX
        1. odps插件
        2. python脚本
        3. jar包
        4. 其他
          1. 支持多种外围存储导出, drds,rds,hbase, ots,mongodb, tair,ots等
      5. 完整的工作流配置,监控
    4. 服务
      1. 服务组件化架构
      2. 分布式服务组件的使用
        1. dubbo
        2. hsf
          1. configureServer
        3. akka
      3. 配置中心diamond
        1. zookeeper
      4. 多类型数据库支持的服务层设计(DRDS, RDS, HBase, MongoDB等)
      5. 负载均衡
        1. VIPserver
        2. 相关算法
          1. 一致性hash
    5. 展现
      1. 针对多数据库的dataloader组件
      2. 基于requirejs的图形组件的形成
      3. apache zeppelin可视化框架
      4. Pentaho
      5. nodejs相关工具对可视化插件的帮助(gulp, grunt, less等)
    6. 实时终于实现
      1. 实时架构
      2. 日志的实时接入
        1. TT, flume等
      3. 日志的实时处理
        1. strom, spark-streaming,基于storm的galaxy(即将脱离底层计算框架 )
      4. 实时服务
        1. netty-socket
        2. 基于广播的socket服务
      5. 实时展现
        1. socketio
        2. websocket
      6. 实时下的渲染技术
      7. 场景
        1. 实时活跃用户展现
        2. 实时热力图
        3. 十一大屏
        4. app崩溃信息实时统计分析系统
        5. 基于实时框架的服务性能监控系统
          1. SLA性能指标:?平均响应时长, 长尾占比, 返回值非200占比, 近一周内平均响应时长
    7. 从启明星到数据秀
      1. 数据秀
        1. 图像相关
          1. 空间索引方式
            1. 网状索引: geohash等
            2. 树状索引: R树,B树,红黑树,四叉树等
          2. 相关工具
            1. mongodb对空间索引的支持
            2. postgis
      2. 大数据挖掘与机器学习
        1. 回归分类算法
          1. 逻辑回归
          2. 线性SVM
          3. 随机森林
          4. 梯度渐进决策树(回归)和地图渐进决策树(分类)
          5. 朴素贝叶斯
          6. K近邻
          7. 线性回归
        2. 预测类算法
          1. 模型预测
          2. 模型评估: 混淆矩阵和ROC曲线
          3. 回归模型评估
        3. 统计分析算法
          1. 基本统计信息
          2. 皮尔森系数
        4. 数据转换算法
          1. 随机采用
          2. 切分表
          3. 水平拼接表
          4. 垂直拼接表
        5. 深度学习算法
          1. CNN特征训练
          2. CNN特征抽取
          3. CNN类目预测
          4. 图像缩放
        6. 自然语言处理算法
          1. 分词
          2. 词频统计
          3. 计算词TF-IDF值
          4. 生成文档对应的主题
          5. word2vec
        7. 图算法
          1. KCore算法
          2. 单源最短路径SSSP
          3. PageRank算法
          4. 标签传播聚类LabelPropagationClustering
          5. 标签传播分类LabelPropagetionClassification
          6. 图聚类评价指标Modularity
          7. 节点聚类系数NodeDensity
          8. 边聚类系数EdgeDensity
          9. 最大联通子徒
          10. 计算三角形
        8. 聚类算法
          1. K均值聚类 KMeans
        9. 推荐算法
          1. 协同过滤
      3. 成果
        1. 家和公司
        2. 活跃区域
        3. 导航轨迹
        4. 出行偏好
        5. 个人主页
        6. 人口迁徙
        7. 反爬虫
                    转自个人博客Goingio技术平台(http://www.goingio.com)

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
《2022技术人的百宝黑皮书》——第二部分.技术人生与学习成长系列——技术人的经验总结——本周推荐 | 前端架构师的一些思考和总结(1)
《2022技术人的百宝黑皮书》——第二部分.技术人生与学习成长系列——技术人的经验总结——本周推荐 | 前端架构师的一些思考和总结(1)
6 0
《2022技术人的百宝黑皮书》——第二部分.技术人生与学习成长系列——技术人的经验总结——本周推荐 | 前端架构师的一些思考和总结(2)
《2022技术人的百宝黑皮书》——第二部分.技术人生与学习成长系列——技术人的经验总结——本周推荐 | 前端架构师的一些思考和总结(2)
7 0
《2022技术人的百宝黑皮书》——第二部分.技术人生与学习成长系列——技术人的经验总结——本周推荐 | 前端架构师的一些思考和总结(3)
《2022技术人的百宝黑皮书》——第二部分.技术人生与学习成长系列——技术人的经验总结——本周推荐 | 前端架构师的一些思考和总结(3)
5 0
科普一下各种架构师的称号
根据工作接触,学习到了还有那么多架构师的门道
115 0
崮德好文连载 - 方法比决心重要
我们很多工程师,平时不喜欢读书,突然有一天,听到某几个行业领袖说读书怎么怎么好,本着对行业领袖的绝对信任,这些工程师就急冲冲的跑去买来一堆推荐的书,然后也就试着每天阅读起来,但是不到一周时间,他们就慢慢放弃了。然后他们下次在听到有人推荐书,就会说,瞧,又是一个卖心灵鸡汤的人来了。
88 0
崮德好文连载 - 工作语言
在人与人的相处中,一句话,可能会说者无意,听者有心。我记得我刚入职阿里巴巴第二天,我去请教一位PD同学,关于IoT这个工作的细节,他虽然会和我解释工作细节,但是一旦我问到某些更深入的细节,他会说,这个不关你的事情,你不要管。
90 0
你不必懂 但我们一直在 —— 技术人致敬
你不必懂,但我们一直在。1024 技术人节日快乐!
1450 0
湖畔大学之在湖边 ● 畅谈1号位的技术观
“企业1号位要不要懂技术?”,这是第七期“在湖边”活动的主旨论题。“奇葩大会”和“吐槽大会”史炎、大雄老师指导CEO们进行辩论和吐槽。金句不断:”项目洽谈的时候,客户总问我,技术够不够新,技术够不够成熟,在多少现场实施过。就像姑娘找男朋友的时候,过来就问你恋爱技巧够不够高,还希望你是个小鲜肉”。
3731 0
首发!《长安十二时辰背后的技术秘籍》正式公开,速来下载
今天,阿里技术重磅发布电子书《长安十二时辰背后的技术秘籍:从智能算法到音视频创新技术》,已正式开放下载。了解在《长安十二时辰》的荧幕后,工程师在敲敲打打的代码之间,创造出智能算法和音视频技术的新高度。
6526 0
+关注
刈刀
阿里云高级数据研发专家
文章
问答
视频
文章排行榜
最热
最新
相关电子书
更多
《长安十二时辰》
立即下载
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载