张飞的猪_个人页

个人头像照片 张飞的猪
个人头像照片
19
2
0

个人介绍

数据开发攻城狮,常年混迹于数据之中。VX公众号:张飞的猪大数据分享

擅长的技术

  • Python
  • hadoop
  • 大数据
  • SQL
获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
暂无更多信息

2024年04月

  • 04.11 10:44:08
    发表了文章 2024-04-11 10:44:08

    ClickHouse(06)ClickHouse建表语句DDL详细解析

    ClickHouse创建表有多种语法,包括在当前服务器上创建、复制已有表结构、从表函数创建和从查询创建。表引擎决定表的特性和数据存储方式,如Memory引擎仅存储内存中。分布式DDL可在CLUSTER子句中实现跨节点操作。临时表生命周期与会话绑定,仅支持Memory引擎。分区表用于优化查询性能,MergeTree系列引擎支持分区。默认值表达式(DEFAULT, MATERIALIZED, EPHEMERAL, ALIAS)影响数据插入和查询行为。主键和约束可增强数据完整性,TTL功能用于自动删除过期数据。列压缩和编码能减少存储空间。文章还提供了ClickHouse更多相关系列内容链接。
  • 04.04 19:02:49
    发表了文章 2024-04-04 19:02:49

    ClickHouse(05)ClickHouse数据类型详解

    ClickHouse是一款分析型数据库,支持基础、复合和特殊数据类型。基础类型包括数值(Int、Float、Decimal)、字符串(String、FixedString、UUID)和时间(DateTime、DateTime64、Date)类型。数值类型如Int8-64和Float32-64,Decimal提供高精度计算。字符串中的FixedString有固定长度,UUID作为主键。时间类型最高精度到秒。复合类型有数组、元组、枚举和嵌套,其中数组和元组允许不同数据类型,枚举节省空间,嵌套类型是多维数组结构。特殊类型如Nullable表示可为空,Domain封装IPv4和IPv6。
  • 12.04 17:31:59
    发表了文章 2023-12-04 17:31:59

    数据仓库(07)数仓规范设计

    所谓的规范的定义,简单理解,如果把数据当作货物,那就是货物的分类,以及对应相关的属性,比如生产日期,某个原料的含量等,我们可以把相近或者相同货物,按照一定的规律,放在一起,方便入库与出库,需要某个货物按照这些规律就可以,以比较快的速度拉取出来。 一般的规范设计包含一下几个方面:划分和定义数据域、业务过程、维度、度量 原子指标、修饰类型、修饰词、时间周期、派生指标。

2024年03月

  • 03.31 14:51:03
    发表了文章 2024-03-31 14:51:03

    ClickHouse(04)如何搭建ClickHouse集群

    ClickHouse集群的搭建和部署和单机的部署是类似的,主要在于配置的不一致,如果需要了解ClickHouse单机的安装设部署,可以看看这篇文章,[ClickHouse(03)ClickHouse怎么安装和部署](https://zhuanlan.zhihu.com/p/532431053)。
  • 03.25 18:57:30
    发表了文章 2024-03-25 18:57:30

    ClickHouse(03)ClickHouse怎么安装和部署

    本文会介绍如何安装和部署ClickHouse,官方推荐的几种安装模式,以及安装之后如何启动,ClickHouse集群如何配置等。
  • 03.21 18:30:10
    发表了文章 2024-03-21 18:30:10

    ClickHouse(02)ClickHouse架构设计介绍概述与ClickHouse数据分片设计

    ClickHouse的核心架构包括执行过程和数据存储两部分。执行过程涉及Parser与Interpreter解析SQL,通过Column、DataType、Block、Functions和Storage模块处理数据。Column是内存中列的表示,Field处理单个值,DataType负责序列化和反序列化,Block是内存中表的子集,Block Streams处理数据流。Storage代表表,使用不同的引擎如StorageMergeTree。数据存储基于分片和副本,1个分片由多个副本组成,每个节点只能拥有1个分片。
  • 03.20 16:39:59
    发表了文章 2024-03-20 16:39:59

    ClickHouse(01)什么是ClickHouse,ClickHouse适用于什么场景

    ClickHouse是一款高性能的列式存储OLAP数据库,由俄罗斯的Yandex公司开发,用于在线分析处理(OLAP)。它提供秒级大数据查询,适用于商业智能、广告流量等领域。ClickHouse速度快的原因包括列式存储、数据压缩、向量化执行和多线程分布式处理。然而,它不支持事务,不适合OLTP操作。相比Hadoop生态中的查询引擎,ClickHouse在大量数据查询上表现出色。一系列的文章详细介绍了ClickHouse的各个方面,包括安装、表引擎和使用场景。
  • 03.15 16:16:27
    发表了文章 2024-03-15 16:16:27

    数据仓库(13)大数据数仓经典最值得阅读书籍推荐

    从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。
  • 03.12 15:04:03
    发表了文章 2024-03-12 15:04:03

    数据仓库(12)数据治理之数仓数据管理实践心得

    这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。 当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:[数据仓库(11)什么是大数据治理,数据治理的范围是哪些](https://zhuanlan.zhihu.com/p/467433967)。
  • 03.11 18:46:09
    发表了文章 2024-03-11 18:46:09

    数据仓库(11)什么是大数据治理,数据治理的范围是哪些

    什么是数据治理,数据治理包含哪些方面?大数据时代的到来,给了我们很多的机遇,也有很多的挑战。最基础的调整也是大数据的计算和管理,数据治理是一个特别重要的大数据基础,他保证着数据能否被最好的应用,保证着数据的安全,治理等。那么数据治理到底能治什么,怎么治?
  • 03.10 18:10:57
    发表了文章 2024-03-10 18:10:57

    数据仓库(10)数仓拉链表开发实例

    拉链表是数据仓库中特别重要的一种方式,它可以保留数据历史变化的过程,这里分享一下拉链表具体的开发过程。 维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便的还原出拉链时点的客户记录。
  • 03.09 10:26:46
    发表了文章 2024-03-09 10:26:46

    数据仓库(09)数仓缓慢变化维度数据的处理

    数据仓库的重要特点之一是反映历史变化,所以如何处理维度的变化是维度设计的重要工作之一。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化,与数据增长较为快速的事实表相比,维度变化相对缓慢。阴齿这个就叫做缓慢变化维。

2023年12月

  • 12.23 14:16:09
    发表了文章 2023-12-23 14:16:09

    数据仓库(08)数仓事实表和维度表技术

    所谓的事实表和维度表技术,指的就是如何和构造一张事实表和维度表,是的事实表和维度表,可以涵盖现在目前的需要和方便后续下游数据应用的开发

2023年10月

  • 10.10 14:36:53
    发表了文章 2023-10-10 14:36:53

    数据仓库(06)数仓分层设计

    目前主流的数据仓库分层大多为四层,也有五层的架构,这里介绍基本的四层架构。 分别为数据贴源层(ods)、数据仓库明细层(dw)、多维明细层(dws)和数据集市层(dm)。

2023年09月

2023年07月

  • 07.10 22:05:17
    发表了文章 2023-07-10 22:05:17

    数据仓库(4)基于维度建模的数仓KimBall架构

    基于维度建模的KimBall架构,将数据仓库划分为4个不同的部分。分别是操作型源系统、ETL系统、数据展现和商业智能应用,如下图。

2023年06月

  • 06.21 11:05:16
    发表了文章 2023-06-21 11:05:16

    数据仓库(3)数仓建模之星型模型与维度建模

    维度建模是一种将数据结构化的逻辑设计方法,也是一种广泛应用的数仓建模方式,它将客观世界划分为度量和上下文。度量是常常是以数值形式出现,事实周围有上下文包围着,这种上下文被直观地分成独立的逻辑块,称之为维度。它与实体-关系建模有很大的区别,实体-关系建模是面向应用,遵循第三范式,以消除数据冗余为目标的设计技术。维度建模是面向分析,为了提高查询性能可以增加数据冗余,反规范化的设计技术。

2022年11月

  • 11.10 17:31:35
    发表了文章 2022-11-10 17:31:35

    数据仓库(02)数仓、大数据与传统数据库的区别

    传统数据库是存储根据范式建模的关系型数据,主要用于OLTP(on-line transaction processing)翻译为联机事务处理的软件。大数据是根据map redurce范式构建的出局处理,存储的软件,主要用于OLAP是做分析处理。大数据和传统数据库,还有一个更大的区别在于,处理的数据量以及计算量的大小,当传统数据库,无法在人可以接受的短时间内计算出结果,那这个数据就叫大数据,需要使用到大数据技术处理。而数据仓库本质上是一种数据的处理方式,而不是一种基础软件,它可以依赖于传统数据库,也可以依赖大数据技术去构建。

2022年10月

  • 10.12 16:06:38
    发表了文章 2022-10-12 16:06:38

    数据仓库(01)什么是数据仓库,数仓有什么特点

    数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
  • 发表了文章 2024-04-11

    ClickHouse(06)ClickHouse建表语句DDL详细解析

  • 发表了文章 2024-04-07

    数据仓库(07)数仓规范设计

  • 发表了文章 2024-04-05

    ClickHouse(05)ClickHouse数据类型详解

  • 发表了文章 2024-03-31

    ClickHouse(04)如何搭建ClickHouse集群

  • 发表了文章 2024-03-25

    ClickHouse(03)ClickHouse怎么安装和部署

  • 发表了文章 2024-03-21

    ClickHouse(02)ClickHouse架构设计介绍概述与ClickHouse数据分片设计

  • 发表了文章 2024-03-20

    ClickHouse(01)什么是ClickHouse,ClickHouse适用于什么场景

  • 发表了文章 2024-03-15

    数据仓库(13)大数据数仓经典最值得阅读书籍推荐

  • 发表了文章 2024-03-12

    数据仓库(12)数据治理之数仓数据管理实践心得

  • 发表了文章 2024-03-11

    数据仓库(11)什么是大数据治理,数据治理的范围是哪些

  • 发表了文章 2024-03-10

    数据仓库(10)数仓拉链表开发实例

  • 发表了文章 2024-03-09

    数据仓库(09)数仓缓慢变化维度数据的处理

  • 发表了文章 2023-12-23

    数据仓库(08)数仓事实表和维度表技术

  • 发表了文章 2023-10-10

    数据仓库(06)数仓分层设计

  • 发表了文章 2023-09-12

    数据仓库(5)数仓Kimball与Inmon架构的对比

  • 发表了文章 2023-07-10

    数据仓库(4)基于维度建模的数仓KimBall架构

  • 发表了文章 2023-06-21

    数据仓库(3)数仓建模之星型模型与维度建模

  • 发表了文章 2022-11-10

    数据仓库(02)数仓、大数据与传统数据库的区别

  • 发表了文章 2022-10-12

    数据仓库(01)什么是数据仓库,数仓有什么特点

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息