张飞的猪_社区达人页

个人头像照片
张飞的猪
已加入开发者社区1865

勋章 更多

个人头像照片
星级博主
星级博主
个人头像照片
技术博主
技术博主
个人头像照片
江湖侠士
江湖侠士

成就

已发布44篇文章
7条评论
已回答2个问题
0条评论
已发布0个视频
github地址

我关注的人 更多

技术能力

兴趣领域
  • Python
  • hadoop
  • 大数据
  • SQL
擅长领域
技术认证

暂时未有相关云产品技术能力~

数据开发攻城狮,常年混迹于数据之中。VX公众号:张飞的猪大数据分享

暂无精选文章
暂无更多信息

2024年07月

  • 07.06 12:53:30
    发表了文章 2024-07-06 12:53:30

    《从零开始学Python》(第二版) PDF下载读书分享

    Python,由Guido van Rossum创造(1989),是1991年发布的面向对象、解释型编程语言,以其简洁清晰的语法和强大的库著称,昵称“胶水语言”。它连接不同模块,强调代码的优雅、明确和简单。《从零开始学Python》(第二版)是本风趣、实践导向的教材,提供PDF下载,是学习Python的宝贵资源。![书封](https://ucc.alicdn.com/pic/developer-ecology/nrw3f3oqlpmag_40f357729aac4defa97fb1e0f66a2501.png)
  • 07.06 12:51:26
    发表了文章 2024-07-06 12:51:26

    Spark快速大数据分析PDF下载读书分享推荐

    《Spark快速大数据分析》适合初学者,聚焦Spark实用技巧,同时深入核心概念。作者团队来自Databricks,书中详述Spark 3.0新特性,结合机器学习展示大数据分析。Spark是大数据分析的首选工具,本书助你驾驭这一利器。[PDF下载链接][1]。 ![Spark Book Cover][2] [1]: https://zhangfeidezhu.com/?p=345 [2]: https://i-blog.csdnimg.cn/direct/6b851489ad1944548602766ea9d62136.png#pic_center
  • 07.04 13:06:53
    发表了文章 2024-07-04 13:06:53

    Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享

    《Spark大数据处理:技术、应用与性能优化》深入浅出介绍Spark核心,涵盖部署、实战与性能调优,适合初学者。作者基于微软和IBM经验,解析Spark工作机制,探讨BDAS生态,提供实践案例,助力快速掌握。书中亦讨论性能优化策略。[PDF下载链接](https://zhangfeidezhu.com/?p=347)。![Spark Web UI](https://img-blog.csdnimg.cn/direct/16aaadbb4e13410f8cb2727c3786cc9e.png#pic_center)

2024年06月

  • 06.28 20:05:10
    发表了文章 2024-06-28 20:05:10

    ClickHouse(24)ClickHouse集成mongodb表引擎详细解析

    **MongoDB引擎在ClickHouse中提供只读访问远程数据,用于`SELECT`查询。不支持写入。创建MongoDB表引擎的语法:`CREATE TABLE ... ENGINE = MongoDB(host, db, coll, user, pass)`。例如:**查看[ClickHouse中文文档](https://zhangfeidezhu.com/?p=468)获取更多教程,包括系列文章覆盖的各种表引擎解析。
  • 06.28 20:03:55
    发表了文章 2024-06-28 20:03:55

    ClickHouse(23)ClickHouse集成Mysql表引擎详细解析

    ClickHouse的MySQL引擎允许执行`SELECT`查询从远程MySQL服务器。使用`MySQL('host:port', 'database', 'table', 'user', 'password'[,...])`格式连接,支持简单`WHERE`子句在MySQL端处理,复杂条件和`LIMIT`在ClickHouse端执行。不支持`NULL`值,用默认值替换。系列文章涵盖ClickHouse安装、集群搭建、表引擎解析等主题。[链接](https://zhangfeidezhu.com/?p=468)有更多
  • 06.27 20:06:44
    发表了文章 2024-06-27 20:06:44

    ClickHouse(22)ClickHouse集成HDFS表引擎详细解析

    ClickHouse的HDFS引擎允许直接在Hadoop生态系统内管理数据。使用`ENGINE=HDFS(URI, format)`,其中URI指定HDFS路径,format定义文件格式(如TSV、CSV或ORC)。表可读写,但不支持`ALTER`、`SELECT...SAMPLE`、索引和复制操作。通配符可用于文件路径,如`*`、`?`和范围`{N..M}`。Kerberos认证可配置。虚拟列包括文件路径 `_path` 和文件名 `_file`。有关更多信息,参见相关文章系列。
  • 06.27 20:04:44
    发表了文章 2024-06-27 20:04:44

    最近在读《谁说菜鸟不会数据分析 SPSS篇》pdf分享

    《谁说菜鸟不会数据分析(SPSS篇)》面向职场新人,以轻松方式讲解SPSS在数据分析中的应用,涵盖统计描述、推断和探索性分析,避开复杂术语,适合产品运营、市场、金融等领域从业者提升效率。[PDF下载](https://zhangfeidezhu.com/?p=339)
  • 06.26 21:10:47
    发表了文章 2024-06-26 21:10:47

    ClickHouse(21)ClickHouse集成Kafka表引擎详细解析

    ClickHouse的Kafka表引擎允许直接从Apache Kafka流中消费数据,支持多种数据格式如JSONEachRow。创建Kafka表时需指定参数如brokers、topics、group和format。关键参数包括`kafka_broker_list`、`kafka_topic_list`、`kafka_group_name`和`kafka_format`。Kafka特性包括发布/订阅、容错存储和流处理。通过设置`kafka_num_consumers`可以调整并行消费者数量。Kafka引擎还支持Kerberos认证。虚拟列如`_topic`、`_offset`等提供元数据信息。
  • 06.26 21:09:07
    发表了文章 2024-06-26 21:09:07

    ClickHouse(20)ClickHouse集成PostgreSQL表引擎详细解析

    ClickHouse的PostgreSQL引擎允许直接查询和插入远程PostgreSQL服务器的数据。`CREATE TABLE`语句示例展示了如何定义这样的表,包括服务器信息和权限。查询在只读事务中执行,简单筛选在PostgreSQL端处理,复杂操作在ClickHouse端完成。`INSERT`通过`COPY`命令在PostgreSQL事务中进行。注意,数组类型的处理和Nullable列的行为。示例展示了如何从PostgreSQL到ClickHouse同步数据。一系列的文章详细解释了ClickHouse的各种特性和表引擎。
  • 06.26 14:16:40
    发表了文章 2024-06-26 14:16:40

    ClickHouse(19)ClickHouse集成Hive表引擎详细解析

    Hive引擎允许对HDFS Hive表执行 `SELECT` 查询。目前它支持如下输入格式: -文本:只支持简单的标量列类型,除了 `Binary` - ORC:支持简单的标量列类型,除了`char`; 只支持 `array` 这样的复杂类型 - Parquet:支持所有简单标量列类型;只支持 `array` 这样的复杂类型
  • 06.26 14:04:45
    发表了文章 2024-06-26 14:04:45

    Java编程思想(面向对象)第四版PDF分享

    探索《Java编程思想》第四版,理解Java不仅是特性集合,更是解决问题的强大工具。本书深入设计层面,构建编程思维模型,助你逐步精通Java。[阅读更多](https://zhangfeidezhu.com/?p=355) ![Java编程思想](https://ucc.alicdn.com/pic/developer-ecology/nrw3f3oqlpmag_c8ff959a921545f1bbabcefd37f029cf.png)
  • 06.23 12:25:44
    发表了文章 2024-06-23 12:25:44

    ClickHouse(18)ClickHouse集成ODBC表引擎详细解析

    ClickHouse使用ODBC集成表引擎通过`clickhouse-odbc-bridge`安全连接外部数据库,支持Nullable类型。创建ODBC表引擎的SQL示例:`CREATE TABLE ... ENGINE = ODBC(connection_settings, db, table)`. 用户需配置`odbc.ini`,如在Ubuntu+MySQL上,为`clickhouse`用户授予权限。查询示例展示如何从MySQL检索数据到ClickHouse。查阅更多详情:[ClickHouse经典中文文档分享](https://zhangfeidezhu.com/?p=468)。
  • 06.23 12:24:20
    发表了文章 2024-06-23 12:24:20

    ClickHouse(17)ClickHouse集成JDBC表引擎详细解析

    ClickHouse通过JDBC桥接器`clickhouse-jdbc-bridge`连接到外部数据库,支持Nullable类型。使用`CREATE TABLE`语句配置JDBC引擎,如`ENGINE = JDBC(datasource_uri, db, table)`。示例展示了如何与MySQL交互,创建本地表并从远程MySQL表中查询和插入数据。此外,ClickHouse还支持JDBC表函数,允许临时查询远程表。相关系列文章在指定链接中提供。
  • 06.20 19:53:48
    发表了文章 2024-06-20 19:53:48

    Hive怎么调整优化Tez引擎的查询?在Tez上优化Hive查询的指南

    在Tez上优化Hive查询,包括配置参数调整、理解并行化机制以及容器管理。关键步骤包括YARN调度器配置、安全阀设置、识别性能瓶颈(如mapper/reducer任务和连接操作),理解Tez如何动态调整mapper和reducer数量。例如,`tez.grouping.max-size` 影响mapper数量,`hive.exec.reducers.bytes.per.reducer` 控制reducer数量。调整并发和容器复用参数如`hive.server2.tez.sessions.per.default.queue` 和 `tez.am.container.reuse.enabled`
  • 06.19 19:11:37
    发表了文章 2024-06-19 19:11:37

    Elasticsearch如何聚合查询多个统计值,如何嵌套聚合?并相互引用,统计索引中某一个字段的空值率?语法是怎么样的?

    Elasticsearch聚合查询用于复杂数据分析,包括统计空值率。示例展示了如何计算字段`my_field`非空非零文档的百分比。查询分为三步:总文档数计数、符合条件文档数计数及计算百分比。聚合概念涵盖度量、桶和管道聚合。脚本在聚合中用于动态计算。常见聚合类型如`sum`、`avg`、`date_histogram`等。组合使用可实现多值统计、嵌套聚合和空值率计算。[阅读更多](https://zhangfeidezhu.com/?p=515)
  • 06.11 11:42:32
    发表了文章 2024-06-11 11:42:32

    ClickHouse(16)ClickHouse日志表引擎Log详细解析

    ClickHouse的Log引擎系列适用于小数据量(<1M行)的表,包括StripeLog、Log和TinyLog。这些引擎将数据存储在磁盘,追加写入,不支持更新和索引,写入非原子可能导致数据损坏。Log和StripeLog支持并发访问和并行读取,Log按列存储,StripeLog将所有数据存于一个文件。TinyLog是最简单的,不支持并行读取和并发访问,每列存储在单独文件中。适用于一次性写入、多次读取的场景。
  • 06.10 11:31:01
    发表了文章 2024-06-10 11:31:01

    ClickHouse(15)ClickHouse合并树MergeTree家族表引擎之GraphiteMergeTree详细解析

    GraphiteMergeTree是ClickHouse用于优化Graphite数据存储和汇总的表引擎,适合需要瘦身和高效查询Graphite数据的开发者。它基于MergeTree,减少存储空间并提升查询效率。创建表时需包括Path、Time、Value和Version列。配置涉及pattern、regexp、function和retention,用于指定聚合函数和数据保留规则。文章还提供了建表语句示例和相关资源链接。
  • 06.07 13:05:03
    发表了文章 2024-06-07 13:05:03

    ClickHouse(14)ClickHouse合并树MergeTree家族表引擎之VersionedCollapsingMergeTree详细解析

    VersionedCollapsingMergeTree是ClickHouse的一种优化引擎,扩展了MergeTree,支持多线程异步插入和高效的数据折叠。它通过Sign和Version列处理对象状态的变化,Sign表示行的状态(正向或撤销),Version追踪状态版本。引擎自动删除旧状态,减少存储占用。在查询时,需注意可能需使用GROUP BY和聚合函数确保数据折叠,因为ClickHouse不保证查询结果已折叠。文章还提供了建表语法、使用示例和相关资源链接。
  • 06.04 13:35:49
    发表了文章 2024-06-04 13:35:49

    ClickHouse(13)ClickHouse合并树MergeTree家族表引擎之CollapsingMergeTree详细解析

    CollapsingMergeTree是ClickHouse的一种表引擎,它扩展了`MergeTree`,通过折叠行来优化存储和查询效率。当`Sign`列值为1和-1的成对行存在时,该引擎会异步删除除`Sign`外其他字段相同的行,只保留最新状态。建表语法中,`sign`列必须为`Int8`类型,用来标记状态(1)和撤销(-1)。写入时,应确保状态和撤销行的对应关系以保证正确折叠。查询时,可能需要使用聚合函数如`sum(Sign * x)`配合`GROUP BY`来处理折叠后的数据。使用`FINAL`修饰符可强制折叠,但效率较低。系列文章提供了更多关于ClickHouse及其表引擎的详细解析。
  • 06.03 17:56:54
    发表了文章 2024-06-03 17:56:54

    ClickHouse(12)ClickHouse合并树MergeTree家族表引擎之AggregatingMergeTree详细解析

    AggregatingMergeTree是ClickHouse的一种表引擎,它优化了MergeTree的合并逻辑,通过将相同主键(排序键)的行聚合为一行并存储聚合函数状态来减少行数。适用于增量数据聚合和物化视图。建表语法中涉及AggregateFunction和SimpleAggregateFunction类型。插入数据需使用带-State-的聚合函数,查询时使用GROUP BY和-Merge-。处理逻辑包括按排序键聚合、在合并分区时计算、以分区为单位聚合等。常用于物化视图配合普通MergeTree使用。查阅更多资料可访问相关链接。
  • 06.01 23:39:30
    发表了文章 2024-06-01 23:39:30

    ClickHouse(11)ClickHouse合并树MergeTree家族表引擎之SummingMergeTree详细解析

    `SummingMergeTree`是`MergeTree`引擎的变种,它合并相同主键的行并计算数值列的总和,从而节省存储空间和加速查询。通常与`MergeTree`配合使用,存储聚合数据以避免数据丢失。创建`SummingMergeTree`表时,可选参数`columns`指定要汇总的数值列。未指定时,默认汇总所有非主键数值列。注意,聚合可能不完整,查询时需用`SUM`和`GROUP BY`。文章还介绍了建表语法、数据处理规则以及对嵌套数据结构和`AggregateFunction`列的处理。查阅更多ClickHouse相关内容可访问相关链接。

2024年05月

  • 05.31 12:37:53
    发表了文章 2024-05-31 12:37:53

    ClickHouse(10)ClickHouse合并树MergeTree家族表引擎之ReplacingMergeTree详细解析

    `ReplacingMergeTree`是ClickHouse的一种表引擎,用于数据去重。与`MergeTree`不同,它在合并分区时删除重复行,但不保证无重复。去重基于`ORDER BY`列,在ver列未指定时保留最新行,否则保留ver值最大者。数据处理策略包括延迟合并导致的不确定性及按分区去重。`CREATE TABLE`语法中,`ReplacingMergeTree`需要指定可选的`ver`列。相关系列文章提供了更深入的解析。
  • 05.30 16:38:47
    发表了文章 2024-05-30 16:38:47

    ClickHouse(09)ClickHouse合并树MergeTree家族表引擎之MergeTree详细解析

    ClickHouse的MergeTree系列引擎是其高性能大数据存储的核心,特别适合大量数据的快速插入。数据按主键排序,支持分区和数据副本,提供数据采样功能。建表时,通过`ENGINE = MergeTree()`指定引擎,`ORDER BY`指定排序键,可选`PARTITION BY`分区,`SAMPLE BY`进行采样。此外,MergeTree支持多种索引和设置,如`index_granularity`控制索引粒度。查询时,ClickHouse利用主键和索引来高效检索数据,尤其在使用等值或范围条件时。
  • 05.25 20:36:20
    发表了文章 2024-05-25 20:36:20

    ClickHouse(08)ClickHouse表引擎概况

    ClickHouse支持四种主要表引擎系列:MergeTree家族,适用于大数据插入并按主键排序;日志引擎系列,适合小数据量写入,如StripeLog、Log和TinyLog;集成表引擎,如ODBC、JDBC,用于与外部系统集成;特殊引擎,包括分布式、内存、随机数生成等,满足特定需求。MergeTree系列提供数据副本和分区,日志系列不支持索引和突变操作。详细解析见相关文章链接。
  • 05.20 11:39:19
    发表了文章 2024-05-20 11:39:19

    ClickHouse(07)ClickHouse数据库引擎解析

    ClickHouse支持多种数据库引擎,包括Atomic(默认)、MySQL、MaterializeMySQL、Lazy、PostgreSQL、MaterializedPostgreSQL。Atomic提供非阻塞的表操作和原子的表交换,有UUID标识和延迟删除功能。MySQL引擎允许与远程MySQL服务器交互,支持INSERT和SELECT,不支持RENAME操作。PostgreSQL引擎类似,可与远程PostgreSQL服务进行读写操作。SQLite引擎用于连接SQLite数据库。实验性引擎如MaterializeMySQL和MaterializedPostgreSQL用于实现实时数据同步。
  • 04.11 10:44:08
    发表了文章 2024-04-11 10:44:08

    ClickHouse(06)ClickHouse建表语句DDL详细解析

    ClickHouse创建表有多种语法,包括在当前服务器上创建、复制已有表结构、从表函数创建和从查询创建。表引擎决定表的特性和数据存储方式,如Memory引擎仅存储内存中。分布式DDL可在CLUSTER子句中实现跨节点操作。临时表生命周期与会话绑定,仅支持Memory引擎。分区表用于优化查询性能,MergeTree系列引擎支持分区。默认值表达式(DEFAULT, MATERIALIZED, EPHEMERAL, ALIAS)影响数据插入和查询行为。主键和约束可增强数据完整性,TTL功能用于自动删除过期数据。列压缩和编码能减少存储空间。文章还提供了ClickHouse更多相关系列内容链接。
  • 04.04 19:02:49
    发表了文章 2024-04-04 19:02:49

    ClickHouse(05)ClickHouse数据类型详解

    ClickHouse是一款分析型数据库,支持基础、复合和特殊数据类型。基础类型包括数值(Int、Float、Decimal)、字符串(String、FixedString、UUID)和时间(DateTime、DateTime64、Date)类型。数值类型如Int8-64和Float32-64,Decimal提供高精度计算。字符串中的FixedString有固定长度,UUID作为主键。时间类型最高精度到秒。复合类型有数组、元组、枚举和嵌套,其中数组和元组允许不同数据类型,枚举节省空间,嵌套类型是多维数组结构。特殊类型如Nullable表示可为空,Domain封装IPv4和IPv6。
  • 03.31 14:51:03
    发表了文章 2024-03-31 14:51:03

    ClickHouse(04)如何搭建ClickHouse集群

    ClickHouse集群的搭建和部署和单机的部署是类似的,主要在于配置的不一致,如果需要了解ClickHouse单机的安装设部署,可以看看这篇文章,[ClickHouse(03)ClickHouse怎么安装和部署](https://zhuanlan.zhihu.com/p/532431053)。
  • 03.25 18:57:30
    发表了文章 2024-03-25 18:57:30

    ClickHouse(03)ClickHouse怎么安装和部署

    本文会介绍如何安装和部署ClickHouse,官方推荐的几种安装模式,以及安装之后如何启动,ClickHouse集群如何配置等。
  • 03.21 18:30:10
    发表了文章 2024-03-21 18:30:10

    ClickHouse(02)ClickHouse架构设计介绍概述与ClickHouse数据分片设计

    ClickHouse的核心架构包括执行过程和数据存储两部分。执行过程涉及Parser与Interpreter解析SQL,通过Column、DataType、Block、Functions和Storage模块处理数据。Column是内存中列的表示,Field处理单个值,DataType负责序列化和反序列化,Block是内存中表的子集,Block Streams处理数据流。Storage代表表,使用不同的引擎如StorageMergeTree。数据存储基于分片和副本,1个分片由多个副本组成,每个节点只能拥有1个分片。
  • 03.20 16:39:59
    发表了文章 2024-03-20 16:39:59

    ClickHouse(01)什么是ClickHouse,ClickHouse适用于什么场景

    ClickHouse是一款高性能的列式存储OLAP数据库,由俄罗斯的Yandex公司开发,用于在线分析处理(OLAP)。它提供秒级大数据查询,适用于商业智能、广告流量等领域。ClickHouse速度快的原因包括列式存储、数据压缩、向量化执行和多线程分布式处理。然而,它不支持事务,不适合OLTP操作。相比Hadoop生态中的查询引擎,ClickHouse在大量数据查询上表现出色。一系列的文章详细介绍了ClickHouse的各个方面,包括安装、表引擎和使用场景。
  • 03.15 16:16:27
    发表了文章 2024-03-15 16:16:27

    数据仓库(13)大数据数仓经典最值得阅读书籍推荐

    从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。
  • 03.12 15:04:03
    发表了文章 2024-03-12 15:04:03

    数据仓库(12)数据治理之数仓数据管理实践心得

    这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。 当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:[数据仓库(11)什么是大数据治理,数据治理的范围是哪些](https://zhuanlan.zhihu.com/p/467433967)。
  • 03.11 18:46:09
    发表了文章 2024-03-11 18:46:09

    数据仓库(11)什么是大数据治理,数据治理的范围是哪些

    什么是数据治理,数据治理包含哪些方面?大数据时代的到来,给了我们很多的机遇,也有很多的挑战。最基础的调整也是大数据的计算和管理,数据治理是一个特别重要的大数据基础,他保证着数据能否被最好的应用,保证着数据的安全,治理等。那么数据治理到底能治什么,怎么治?
  • 03.10 18:10:57
    发表了文章 2024-03-10 18:10:57

    数据仓库(10)数仓拉链表开发实例

    拉链表是数据仓库中特别重要的一种方式,它可以保留数据历史变化的过程,这里分享一下拉链表具体的开发过程。 维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便的还原出拉链时点的客户记录。
  • 03.09 10:26:46
    发表了文章 2024-03-09 10:26:46

    数据仓库(09)数仓缓慢变化维度数据的处理

    数据仓库的重要特点之一是反映历史变化,所以如何处理维度的变化是维度设计的重要工作之一。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化,与数据增长较为快速的事实表相比,维度变化相对缓慢。阴齿这个就叫做缓慢变化维。
  • 12.23 14:16:09
    发表了文章 2023-12-23 14:16:09

    数据仓库(08)数仓事实表和维度表技术

    所谓的事实表和维度表技术,指的就是如何和构造一张事实表和维度表,是的事实表和维度表,可以涵盖现在目前的需要和方便后续下游数据应用的开发
  • 12.04 17:31:59
    发表了文章 2023-12-04 17:31:59

    数据仓库(07)数仓规范设计

    所谓的规范的定义,简单理解,如果把数据当作货物,那就是货物的分类,以及对应相关的属性,比如生产日期,某个原料的含量等,我们可以把相近或者相同货物,按照一定的规律,放在一起,方便入库与出库,需要某个货物按照这些规律就可以,以比较快的速度拉取出来。 一般的规范设计包含一下几个方面:划分和定义数据域、业务过程、维度、度量 原子指标、修饰类型、修饰词、时间周期、派生指标。

2023年10月

  • 10.10 14:36:53
    发表了文章 2023-10-10 14:36:53

    数据仓库(06)数仓分层设计

    目前主流的数据仓库分层大多为四层,也有五层的架构,这里介绍基本的四层架构。 分别为数据贴源层(ods)、数据仓库明细层(dw)、多维明细层(dws)和数据集市层(dm)。

2023年09月

2023年07月

  • 07.10 22:05:17
    发表了文章 2023-07-10 22:05:17

    数据仓库(4)基于维度建模的数仓KimBall架构

    基于维度建模的KimBall架构,将数据仓库划分为4个不同的部分。分别是操作型源系统、ETL系统、数据展现和商业智能应用,如下图。

2023年06月

  • 06.21 11:05:16
    发表了文章 2023-06-21 11:05:16

    数据仓库(3)数仓建模之星型模型与维度建模

    维度建模是一种将数据结构化的逻辑设计方法,也是一种广泛应用的数仓建模方式,它将客观世界划分为度量和上下文。度量是常常是以数值形式出现,事实周围有上下文包围着,这种上下文被直观地分成独立的逻辑块,称之为维度。它与实体-关系建模有很大的区别,实体-关系建模是面向应用,遵循第三范式,以消除数据冗余为目标的设计技术。维度建模是面向分析,为了提高查询性能可以增加数据冗余,反规范化的设计技术。

2022年11月

  • 11.10 17:31:35
    发表了文章 2022-11-10 17:31:35

    数据仓库(02)数仓、大数据与传统数据库的区别

    传统数据库是存储根据范式建模的关系型数据,主要用于OLTP(on-line transaction processing)翻译为联机事务处理的软件。大数据是根据map redurce范式构建的出局处理,存储的软件,主要用于OLAP是做分析处理。大数据和传统数据库,还有一个更大的区别在于,处理的数据量以及计算量的大小,当传统数据库,无法在人可以接受的短时间内计算出结果,那这个数据就叫大数据,需要使用到大数据技术处理。而数据仓库本质上是一种数据的处理方式,而不是一种基础软件,它可以依赖于传统数据库,也可以依赖大数据技术去构建。

2022年10月

  • 10.12 16:06:38
    发表了文章 2022-10-12 16:06:38

    数据仓库(01)什么是数据仓库,数仓有什么特点

    数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
  • 发表了文章 2024-07-06

    《从零开始学Python》(第二版) PDF下载读书分享

  • 发表了文章 2024-07-06

    Spark快速大数据分析PDF下载读书分享推荐

  • 发表了文章 2024-07-04

    Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享

  • 发表了文章 2024-06-28

    ClickHouse(24)ClickHouse集成mongodb表引擎详细解析

  • 发表了文章 2024-06-28

    ClickHouse(23)ClickHouse集成Mysql表引擎详细解析

  • 发表了文章 2024-06-27

    最近在读《谁说菜鸟不会数据分析 SPSS篇》pdf分享

  • 发表了文章 2024-06-27

    ClickHouse(22)ClickHouse集成HDFS表引擎详细解析

  • 发表了文章 2024-06-26

    ClickHouse(20)ClickHouse集成PostgreSQL表引擎详细解析

  • 发表了文章 2024-06-26

    ClickHouse(21)ClickHouse集成Kafka表引擎详细解析

  • 发表了文章 2024-06-26

    ClickHouse(19)ClickHouse集成Hive表引擎详细解析

  • 发表了文章 2024-06-26

    Java编程思想(面向对象)第四版PDF分享

  • 发表了文章 2024-06-23

    ClickHouse(18)ClickHouse集成ODBC表引擎详细解析

  • 发表了文章 2024-06-23

    ClickHouse(17)ClickHouse集成JDBC表引擎详细解析

  • 发表了文章 2024-06-20

    Hive怎么调整优化Tez引擎的查询?在Tez上优化Hive查询的指南

  • 发表了文章 2024-06-19

    Elasticsearch如何聚合查询多个统计值,如何嵌套聚合?并相互引用,统计索引中某一个字段的空值率?语法是怎么样的?

  • 发表了文章 2024-06-11

    ClickHouse(16)ClickHouse日志表引擎Log详细解析

  • 发表了文章 2024-06-10

    ClickHouse(15)ClickHouse合并树MergeTree家族表引擎之GraphiteMergeTree详细解析

  • 发表了文章 2024-06-07

    ClickHouse(14)ClickHouse合并树MergeTree家族表引擎之VersionedCollapsingMergeTree详细解析

  • 发表了文章 2024-06-04

    ClickHouse(13)ClickHouse合并树MergeTree家族表引擎之CollapsingMergeTree详细解析

  • 发表了文章 2024-06-03

    ClickHouse(12)ClickHouse合并树MergeTree家族表引擎之AggregatingMergeTree详细解析

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息