大数据流动_社区达人页

个人头像照片
大数据流动
已加入开发者社区955

勋章 更多

个人头像照片
专家博主
专家博主
个人头像照片
星级博主
星级博主
个人头像照片
技术博主
技术博主
个人头像照片
江湖新秀
江湖新秀

成就

已发布217篇文章
244条评论
已回答0个问题
0条评论
已发布0个视频
github地址

我关注的人 更多

技术能力

兴趣领域
擅长领域
技术认证

暂时未有相关云产品技术能力~

暂无个人介绍

暂无精选文章
暂无更多信息

2023年11月

2022年05月

  • 05.29 00:03:12
    发表了文章 2022-05-29 00:03:12

    元数据管理为什么需要统一的元模型?

    每个组织都有自己的数据管理方式。有的公司准备自研并制定了长期计划,有的公司使用最新的数据管理工具和技术,有的公司则是为了满足监管机构的要求。这几种的思路完全不一样。 要让公司成为真正的数据驱动型组织,不仅仅需要制定数据策略或推出更新的软件技术。关键在于数据的整体治理和管理,解决这个问题的一个好方法就是元数据管理。元数据管理是DAMA数据治理体系中的一部分,元数据管理与其他数据治理领域巧妙结合,发挥出巨大的作用。
  • 05.29 00:01:06
    发表了文章 2022-05-29 00:01:06

    实时数据治理—当Atlas遇见Flink

    实时数据治理—当Atlas遇见Flink
  • 05.28 23:55:36
    发表了文章 2022-05-28 23:55:36

    从理论到工程实践——用户画像入门宝典(二)

    用户画像是大数据顶层应用中最重要的一环,搭建一套适合本公司体系的用户画像尤为重要。但是,用户画像的资料往往理论居多,实践少,更少有工程化的实战案例。 本文档结合了常见的用户画像架构,使用Elasticsearch作为底层存储支撑,用户画像的检索和可视化效率得到了大幅度的提升。文档从用户画像的理论到实践均有所涉及,大家可以参照此文档完成用户画像系统从0到1的搭建。
  • 05.28 23:51:40
    发表了文章 2022-05-28 23:51:40

    从理论到工程实践——用户画像入门宝典(一)

    用户画像是大数据顶层应用中最重要的一环,搭建一套适合本公司体系的用户画像尤为重要。但是,用户画像的资料往往理论居多,实践少,更少有工程化的实战案例。 本文档结合了常见的用户画像架构,使用Elasticsearch作为底层存储支撑,用户画像的检索和可视化效率得到了大幅度的提升。文档从用户画像的理论到实践均有所涉及,大家可以参照此文档完成用户画像系统从0到1的搭建。
  • 05.28 23:39:45
    发表了文章 2022-05-28 23:39:45

    一站式元数据治理平台——Datahub入门宝典(二)

    随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为新一代的元数据管理平台,Datahub在近一年的时间里发展迅猛,大有取代老牌元数据管理工具Atlas之势。国内Datahub的资料非常少,大部分公司想使用Datahub作为自己的元数据管理平台,但可参考的资料太少。 所以整理了这份文档供大家学习使用。本文档基于Datahub最新的0.8.20版本,整理自部分官网内容,各种博客及实践过程。
  • 05.28 23:35:39
    发表了文章 2022-05-28 23:35:39

    一站式元数据治理平台——Datahub入门宝典(一)

    随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为新一代的元数据管理平台,Datahub在近一年的时间里发展迅猛,大有取代老牌元数据管理工具Atlas之势。国内Datahub的资料非常少,大部分公司想使用Datahub作为自己的元数据管理平台,但可参考的资料太少。 所以整理了这份文档供大家学习使用。本文档基于Datahub最新的0.8.20版本,整理自部分官网内容,各种博客及实践过程。
  • 05.28 23:25:24
    发表了文章 2022-05-28 23:25:24

    一站式Flink&Spark平台解决方案——StreamX

    一站式Flink&Spark平台解决方案——StreamX
  • 05.28 23:17:33
    发表了文章 2022-05-28 23:17:33

    数据治理之元数据管理的利器——Atlas入门宝典(二)

    随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为Hadoop生态最紧密的元数据管理与发现工具,Atlas在其中扮演着重要的位置。但是其官方文档不是很丰富,也不够详细。所以整理了这份文档供大家学习使用。
  • 05.28 23:07:30
    发表了文章 2022-05-28 23:07:30

    数据治理之元数据管理的利器——Atlas入门宝典(一)

    随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为Hadoop生态最紧密的元数据管理与发现工具,Atlas在其中扮演着重要的位置。但是其官方文档不是很丰富,也不够详细。所以整理了这份文档供大家学习使用。
  • 05.28 22:48:35
    发表了文章 2022-05-28 22:48:35

    Github 29K Star的开源对象存储方案——Minio入门宝典

    对象存储不是什么新技术了,但是从来都没有被替代掉。为什么?在这个大数据发展迅速地时代,数据已经不单单是简单的文本数据了,每天有大量的图片,视频数据产生,在短视频火爆的今天,这个数量还在增加。有数据表明,当今世界产生的数据,有80%是非关系型的。那么,对于图片,视频等数据的分析可以说是大数据与人工智能的未来发展方向之一。
  • 05.28 22:43:49
    发表了文章 2022-05-28 22:43:49

    万字长文|大数据学前准备之Linux入门笔记(附资料)(二)

    对于大数据学习而言,Linux运维可以说是必备的技能。可以不研究的过于高深,但是基本的操作和使用一定要熟练。Linux的学习需要大量的实践,本文从linux的基本知识,实战操作,到常用的指令与软件安装等都有总结。 也是为了在掌握Linux的同时,也为今后的大数据学习做好准备。
  • 05.28 22:41:06
    发表了文章 2022-05-28 22:41:06

    万字长文|大数据学前准备之Linux入门笔记(附资料)(一)

    对于大数据学习而言,Linux运维可以说是必备的技能。可以不研究的过于高深,但是基本的操作和使用一定要熟练。Linux的学习需要大量的实践,本文从linux的基本知识,实战操作,到常用的指令与软件安装等都有总结。 也是为了在掌握Linux的同时,也为今后的大数据学习做好准备。
  • 05.28 22:23:04
    发表了文章 2022-05-28 22:23:04

    万字长文|Hadoop入门笔记(附资料)

    大数据迅速发展,但是Hadoop的基础地位一直没有改变。理解并掌握Hadoop相关知识对于之后的相关组件学习有着地基的作用。本文整理了Hadoop基础理论知识与常用组件介绍,虽然有一些组件已经不太常用。但是理解第一批组件的相关知识对于以后的学习很有帮助,未来的很多组件也借鉴了之前的设计理念。
  • 05.28 22:16:39
    发表了文章 2022-05-28 22:16:39

    大数据最后一公里——2021年五大开源数据可视化BI方案对比

    大数据在经过前几年的野蛮生长以后,开始与数据中台的概念一同向着更实际的方向落地。有人问,数据可视化是不是等同于数据大屏。数据大屏是数据可视化的一部分,其承载更多的是展示与监控的功能。 而真正对业务产生影响的,确是比较低调的自助数据可视化系统(商用的一般称之为BI系统),支撑着公司的指标体系,为业务的发展,企业的数字化驱动提供帮助。
  • 05.28 22:09:56
    发表了文章 2022-05-28 22:09:56

    非结构化数据怎么存?——开源对象存储方案介绍

    过去的相当长的一段时间里,商用对象存储占据了市场上的大量的份额。国外的Amazon S3,国内的阿里云OSS都成为了大多数公司的选择。但是构建一个企业级的数据湖(包括结构化和非结构化数据)已经成为了越来越多公司的目标。那么Hadoop还能满足我们的要求吗?还是我们需要更多的选择?
  • 05.28 22:00:46
    发表了文章 2022-05-28 22:00:46

    (三、四)Superset 1.3图表篇——透视表-Pivot Table

    透视表 Pivot Table对于经常做数据分析的同学再熟悉不过了。Superset也提供了透视表的功能,分为两个版本,在最新的版本中 Pivot Table已经不做更新,建议大家使用最新的 Pivot Table V2图表。
  • 05.28 21:54:18
    发表了文章 2022-05-28 21:54:18

    数据湖搭建指南——几个核心问题

    数据湖搭建指南——几个核心问题
  • 05.28 21:51:18
    发表了文章 2022-05-28 21:51:18

    (二)Superset 1.3图表篇——Time-series Table

    本系列文章基于Superset 1.3.0版本。1.3.0版本目前支持分布,趋势,地理等等类型共59张图表。本次1.3版本的更新图表有了一些新的变化,而之前也一直没有做过非常细致的图表教程。 而且目前可以参考的资料有限,大部分还需要自己探索。所以本系列文章将对这59张图表的使用做一个整理。 Superset的安装入门,以及数据集的准备,请参考之前的教程,1.3版本依然可用。
  • 05.28 21:46:47
    发表了文章 2022-05-28 21:46:47

    (一)Superset 1.3图表篇——Table

    本系列文章基于Superset 1.3.0版本。1.3.0版本目前支持分布,趋势,地理等等类型共59张图表。本次1.3版本的更新图表有了一些新的变化,而之前也一直没有做过非常细致的图表教程。 而且目前可以参考的资料有限,大部分还需要自己探索。所以本系列文章将对这59张图表的使用做一个整理。 Superset的安装入门,以及数据集的准备,请参考之前的教程,1.3版本依然可用。
  • 05.28 21:34:05
    发表了文章 2022-05-28 21:34:05

    专注提升用户体验,Superset 1.3发布!

    近期Superset发布了新的版本1.3.0,此版本专注于提升用户体验。并进行了大量的改进与错误修复。
  • 05.28 21:31:25
    发表了文章 2022-05-28 21:31:25

    当Atlas遇见Flink——Apache Atlas 2.2.0发布!

    距离上次atlas发布新版本已经有一年的时间了,但是这一年元数据管理平台的发展一直没有停止。Datahub,Amundsen等等,都在不断的更新着自己的版本。但是似乎Atlas在元数据管理,数据血缘领域的地位一直没有动摇。
  • 05.28 21:23:04
    发表了文章 2022-05-28 21:23:04

    数据治理实践:元数据管理架构的演变

    近几年来数据的量级在疯狂的增长,由此带来了系列的问题。作为对人工智能团队的数据支撑,我们听到的最多的质疑是 “正确的数据集”,他们需要正确的数据用于他们的分析。我们开始意识到,虽然我们构建了高度可扩展的数据存储,实时计算等等能力,但是我们的团队仍然在浪费时间寻找合适的数据集来进行分析。 也就是我们缺乏对数据资产的管理。事实上,有很多公司都提供了开源的解决方案来解决上述问题,这也就是数据发现与元数据管理工具, 在这篇文章中,我将描述行业迄今为止元数据管理的三代架构, 希望本文能帮助您在选择自己的数据治理解决方案时做出最佳决策。
  • 05.28 21:17:25
    发表了文章 2022-05-28 21:17:25

    Apache Superset1.2.0教程(四)—— CentOS环境安装

    前文中,我们已经在windows环境进行了superset的安装,也对图表功能进行了展示。但是在平时使用以及生产环境中,还是需要在centos环境下进行操作。 本文将带大家详解在centos7环境进行apache superset安装的全过程。 注意:superset 1.2.0需要python 3.7.9或以上的版本,不然可能会有各种坑。
  • 05.28 21:14:23
    发表了文章 2022-05-28 21:14:23

    超详细!搭建本地大数据研发环境(16G内存+CDH)(二)

    超详细!搭建本地大数据研发环境(16G内存+CDH)(二)
  • 05.28 21:04:49
    发表了文章 2022-05-28 21:04:49

    超详细!搭建本地大数据研发环境(16G内存+CDH)(一)

    工欲善其事必先利其器,在经过大量的理论学习以后,需要有一个本地的研发环境来进行练手。已经工作的可以不依赖于公司的环境,在家也可以随意的练习。而自学大数据的同学,也可以进行本地练习,大数据是一门偏实践的学科,在找工作之前进行一些实践操作,也更利于对大数据知识的理解。 本文将从头开始详细的记录整个大数据环境的搭建过程,本文所使用的笔记本电脑内存为16G,将使用CDH6.3.2管理整个大数据集群。 本文共四个部分,一定要保证每一个部分都安装成功以后再向下进行。
  • 05.28 20:18:31
    发表了文章 2022-05-28 20:18:31

    Apache Superset 1.2.0教程 (三)—— 图表功能详解

    通过之前章节的学习,我们已经成功地安装了superset,并且连接mysql数据库,可视化了王者英雄的数据。使用的是最简单Table类型的图表,但是superset还支持非常多的图表类型。 本文我们将对各种图表类型进行逐一的演示,文章较长。
  • 05.28 17:05:40
    发表了文章 2022-05-28 17:05:40

    Apache Superset 1.2.0教程 (二)——快速入门(可视化王者英雄数据)

    上一篇我们已经成功的安装了superset,那么该如何可视化我们的数据呢?本文将可视化王者英雄的数据,快速的入门Superset。
  • 05.28 16:29:07
    发表了文章 2022-05-28 16:29:07

    Apache Superset 1.2.0教程 (一)—— 安装(Windows版)

    Apache Superset 是一款由 Airbnb 开源的“现代化的企业级 BI(商业智能) Web 应用程序”,其通过创建和分享 dashboard,为数据分析提供了轻量级的数据查询和可视化方案。 近日推出了全新的 1.2.0版本,本教程也就从头开始讲解Apache Superset的使用。
  • 05.28 16:23:13
    发表了文章 2022-05-28 16:23:13

    Datahub 0.8.5发布! 通用的元数据搜索和发现工具

    Datahub 发布了最新的版本0.8.5,作为LinkedIn开源的通用的元数据搜索和发现工具。Datahub近一年来有了巨大的发展,也成为了很多公司进行元数据管理的调研方向并进行使用的选择。
  • 05.28 16:19:46
    发表了文章 2022-05-28 16:19:46

    诸多改进!Superset 1.2.0 正式发布!

    Apache Superset 是一个现代的、企业级的轻量BI平台,提供了大量数据可视化组件。 距离superset上一个版本发布已经过了近三个月的时间,我们终于等到了1.2.0版本。 之前就曾提到过Superset在不断增强与 Apache ECharts的整合。此版本继续加强这方面的改进,并且还带来了大量用户体验改进、API 改进、错误修复以及先前版本中包含的实验性功能的持续开发。
  • 05.28 16:16:15
    发表了文章 2022-05-28 16:16:15

    使用 Apache Superset 可视化 ClickHouse 数据

    Apache Superset是一个强大的BI工具,它提供了查看和探索数据的方法。它在 ClickHouse 用户中也越来越受欢迎。 我们将介绍安装 Superset 的 2 种方法,然后展示如何从 Superset 连接到您的第一个 ClickHouse 数据库。代码示例基于 Ubuntu 18.04、Superset 1.1.0 和 clickhouse-sqlalchemy 0.1.6。
  • 05.28 16:08:26
    发表了文章 2022-05-28 16:08:26

    是时候更新数据治理的架构了

    随着公司越来越多的利用数据为企业提供支撑,推动创新。了解数据的准确性,可靠性就非常重要。数十年来,对于数据治理的工作一直依靠数据目录来完成,但是这就足够了吗?
  • 05.28 15:34:24
    发表了文章 2022-05-28 15:34:24

    大数据治理——搭建大数据探索平台

    在数据治理中,数据探索服务的价值在初期往往是被忽视的,但是随着业务的增加,分析人员的增加,数据探索服务的价值就会越来越大。 一个成功的数据管理平台,不仅仅要提供各种数据分析的工具,提供各种各样的数据源,更要提供数据探索的能力。
  • 05.28 15:18:45
    发表了文章 2022-05-28 15:18:45

    Amundsen在REA Group公司的应用实践

    Amundsen在REA Group公司的应用实践
  • 05.28 15:08:13
    发表了文章 2022-05-28 15:08:13

    前瞻|Amundsen的数据血缘功能

    目前,Amundsen并不支持表级别和列级别的数据血缘功能,也没有办法展示数据的来龙去脉。 作为Amundsen一项非常核心的功能,Lineage功能早已经提上日程,并进入设计与研发阶段。本位将展示此功能的一些基本设计。
  • 05.28 15:05:11
    发表了文章 2022-05-28 15:05:11

    Github 1.9K Star的数据治理框架-Amundsen

    Github 1.9K Star的数据治理框架-Amundsen
  • 05.28 14:55:42
    发表了文章 2022-05-28 14:55:42

    Superset 1.0.1发布——稳定版本

    Apache Superset最近发布了1.0.1版本,这也是1.0版本后的有一个重大的版本,Superset也会在以后有更多的改进。那么让我们来看一下最新的新功能吧。
  • 05.28 14:51:43
    发表了文章 2022-05-28 14:51:43

    Atlas 2.1.0 实践(4)—— 权限控制

    Atlas的权限控制非常的丰富,本文将进行其支持的各种权限控制的介绍。
  • 05.28 14:48:39
    发表了文章 2022-05-28 14:48:39

    Atlas 2.1.0 实践(3)—— Atlas集成HIve

    Atlas 2.1.0 实践(3)—— Atlas集成HIve
  • 05.28 11:37:08
    发表了文章 2022-05-28 11:37:08

    Atlas 2.1.0 实践(2)—— 安装Atlas

    在完成Atlas编译以后,就可以进行Atlas的安装了。Atlas的安装主要是安装Atlas的Server端,也就Atlas的管理页面,并确保Atlas与Kafka Hbase Solr等组件的集成。
  • 05.28 11:32:03
    发表了文章 2022-05-28 11:32:03

    Atlas 2.1.0 实践(1)—— 编译Atlas

    为什么要做数据治理?业务繁多,数据繁多,业务数据不断迭代。人员流动,文档不全,逻辑不清楚,对于数据很难直观理解,后期很难维护。 在大数据研发中,原始数据就有着非常多的数据库,数据表。 而经过数据的聚合以后,又会有很多的维度表。如果想要对这些数据做好管理,光用文字、文档等东西是不够的,必须用图。
  • 05.28 11:26:56
    发表了文章 2022-05-28 11:26:56

    数据治理方案技术调研 Atlas VS Datahub VS Amundsen

    数据治理意义重大,传统的数据治理采用文档的形式进行管理,已经无法满足大数据下的数据治理需要。而适合于Hadoop大数据生态体系的数据治理就非常的重要了。 大数据下的数据治理作为很多企业的一个巨大的难题,能找到的数据的解决方案并不多,但是好在近几年,很多公司已经进行了尝试并开源了出来,本文将详细分析这些数据发现平台,在国外已经有了十几种的实现方案。
  • 05.28 11:21:38
    发表了文章 2022-05-28 11:21:38

    Kafka监控必备——Kafka-Eagle 2.0.2正式发布

    对于经常使用Kafka的同学,拥有一个炫酷又实用的监控系统是非常有必要的。可以实时的监控数据流的情况,了解实时数据流的变化。
  • 05.28 11:13:44
    发表了文章 2022-05-28 11:13:44

    如何将炫酷的报表直接截图发送邮件——在Superset 0.37使用Schedule Email功能

    Superset的图表是非常炫酷的,但是原来的版本只能在web端查看,而最新的0.37版本,可以将图表截图直接发送成邮件,非常的方便。 本文将详细介绍Superset 0.37 定时邮件功能。安装过程遇到的任何问题请关注 “实时流式计算” 随时与我联系。所有的离线安装包已经整理好,请后台回复 “superset0928” 下载。
  • 05.28 11:02:53
    发表了文章 2022-05-28 11:02:53

    离线安装Superset 0.37(截图详细版)

    上文提到了Superset 0.37的在线安装方式,只需要更新pip,然后pip install就可以了。但是在生产环境中,特别是内网环境中,很多时候是没有外网的,这时候就需要采取离线安装的方式。 本文将详细介绍在Linux系统中离线安装Superset的全过程,并整理了安装过程中遇到的错误。
  • 05.28 10:57:57
    发表了文章 2022-05-28 10:57:57

    Windows系统快速安装Superset 0.37

    Windows系统快速安装Superset 0.37
  • 05.28 09:06:06
    发表了文章 2022-05-28 09:06:06

    Superset 0.37 发布——颜值最高的数据可视化平台

    Superset 0.37 发布——颜值最高的数据可视化平台
  • 发表了文章 2024-05-15

    深度实践 | 自如基于Apache StreamPark 的实时计算平台实践

  • 发表了文章 2024-05-15

    阿里云实时计算企业级状态存储引擎 Gemini 技术解读

  • 发表了文章 2024-05-15

    数据资产新规!《关于加强数据资产管理的指导意见》发布(附全文)

  • 发表了文章 2024-05-15

    元数据管理平台对比预研 Atlas VS Datahub VS Openmetadata

  • 发表了文章 2024-05-15

    Apache Paimon 表模式最佳实践

  • 发表了文章 2024-05-15

    【开源项目推荐】Great Expectations—开源的数据质量工具

  • 发表了文章 2024-05-15

    最新版本——Hadoop3.3.6单机版完全部署指南

  • 发表了文章 2024-05-15

    Apache Paimon 在网易传媒推荐场景实践

  • 发表了文章 2024-05-15

    【开源项目】轻量元数据管理解决方案——Marquez

  • 发表了文章 2024-05-15

    使用GPT4进行数据分析,竟然被他骗了

  • 发表了文章 2024-05-15

    Apache DolphinScheduler VS WhaleScheduler

  • 发表了文章 2024-05-15

    Apache Paimon:Streaming Lakehouse is Coming

  • 发表了文章 2024-05-15

    大厂 5 年实时数据开发经验总结,Flink SQL 看这篇就够了!

  • 发表了文章 2024-05-15

    【开源项目推荐】8.9K纯中文本地GPT知识库搭建项目

  • 发表了文章 2024-05-15

    《数据资产管理实践》方法论梳理

  • 发表了文章 2024-05-15

    【开源项目推荐】Apache Superset——最优秀的开源数据可视化与数据探索平台

  • 发表了文章 2024-05-15

    【开源项目推荐】OpenMetadata——基于开放元数据的一体化数据治理平台

  • 发表了文章 2024-05-15

    Paimon 实践 | 基于 Flink SQL 和 Paimon 构建流式湖仓新方案

  • 发表了文章 2024-05-15

    Flink + Paimon 数据 CDC 入湖最佳实践

  • 发表了文章 2024-05-15

    Apache Paimon流式湖仓学习交流群成立

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息