大数据流动_社区达人页

个人头像照片
勋章logo
大数据流动

0关注

0粉丝

已加入开发者社区1039
ip所属地:海南

勋章 更多

个人头像照片
专家博主
专家博主
个人头像照片
星级博主
星级博主
个人头像照片
技术博主
技术博主
个人头像照片
初入江湖
初入江湖

成就

已发布217篇文章
244条评论
已回答0个问题
0条评论
已发布0个视频
github地址

我关注的人 更多

技术能力

兴趣领域
擅长领域
技术认证

暂时未有相关云产品技术能力~

暂无个人介绍

暂无精选文章
暂无更多信息

2023年11月

2022年05月

  • 05.29 00:03:12
    发表了文章 2022-05-29 00:03:12

    元数据管理为什么需要统一的元模型?

    每个组织都有自己的数据管理方式。有的公司准备自研并制定了长期计划,有的公司使用最新的数据管理工具和技术,有的公司则是为了满足监管机构的要求。这几种的思路完全不一样。 要让公司成为真正的数据驱动型组织,不仅仅需要制定数据策略或推出更新的软件技术。关键在于数据的整体治理和管理,解决这个问题的一个好方法就是元数据管理。元数据管理是DAMA数据治理体系中的一部分,元数据管理与其他数据治理领域巧妙结合,发挥出巨大的作用。
  • 05.29 00:01:06
    发表了文章 2022-05-29 00:01:06

    实时数据治理—当Atlas遇见Flink

    实时数据治理—当Atlas遇见Flink
  • 05.28 23:55:36
    发表了文章 2022-05-28 23:55:36

    从理论到工程实践——用户画像入门宝典(二)

    用户画像是大数据顶层应用中最重要的一环,搭建一套适合本公司体系的用户画像尤为重要。但是,用户画像的资料往往理论居多,实践少,更少有工程化的实战案例。 本文档结合了常见的用户画像架构,使用Elasticsearch作为底层存储支撑,用户画像的检索和可视化效率得到了大幅度的提升。文档从用户画像的理论到实践均有所涉及,大家可以参照此文档完成用户画像系统从0到1的搭建。
  • 05.28 23:51:40
    发表了文章 2022-05-28 23:51:40

    从理论到工程实践——用户画像入门宝典(一)

    用户画像是大数据顶层应用中最重要的一环,搭建一套适合本公司体系的用户画像尤为重要。但是,用户画像的资料往往理论居多,实践少,更少有工程化的实战案例。 本文档结合了常见的用户画像架构,使用Elasticsearch作为底层存储支撑,用户画像的检索和可视化效率得到了大幅度的提升。文档从用户画像的理论到实践均有所涉及,大家可以参照此文档完成用户画像系统从0到1的搭建。
  • 05.28 23:39:45
    发表了文章 2022-05-28 23:39:45

    一站式元数据治理平台——Datahub入门宝典(二)

    随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为新一代的元数据管理平台,Datahub在近一年的时间里发展迅猛,大有取代老牌元数据管理工具Atlas之势。国内Datahub的资料非常少,大部分公司想使用Datahub作为自己的元数据管理平台,但可参考的资料太少。 所以整理了这份文档供大家学习使用。本文档基于Datahub最新的0.8.20版本,整理自部分官网内容,各种博客及实践过程。
  • 05.28 23:35:39
    发表了文章 2022-05-28 23:35:39

    一站式元数据治理平台——Datahub入门宝典(一)

    随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为新一代的元数据管理平台,Datahub在近一年的时间里发展迅猛,大有取代老牌元数据管理工具Atlas之势。国内Datahub的资料非常少,大部分公司想使用Datahub作为自己的元数据管理平台,但可参考的资料太少。 所以整理了这份文档供大家学习使用。本文档基于Datahub最新的0.8.20版本,整理自部分官网内容,各种博客及实践过程。
  • 05.28 23:25:24
    发表了文章 2022-05-28 23:25:24

    一站式Flink&Spark平台解决方案——StreamX

    一站式Flink&Spark平台解决方案——StreamX
  • 05.28 23:17:33
    发表了文章 2022-05-28 23:17:33

    数据治理之元数据管理的利器——Atlas入门宝典(二)

    随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为Hadoop生态最紧密的元数据管理与发现工具,Atlas在其中扮演着重要的位置。但是其官方文档不是很丰富,也不够详细。所以整理了这份文档供大家学习使用。
  • 05.28 23:07:30
    发表了文章 2022-05-28 23:07:30

    数据治理之元数据管理的利器——Atlas入门宝典(一)

    随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为Hadoop生态最紧密的元数据管理与发现工具,Atlas在其中扮演着重要的位置。但是其官方文档不是很丰富,也不够详细。所以整理了这份文档供大家学习使用。
  • 05.28 22:48:35
    发表了文章 2022-05-28 22:48:35

    Github 29K Star的开源对象存储方案——Minio入门宝典

    对象存储不是什么新技术了,但是从来都没有被替代掉。为什么?在这个大数据发展迅速地时代,数据已经不单单是简单的文本数据了,每天有大量的图片,视频数据产生,在短视频火爆的今天,这个数量还在增加。有数据表明,当今世界产生的数据,有80%是非关系型的。那么,对于图片,视频等数据的分析可以说是大数据与人工智能的未来发展方向之一。
  • 05.28 22:43:49
    发表了文章 2022-05-28 22:43:49

    万字长文|大数据学前准备之Linux入门笔记(附资料)(二)

    对于大数据学习而言,Linux运维可以说是必备的技能。可以不研究的过于高深,但是基本的操作和使用一定要熟练。Linux的学习需要大量的实践,本文从linux的基本知识,实战操作,到常用的指令与软件安装等都有总结。 也是为了在掌握Linux的同时,也为今后的大数据学习做好准备。
  • 05.28 22:41:06
    发表了文章 2022-05-28 22:41:06

    万字长文|大数据学前准备之Linux入门笔记(附资料)(一)

    对于大数据学习而言,Linux运维可以说是必备的技能。可以不研究的过于高深,但是基本的操作和使用一定要熟练。Linux的学习需要大量的实践,本文从linux的基本知识,实战操作,到常用的指令与软件安装等都有总结。 也是为了在掌握Linux的同时,也为今后的大数据学习做好准备。
  • 05.28 22:23:04
    发表了文章 2022-05-28 22:23:04

    万字长文|Hadoop入门笔记(附资料)

    大数据迅速发展,但是Hadoop的基础地位一直没有改变。理解并掌握Hadoop相关知识对于之后的相关组件学习有着地基的作用。本文整理了Hadoop基础理论知识与常用组件介绍,虽然有一些组件已经不太常用。但是理解第一批组件的相关知识对于以后的学习很有帮助,未来的很多组件也借鉴了之前的设计理念。
  • 05.28 22:16:39
    发表了文章 2022-05-28 22:16:39

    大数据最后一公里——2021年五大开源数据可视化BI方案对比

    大数据在经过前几年的野蛮生长以后,开始与数据中台的概念一同向着更实际的方向落地。有人问,数据可视化是不是等同于数据大屏。数据大屏是数据可视化的一部分,其承载更多的是展示与监控的功能。 而真正对业务产生影响的,确是比较低调的自助数据可视化系统(商用的一般称之为BI系统),支撑着公司的指标体系,为业务的发展,企业的数字化驱动提供帮助。
  • 05.28 22:09:56
    发表了文章 2022-05-28 22:09:56

    非结构化数据怎么存?——开源对象存储方案介绍

    过去的相当长的一段时间里,商用对象存储占据了市场上的大量的份额。国外的Amazon S3,国内的阿里云OSS都成为了大多数公司的选择。但是构建一个企业级的数据湖(包括结构化和非结构化数据)已经成为了越来越多公司的目标。那么Hadoop还能满足我们的要求吗?还是我们需要更多的选择?
  • 05.28 22:00:46
    发表了文章 2022-05-28 22:00:46

    (三、四)Superset 1.3图表篇——透视表-Pivot Table

    透视表 Pivot Table对于经常做数据分析的同学再熟悉不过了。Superset也提供了透视表的功能,分为两个版本,在最新的版本中 Pivot Table已经不做更新,建议大家使用最新的 Pivot Table V2图表。
  • 05.28 21:54:18
    发表了文章 2022-05-28 21:54:18

    数据湖搭建指南——几个核心问题

    数据湖搭建指南——几个核心问题
  • 05.28 21:51:18
    发表了文章 2022-05-28 21:51:18

    (二)Superset 1.3图表篇——Time-series Table

    本系列文章基于Superset 1.3.0版本。1.3.0版本目前支持分布,趋势,地理等等类型共59张图表。本次1.3版本的更新图表有了一些新的变化,而之前也一直没有做过非常细致的图表教程。 而且目前可以参考的资料有限,大部分还需要自己探索。所以本系列文章将对这59张图表的使用做一个整理。 Superset的安装入门,以及数据集的准备,请参考之前的教程,1.3版本依然可用。
  • 05.28 21:46:47
    发表了文章 2022-05-28 21:46:47

    (一)Superset 1.3图表篇——Table

    本系列文章基于Superset 1.3.0版本。1.3.0版本目前支持分布,趋势,地理等等类型共59张图表。本次1.3版本的更新图表有了一些新的变化,而之前也一直没有做过非常细致的图表教程。 而且目前可以参考的资料有限,大部分还需要自己探索。所以本系列文章将对这59张图表的使用做一个整理。 Superset的安装入门,以及数据集的准备,请参考之前的教程,1.3版本依然可用。
  • 05.28 21:34:05
    发表了文章 2022-05-28 21:34:05

    专注提升用户体验,Superset 1.3发布!

    近期Superset发布了新的版本1.3.0,此版本专注于提升用户体验。并进行了大量的改进与错误修复。
  • 05.28 21:31:25
    发表了文章 2022-05-28 21:31:25

    当Atlas遇见Flink——Apache Atlas 2.2.0发布!

    距离上次atlas发布新版本已经有一年的时间了,但是这一年元数据管理平台的发展一直没有停止。Datahub,Amundsen等等,都在不断的更新着自己的版本。但是似乎Atlas在元数据管理,数据血缘领域的地位一直没有动摇。
  • 05.28 21:23:04
    发表了文章 2022-05-28 21:23:04

    数据治理实践:元数据管理架构的演变

    近几年来数据的量级在疯狂的增长,由此带来了系列的问题。作为对人工智能团队的数据支撑,我们听到的最多的质疑是 “正确的数据集”,他们需要正确的数据用于他们的分析。我们开始意识到,虽然我们构建了高度可扩展的数据存储,实时计算等等能力,但是我们的团队仍然在浪费时间寻找合适的数据集来进行分析。 也就是我们缺乏对数据资产的管理。事实上,有很多公司都提供了开源的解决方案来解决上述问题,这也就是数据发现与元数据管理工具, 在这篇文章中,我将描述行业迄今为止元数据管理的三代架构, 希望本文能帮助您在选择自己的数据治理解决方案时做出最佳决策。
  • 05.28 21:17:25
    发表了文章 2022-05-28 21:17:25

    Apache Superset1.2.0教程(四)—— CentOS环境安装

    前文中,我们已经在windows环境进行了superset的安装,也对图表功能进行了展示。但是在平时使用以及生产环境中,还是需要在centos环境下进行操作。 本文将带大家详解在centos7环境进行apache superset安装的全过程。 注意:superset 1.2.0需要python 3.7.9或以上的版本,不然可能会有各种坑。
  • 05.28 21:14:23
    发表了文章 2022-05-28 21:14:23

    超详细!搭建本地大数据研发环境(16G内存+CDH)(二)

    超详细!搭建本地大数据研发环境(16G内存+CDH)(二)
  • 05.28 21:04:49
    发表了文章 2022-05-28 21:04:49

    超详细!搭建本地大数据研发环境(16G内存+CDH)(一)

    工欲善其事必先利其器,在经过大量的理论学习以后,需要有一个本地的研发环境来进行练手。已经工作的可以不依赖于公司的环境,在家也可以随意的练习。而自学大数据的同学,也可以进行本地练习,大数据是一门偏实践的学科,在找工作之前进行一些实践操作,也更利于对大数据知识的理解。 本文将从头开始详细的记录整个大数据环境的搭建过程,本文所使用的笔记本电脑内存为16G,将使用CDH6.3.2管理整个大数据集群。 本文共四个部分,一定要保证每一个部分都安装成功以后再向下进行。
  • 05.28 20:18:31
    发表了文章 2022-05-28 20:18:31

    Apache Superset 1.2.0教程 (三)—— 图表功能详解

    通过之前章节的学习,我们已经成功地安装了superset,并且连接mysql数据库,可视化了王者英雄的数据。使用的是最简单Table类型的图表,但是superset还支持非常多的图表类型。 本文我们将对各种图表类型进行逐一的演示,文章较长。
  • 05.28 17:05:40
    发表了文章 2022-05-28 17:05:40

    Apache Superset 1.2.0教程 (二)——快速入门(可视化王者英雄数据)

    上一篇我们已经成功的安装了superset,那么该如何可视化我们的数据呢?本文将可视化王者英雄的数据,快速的入门Superset。
  • 05.28 16:29:07
    发表了文章 2022-05-28 16:29:07

    Apache Superset 1.2.0教程 (一)—— 安装(Windows版)

    Apache Superset 是一款由 Airbnb 开源的“现代化的企业级 BI(商业智能) Web 应用程序”,其通过创建和分享 dashboard,为数据分析提供了轻量级的数据查询和可视化方案。 近日推出了全新的 1.2.0版本,本教程也就从头开始讲解Apache Superset的使用。
  • 05.28 16:23:13
    发表了文章 2022-05-28 16:23:13

    Datahub 0.8.5发布! 通用的元数据搜索和发现工具

    Datahub 发布了最新的版本0.8.5,作为LinkedIn开源的通用的元数据搜索和发现工具。Datahub近一年来有了巨大的发展,也成为了很多公司进行元数据管理的调研方向并进行使用的选择。
  • 05.28 16:19:46
    发表了文章 2022-05-28 16:19:46

    诸多改进!Superset 1.2.0 正式发布!

    Apache Superset 是一个现代的、企业级的轻量BI平台,提供了大量数据可视化组件。 距离superset上一个版本发布已经过了近三个月的时间,我们终于等到了1.2.0版本。 之前就曾提到过Superset在不断增强与 Apache ECharts的整合。此版本继续加强这方面的改进,并且还带来了大量用户体验改进、API 改进、错误修复以及先前版本中包含的实验性功能的持续开发。
  • 05.28 16:16:15
    发表了文章 2022-05-28 16:16:15

    使用 Apache Superset 可视化 ClickHouse 数据

    Apache Superset是一个强大的BI工具,它提供了查看和探索数据的方法。它在 ClickHouse 用户中也越来越受欢迎。 我们将介绍安装 Superset 的 2 种方法,然后展示如何从 Superset 连接到您的第一个 ClickHouse 数据库。代码示例基于 Ubuntu 18.04、Superset 1.1.0 和 clickhouse-sqlalchemy 0.1.6。
  • 05.28 16:08:26
    发表了文章 2022-05-28 16:08:26

    是时候更新数据治理的架构了

    随着公司越来越多的利用数据为企业提供支撑,推动创新。了解数据的准确性,可靠性就非常重要。数十年来,对于数据治理的工作一直依靠数据目录来完成,但是这就足够了吗?
  • 05.28 15:34:24
    发表了文章 2022-05-28 15:34:24

    大数据治理——搭建大数据探索平台

    在数据治理中,数据探索服务的价值在初期往往是被忽视的,但是随着业务的增加,分析人员的增加,数据探索服务的价值就会越来越大。 一个成功的数据管理平台,不仅仅要提供各种数据分析的工具,提供各种各样的数据源,更要提供数据探索的能力。
  • 05.28 15:18:45
    发表了文章 2022-05-28 15:18:45

    Amundsen在REA Group公司的应用实践

    Amundsen在REA Group公司的应用实践
  • 05.28 15:08:13
    发表了文章 2022-05-28 15:08:13

    前瞻|Amundsen的数据血缘功能

    目前,Amundsen并不支持表级别和列级别的数据血缘功能,也没有办法展示数据的来龙去脉。 作为Amundsen一项非常核心的功能,Lineage功能早已经提上日程,并进入设计与研发阶段。本位将展示此功能的一些基本设计。
  • 05.28 15:05:11
    发表了文章 2022-05-28 15:05:11

    Github 1.9K Star的数据治理框架-Amundsen

    Github 1.9K Star的数据治理框架-Amundsen
  • 05.28 14:55:42
    发表了文章 2022-05-28 14:55:42

    Superset 1.0.1发布——稳定版本

    Apache Superset最近发布了1.0.1版本,这也是1.0版本后的有一个重大的版本,Superset也会在以后有更多的改进。那么让我们来看一下最新的新功能吧。
  • 05.28 14:51:43
    发表了文章 2022-05-28 14:51:43

    Atlas 2.1.0 实践(4)—— 权限控制

    Atlas的权限控制非常的丰富,本文将进行其支持的各种权限控制的介绍。
  • 05.28 14:48:39
    发表了文章 2022-05-28 14:48:39

    Atlas 2.1.0 实践(3)—— Atlas集成HIve

    Atlas 2.1.0 实践(3)—— Atlas集成HIve
  • 05.28 11:37:08
    发表了文章 2022-05-28 11:37:08

    Atlas 2.1.0 实践(2)—— 安装Atlas

    在完成Atlas编译以后,就可以进行Atlas的安装了。Atlas的安装主要是安装Atlas的Server端,也就Atlas的管理页面,并确保Atlas与Kafka Hbase Solr等组件的集成。
  • 05.28 11:32:03
    发表了文章 2022-05-28 11:32:03

    Atlas 2.1.0 实践(1)—— 编译Atlas

    为什么要做数据治理?业务繁多,数据繁多,业务数据不断迭代。人员流动,文档不全,逻辑不清楚,对于数据很难直观理解,后期很难维护。 在大数据研发中,原始数据就有着非常多的数据库,数据表。 而经过数据的聚合以后,又会有很多的维度表。如果想要对这些数据做好管理,光用文字、文档等东西是不够的,必须用图。
  • 05.28 11:26:56
    发表了文章 2022-05-28 11:26:56

    数据治理方案技术调研 Atlas VS Datahub VS Amundsen

    数据治理意义重大,传统的数据治理采用文档的形式进行管理,已经无法满足大数据下的数据治理需要。而适合于Hadoop大数据生态体系的数据治理就非常的重要了。 大数据下的数据治理作为很多企业的一个巨大的难题,能找到的数据的解决方案并不多,但是好在近几年,很多公司已经进行了尝试并开源了出来,本文将详细分析这些数据发现平台,在国外已经有了十几种的实现方案。
  • 05.28 11:21:38
    发表了文章 2022-05-28 11:21:38

    Kafka监控必备——Kafka-Eagle 2.0.2正式发布

    对于经常使用Kafka的同学,拥有一个炫酷又实用的监控系统是非常有必要的。可以实时的监控数据流的情况,了解实时数据流的变化。
  • 05.28 11:13:44
    发表了文章 2022-05-28 11:13:44

    如何将炫酷的报表直接截图发送邮件——在Superset 0.37使用Schedule Email功能

    Superset的图表是非常炫酷的,但是原来的版本只能在web端查看,而最新的0.37版本,可以将图表截图直接发送成邮件,非常的方便。 本文将详细介绍Superset 0.37 定时邮件功能。安装过程遇到的任何问题请关注 “实时流式计算” 随时与我联系。所有的离线安装包已经整理好,请后台回复 “superset0928” 下载。
  • 05.28 11:02:53
    发表了文章 2022-05-28 11:02:53

    离线安装Superset 0.37(截图详细版)

    上文提到了Superset 0.37的在线安装方式,只需要更新pip,然后pip install就可以了。但是在生产环境中,特别是内网环境中,很多时候是没有外网的,这时候就需要采取离线安装的方式。 本文将详细介绍在Linux系统中离线安装Superset的全过程,并整理了安装过程中遇到的错误。
  • 05.28 10:57:57
    发表了文章 2022-05-28 10:57:57

    Windows系统快速安装Superset 0.37

    Windows系统快速安装Superset 0.37
  • 05.28 09:06:06
    发表了文章 2022-05-28 09:06:06

    Superset 0.37 发布——颜值最高的数据可视化平台

    Superset 0.37 发布——颜值最高的数据可视化平台
  • 发表了文章 2024-05-15

    深度实践 | 自如基于Apache StreamPark 的实时计算平台实践

  • 发表了文章 2024-05-15

    阿里云实时计算企业级状态存储引擎 Gemini 技术解读

  • 发表了文章 2024-05-15

    数据资产新规!《关于加强数据资产管理的指导意见》发布(附全文)

  • 发表了文章 2024-05-15

    元数据管理平台对比预研 Atlas VS Datahub VS Openmetadata

  • 发表了文章 2024-05-15

    Apache Paimon 表模式最佳实践

  • 发表了文章 2024-05-15

    【开源项目推荐】Great Expectations—开源的数据质量工具

  • 发表了文章 2024-05-15

    最新版本——Hadoop3.3.6单机版完全部署指南

  • 发表了文章 2024-05-15

    Apache Paimon 在网易传媒推荐场景实践

  • 发表了文章 2024-05-15

    【开源项目】轻量元数据管理解决方案——Marquez

  • 发表了文章 2024-05-15

    使用GPT4进行数据分析,竟然被他骗了

  • 发表了文章 2024-05-15

    Apache DolphinScheduler VS WhaleScheduler

  • 发表了文章 2024-05-15

    Apache Paimon:Streaming Lakehouse is Coming

  • 发表了文章 2024-05-15

    大厂 5 年实时数据开发经验总结,Flink SQL 看这篇就够了!

  • 发表了文章 2024-05-15

    【开源项目推荐】8.9K纯中文本地GPT知识库搭建项目

  • 发表了文章 2024-05-15

    《数据资产管理实践》方法论梳理

  • 发表了文章 2024-05-15

    【开源项目推荐】Apache Superset——最优秀的开源数据可视化与数据探索平台

  • 发表了文章 2024-05-15

    【开源项目推荐】OpenMetadata——基于开放元数据的一体化数据治理平台

  • 发表了文章 2024-05-15

    Paimon 实践 | 基于 Flink SQL 和 Paimon 构建流式湖仓新方案

  • 发表了文章 2024-05-15

    Flink + Paimon 数据 CDC 入湖最佳实践

  • 发表了文章 2024-05-15

    Apache Paimon流式湖仓学习交流群成立

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息