袋鼠云是企业数据化整体解决方案提供商,是数据中台架构倡导者、引领者,通过打通数据供应链,构建企业数据化驱动引擎,加速企业数据化进程,让数据成为企业核心竞争力。
能力说明:
掌握计算机基础知识,初步了解Linux系统特性、安装步骤以及基本命令和操作;具备计算机基础网络知识与数据通信基础知识。
暂时未有相关云产品技术能力~
阿里云技能认证
详细说明数据资产入表在即,对于企业而言,如何在充满机遇的环境下调整策略、适应变化,成为了焦点问题。数据资产入表,离不开前期扎实的数据治理准备,那么究竟应然如何实现数据资产的规范化管理?本文告诉你答案。
实时湖仓是「实时计算」和「数据湖」的一种结合应用场景,并不是具体指一个产品模块。本文主要介绍了平台通过相关功能的设计,让数据开发可以更简单更直观地了解 Flink Catalog、数据湖、流批一体等概念,并在实际业务场景中更方便地去落地实践。
在业务发展初期,企业需要做好规范的指标管理,以保证随着业务的不断发展,数据化决策能够成为业务强有力的支撑。本文将为大家详解如何通过袋鼠云指标管理平台DataIndex 进行规范化的指标开发管理,轻松开发指标,避免各类指标问题。
袋鼠云大型集团企业数据治理方案来啦!该数据治理策略以业务应用带动数据治理的能力建设,以业务创新推动数据治理的价值体现。
在数字经济时代下,数据驱动业务创新发展已经成为企业的主要选择,基金行业机构也在积极推进数字化转型,但机遇与挑战并存。数据要转化为数据要素,需要系统体系化的数据能力建设作为催化剂。 基金行业也表现出一定的痛点,其中表现为数据安全保护不够到位,缺少数据脉络,数据质量得不到保障等。同时由于行业内在进行系统建设时,对数据管理工作的重要性认识不足以及长年累月杂乱数据的堆积,导致数据治理工作推进艰难,致使在营销端、分析端、监管报送端长期存在客户重复,资产异常等情况。 在公司“十四五”数字化发展规划的指导下,基金公司坚持统筹推进、聚焦痛点,强化数据能力建设,在完善数据治理体系、搭建大数据技术、提升数据服务能
袋鼠云数栈在7年多的研发历程中为上千家客户提供了数据生产效率提升解决方案,也在这个过程中不断地将 DataOps 的理念融合到产品中,助力越来越多的企业成功实现数字化转型升级。本文将就数栈基于 DataOps 的敏捷、高质量数据生产力实践进行分享,希望对大家有所帮助。
监控告警在企业保障系统的稳定性和事故快速恢复的全周期链路中都是至关重要的一环。在新版本的 EasyMR 中袋鼠云开发团队也对监控告警功能进行了全新的优化,通过本文和大家分享监控告警功能的设计思路以及碰到各类问题痛点的解决方法。
许多证券机构在推进数据治理的过程中,仍然存在数据治理驱动力不足、缺少数据治理体系规划、数据认责体系不完善、数据质量难提升等诸多问题,数据治理亟须快速提升。为充分发挥数据的资产价值,通过梳理证券期货行业监管大数据治理的需求与特殊性,对证券期货行业的大数据治理体系搭建,包括构建证券期货行业数据模型、搭建公共数据平台、建设数据服务体系以及构建组织保障体系等方面。
第06期袋鼠云产品功能更新报告来啦!包括对 EasyMR 监控告警功能的更新,以及对离线开发平台表生命周期逻辑的优化等,力求满足不同行业用户的更多需求,为用户带来极致的产品使用体验。
袋鼠云实时开发平台StreamWorks,⼀直致⼒于降低 FlinkSQL 的开发门槛,让更多的数据开发掌握实时开发能⼒,普及实时计算的应⽤。本文为大家介绍在袋鼠云实时开发平台开发 FlinkSQL 任务的四种⽅式。
在平时和开发者们交流的过程中,发现许多开发朋友尤其是新入门 Taier 的开发者,对于本地调试都有着诸多的不理解和问题。本文就大家平时问的最多的三个问题,服务编译,配置&本地运行,如何在 Taier 运行 Flink-standalone,进行简单的介绍,希望和大家共同交流学习。
企业数字化转型以数据为中心,通过数据驱动业务发展、管理协同和运营。因此,数字化转型关键在于数据,数据治理则需先行。从而更好激发数据生产要素潜能,实现业务数据化、数据价值化,助力企业数字化转型。
在企业级应用中,数据的安全性和隐私保护是极其重要的,为了实现Spark SQL 对数据的精细化管理及提高数据的安全性和可控性,数栈基于 Apache Ranger 实现了 Spark SQL 对数据处理的权限控制,本文将重点描述数栈如何基于 Ranger 赋予了 Spark SQL 在权限管控方面,更强的管控力度、更丰富的能力。
本文介绍如何通过对ChengYing产品线部署的技术设计,一键完成繁琐工作,极大提升部署效率,希望帮助对「一站式全自动化全生命周期大数据平台运维管家 ChengYing」感兴趣的开发者更好地了解和使用 ChengYing。
ChunJun技术分享干货来了!实时同步是 ChunJun 的⼀个重要特性,本文将为大家介绍如何使用 ChunJun 实时同步,以及 ChunJun ⽀持的 RDB 实时采集插件的特性、采集逻辑及其原理,帮助大家更好地理解 ChunJun 与实时同步,欢迎点进正文阅读。
Catalog 提供元数据,以及访问存储在数据库或其他外部系统中的数据所需的函数和信息,能够极大简化用户现有系统开始使用 Flink 所需的步骤,并增强用户体验,本文将为大家带来 Flink Catalog 的介绍以及 Flink Catalog 在 ChunJun 中的实践之路详解。
「chunJun 新手入门」系列的第三篇,本文将为大家介绍如何配置一个 ChunJun 任务,获取 ChunJun 以及通过 ChunJun Client 端提交任务的流程等内容,教会大家更好地玩转 ChunJun。 ChunJun 是一款稳定、易用、高效、批流一体的数据集成框架,⽀持海量数据的同步与计算,对ChunJun 感兴趣的小伙伴不要错过~
数据成为重要的资源要素,数据中台在保障数据从生成、使用到共享的整个阶段当中起到非常作用重要的作用,这篇文章为大家带来详实的「大资管行业数字化转型解决方案」,绝对干货
数据湖作为新一代大数据基础设施,近年来持续火热。在计划升级数据湖架构的客户中,支持数据的事务更新通常是大家的第一基础诉求。本文我们就为大家详细解析不同数据湖架构在数据事务上的能力对比,帮助大家在数据湖选型之路上做出更好的决定。这是「数据湖选型」系列的第一期,后续还将陆续推出,希望大家和我们共同探讨~
在数栈过去的产品迭代中受限于当前组件的版本,积累了很多待解决的问题,随着新的功能需求不断增加,很多原先的组件以及交互设计需要进行优化。 2月,伴随着数栈 UI5.0 的焕新升级,数栈前端团队一起将组件框架 antd 从 v3.x 升级到了 v4.x,更新组件的 UI,提升产品的交互体验,使数栈产品能够更加灵活地适应未来产品功能迭代的需求。 本文将总结归纳袋鼠云数栈前端框架Antd 从3.x 升级到4.x 的相关步骤,及在这个过程中踩过的坑,解决的问题。
【ChunJun 1.16 新版本 bug 捉虫活动开始啦!奖品丰厚,等你来拿!】 ChunJun 即将迎来 1.16 Release 版本的正式发布。由于升级初期测试验证的场景覆盖不全,需要更多小伙伴的力量一起来帮忙验证,发现和修复问题,因此 ChunJun 社区决定广发英雄帖,邀请各路捉虫达人,一起帮助 ChunJun 在稳定性上更上一层楼。我们也将送出智能音箱、星巴克礼品卡、蓝牙耳机等多项好礼作为报答。 详情请点进正文查看~
2022 是 ChunJun在技术长廊中探索和成长的第四个年头,悄然度过了自己的 “孩提 “时光。2022,我们相继完成了核心数据还原功能框架、数据还原支持中间处理/DDL自动转换、框架支持全量增量实时同步等功能。目的只有一个:「希望为大家真正提供一个稳定、高效、易用的批流一体的数据集成框架」。 现在,让我们倒带 2022,展望2023,和一直以来关注ChunJun开源社区的朋友聊聊过去、未来……
数据治理是推动大型集团企业转型升级、提升竞争优势、实现高质量发展的重要引擎。沉淀了丰富的集团型企业数据治理项目经验,助力客户构建全域数据共享中心,实现数字化升级。
袋鼠云数栈UI5.0焕新升级,并带来数栈独有的全新设计语言「DT Design」,打造更高效、愉悦的使用体验。本文就为大家从产品升级策划、确⽴设计⽬标和解决⽅向、数栈设计语⾔、设计提升点、情感化设计五个⽅⾯全面分享解析数栈 DTinsight UI 5.0 的全新设计升级内容,干货满满,不容错过!
根据环境资源的剩余情况来动态调整提交任务的速率是Taier必不可少的一项功能,那么Taier究竟是怎么来判断资源的呢?本文就为大家详细聊聊任务提交的资源判断在Taier中的实践。对该话题感兴趣的朋友千万别错过~
Calcite在大数据系统中有着广泛的运用, 比如Apache Flink, Apache Drill等都大量使用了Calcite,理解Calcite的原理可以说已经成为理解大数据系统中SQL访问层实现原理的必备条件之一。 本文就为大家详细介绍如何基于Calcite框架的SQL语法扩展探索使之更符合你的业务需求,以及扩展SQL在数栈产品的应用实践。对该技术感兴趣的同学点进文章阅读哦
监控系统俗称「第三只眼」,几乎是我们每天都会打交道的系统,它也一直是IT系统中的核心组成部分,负责问题的发现以及辅助性的定位。 ChengYing作为一站式全自动化全生命周期大数据平台运维管家,自然也提供大数据产品的监控服务。这篇文章,将为大家系统性地介绍ChengYing监控的设计和使用,带大家进一步了解ChengYing。
年底啦~2022 年即将走到尾声,不过袋鼠云对产品品质的坚持始终如一,这段时间我们对产品本身以及客户反馈的一些问题进行了持续的更新和优化,例如新增任务告警,进行了 Connector 相关功能优化,以及支持跨时间分区圈群等。 以下为袋鼠云产品功能更新报告第三期内容,更多探索,请继续查阅。
在Taier1.3新版本中,我们融合了「DataSourceX 模块」。这是十分重要的一个变化,移除Taier外部插件依赖,新增数据源插件相关特性,支持后续Taier对接更多的RDBMS类型的SQL任务。本篇文章,就带大家详细了解一下DataSourceX 的作用及设计。感兴趣的朋友欢迎点击正文阅读~
数据湖、湖仓一体、批流一体等概念,是近年来大数据领域热度最高的词汇,在各大互联网公司掀起了一波波的热潮,各家公司纷纷推出了自己的技术方案,其中作为全链路数字化技术与服务提供商的袋鼠云,在探索数据湖架构的早期,就调研并选用了Iceberg作为基础框架,在落地过程中深度使用了Iceberg并进行了部分改造,在这个过程中,我们积累出了一些经验和探索实践,希望通过本篇文章与大家分享,也欢迎大家一起共同讨论。
Kerberos 是一种计算机网络授权协议,用来在非安全网络中,对个人通信以安全的手段进行身份认证。Kerberos 旨在通过密钥加密技术为客户端 / 服务器应用程序提供身份验证,主要用在域环境下的身份验证。
我国制造业拥有 31 个大类、179 个中类和 609 个小类,是全球产业门类最齐全、产业体系最完整的制造业。作为世界工厂,中国制造业在拉动本国经济增长、促进本国就业等方面贡献卓越,更是我国民生消费的底层基础。同时,中国从原来的原料出口国,逐步转为工业品中间品、中间品等普通技术密集型产品的国家,为其他国家消费品的满足提供坚实支撑。 随着数字化浪潮汹涌而至,制造业紧随金融、信息通讯行业,正加速进入数字化转型的深水区。
近日,在 “开源中国(OSCHINA)” 开展的年度评选中,袋鼠云数栈技术团队凭借在 2022 年间的技术分享频率及质量、运营积极性等多方面的表现,荣获 “2022 年度优秀开源技术团队” 的称号,这也是袋鼠云数栈技术团队连续第二年获得此奖项。
经过前期的多轮调研和选型,杭州联合银行了解到袋鼠云的客户数据洞察平台 DataTag 具备全面的标签平台功能,标签圈群、用户画像等功能完备。最终,杭州联合银行选择与袋鼠云携手,重点打造智能标签平台,从而为大零售转型提供数据价值,提高营销效率。 联合银行各条业务线一直以来都有在做相应的标签体系建设,但由于各业务系统的标签数据标准不统一,标签建设缺少系统性,导致用户画像不完整,甚至缺失,各业务线存在数据孤岛现象。
保障数据安全,成为当前许多企业的重中之重,大数据基础平台EasyMR新增一站式大数据应用安全防控以及数据权限管控能力,实现一键部署安全管控服务,一键开启大数据集群组件的安全认证、用户管理以及权限管控服务,为企业数据安全保驾护航。
袋鼠云产品功能更新报告第二期内容,更多探索,请继续阅读
俗话说 “基础不牢,地动山摇 “。大数据基础平台什么?是打地基的,是重中之重,地基扎得越深、打得越牢,上面的建筑才能越稳定。可以说,数字化转型的 “万丈高楼” 起于基础平台,具备自主可控的平台建设能力,是真正意义上一切的前提。 袋鼠云今年 7 月最新推出自研大数据基础平台 EasyMR,该产品提供 Hadoop、Hive、Spark、Trino、HBase、Kafka 等组件的自动化安装、中心化管理与集群监控告警功能,完全兼容 Apache 开源生态,支持企业级安全管控,一键开启 LDAP+Kerberos+Ranger 认证权限体系,以及提供一站式运维管理平台。
整合了大数据领域数据同步工具 ChunJun,将 TIS 的业务能力提升到了新高度。
数字经济时代,如何有效利用不同来源、规模巨大的数据,从而加快数据价值化的呈现,把数据用活,成为很多企业的难题。 秉承「让数据创造价值」的使命,袋鼠云进一步夯实企业数字化转型的数据基座。今年 7 月的 2022 年产品发布会上,袋鼠云首发数据湖平台 ——DataLake。
随着本地数据迁移上云、云上数据交换等多源异构数据源数据同步需求日益增多,传统通过编写脚本进行数据同步的方式投入高、效率低、运维管理困难;在公司内部,多款移动云数据库和大数据类产品根据客户需求迫切希望集成数据同步能力,但缺少易用的框架,从 0 开始研发投入研发成本高。 针对上述问题,基于 FlinkX 多源异构数据同步框架,实现了用户自建和移动云上消息中间件、数据库、对象存储等多种异构数据源双向读写,基于社区版实现了 On k8s 改造,需简单配置即可满足用户数据快速上云及云上数据高效交换需求,降低开发运维投入,该成果已在移动云至少 3 款产品中应用。
Dinky 扩展批流统一数据集成框架 ChunJun 的实践分享
最近,我们袋鼠云的UED部⻔小伙伴们,不声不响地⼲了⼀件⼤事——升级了全新设计语言「数栈UI5.0」!数栈UI5.0结合经典的尼尔森十大可用性原则,秉承给客户带来更加好用的功能和体验的目标,进行了重大提升,快点进文章看看,数栈UI5.0都做了什么什么吧!
本文为大家介绍开源项目一站式大数据平台运维管家ChengYing产品包制作
在大型客户场景下,经常面临着增量产品包内存过大影响平台部署效率的问题,袋鼠云从平台对编译策略的优化出发,结合内部产品包出包优化探索,来探讨如何在增量策略下,更优的解决产品包的内存大小问题,以解决增量升级的效率性。想知道袋鼠云具体是怎么做的吗?欢迎点击下文了解详情
上一篇内容讲了资源参数优化,本篇继续说明spark driver以及spark shuffle相关的参数调优。
Hive是大数据领域常用的组件之一,主要是大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的的一个点,因此掌握一些Hive调优是必不可少的一项技能。影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。本文主要描述在底层引擎为Spark时,经常会用到的、常见的配置参数。
HQL提供了两个查看查询性能的工具:explain与analyze,除此之外Hive的日志也提供了非常详细的信息,方便查看执行性能和报错排查。
本文主要介绍hive中创建,查询,修改数据库语句,以及创建表查询表语句
本文主要介绍hadoop基础环境(3.1.3) Hive版本 3.1.2搭建教程。
本文主要说明Hive产生背景,使用场景,特点,体系架构及Hive SQL执行流程。
没明白你想做什么。Nginx反向代理是让外部可以简单的通过Nginx访问内部的OSS地址。如果是Tomcat直接访问内部OSS就可以了啊,然后要暴露给外面,要么tomcat实现暴露逻辑,要不就搭个Nginx好了
你是需要把域名解析到你的服务器么?如果是ECS,可以解析到ECS的外网IP,如果是SLB,则可以解析到SLB的外网IP