备案控制台

开发者社区大数据文章正文

15篇大数据精品文章大合集

2020-02-05 1393

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，1000CU*H 3个月

阿里云百炼推荐规格 ADB PostgreSQL，4核16GB 100GB 1个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 这一次，开发者社区为正在“宅家办公”的小伙伴们献上福利~这次的合集整理了一些比较受开发者欢迎的关于大数据技术领域的优质文章。

这一次，开发者社区为正在“宅家办公”的小伙伴们献上福利~这次的合集整理了一些比较受开发者欢迎的关于大数据技术领域的优质文章。

不管是初涉该领域，还是已经有一定了解，相信都能从文章中获益。大家快来学习吧~

1. 数据工程师必须掌握的7个大数据实战项目

值得收藏，数据工程师必须掌握的7个大数据实战项目

2. 阿里云大数据+AI技术沙龙上海站回顾 | 揭秘TPC-DS 榜单第一名背后的强大引擎

11月16日的大数据+AI沙龙上海站取得圆满成功！ EMR 团队在国内运营最大的 Spark 社区，为了更好地传播和分享业界最新技术和最佳实践，现在联合开源社区同行，打造一个纯粹的技术交流线下沙龙《大数据 + AI》，定期为大家做公益分享。本次分享，揭秘TPC-DS 榜单第一名背后的强大引擎，探索Pyboot如何打通大数据生态，一同学习业内最新的存储方案和机器学习平台。

3. 数字化与数据中台的价值思考——徐季秋

数据中台是指通过数据技术，对海量数据进行采集、计算、存储、加工，同时统一标准和口径。数据中台把数据统一之后，会形成标准数据，再进行存储，形成大数据资产层，进而为客户提供高效服务。狭义的数据中台单指数据技术，比如对海量数据进行采集、计算、存储、加工的一系列技术集合，时下我们谈到的数据中台还包括数据模型，算法服务，数据产品，数据管理以及方法论。本篇主要从传统企业数字化转型的角度，浅析了数字中台的价值。

4. 【精品问答】大数据计算技术1000问

开发者社区策划了大数据计算技术1000问内容，包含Flink、Spark等流式计算（实时计算）、离线计算、Hbase等实践中遇到的技术问题和面试问题等维度内容。

5. 如何分析及处理 Flink 反压？

反压（backpressure）是实时计算应用开发中，特别是流式计算中，十分常见的问题。反压意味着数据管道中某个节点成为瓶颈，处理速率跟不上上游发送数据的速率，而需要对上游进行限速。

6. 开放下载！《阿里巴巴大数据及AI实战》深度解析典型场景大数据实践

深度剖析淘宝、高德、友盟+、1688、优酷、阿里妈妈、阿里影业大数据实战场景，2020不容错过的企业大数据实战手册。

7. 独家下载 |《大数据工程师必读手册》揭秘阿里如何玩转大数据

阿里巴巴如何玩转大数据？十位阿里巴巴大数据专家深度分析，飞天大数据平台八款产品最新玩法，2019不容错过的大数据手册——《大数据工程师必读手册》现在可以免费下载阅读啦，赶紧先睹为快吧。

8. 独家下载 |《大数据工程师必读手册》揭秘阿里如何玩转大数据

阿里巴巴如何玩转大数据？十位阿里巴巴大数据专家深度分析，飞天大数据平台八款产品最新玩法，2019不容错

9. 带你读《Apache Kylin权威指南》之一：Apache Kylin概述

从最早使用大数据技术来做批量处理，到现在越来越多的人要求大数据平台也能够如传统数据仓库技术一样支持交互式分析，随着数据量的不断膨胀、数据平民化的不断推进，低延迟、高并发地在Hadoop之上提供标准SQL查询能力成为必须攻破的技术难题。而Apache Kylin的诞生正是基于这个背景，并成功地完成了很多人认为不可能实现的突破。

10. 带你读《Apache Kylin权威指南》之二：快速入门

本章介绍了使用Apache Kylin前必须了解的基本概念，如星形数据模型、事实表、维表、维度、度量等，并在了解这些基本概念的基础上快速创建了基于Sample Data的模型，构建Cube，最后执行SQL查询。带领读者体验了Apache Kylin的主要使用过程。

11. 带你读《Apache Kylin权威指南》之三：Cube优化

本章从多个角度介绍了Cube的优化方法：从Cuboid剪枝的角度、从并发粒度控制的角度、从Rowkey设计的角度，还有从度量精度选择的角度。总的来说，Cube优化需要Cube管理员对Kylin有较为深刻的理解和认识，这也无形中提高了使用和管理Kylin的门槛。

12. 贾扬清谈大数据&AI发展的新挑战和新机遇

2019云栖大会大数据&AI专场，阿里巴巴高级研究员贾扬清为我们带来《大数据AI发展的新机遇和新挑战》的分享。本文主要从人工智能的概念开始讲起，谈及了深度学习的发展和模型训练，以及数据的爆发增长，着重阐述了算法、数据和算力的闭环。

13. 大数据团队从0到1

“大数据”这个词，大家都已经不陌生了，已经从一个新兴的词汇变成了一个百姓茶余饭后都会聊到的概念。各种大大小小的互联网公司也都会创建自己的大数据团队，我也曾经在多家公司从事过大数据领域的开发和团队管理工作，这里写一下我自己的经历和感受。

14. 详解阿里云数据中台，一篇文章全面了解大数据“网红”

一直想写一篇关于数据中台正面文章，现在有闲时做些总结，想充分诠释一下DT内部人如何看待数据中台。数据中台的概念是最早由阿里巴巴首次提出，是为了应对内部众多业务部门千变万化的数据需求和高速时效性的要求而成长起来的，它既要满足业务部门日常性的多个业务前台的数据需求，又要满足像双十一，六一八这样的业务高峰、应对大规模数据的线性可扩展问题、应对复杂活动场景业务系统的解耦问题，而在技术、组织架构等方面采取的一些变革。

15. 大数据人才培养经验分享

总结了一下过去5年在各个高校进行大数据人才培养的经验。

文章标签：

云原生大数据计算服务 MaxCompute

云原生数据仓库 AnalyticDB PostgreSQL版

实时计算 Flink版

数据处理

程序员

大数据

开发者

相关实践学习

基于MaxCompute的热门话题分析

Apsara Clouder大数据专项技能认证配套课程：基于MaxCompute的热门话题分析

开发者社区

目录

相关文章

Echo_Wish

|

机器学习/深度学习算法 Python

CatBoost中级教程：集成学习与模型融合

CatBoost中级教程：集成学习与模型融合【2月更文挑战第13天】

Echo_Wish

496 3 3

真的很搞笑

|

缓存前端开发 Java

nacos常见问题之开启鉴权后客户端报403升级版本如何解决

Nacos是阿里云开源的服务发现和配置管理平台，用于构建动态微服务应用架构；本汇总针对Nacos在实际应用中用户常遇到的问题进行了归纳和解答，旨在帮助开发者和运维人员高效解决使用Nacos时的各类疑难杂症。

真的很搞笑

2680 0 0

天赐凯尔

|

负载均衡关系型数据库 RDS

良好架构设计中的可靠性：高可用、容错、灾难恢复

良好架构设计支柱云计算良好架构设计有五大支柱，分别是：安全性，可靠性，性能效率，成本优化和卓越操作。其中可靠性是指系统从基础设施或者服务故障当中实现恢复、以动态方式获取计算资源以满足需求，以及缓解配置错误或者暂时性网络问题等干扰因素的能力。

天赐凯尔

5325 0 0

数据库知识学习者

|

弹性计算关系型数据库数据库

手把手带你从自建 MySQL 迁移到云数据库，一步就能脱胎换骨

阿里云瑶池数据库来开课啦！自建数据库迁移至云数据库 RDS原来只要一步操作就能搞定！

数据库知识学习者

68914 73 82

阿里云开发者

|

10月前

|

人工智能自然语言处理测试技术

在IDE里使用DeepSeek-V3 和 DeepSeek-R1 满血版模型

如何在IDE里使用DeepSeek-V3 和 DeepSeek-R1 满血版模型

阿里云开发者

948 97 100

wljslmz

|

安全 Linux 虚拟化

Manjaro Linux 推出新不可变版本：扩展产品范围，开放社区反馈和测试

【10月更文挑战第29天】

wljslmz

471 1 1

Manjaro Linux 推出新不可变版本：扩展产品范围，开放社区反馈和测试

sysin

|

8月前

|

存储网络协议虚拟化

ESXi 8.0U3e 重大更新发布，修复 150 多个已知问题

ESXi 8.0U3e 重大更新发布，修复 150 多个已知问题

sysin

825 5 5

ESXi 8.0U3e 重大更新发布，修复 150 多个已知问题

Limiiiing

|

10月前

|

机器学习/深度学习编解码计算机视觉

YOLOv11改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络，加强细节特征的提取和融合

YOLOv11改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络，加强细节特征的提取和融合

Limiiiing

635 0 0

YOLOv11改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络，加强细节特征的提取和融合

茶什i

|

分布式计算 Hadoop 大数据

数据工程师必须掌握的7个大数据实战项目

值得收藏，数据工程师必须掌握的7个大数据实战项目

茶什i

8144 1 2

数据工程师必须掌握的7个大数据实战项目

yuanzhengme

|

关系型数据库 Serverless 定位技术

PostgreSQL GIS函数判断两条线有交点的函数是什么？

PostgreSQL GIS函数判断两条线有交点的函数是什么？

yuanzhengme

888 60 60

热门文章

最新文章

OpenSearch大模型实践之Havenask篇

一文掌握：Gitlab的完整使用手册

java实现图片与base64转换

手机验证码登录

Pycharm2022最新版安装破解与激活教程，亲测可用

Java单元测试之单元测试规范

Exchange 中关于邮件的生命周期和托管文件夹的相关设定

抽象工厂模式

Android按返回键（后退键）Back键事件捕获的两种方法

Linux下安装显卡Run格式

关于synchronized-reentrantlock-volatile学习总结1.0

最新PyCharm 安装详细图文教程：小白也能轻松搞定

用错工具比没工具更可怕：Ansible vs Terraform 实战对比，用最接地气的方式讲清楚

别等系统报警了才想起 Trace！——分布式事务可观测性的那些坑与优化套路

数据建模到底怎么稳？从维度建模聊到列式存储，让你的数据仓库飞起来！

基于反馈循环的自我进化AI智能体：原理、架构与代码实现

LLM为何难以胜任复杂任务？探索AI认知局限

【Java架构师体系课 | MySQL篇】⑦ 深入理解MySQL事务隔离级别与锁机制

阿里云服务器最便宜多少钱一年？38元一年，配置、价格及购买限制说明

强化网站安全的利器（Nginx中如何正确配置HSTS安全头）

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云负载均衡收费标准：ALB、NLB和CLB价格，包括LCU费用、实例费和公网带宽价格