15篇大数据精品文章大合集

简介: 这一次,开发者社区为正在“宅家办公”的小伙伴们献上福利~这次的合集整理了一些比较受开发者欢迎的关于大数据技术领域的优质文章。

这一次,开发者社区为正在“宅家办公”的小伙伴们献上福利~这次的合集整理了一些比较受开发者欢迎的关于大数据技术领域的优质文章。

不管是初涉该领域,还是已经有一定了解,相信都能从文章中获益。大家快来学习吧~

1. 数据工程师必须掌握的7个大数据实战项目

查看原文

  • 值得收藏,数据工程师必须掌握的7个大数据实战项目

2. 阿里云大数据+AI技术沙龙上海站回顾 | ​揭秘TPC-DS 榜单第一名背后的强大引擎

查看原文

  • 11月16日的大数据+AI沙龙上海站取得圆满成功! EMR 团队在国内运营最大的 Spark 社区,为了更好地传播和分享业界最新技术和最佳实践,现在联合开源社区同行,打造一个纯粹的技术交流线下沙龙《大数据 + AI》,定期为大家做公益分享。本次分享,揭秘TPC-DS 榜单第一名背后的强大引擎,探索Pyboot如何打通大数据生态,一同学习业内最新的存储方案和机器学习平台。

3. 数字化与数据中台的价值思考——徐季秋

查看原文

  • 数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。 狭义的数据中台单指数据技术,比如对海量数据进行采集、计算、存储、加工的一系列技术集合,时下我们谈到的数据中台还包括数据模型,算法服务,数据产品,数据管理以及方法论。 本篇主要从传统企业数字化转型的角度,浅析了数字中台的价值。

4. 【精品问答】大数据计算技术1000问

查看原文

  • 开发者社区策划了大数据计算技术1000问内容,包含Flink、Spark等流式计算(实时计算)、离线计算、Hbase等实践中遇到的技术问题和面试问题等维度内容。

5. 如何分析及处理 Flink 反压?

查看原文

  • 反压(backpressure)是实时计算应用开发中,特别是流式计算中,十分常见的问题。反压意味着数据管道中某个节点成为瓶颈,处理速率跟不上上游发送数据的速率,而需要对上游进行限速。

6. 开放下载!《阿里巴巴大数据及AI实战》深度解析典型场景大数据实践

查看原文

  • 深度剖析淘宝、高德、友盟+、1688、优酷、阿里妈妈、阿里影业大数据实战场景,2020不容错过的企业大数据实战手册。

7. 独家下载 |《大数据工程师必读手册》揭秘阿里如何玩转大数据

查看原文

  • 阿里巴巴如何玩转大数据?十位阿里巴巴大数据专家深度分析 ,飞天大数据平台八款产品最新玩法,2019不容错过的大数据手册——《大数据工程师必读手册》现在可以免费下载阅读啦,赶紧先睹为快吧。

8. 独家下载 |《大数据工程师必读手册》揭秘阿里如何玩转大数据

查看原文

  • 阿里巴巴如何玩转大数据?十位阿里巴巴大数据专家深度分析 ,飞天大数据平台八款产品最新玩法,2019不容错

9. 带你读《Apache Kylin权威指南》之一:Apache Kylin概述

查看原文

  • 从最早使用大数据技术来做批量处理,到现在越来越多的人要求大数据平台也能够如传统数据仓库技术一样支持交互式分析,随着数据量的不断膨胀、数据平民化的不断推进,低延迟、高并发地在Hadoop之上提供标准SQL查询能力成为必须攻破的技术难题。而Apache Kylin的诞生正是基于这个背景,并成功地完成了很多人认为不可能实现的突破。

10. 带你读《Apache Kylin权威指南》之二:快速入门

查看原文

  • 本章介绍了使用Apache Kylin前必须了解的基本概念,如星形数据模型、事实表、维表、维度、度量等,并在了解这些基本概念的基础上快速创建了基于Sample Data的模型,构建Cube,最后执行SQL查询。带领读者体验了Apache Kylin的主要使用过程。

11. 带你读《Apache Kylin权威指南》之三:Cube优化

查看原文

  • 本章从多个角度介绍了Cube的优化方法:从Cuboid剪枝的角度、从并发粒度控制的角度、从Rowkey设计的角度,还有从度量精度选择的角度。总的来说,Cube优化需要Cube管理员对Kylin有较为深刻的理解和认识,这也无形中提高了使用和管理Kylin的门槛。

12. 贾扬清谈大数据&AI发展的新挑战和新机遇

查看原文

  • 2019云栖大会大数据&AI专场,阿里巴巴高级研究员贾扬清为我们带来《大数据AI发展的新机遇和新挑战》的分享。本文主要从人工智能的概念开始讲起,谈及了深度学习的发展和模型训练,以及数据的爆发增长,着重阐述了算法、数据和算力的闭环。

13. 大数据团队从0到1

查看原文

  • “大数据”这个词,大家都已经不陌生了,已经从一个新兴的词汇变成了一个百姓茶余饭后都会聊到的概念。各种大大小小的互联网公司也都会创建自己的大数据团队,我也曾经在多家公司从事过大数据领域的开发和团队管理工作,这里写一下我自己的经历和感受。

14. 详解阿里云数据中台,一篇文章全面了解大数据“网红”

查看原文

  • 一直想写一篇关于数据中台正面文章,现在有闲时做些总结,想充分诠释一下DT内部人如何看待数据中台。 数据中台的概念是最早由阿里巴巴首次提出,是为了应对内部众多业务部门千变万化的数据需求和高速时效性的要求而成长起来的,它既要满足业务部门日常性的多个业务前台的数据需求,又要满足像双十一,六一八这样的业务高峰、应对大规模数据的线性可扩展问题、应对复杂活动场景业务系统的解耦问题,而在技术、组织架构等方面采取的一些变革。

15. 大数据人才培养经验分享

查看原文

  • 总结了一下过去5年在各个高校进行大数据人才培养的经验。
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
3月前
|
人工智能 API 机器人
OpenClaw 用户部署和使用指南汇总
本文档为OpenClaw(原MoltBot)官方使用指南,涵盖一键部署(阿里云轻量服务器年仅68元)、钉钉/飞书/企微等多平台AI员工搭建、典型场景实践及高频问题FAQ。同步更新产品化修复进展,助力用户高效落地7×24小时主动执行AI助手。
29275 253
|
搜索推荐 UED
从网页到应用:轻松封装网页为个人化APP
随着移动互联网的快速发展,越来越多的人希望将自己喜欢的网页内容封装成应用,以便更便捷地浏览和分享。本文将介绍如何在线生成个性化的APP,让你的网页成为一个独立的应用程序,同时提供了一些常见的工具和技术,帮助你实现这一目标。
410 0
|
Kubernetes 容器 Perl
【kubernetes】解决:pvc 一直处于Terminating 无法删除的问题
【kubernetes】解决:pvc 一直处于Terminating 无法删除的问题
1811 0
|
28天前
|
人工智能 IDE 开发工具
Visual Studio 2026 v18.5 发布 - 适用于 Windows 上 .NET 和 C++ 开发人员的最全面 IDE
Visual Studio 2026 Enterprise 18.5 - 适用于 Windows 上 .NET 和 C++ 开发人员的最全面 IDE
167 2
Visual Studio 2026 v18.5 发布 - 适用于 Windows 上 .NET 和 C++ 开发人员的最全面 IDE
|
2月前
|
机器学习/深度学习 人工智能 JSON
AI 术语满天飞?90% 的人只懂名词,不懂为什么!
本文不堆砌概念,只讲前因后果:从大模型底层逻辑,到 Context、RAG、Function Calling、MCP、Skills 的核心关联,拆解所有面试高频考点,让你告别 “名词解释”,吃透原理,面试直接碾压面试官!
1307 7
AI 术语满天飞?90% 的人只懂名词,不懂为什么!
|
安全 Linux iOS开发
Cisco Secure Client 5.1.7.122 发布,新增功能概览
Cisco Secure Client 5.1.8.122 (macOS, Linux, Windows & iOS, Andrord) - 远程访问和安全客户端
776 4
Cisco Secure Client 5.1.7.122 发布,新增功能概览
|
分布式计算 Hadoop 大数据
数据工程师必须掌握的7个大数据实战项目
值得收藏,数据工程师必须掌握的7个大数据实战项目
8257 1
数据工程师必须掌握的7个大数据实战项目
|
机器学习/深度学习 编解码 计算机视觉
YOLOv11改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
YOLOv11改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
893 0
YOLOv11改进策略【Backbone/主干网络】| 2023 U-Net V2 替换骨干网络,加强细节特征的提取和融合
|
数据采集 自然语言处理 NoSQL
Qwen for Tugraph:自然语言至图查询语言翻译大模型微调最佳实践
在图数据库的应用场景中,自然语言至图查询语言的高效转换一直是行业中的重要挑战。本次实践基于阿里云 Qwen 大模型,围绕 TuGraph 图数据库的需求,探索并验证了一套高效的大模型微调方案,显著提升了模型生成 Cypher 查询语句的能力。通过数据清洗、两阶段微调方法以及两模型推理框架等一系列创新策略,我们成功解决了图查询语言翻译任务中的核心问题。本文将从背景与目标、数据准备与清洗、微调框架设计、Prompt设计与优化、模型推理、最佳实践效果以及前景展望等六个部分出发,向读者逐步介绍我们的方案。
|
SQL 人工智能 DataWorks
【云栖实录】DataWorks:新一代智能湖仓一体数据开发与治理平台
在9月21日的云栖大会上,DataWorks发布了新一代智能湖仓一体数据开发与治理平台。DataWorks历经Kubernetes改造与云原生调度系统的优化,实现了资源组全面Serverless化,降低了使用成本,最高可节省40%。新推出的DataWorks Data Studio,支持多种计算引擎,提供更开放的云原生WebIDE,提升开发效率。DataWorks Copilot智能助手也得到升级,支持多种SQL方言和Python代码生成,平均提升数据开发效率35%。此外,DataWorks还推出了全方位的数据资产治理体系,涵盖业务和技术视角,助力企业实现数据智能化管理和转型。
1369 0
【云栖实录】DataWorks:新一代智能湖仓一体数据开发与治理平台