文章标签:
云原生大数据计算服务 MaxCompute
分布式计算
Hadoop
Apache
算法
大数据
数据挖掘
数据处理
监控
Spark
存储
关键词:
云原生大数据计算服务 MaxCompute开发
云原生大数据计算服务 MaxCompute spark
hadoop spark
hadoop apache spark
云原生大数据计算服务 MaxCompute hadoop
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
大熊计算机
|
10月前
|
人工智能
分布式计算
大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
大熊计算机
471
0
0
Echo_Wish
|
存储
分布式计算
Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
Echo_Wish
619
79
80
DataWorks@佳里
|
人工智能
DataWorks
大数据
大数据AI一体化开发再加速:DataWorks 支持GPU类型资源
大数据开发治理平台 DataWorks 的Serverless资源组支持GPU资源类型,以免运维、按需付费、弹性伸缩的Serverless架构,将大数据处理与AI开发能力无缝融合。面向大数据&AI协同开发场景,DataWorks提供了交互式开发和分析工具Notebook。开发者在创建个人开发环境时,可以选择GPU类型的资源作为Notebook运行环境,以支持进行高性能的计算工作。本教程将基于开源多模态大模型Qwen2-VL-2B-Instruct,介绍如何使用 DataWorks Notebook及LLaMA Factory训练框架完成文旅领域大模型的构建。
DataWorks@佳里
894
24
24
Echo_Wish
|
数据采集
机器学习/深度学习
DataWorks
DataWorks产品评测:大数据开发治理的深度体验
DataWorks产品评测:大数据开发治理的深度体验
Echo_Wish
569
1
1
栈江湖
|
存储
分布式计算
大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
栈江湖
810
4
4
土木林森
|
存储
分布式计算
Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
土木林森
675
2
2
Echo_Wish
|
7月前
|
机器学习/深度学习
传感器
分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
Echo_Wish
475
14
14
1062754335
|
9月前
|
数据采集
分布式计算
DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
1062754335
313
4
4
Echo_Wish
|
8月前
|
机器学习/深度学习
运维
监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
Echo_Wish
574
0
0
Echo_Wish
|
7月前
|
传感器
人工智能
监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
Echo_Wish
229
14
14
热门文章
最新文章
1
欢迎加入Spark中国社区
2
Spark SQL性能优化
3
Spark SQL玩起来
4
阿里巴巴瑾谦/沐远:云HBaseSQL及分析——Phoenix&Spark
5
【译】使用Spark SQL 运行大规模基因组工作流
6
EMR Spark Relational Cache的执行计划重写
7
云栖社区2019年1月技术活动:PG, Java,Spark等30+场预告【持续更新】
8
Spark Connector Reader 原理与实践
9
Spark的错误处理与调试技巧
10
8月28日社区直播【Spark Streaming SQL流式处理简介】
1
当“爆款书”遇上大数据:出版业的老路,正在被算法改写
623
2
基于python大数据的台风灾害分析及预测系统
531
3
基于Python大数据的热门游戏推荐系统
446
4
基于python大数据的青少年网络使用情况分析及预测系统
517
5
2026版基于python大数据的电影分析可视化系统
500
6
基于Python大数据的的电商用户行为分析系统
873
7
基于python大数据技术的医疗数据分析与研究
322
8
别再靠“拍脑袋”修系统了——聊聊大数据如何让运维更聪明
511
9
基于python大数据深度学习的酒店评论文本情感分析系统
490
10
基于python大数据的的海洋气象数据可视化平台
303
相关商品
相关课程
更多
大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第一阶段
大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第二阶段
大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第三阶段
大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第四阶段
大数据实战项目 - 反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第七阶段
大数据实时计算框架Spark快速入门
相关电子书
更多
Hybrid Cloud and Apache Spark
Scalable Deep Learning on Spark
Comparison of Spark SQL with Hive
下一篇
PHP:将本地文件上传到阿里云OSS存储