大熊计算机

|

10月前

|

人工智能分布式计算大数据

本文探讨了大数据场景下降维的核心问题与解决方案，重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例，揭示高维空间中样本稀疏性问题，并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用，包括数据准备、核心实现与效果评估，同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外，还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应，为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则，展望未来发展方向。

大熊计算机

471 0 0

Echo_Wish

|

存储分布式计算 Hadoop

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Echo_Wish

619 79 80

DataWorks@佳里

|

人工智能 DataWorks 大数据

大数据AI一体化开发再加速：DataWorks 支持GPU类型资源

大数据开发治理平台 DataWorks 的Serverless资源组支持GPU资源类型，以免运维、按需付费、弹性伸缩的Serverless架构，将大数据处理与AI开发能力无缝融合。面向大数据&AI协同开发场景，DataWorks提供了交互式开发和分析工具Notebook。开发者在创建个人开发环境时，可以选择GPU类型的资源作为Notebook运行环境，以支持进行高性能的计算工作。本教程将基于开源多模态大模型Qwen2-VL-2B-Instruct，介绍如何使用 DataWorks Notebook及LLaMA Factory训练框架完成文旅领域大模型的构建。

DataWorks@佳里

894 24 24

Echo_Wish

|

数据采集机器学习/深度学习 DataWorks

DataWorks产品评测：大数据开发治理的深度体验

Echo_Wish

569 1 1

栈江湖

|

存储分布式计算大数据

Flume+Hadoop：打造你的大数据处理流水线

本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统（HDFS）。Flume是一个高可用、可靠的分布式系统，适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程，并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时，还提供了验证步骤，确保数据成功上传。最后，补充说明了使用文件模式作为channel以避免数据丢失的方法。

栈江湖

810 4 4

土木林森

|

存储分布式计算 Hadoop

数据湖技术：Hadoop与Spark在大数据处理中的协同作用

【10月更文挑战第27天】在大数据时代，数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件，通过HDFS存储数据和Spark进行高效计算，实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践，包括数据存储、处理、安全和可视化等方面，展示了它们在实际应用中的协同效应。

土木林森

675 2 2

Echo_Wish

|

7月前

|

机器学习/深度学习传感器分布式计算

数据才是真救命的：聊聊如何用大数据提升灾难预警的精准度

Echo_Wish

475 14 14

1062754335

|

9月前

|

数据采集分布式计算 DataWorks

ODPS在某公共数据项目上的实践

本项目基于公共数据定义及ODPS与DataWorks技术，构建一体化智能化数据平台，涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理，强化数据安全与流通，提升业务效率与决策能力，助力数字化改革。

1062754335

313 4 4

Echo_Wish

|

8月前

|

机器学习/深度学习运维监控

运维不怕事多，就怕没数据——用大数据喂饱你的运维策略

Echo_Wish

574 0 0

Echo_Wish

|

7月前

|

传感器人工智能监控

数据下田，庄稼不“瞎种”——聊聊大数据如何帮农业提效

Echo_Wish

229 14 14

热门文章

最新文章

相关课程

相关电子书