Spark的搜索结果_文章_第9页-阿里云开发者社区

以山向海

|

12月前

|

博文

### MaxFrame产品评测报告简介 MaxFrame是连接大数据与AI的Python分布式计算框架，旨在简化大规模数据分析和机器学习模型训练。评测涵盖分布式Pandas处理、大语言模型数据处理及企业级应用潜力，表现优异尤其在高并发场景。功能上提供了丰富的Python API和常用算子，支持Hadoop、Spark等生态系统。改进建议包括增加可视化工具、完善文档和支持，并举办培训活动。相比Tableau Prep Builder和Apache Spark，MaxFrame在功能完整性、性能和灵活性方面具有优势，但仍需提升图形界面友好度和文档更新频率。

# 机器学习/深度学习 # 分布式计算 # 数据处理 # Spark # Python

技术小达人

|

12月前

|

博文

Lindorm：基于多模数据服务的一站式智能检索基础设施

Lindorm 是阿里云推出的一款基于多模数据服务的一站式智能检索基础设施，专为AI时代设计。它融合了全文检索、向量搜索和AI推理能力，支持结构化、半结构化及非结构化数据的高效处理。Lindorm 提供统一API接口，具备高弹性、低成本和易用性，帮助开发者快速构建和迭代智能搜索应用，适用于大规模智能搜索场景。此外，Lindorm 支持分布式存储与计算引擎，优化了资源管理和运维效率，极大降低了开发复杂度，助力企业实现智能化转型。

# GPU云服务器 # 对象存储 # 存储 # 人工智能 # 分布式计算 # Spark # 异构计算

技术小达人

|

12月前

|

博文

云原生数据仓库AnalyticDB：深度智能化的数据分析洞察

云原生数据仓库AnalyticDB（ADB）是一款深度智能化的数据分析工具，支持大规模数据处理与实时分析。其架构演进包括存算分离、弹性伸缩及性能优化，提供zero-ETL和APS等数据融合功能。ADB通过多层隔离保障负载安全，托管Spark性能提升7倍，并引入AI预测能力。案例中，易点天下借助ADB优化广告营销业务，实现了30%的任务耗时降低和20%的成本节省，展示了云原生数据库对出海企业的数字化赋能。

# 云原生数据仓库AnalyticDB MySQL版 # 云消息队列 Kafka 版 # 云原生数据仓库 AnalyticDB PostgreSQL版 # 对象存储 # 日志服务 # 人工智能 # 分布式计算 # Cloud Native # 数据挖掘 # Spark

技术小达人

|

12月前

|

博文

Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化

本文摘自 Arm China的工程师顾煜祺关于“在 Arm 平台上使用 Native 算子库加速 Spark”的分享，主要内容包括以下四个部分： 1.技术背景 2.算子库构成 3.算子操作优化 4.未来工作

# 云原生大数据计算服务 MaxCompute # SQL # 分布式计算 # Java # API # Spark

技术员阿伟

|

博文

《Java 与大数据框架：AI 数据预处理的强力联盟》

在人工智能领域，数据预处理是确保模型准确性和高效性的关键。Java 与 Hadoop、Spark 等大数据框架的结合，为处理海量数据提供了强大的支持。通过 Java 编写的 MapReduce 和 Spark 程序，可以高效进行数据清洗、转换和特征提取，充分利用分布式计算能力，缩短预处理时间，提升数据质量。Java 在整合这些框架时，不仅实现了任务调度和错误处理，还为未来的优化和技术进步奠定了基础。这一组合为 AI 数据预处理带来了高效的解决方案，推动了人工智能技术的发展。

# 云原生大数据计算服务 MaxCompute # 数据采集 # 人工智能 # 分布式计算 # Java # Spark

技术员阿伟

|

博文

《探索 Apache Spark MLlib 与 Java 结合的卓越之道》

本文探讨了Apache Spark MLlib与Java结合的最佳实践，涵盖基础认知、数据预处理、模型选择与构建、训练调优及部署应用。Spark以其分布式计算能力著称，MLlib提供丰富的机器学习算法，Java则拥有成熟生态。两者结合可高效处理大规模数据集，构建灵活的机器学习应用。通过RDD和DataFrame API进行数据操作，利用特征工程工具优化数据，选择合适的分类、回归或聚类模型，并通过管道机制简化工作流。模型训练时合理设置参数并调优，最终将模型部署到生产环境，释放其商业价值。

# 机器学习/深度学习 # 分布式计算 # Java # Apache # Spark

龙蜥社区（OpenAnolis）

|

博文

|

来自：龙蜥操作系统

驱动性能提升，如何加速基于龙蜥和企业平台的Arm系统开发与部署进程？

龙蜥社区走进Arm MeetUp回顾文来啦。

# SQL # 分布式计算 # Anolis # Spark # 开发者

游客nsyhaoxcmeiq6

|

博文

数据仓库的性能问题及解决之道

随着数据量的增长和业务复杂度的提升，数据仓库性能问题日益凸显，如查询慢、跑批不完等。传统解决方案如集群、预计算和优化引擎虽有一定效果，但成本高、灵活性差或性能提升有限。esProc SPL 提供了一种新的解决思路，通过非 SQL 的计算体系，结合高性能算法和优化的数据存储，实现更高效的数据处理，尤其适用于复杂计算场景。

# 云原生大数据计算服务 MaxCompute # SQL # 存储 # 分布式计算 # 算法 # Spark

龙蜥社区（OpenAnolis）

|

博文

|

来自：龙蜥操作系统

亮点抢先看，龙蜥社区走进Arm MeetUp 即将开幕活动大奖等你来拿

12.6（本周五），上海见。

# SQL # 人工智能 # 分布式计算 # Anolis # Spark

古斯文www.gusiwen.com

|

博文

Scala语言发展历史及基本常识

Scala，由马丁·奥德斯基于2001年创造，融合了Java和JavaScript的特性，被称为“大数据的黄金语言”。它是Spark、Flink、Kafka等项目的主要开发语言，运行在JVM上，与Java高度兼容，支持面向对象和函数式编程。Scala以精简的语法和高级语言特性著称，成为大数据处理领域的首选语言之一。

# 消息中间件 # 分布式计算 # Java # Scala # Spark

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark