文档备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

#Apache Spark系列技术直播# 第四讲【机器学习介绍与Spark MLlib实践】

2018-12-06 2104

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Apache Spark系列技术直播--第四讲机器学习介绍与Spark MLlib实践直播时间：2018.12.06 19:00 - 20:00 主讲人：江宇(燕回) 阿里巴巴计算平台EMR技术专家内容提要：本次讲座主要面对的是机器学习的入门者，以及想要使用Spark来进行机器学习的用户。

Apache Spark系列技术直播--第四讲机器学习介绍与Spark MLlib实践

直播时间：2018.12.06 19:00 - 20:00

主讲人：江宇(燕回) 阿里巴巴计算平台EMR技术专家

内容提要：本次讲座主要面对的是机器学习的入门者，以及想要使用Spark来进行机器学习的用户。我们会介绍一下机器学习相关领域的基础知识，以及机器学习在spark上面的实践，同时给出我们的一些使用建议。

1baf0c725532a0d9f5d9dde60394902f4181314b

加入Apache Spark中国技术交流钉钉群看直播

_2018_12_05_4_48_20_meitu_1

文章标签：

开源大数据平台 E-MapReduce

Apache

分布式计算

Spark

机器学习/深度学习

关键词：

Apache实践

Apache技术

人工智能平台 PAI实践

人工智能平台 PAI技术

apache spark技术

社区小助手

目录

相关文章

SelectDB

|

10月前

|

消息中间件 OLAP Kafka

Apache Doris 实时更新技术揭秘：为何在 OLAP 领域表现卓越？

Apache Doris 为何在 OLAP 领域表现卓越？凭借其主键模型、数据延迟、查询性能、并发处理、易用性等多方面特性的表现，在分析领域展现了独特的实时更新能力。

SelectDB

807 9 9

JJLIN距离

|

9月前

|

消息中间件监控 Java

Apache Kafka 分布式流处理平台技术详解与实践指南

本文档全面介绍 Apache Kafka 分布式流处理平台的核心概念、架构设计和实践应用。作为高吞吐量、低延迟的分布式消息系统，Kafka 已成为现代数据管道和流处理应用的事实标准。本文将深入探讨其生产者-消费者模型、主题分区机制、副本复制、流处理API等核心机制，帮助开发者构建可靠、可扩展的实时数据流处理系统。

JJLIN距离

806 4 4

SelectDB

|

存储 SQL 缓存

Apache Doris & SelectDB 技术能力全面解析

本文将对 Doris & SelectDB 适合的分析场景和技术能力进行概述解析

SelectDB

2043 1 1

Apache Doris & SelectDB 技术能力全面解析

蚂蚁数据智能技术

|

11月前

|

人工智能自然语言处理测试技术

新晋社区PMC李攀：“在Apache Fory，技术实力是唯一的通行证”

一起走近开源项目的幕后英雄——PMC成员

蚂蚁数据智能技术

344 0 0

NineData

|

安全 Apache 数据库

【倒计时3天】NineData x Apache Doris x 阿里云联合举办数据库技术Meetup，5月24日深圳见！

5月24日，NineData联合Apache Doris与阿里云在深圳举办数据库技术Meetup。活动聚焦「数据实时分析」与「数据同步迁移」两大领域，邀请行业专家分享技术趋势、产品实践及解决方案，助力企业构建高效安全的数据管理体系。时间：14:00-17:30；地点：深圳新一代产业园2栋20楼会议室。线下名额有限（80人），速报名参与深度交流！

NineData

349 1 1

颜淡慕潇

|

数据采集人工智能 API

生物医药蛋白分子数据采集：支撑大模型训练的技术实践分享

作为生物信息学领域的数据工程师，近期在为蛋白质相互作用预测AI大模型构建训练集时，我面临着从PDB、UniProt等学术数据库获取高质量三维结构、序列及功能注释数据的核心挑战。通过综合运用反爬对抗技术，成功突破了数据库的速率限制、验证码验证等反爬机制，将数据采集效率提升4倍，为蛋白质-配体结合预测模型训练提供了包含10万+条有效数据的基础数据集，提高了该模型预测的准确性。

颜淡慕潇

663 1 1

阿里云大数据

|

机器学习/深度学习分布式计算大数据

阿里云 EMR Serverless Spark 在微财机器学习场景下的应用

面对机器学习场景下的训练瓶颈，微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark，微财突破了单机训练使用的数据规模瓶颈，大幅提升了训练效率，解决了存算分离架构下 Shuffle 稳定性和性能困扰，为智能风控等业务提供了强有力的技术支撑。

阿里云大数据

740 15 15

Deephub

|

机器学习/深度学习传感器运维

使用机器学习技术进行时间序列缺失数据填充：基础方法与入门案例

本文探讨了时间序列分析中数据缺失的问题，并通过实际案例展示了如何利用机器学习技术进行缺失值补充。文章构建了一个模拟的能源生产数据集，采用线性回归和决策树回归两种方法进行缺失值补充，并从统计特征、自相关性、趋势和季节性等多个维度进行了详细评估。结果显示，决策树方法在处理复杂非线性模式和保持数据局部特征方面表现更佳，而线性回归方法则适用于简单的线性趋势数据。文章最后总结了两种方法的优劣，并给出了实际应用建议。

Deephub

910 7 8

使用机器学习技术进行时间序列缺失数据填充：基础方法与入门案例

东方睿赢

|

机器学习/深度学习 Python

机器学习中模型选择和优化的关键技术——交叉验证与网格搜索

本文深入探讨了机器学习中模型选择和优化的关键技术——交叉验证与网格搜索。介绍了K折交叉验证、留一交叉验证等方法，以及网格搜索的原理和步骤，展示了如何结合两者在Python中实现模型参数的优化，并强调了使用时需注意的计算成本、过拟合风险等问题。

东方睿赢

1209 6 6

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

阿里封神谈hadoop生态学习之路

分布式快照算法: Chandy-Lamport

JindoFS: 云上大数据的高性能数据湖存储方案

Spark in action on Kubernetes - Playground搭建与架构浅析

梨视频：基于阿里云E-MapReduce搭建视频推荐系统的实践

JindoFS解析 - 云上大数据高性能数据湖存储方案

基于Alluxio系统的Spark DataFrame高效存储管理技术

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

HIVE MapJoin异常问题处理总结

漫谈分布式计算框架

优路教育借助阿里云Flink+StarRocks+Paimon湖仓一体化构建职业教育业务全链路实时数据服务平台

OpenClaw + QQ 机器人！保姆级图文教程，一步到位

1688商品详情API（1688.item_get）Python实战：构建B2B供应链数据中台

迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

一套底座支撑多场景：高德地图基于 Paimon + StarRocks 轨迹服务实践

EMR Serverless Spark 携手 PAI/百炼，开启“SQL 即 AI”的新篇章

诗悦游戏基于DLF与EMR StarRocks降本38%

基于DLF构建实时数据湖

数仓-湖仓-湖流，人力家基于阿里云OpenLake架构演进与思考

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

Apache Flink 入门到实战 - Flink开源社区出品

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

大数据实时计算框架Spark快速入门

Apache Flink 入门

相关电子书

更多

Apache Flink技术进阶

Apache Spark: Cloud and On-Prem

Hybrid Cloud and Apache Spark

相关实验场景

更多

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

在PAI ArtLab一键设计AIGC新春红包

推荐镜像

更多

apache

下一篇

阿里云新品发布AI DeepSign，为AI生成作品赋予可信身份证