【Hadoop Summit Tokyo 2016】Hivemall: Apache Hive/Spark/Pig 的可扩展机器学习库

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 本讲义出自 Makoto YUI与NTT Takashi Yamamuro在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Hivemall的相关知识以及Hivemall在Spark上的应用,Hivemall是可以用于Apache Hive/Spark/Pig 的可扩展机器学习库。

本讲义出自 Makoto YUI与NTT Takashi Yamamuro在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Hivemall的相关知识以及Hivemall在Spark上的应用,Hivemall是可以用于Apache Hive/Spark/Pig 的可扩展机器学习库。

38a72cf50b1487f735d04f99b8ba12a1c651cd26

8b0ffbbf49e9286af7777af51ea3c5ed57f6e887

d6e244ce25007e23917e2389b265bd79261f8c35

35ffac456343b8b96ac26aaac8577804cb55444e

af9c67fd51ebc8284ef43980b9b8bc8979e60130

628bfb3565fa941d64a4be4408653016ac4d0852

62888374bea14c6fdb47f27c66d2ab364f131f56

079d02bcfd1c2b7c9f397d4764adadb59982fc0b

2654487cd4371799929ce934bb45d08f3787365c

79dbaf7f384b6517ea45521d040be3a44c501a20

d3cbc17d7482485ed8171f23395f905646b357ff

7f72c44d30fcd5e21465027805b47330ff517ecb

aff11182286cff4cbf2b185b2c8528f646871dd1

de897829bbea1c74f53688e6e6d73c48ba928e5f

2479f6eb185758ee114f9dd0670d12eab9289342

5fd6235a5869e642c533d9dc7963d53fc32b8e4f

4012fc3adbb819825d3cebfd636b140d3e52fe4c

17a4e6d124aefe3b545b4e6482459654a3936e5a740d1424c657dbfb3faa80b9e1ec8bfdc5df1df1baf178493e2ecf11fb10ada72320a91ea3d9d287

b3b11d76ca0607225e0d342492cdd294b3ef0a76

2a8d9d8a5b9d0b44f13c94a4b4d7d693f4d0fb48

8ac1f5fe8ae78569ca4b0f5d4d6b53bf378b2009

1e064739492ee36459273b00f131b17aefaa9456

c169fe59e1507c9bb3f38136e9a2926426247ffa

81d8f5126adb59fc9355ba1d5591c0e32ffae7bd

63fe9dfc1e197bfe8dce0279552789208fcfe558

1e166f0606ccec3858311433affedc56c09c03ab

83cdf0c700e94a0ef82c099f3501b9fb8ffbbdc4

b1baffac432242bfbc37533110790270b4887fe0

4d651eaa0567337e69d62dd3dea5260e773ea6de

ab614afd1bf2dc69cb07532518a4573f56225a42

e286be70ee3500ab7e79eeeb599e40dd3c7a157b

4ab723820d39e3eb1fb3702d8d70e72b59b9be36

17359a0c821101b47382374603cef0ed74855e29

1011b08ddd3ab2dbf097e04bb3258d63fbf8c60f

023bb401e90c10e11dde191ab168f5c45c6f612a

9edc50bfd2ae28e4863d43bde9935ea771271b58

f4f26cf3ab7c3e926b7b90da4b31471a48d308d2

092ef23077cdebf8176073af08cafdced717cc11

71b325afe0f40462fe1495c18be6bbaf181b6e04

71d331bf84eef3374e7245aac43d7fb7f346efca

71303ceec8ad1e2954e484ee3e6bd18609424878

a14d37905fe3c19cdf968a29d47e92c3a9bdb07b

697c99f7eeea33230f0553784b302d22302750e1

0853f684760854c56665a7f643bd8922313cf62f

990ccf55cd570b6e25f309bc2efafcc2786ae318

656780437717dfc2f98796e6752b58201ee75d36

ccdb1e555698618f6c098f647a440a25e685a9a2

e798c8e8fa69b798a4d7ad5abad0345a9aa523be

1ffb2e165171419514ab9cca2818a5c9f25f48a5

93e0f432d159854e2969005e6fed07928a450a22

32d9bbad9ad7e04895beb877e8bedae63a46bc93

6ec5b3ef2409197faf2360d19dd6319a42daadb1

bf908ca3e45efa77998915d3cb10de19ea3c8dc8

fbc1acba4fc906300ebbf03209d883dff1c0b14c

f6246d3f09198e49529a5d6eae089de088a47e86


相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
分布式计算 大数据 Apache
利用.NET进行大数据处理:Apache Spark与.NET for Apache Spark
【10月更文挑战第15天】随着大数据成为企业决策和技术创新的关键驱动力,Apache Spark作为高效的大数据处理引擎,广受青睐。然而,.NET开发者面临使用Spark的门槛。本文介绍.NET for Apache Spark,展示如何通过C#和F#等.NET语言,结合Spark的强大功能进行大数据处理,简化开发流程并提升效率。示例代码演示了读取CSV文件及统计分析的基本操作,突显了.NET for Apache Spark的易用性和强大功能。
341 1
|
SQL 存储 分布式计算
Hive和Pig的区别是什么?如何选择?
【10月更文挑战第9天】Hive和Pig的区别是什么?如何选择?
307 0
|
分布式计算 大数据 Spark
Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享
《Spark大数据处理:技术、应用与性能优化》深入浅出介绍Spark核心,涵盖部署、实战与性能调优,适合初学者。作者基于微软和IBM经验,解析Spark工作机制,探讨BDAS生态,提供实践案例,助力快速掌握。书中亦讨论性能优化策略。[PDF下载链接](https://zhangfeidezhu.com/?p=347)。![Spark Web UI](https://img-blog.csdnimg.cn/direct/16aaadbb4e13410f8cb2727c3786cc9e.png#pic_center)
376 1
Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享
|
分布式计算 Hadoop 大数据
大数据处理框架在零售业的应用:Apache Hadoop与Apache Spark
【8月更文挑战第20天】Apache Hadoop和Apache Spark为处理海量零售户数据提供了强大的支持
294 0
|
分布式计算 大数据 数据处理
Apache Spark在大数据处理中的应用
Apache Spark是大数据处理的热门工具,由AMPLab开发并捐赠给Apache软件基金会。它以内存计算和优化的执行引擎著称,提供比Hadoop更快的处理速度,支持批处理、交互式查询、流处理和机器学习。Spark架构包括Driver、Master、Worker Node和Executor,核心组件有RDD、DataFrame、Dataset、Spark SQL、Spark Streaming、MLlib和GraphX。文章通过代码示例展示了Spark在批处理、交互式查询和实时数据处理中的应用,并讨论了其优势(高性能、易用性、通用性和集成性)和挑战。【6月更文挑战第11天】
489 6
|
分布式计算 Hadoop
关于hadoop搭建的问题org.apache.hadoop.io.nativeio.NativeIO.java
关于hadoop搭建的问题org.apache.hadoop.io.nativeio.NativeIO.java
188 5
|
分布式计算 Serverless 数据处理
EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务
Apache Airflow 是一个强大的工作流程自动化和调度工具,它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务,以实现任务调度和执行的自动化,帮助您更有效地管理数据处理任务。
481 0
|
分布式计算 Spark 大数据
深入探究Apache Spark在大数据处理中的实践应用
【6月更文挑战第2天】Apache Spark是流行的开源大数据处理框架,以其内存计算速度和低延迟脱颖而出。本文涵盖Spark概述、核心组件(包括Spark Core、SQL、Streaming和MLlib)及其在数据预处理、批处理分析、交互式查询、实时处理和机器学习中的应用。通过理解Spark内部机制和实践应用,可提升大数据处理效率,发挥其在各行业的潜力。
|
存储 分布式计算 Hadoop
阿里巴巴飞天大数据架构体系与Hadoop生态系统的深度融合:构建高效、可扩展的数据处理平台
技术持续创新:随着新技术的不断涌现和应用场景的复杂化,阿里巴巴将继续投入研发力量推动技术创新和升级换代。 生态系统更加完善:Hadoop生态系统将继续扩展和完善,为用户提供更多元化、更灵活的数据处理工具和服务。

热门文章

最新文章

相关实验场景

更多

推荐镜像

更多