【Hadoop Summit Tokyo 2016】Hivemall: Apache Hive/Spark/Pig 的可扩展机器学习库

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 本讲义出自 Makoto YUI与NTT Takashi Yamamuro在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Hivemall的相关知识以及Hivemall在Spark上的应用,Hivemall是可以用于Apache Hive/Spark/Pig 的可扩展机器学习库。

本讲义出自 Makoto YUI与NTT Takashi Yamamuro在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Hivemall的相关知识以及Hivemall在Spark上的应用,Hivemall是可以用于Apache Hive/Spark/Pig 的可扩展机器学习库。

38a72cf50b1487f735d04f99b8ba12a1c651cd26

8b0ffbbf49e9286af7777af51ea3c5ed57f6e887

d6e244ce25007e23917e2389b265bd79261f8c35

35ffac456343b8b96ac26aaac8577804cb55444e

af9c67fd51ebc8284ef43980b9b8bc8979e60130

628bfb3565fa941d64a4be4408653016ac4d0852

62888374bea14c6fdb47f27c66d2ab364f131f56

079d02bcfd1c2b7c9f397d4764adadb59982fc0b

2654487cd4371799929ce934bb45d08f3787365c

79dbaf7f384b6517ea45521d040be3a44c501a20

d3cbc17d7482485ed8171f23395f905646b357ff

7f72c44d30fcd5e21465027805b47330ff517ecb

aff11182286cff4cbf2b185b2c8528f646871dd1

de897829bbea1c74f53688e6e6d73c48ba928e5f

2479f6eb185758ee114f9dd0670d12eab9289342

5fd6235a5869e642c533d9dc7963d53fc32b8e4f

4012fc3adbb819825d3cebfd636b140d3e52fe4c

17a4e6d124aefe3b545b4e6482459654a3936e5a740d1424c657dbfb3faa80b9e1ec8bfdc5df1df1baf178493e2ecf11fb10ada72320a91ea3d9d287

b3b11d76ca0607225e0d342492cdd294b3ef0a76

2a8d9d8a5b9d0b44f13c94a4b4d7d693f4d0fb48

8ac1f5fe8ae78569ca4b0f5d4d6b53bf378b2009

1e064739492ee36459273b00f131b17aefaa9456

c169fe59e1507c9bb3f38136e9a2926426247ffa

81d8f5126adb59fc9355ba1d5591c0e32ffae7bd

63fe9dfc1e197bfe8dce0279552789208fcfe558

1e166f0606ccec3858311433affedc56c09c03ab

83cdf0c700e94a0ef82c099f3501b9fb8ffbbdc4

b1baffac432242bfbc37533110790270b4887fe0

4d651eaa0567337e69d62dd3dea5260e773ea6de

ab614afd1bf2dc69cb07532518a4573f56225a42

e286be70ee3500ab7e79eeeb599e40dd3c7a157b

4ab723820d39e3eb1fb3702d8d70e72b59b9be36

17359a0c821101b47382374603cef0ed74855e29

1011b08ddd3ab2dbf097e04bb3258d63fbf8c60f

023bb401e90c10e11dde191ab168f5c45c6f612a

9edc50bfd2ae28e4863d43bde9935ea771271b58

f4f26cf3ab7c3e926b7b90da4b31471a48d308d2

092ef23077cdebf8176073af08cafdced717cc11

71b325afe0f40462fe1495c18be6bbaf181b6e04

71d331bf84eef3374e7245aac43d7fb7f346efca

71303ceec8ad1e2954e484ee3e6bd18609424878

a14d37905fe3c19cdf968a29d47e92c3a9bdb07b

697c99f7eeea33230f0553784b302d22302750e1

0853f684760854c56665a7f643bd8922313cf62f

990ccf55cd570b6e25f309bc2efafcc2786ae318

656780437717dfc2f98796e6752b58201ee75d36

ccdb1e555698618f6c098f647a440a25e685a9a2

e798c8e8fa69b798a4d7ad5abad0345a9aa523be

1ffb2e165171419514ab9cca2818a5c9f25f48a5

93e0f432d159854e2969005e6fed07928a450a22

32d9bbad9ad7e04895beb877e8bedae63a46bc93

6ec5b3ef2409197faf2360d19dd6319a42daadb1

bf908ca3e45efa77998915d3cb10de19ea3c8dc8

fbc1acba4fc906300ebbf03209d883dff1c0b14c

f6246d3f09198e49529a5d6eae089de088a47e86


相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
1月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
152 6
|
1月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
65 2
|
20天前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
71 2
|
20天前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
59 1
|
1月前
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
36 0
|
5月前
|
存储 分布式计算 Hadoop
Spark和Hadoop都是大数据处理领域的重要工具
【6月更文挑战第17天】Spark和Hadoop都是大数据处理领域的重要工具
178 59
|
3月前
|
分布式计算 Hadoop 大数据
Spark 与 Hadoop 的大数据之战:一场惊心动魄的技术较量,决定数据处理的霸权归属!
【8月更文挑战第7天】无论是 Spark 的高效内存计算,还是 Hadoop 的大规模数据存储和处理能力,它们都为大数据的发展做出了重要贡献。
82 2
|
3月前
|
SQL 分布式计算 数据处理
|
3月前
|
机器学习/深度学习 存储 分布式计算
Hadoop与机器学习的融合:案例研究
【8月更文第28天】随着大数据技术的发展,Hadoop已经成为处理大规模数据集的重要工具。同时,机器学习作为一种数据分析方法,在各个领域都有着广泛的应用。本文将介绍如何利用Hadoop处理大规模数据集,并结合机器学习算法来挖掘有价值的信息。我们将通过一个具体的案例研究——基于用户行为数据预测用户留存率——来展开讨论。
254 0
|
3月前
|
存储 分布式计算 资源调度
Hadoop生态系统概览:从HDFS到Spark
【8月更文第28天】Hadoop是一个开源软件框架,用于分布式存储和处理大规模数据集。它由多个组件构成,旨在提供高可靠性、高可扩展性和成本效益的数据处理解决方案。本文将介绍Hadoop的核心组件,包括HDFS、MapReduce、YARN,并探讨它们如何与现代大数据处理工具如Spark集成。
250 0

热门文章

最新文章

推荐镜像

更多
下一篇
无影云桌面