spark到pandas-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

spark到pandas

2018-12-19 17:18:37 1595 1

我有220GB的数据。我已将它作为2列读入spark数据帧:JournalID和Text。现在我的数据帧中有27个缺少行。

使用NGram类,我在数据框中添加了两列Unigram和Bigram,其中包含Text列中的unigrams和bigrams。然后我在unigram和bigram列上使用TF和IDF类pyspark计算TFIDF,并将其作为数据帧中的另一列添加。

现在我有数据帧中每一行的journalID和TFIDF向量。我想将SVM应用于所有类型的内核,其中TFIDF向量作为特征,JournalID作为标签。由于SVM不存在于pyspark的ML包中,我将不得不使用Sklearn的SVM实现。现在,最好的方法是继续进行。我应该将这个大的Dataframe转换为pandas数据帧,然后在pandas dataframe列上应用sklearn算法,或者有更好的方法。

取消 提交回答
全部回答(1)
  • 社区小助手
    2019-07-17 23:23:05

    要学习SVM,您不需要将所有数据传递给分类器。因此,您可以使用必要的列对数据(1M行)进行采样(例如,您不需要原始文本),然后将示例数据转换为pandas数据帧。

    如果要在整个数据上训练模型,可以加载具有适合RAM空间大小的数据块,并每次将每个数据块学习到模型中。换句话说,在训练每个块之后加载训练和卸载,以防止将整个数据加载到RAM中进行分析的问题。

    0 0
相关问答

5

回答

Spark 【问答合集】

社区小助手 2019-05-29 14:13:40 129566浏览量 回答数 5

10

回答

【精品问答合集】Hbase热门问答

hbase小能手 2019-05-29 14:37:26 123146浏览量 回答数 10

37

回答

干货分享:DBA专家门诊一期:索引与sql优化问题汇总

xiaofanqie 2014-12-25 15:13:38 93007浏览量 回答数 37

37

回答

SaaS模式云数据仓库MaxCompute 百问百答合集(持续更新20220424)

亢海鹏 2020-05-29 15:10:00 83336浏览量 回答数 37

22

回答

爬虫数据管理【问答合集】

我是管理员 2018-08-10 16:37:41 148561浏览量 回答数 22

5

回答

java.lang.UnsupportedOperationException: This is supposed to be overridden by subclasses.

迷茫君 2019-07-16 09:26:11 120402浏览量 回答数 5

7

回答

机器学习PAI中数据视图组件怎么查看100条以后的数据

拼夕夕小马 2019-06-22 22:01:34 117991浏览量 回答数 7

43

回答

【精品问答集锦】Python热门问题

小六码奴 2019-05-30 15:27:34 142914浏览量 回答数 43

251

回答

阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本

云代维 2014-02-14 15:26:06 309424浏览量 回答数 251

24

回答

【精品问答】python技术1000问(1)

问问小秘 2019-11-15 13:25:00 483527浏览量 回答数 24
+关注
社区小助手
社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。
12
文章
824
问答
问答排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载