开发者社区> 问答> 正文

Python如何将pyspark数据框列转换为numpy数组

我正在尝试将具有大约9000万行的pyspark dataframe列转换为numpy数组。

我需要数组作为scipy.optimize.minimize函数的输入。

我尝试了转换为Pandas和使用collect()的方法,但是这些方法非常耗时。

我是PySpark的新手,如果有更快更好的方法,请提供帮助。

谢谢

这就是我的数据框的样子。

  • ---------- + |青少年| + ---------- + | 0.0 | | 0.0 | | 0.0 | | 0.0 | | 0.0 | | 0.0 | | 0.0 | | 0.0 | | 0.0 | | 0.0 | + ---------- +

展开
收起
被纵养的懒猫 2019-09-30 14:56:53 1859 0
1 条回答
写回答
取消 提交回答
  • 你已经做得很好。数据量太大了。

    2019-11-20 10:55:56
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
From Python Scikit-Learn to Sc 立即下载
Data Pre-Processing in Python: 立即下载
双剑合璧-Python和大数据计算平台的结合 立即下载