开发者社区> 问答> 正文

spark MLlib中操作向量需要注意的地方有哪些?

spark MLlib中操作向量需要注意的地方有哪些?

展开
收起
游客k7rjnht6hbtk6 2021-12-09 20:18:59 372 0
1 条回答
写回答
取消 提交回答
  • 1.向量由两种,稠密向量和稀疏向量,稠密向量把所有维度的值放在一个浮点数数组中,稀疏向量把各个维度的非0值存储下来,当最多10%元素为非零元素,考虑使用稀疏向量,减少内存,优化速度

    2.创建向量的方式在各个语言中由细微差别,在python中,Numpy数组表示一个稠密向量,或者用mllib.linalg.Vectors类,的Vectors.dense([1.0,2.0])创建,数据也可以根据字典或者两个分别代表位置和值的list来传递Vectors.sparse(4,{0:1.0,2:2.0}),Vectors.sparse(4,[0,2],[1.0,2.0]),java,Scala也是用这个类,在java和scala中,MLlib的vector类只是用来为数据表示服务的。

    2021-12-09 20:19:18
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载