文档备案控制台

开发者社区问答正文

根据Scala flink中的另一个DataSet过滤DataSet

我试图复制这个python代码：

cond_entropy_x = np.array([entropy(x[y == v]) for v in uy])
其中x和y是向量，并且uy是y例如的唯一值0,1。

在flink中，我有：

val uy = y.distinct.collect
val condHx = for (i ← uy)

yield entropy(x.filterWithBcVariable(y)((_, yy) ⇒ yy == i))

然而，它似乎filterWithBcVariable并没有采取任何价值y，它只需要第一个。

我也尝试过：

for (i ← values) yield y.join(x).where(a ⇒ a).equalTo(_ ⇒ i)
但是我的内存耗尽了。

我怎样才能x根据值进行过滤y？

x.zip(y)会有类似的事情，但它不受支持。

有任何想法吗？

展开

收起

社区小助手 2018-12-11 15:51:19 2750 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。
我提出了一个解决方案，可能不是最好的，但至少它工作。
现在，我没有传递x和y分离DataSets，而是传递一个DataSet[LabeledVector]只有一列：
val xy = input.map(lv ⇒ LabeledVector(lv.label, DenseVector(lv.vector(0))))
然后我传递xy给我的函数：
def conditionalEntropy(xy: DataSet[LabeledVector]): Double = {
```
// Get the label
val y = xy map (_.label)
// Get probs for the label
val p = probs(y).toArray.asBreeze
// Get unique values in label
val values = y.distinct.collect
// Compute Conditional Entropy
val condH = for (i ← values)
  yield entropy(xy.filter(_.label == i))
p.dot(seq2Breeze(condH))
```
}
2019-07-17 23:19:48

赞同展开评论

问答分类：

Scala 流计算 Python 实时计算 Flink版

问答标签：

实时计算 Flink版scala 实时计算 Flink版dataset 实时计算 Flink版set scala实时计算 Flink版

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

flink支持Scala语言吗？

197

1

0

Scala-free 的 Flink 意味着什么？

123

1

0

Flink这个server_id 能通过 set 的方式全局配置吗？

83

1

0

Flink支持scala什么版本

173

1

0

Flink能否像通过set增加表属性

108

1

0

我这边flink sql任务设置了SET 请问怎么还是全量读取数据呢?

275

6

0

Flink要放弃对 Scala 的支持了吗?

329

0

0

Flink cdc要放弃对Scala的支持吗？那scala用户怎么办？

232

1

0

各位flink是用java还是scala开发的？

20733

4

0

各位大佬，请教一下，如果在flink cdc sql客户端使用SQL查询表，怎么能记录原系统的数据

2184

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

阿里云如何部署使用OpenClaw？OpenClaw部署一看就会：零基础零代码、纯点击

阿里云ECS 手动部署 OpenClaw 超详细教程（2026最新版）

2026年阿里云新老用户如何部署OpenClaw？OpenClaw部署喂饭级教程

2026年新用户购买阿里云服务器多少钱1年？阿里云新用户有什么优惠？

在今天3点左右通义灵码问问题不正常返回了

相关文章

2026年阿里云集成OpenClaw/Clawdbot打造QQ社群AI Agent智能助手：自动化运营指南

从130倍性能提升看Python的批量计算和并行化策略：traj-dist-rs的并行策略实现

常用爬虫工具大盘点，附带基础知识点详解

2026年OpenClaw(Clawdbot)零门槛部署接入阿里云Coding Plan保姆级实战教程

集合常用的操作方法有哪些？

还有其他疑问?