文档备案控制台

开发者社区问答正文

创建一个Spark udf函数来迭代一个字节数组并将其转换为数字

我有一个带有spark（python）字节数组的Dataframe

DF.select(DF.myfield).show(1, False)
+----------------+

myfield
[00 8F 2B 9C 80]

我正在尝试将此数组转换为字符串

'008F2B9C80'
然后到数值

int('008F2B9C80',16)/1000000

2402.0
我找到了一些udf样本，所以我已经可以像这样提取数组的一部分了：

u = f.udf(lambda a: format(a[1],'x'))
DF.select(u(DF['myfield'])).show()
+------------------+

(myfield)
8f

现在如何迭代整个数组？是否可以执行我必须在udf函数中编码的所有操作？

展开

收起

社区小助手 2018-12-05 14:55:07 4993 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

这是scala df解决方案。您需要导入scala.math.BigInteger

scala> val df = Seq((Array("00","8F","2B","9C","80"))).toDF("id")
df: org.apache.spark.sql.DataFrame = [id: array]

scala> df.withColumn("idstr",concat_ws("",'id)).show

id idstr

[00, 8F, 2B, 9C, 80] 008F2B9C80

scala> import scala.math.BigInt
import scala.math.BigInt

scala> def convertBig(x:String):String = BigInt(x.sliding(2,2).map( x=> Integer.parseInt(x,16)).map(_.toByte).toArray).toString
convertBig: (x: String)String

scala> val udf_convertBig = udf( convertBig(_:String):String )
udf_convertBig: org.apache.spark.sql.expressions.UserDefinedFunction = UserDefinedFunction(,StringType,Some(List(StringType)))

scala> df.withColumn("idstr",concat_ws("",'id)).withColumn("idBig",udf_convertBig('idstr)).show(false)

id idstr idBig

[00, 8F, 2B, 9C, 80] 008F2B9C80 2402000000

scala>
scala的BigInteger没有等效的spark，所以我将udf（）结果转换为字符串。

2019-07-17 23:18:24

赞同展开评论

问答分类：

分布式计算 Spark Python

问答标签：

apache spark函数 apache spark UDF apache spark udf函数 apache spark创建

问答地址：

开发者社区 > 大数据 > 问答

相关问答

MaxCompute使用spark查询时函数找不到是啥原因？

243

2

0

请问在spark和flink sql中，是否有函数可以取hash值？并且需要取完的值是一样？

882

1

0

dataworks调用odps的spark中的pyspark代码报错找不到main函数什么情况啊？

250

1

0

DMS任务编排跨库Spark SQL节点无法使用源库函数

144

1

0

大数据计算MaxCompute sql和spark sql的函数对照表吗？

357

2

0

MaxCompute里spark 里面有支持访问 udf 函数的计划吗？

316

1

0

spark 里面有支持访问 udf 函数的计划吗？

327

1

0

EMR StarRocks有hive或spark的炸裂函数，类似explode可以用吗?

1216

1

0

spark中如何使用udf函数

214

1

0

spark任务想完整的部署，发布，执行调度，仅仅maxcompute组件权限够么，还需要datawo

1003

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

动态变量话术引擎对直播有什么作用？

新手如何进行OSS 图片处理 CDN 加速？

什么年代了，qoder cn还不支持多agent协同一起完成任务

qoder 资源包买完找不到记录也不知道再用，究竟是谁设计的，没见过这样的设计，

需要支持自定义Kimi k3 API

相关文章

高并发爬虫代理IP怎么配置？从接入到调优的完整流程

实时视觉PCB缺陷检测平台的系统设计：独角鲸PCB技术解析

Python百行代码实现人脸识别，手摸手教你打造私人门禁系统

季节性选品：API数据告诉你什么时间卖什么最赚钱

商品详情优化三板斧-拆分-多级缓存-GC调参

还有其他疑问?