开发者社区> 问答> 正文

数据挖掘中,如何处理多值的属性??报错

在DBLP数据集中查找最常合著的作者。因为一篇论文中有多个作者(最多可能有上百个),而整个数据集中可能有上万个作者。

现在只需提取每条记录中的作者信息,但很多文章都是多个作者,该怎么把这些作者处理成weka能够识别的arff格式中的数据呢?

如果将其定义为String类型,使用逗号来分隔,weka会报错(因为我只需作者这一个属性),而同一个属性的值中不能出现逗号。若使用别的符号来分隔(如“--”或“*”),weka也不能自动识别这些符号,会把多个作者当成一个属性值来处理。

该怎么处理成合理的格式呢?谢谢大家指教

不能按标称属性来处理

展开
收起
爱吃鱼的程序员 2020-06-22 14:57:40 498 0
1 条回答
写回答
取消 提交回答
  • https://developer.aliyun.com/profile/5yerqm5bn5yqg?spm=a2c6h.12873639.0.0.6eae304abcjaIB

    为何要用weka来解决一个统计问题?

    你把数据处理一下,一条sql就可以解决了。一个表,两个字段(论文 作者)

     

    2020-06-22 14:57:57
    赞同 展开评论 打赏
问答分类:
问答标签:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Terark.com ——重新定义数据技术 立即下载
RowKey与索引设计:技巧与案例分析 立即下载
分析型数据库标准发展与行业观察 立即下载