文档备案控制台

开发者社区问答正文

pd.DataFrame.from_dict（）没有给出预期的结果

我想得到这个维基百科数据集（people_wiki.csv）中每个单词的单词计数。我能够得到每个单词并将其作为字典出现，但我无法将字典键值对拆分为单独的列。我已经尝试了几种方法（from_dict，from_records，to_frame，pivot_table等）这在python中是可行的。

Samle数据集：

URI name text

http://dbpedia.org/resource/George_Clooney George Clooney 'george timothy clooney born may 6 1961 is an american actor writer producer director and activist he has received three golden globe awards for his work as an actor and two academy awards one for acting and the other for producingclooney made his...'
我试过了：

clooney_word_count_table = pd.DataFrame.from_dict(clooney['word_count'], orient='index', columns=['word','count']
我也尝试过：

clooney['word_count'].to_frame()
这是我的代码：

people = pd.read_csv("people_wiki.csv")
clooney = people[people['name'] == 'George Clooney']

from collections import Counter
clooney['word_count']= clooney['text'].apply(lambda x: Counter(x.split(' ')))

clooney_word_count_table = pd.DataFrame.from_dict(clooney['word_count'], orient='index', columns=['word','count']
clooney _word_count_table
输出：

   word_count

35817 {'george': 1, 'timothy': 1, 'clooney': 9, 'ii': ...
我希望从clooney_word_count_table获得一个包含2列的输出数据帧：

word count
normalize 1
george 3
combat 1
producer 2

展开

收起

一码平川MACHEL 2019-01-22 17:21:19 5139 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

一码平川MACHEL

问题是，clooney是（含一排索引35817）一个数据帧，所以clooney['word_count']是一个系列的指数35817包含一个值（您计数字典）。
DataFrame.from_dict然后将这个系列视为等同于{35817: {'george': 1,...}哪个系统会给你带来令人困惑的结果。
尝试类似的东西：
c = Counter()
cloony['text'].apply(lambda x: c.update(x.split()))
pd.from_dict(c, orient='index', columns=['count'])

2019-07-17 23:26:22

赞同展开评论

问答分类：

Python

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

访问ECS服务器的网站提示“由于你访问的URL可能对网站造成安全威胁，您的访问被阻断”，这是什么原因？

136718

16

0

#支付宝身份验证失败（人气大爆发，一会再试试）？

11259

2

0

支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】

268676

11

0

#支付宝授权提示请在支付宝客户端打开链接

18927

19

0

购买阿里国外的云服务器是否可以访问谷歌？

87468

49

0

this xml file does not appear to have any style in

55083

11

0

今天刚刚买的阿里云香港服务器，国内无法访问，坑啊

35755

17

0

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

3257

18

0

轻量级应用服务器端口问题（打不开）

32400

21

0

LoRa的网络覆盖能力范围是怎么样的？

4308

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

OpenClaw Gateway Token 获取？

阿里云千问Token价格怎么收费？

内存被通义灵码吃光了。我电脑总共48G的内存，被通义灵码吃掉了30几G，你们搞什么飞机？

我下载的gguf文件，最新的LMSTUDIO仍然无法识别什么问题

CoPAW配置后，对话，出现 AGENT_UNKNOWN_ERROR 如何解决

相关文章

别只会 `model.fit()`：聊聊 TensorFlow 2.x 的性能优化与生产部署那些事

龙虾AI怎么养？OpenClaw一键部署，两步解锁专属龙虾AI助理！

针对AWS云环境的AiTM钓鱼攻击机制与防御架构研究

OpenClaw（养龙虾）+ 钉钉对接：保姆级全链路操作指南

新手必看：Python剔除超时代理IP的简单方法，一步到位

还有其他疑问?