文档备案控制台

开发者社区问答正文

scrapy+mongodb 插入文档的数目不够的原因？

我使用mongo储存scrapy爬下来的页面数据，在管道中为同时向db和txt中写入结果，结果发现txt有8000多条记录，而db中count才831条，百思不得其解。后来将db中数据导出，发现似乎是item['content']（文章内容）字段内容比较多的就没有成功插入db。后来想了下，似乎是db的单个文档大小有限制，但是这些文本写到txt最多不过几十kb，这到底是什么问题？
附上管道process_item的代码
`def process_item(self, item, spider):
self.file1.write(item['url']+'n'+item['content']+"n")
word_list = list(jieba.cut(item['content']))
for word in word_list:
if len(word)>1:
self.file.write(word+'/')
self.file.write('n1111111111111111111n')
self.collection.insert(dict(item))
log.msg('Item written to MongoDB database %s/%s' % (self.db, self.col),
level=log.DEBUG, spider=spider)
return item`

展开

收起

落地花开啦 2016-02-27 16:20:41 4707 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

小六码奴

对于failIndexKeyTooLong ERROR在shell中使用如下命令可以修改活动中的db设置db.getSiblingDB('admin').runCommand( { setParameter: 1, failIndexKeyTooLong: false } )

2019-07-17 18:49:02

赞同展开评论

问答分类：

NoSQL MongoDB Python 云数据库 MongoDB 版

问答标签：

云数据库 MongoDB 版文档云数据库 MongoDB 版scrapy Scrapy mongodb scrapy云数据库 MongoDB 版文档数目

问答地址：

开发者社区 > 数据库 > 问答

相关问答

Flink CDC中有相关 mongodb 整库同步的示例吗？在官方文档看到的都是单表的？

177

2

0

flink-cdc 2.4 读mongodb某一点位，稳定报错，日志在上面文档？

126

1

0

请问flink cdc 对mongodb的3.4版本有办法支持吗？文档显示>=3.6版本

394

1

0

怎么创建mongodb 账号，看着文档有点迷糊？麻烦给一个指引

317

1

0

请问flink有没有日志呢？按照文档搭建的测试，同步不成功，mongodb添加了数据es里没有同步

705

2

0

MongoDB如何清理孤儿文档

784

1

0

请教一下，Mongodb-cdc我按照官网文档配置的， job启动后一直没有数据过来， 'copy

637

0

0

mongodb cdc 工具，如果 MongoDB 文档更新频率 qps 2000 以上，需不需要改

786

1

0

MongoDB的文档和JSON有什么关系嘛？

900

1

0

读取mongodb,嵌套的文档内容需要一层一层解析吗？能不能整个读过来？

387

0

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

copaw安装后，出现这个情况，在设置模型的过程中出现这个问题，如何解决

copaw安装后选择ollma为啥报错不能安装相关模型？

建议通义灵码参考字节的trae ，可以自主选择一些开源的模型

云端部署coclaw报错

如何查看 Coding Plan 额度使用情况？

相关文章

淘宝商品上下架状态监测API技术实现指南

Python 数据分析前置：BeautifulSoup 爬取 NBA 数据源

实战指南：使用API获取BSE股票实时数据

告别 Token 贵焦虑！保姆级教程；OpenClaw 阿里云+本地部署，付费/免费模型调教省 Token 成本指南

保姆级教程：OpenClaw阿里云/本地部署，零代码接入Qwen3.5 Plus，5分钟跑通AI Agent指南

还有其他疑问?