开发者社区> 问答> 正文

如何停止webmagic的链接管理的去重? 400 报错

如何停止webmagic的链接管理的去重? 400 报错

我在抓取的软件是这样的,url只有一个,但是每次通过post请求设置不同的参数值来获取不同的内容,但是因为Scheduler的去重使得post请求只进行了一次,那么请问我如何关闭Scheduler的去重功能呢?

展开
收起
爱吃鱼的程序员 2020-06-04 15:56:03 1043 0
1 条回答
写回答
取消 提交回答
  • https://developer.aliyun.com/profile/5yerqm5bn5yqg?spm=a2c6h.12873639.0.0.6eae304abcjaIB

    WebMagic通过DuplicateRemover来去重,你可以重写一个什么都不做的DuplicateRemover来不去重。

    spider.setScheduler(new QueueScheduler().setDuplicateRemover(new DonothingDuplicateRemover())

    )
    ######谢谢您的回答!######

    引用来自“黄亿华”的评论

    WebMagic通过DuplicateRemover来去重,你可以重写一个什么都不做的DuplicateRemover来不去重。

    spider.setScheduler(new QueueScheduler().setDuplicateRemover(new DonothingDuplicateRemover())

    )

    请问DonothingDuplicateRemover在哪个包下面,我这怎么没有呢

    ######知道了,就是实现DuplicateRemover接口,然后啥都不干,哈哈
    2020-06-04 17:54:30
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Apache Flink 流式应用中状态的数据结构定义升级 立即下载
Phoenix 全局索引原理与实践 立即下载
低代码开发师(初级)实战教程 立即下载