备案控制台

开发者社区问答正文

要是我想抓取亚马逊所有的外文书籍列表，配置文件该如何写？：报错

试了好多次都不行啊，请教一下，网址链接是这个：
http://www.amazon.cn/s/ref=sr_pg_1?rh=n%3A658390051%2Cn%3A%21658391051%2Cn%3A2045366051&page=1&ie=UTF8&qid=1378116567

展开

收起

kun坤 2020-06-09 15:13:41 488 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

kun坤

稍候哈。######麻烦贴出你的配置文件，以及你的需求。######<?xml version="1.0" encoding="UTF-8"?>

<beans>

   <site name="amazon" enable="1" includeHttps="1"

       url="http://www.amazon.com/s/ref=sr_pg_1?rh=n%3A283155%2Ck%3A*&page=1;"

       reqDelay="1s" charset="utf-8" schedule="1h" thread="2" waitQueue="10s">



       <queueRules policy="and">

           <rule type="!regex" value="^.*.(jpg|png|gif)$" />

       </queueRules>

       

       <targets>

           <sourceRules policy="and">

               <rule type="regex" value="http://www.amazon.com/s/ref=sr_pg_1?rh=n%3A283155%2Ck%3A*&page=1">

                   <digUrls>

                       

                       <field name="next_page_num" isParam="1">

                           <parsers>

                               <parser xpath="//input[@id='jquery_current_page']" attribute="value" />

                               <parser exp="$Util.toInt($this)+1" />

                           </parsers>

                       </field>

                       <field name="source_url">

                           <parsers>

                               <parser exp="http://www.amazon.com/s/ref=sr_pg_1?rh=n%3A283155%2Ck%3A*&page=1" />

                           </parsers>

                       </field>

                       <field name="target_url" isArray="1">

                           <parsers>

                               <parser xpath="//div[@id='center']//div[@class='rslt prod celwidget']//h3//a[@href]" attribute="href"/>

                           </parsers>

                       </field>

                   </digUrls>

               </rule>

           </sourceRules>

           <target name="article" isForceUseXmlParser="1">

               <urlRules policy="and">

                   <rule type="regex" value=""http://www.amazon.com/s/ref=sr_pg_1?rh=n%3A283155%2Ck%3A*&page=1" />



               </urlRules>

               <model isIgnoreComments="1">

                   <field name="title">

                       <parsers>

                           <parser xpath="//div[@class='buying']/h1//text()"/>

                       </parsers>

                   </field>

                   <field name="content" isAlsoParseInNextPage="1" isTrim="1">

                       <parsers>

                           <parser xpath="//div[@class='content']/div/div/text()" exp="$output($this)" />

                           

                           <parser exp="$Attrs.xml($this).rm('class').rm('style').rm('width').rm('height').rm('usemap').rm('align').rm('border').rm('title').rm('alt').ok()" />

                           

                           <parser exp="$Tags.xml($this).rm('map').rm('iframe').rm('object').empty().ok()" />

                           

                           <parser exp="$Tags.xml($this).kp('br').kp('h1').kp('h2').kp('h3').kp('h4').kp('h5').kp('h6').kp('table').kp('th').kp('tr').kp('td').kp('img').kp('p').kp('a').kp('ul').kp('ol').kp('li').kp('td').kp('em').kp('i').kp('u').kp('er').kp('b').kp('strong').ok()" />

                           

                       </parsers>

                   </field>

               </model>

           </target>

       </targets>

       

       <plugins>

           <plugin enable="1" name="spider_plugin" version="0.0.1" desc="这是一个官方实现的默认插件，实现了所有扩展点。">

               <extensions>

                   <extension point="task_poll">

                       <impl type="" value="org.eweb4j.spiderman.plugin.impl.TaskPollPointImpl" sort="0"/>

                   </extension>

                   <extension point="begin">

                       <impl type="" value="org.eweb4j.spiderman.plugin.impl.BeginPointImpl" sort="0"/>

                   </extension>

                   <extension point="fetch">

                       <impl type="" value="org.eweb4j.spiderman.plugin.impl.FetchPointImpl" sort="0"/>

                   </extension>

                   <extension point="dig">

                       <impl type="" value="org.eweb4j.spiderman.plugin.impl.DigPointImpl" sort="0"/>

                   </extension>

                   <extension point="dup_removal">

                       <impl type="" value="org.eweb4j.spiderman.plugin.impl.DupRemovalPointImpl" sort="0"/>

                   </extension>

                   <extension point="task_sort">

                       <impl type="" value="org.eweb4j.spiderman.plugin.impl.TaskSortPointImpl" sort="0"/>

                   </extension>

                   <extension point="task_push">

                       <impl type="" value="org.eweb4j.spiderman.plugin.impl.TaskPushPointImpl" sort="0"/>

                   </extension>

                   <extension point="target">

                       <impl type="" value="org.eweb4j.spiderman.plugin.impl.TargetPointImpl" sort="0"/>

                   </extension>

                   <extension point="parse">

                       <impl type="" value="org.eweb4j.spiderman.plugin.impl.ParsePointImpl" sort="0"/>

                   </extension>

                   <extension point="end">

                       <impl type="" value="org.eweb4j.spiderman.plugin.impl.EndPointImpl" sort="0"/>

                   </extension>

               </extensions>

               <providers>

                   <provider>

                       <orgnization name="CFuture" website=" http://lurencun.com" desc="Color your future">

                           <author name="weiwei" website=" http://laiweiweihi.iteye.com | http://my.oschina.net/laiweiwei" email=" l.weiwei@163.com" weibo=" http://weibo.com/weiweimiss" desc="一个喜欢自由、音乐、绘画的IT老男孩" />

                       </orgnization>

                   </provider>

               </providers>

           </plugin>

       </plugins>

   </site>

</beans>

######需求就是抓取所有列表中，书籍的相关信息，包含书名、作者、书的简介、product detail

######兄弟，看来这个问题很棘手吧

2020-06-09 19:17:08

赞同展开评论

问答地址：

开发者社区 > 云计算 > 问答

相关问答

购买阿里国外的云服务器是否可以访问谷歌？

83833

47

0

请问下我访问接口不通什么原因 Provisional headers are shown

3791

1

0

this xml file does not appear to have any style in

51940

10

0

重启Docker后报错：Error response from daemon

2351

0

0

sql server的用户名和密码怎么查啊？

37555

21

0

LoRa的网络覆盖能力范围是怎么样的？

3231

1

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

60971

32

0

域名在阿里买的，服务器在百度买的，域名备案在百度云也通过备案了，现在怎么将阿里云的域名解析到百度

3701

1

0

OSS的endpoint如何查看

37530

6

0

阿里云服务器如何重置系统？

24757

4

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码启动异常，可点击按钮进行一键修复，如仍无法解决，请参考[问题排查指南](https://he

关于idea lingma欺骗的对话。请开发者尽快修复

怎么搭建本地文生图工作流

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

阿里云CDN价格表，CDN如何收费的？

还有其他疑问?