开发者社区> 问答> 正文

一淘是如何抓取分析电商网页的?:报错

我有两个问题:

1 一淘是如何知道电商网址的?是他们编辑后台录入的吗?还是怎么知道的呐?

2 一淘是如何分析出网页中商品信息的?如果用正则去分析,那要是页面板式更改了呐?岂不是又要重写正则??

求大牛指点一下!

展开
收起
kun坤 2020-06-06 11:47:02 536 0
1 条回答
写回答
取消 提交回答
  • etao 会事先提高一个规则给各个商城 , 各个商城根据ETAO 的规则 来生成了一些XML 文件 

    ETAO 来抓取商家指定位置的 XML 

    XML 包括全部商品XML

    增量 XML(产品的修改)  等等

    你可以在OPEN.ETAO.COM 上面申请个帐号 他提供的有文档

    ######恩,它这个XML只对小电商有用吧。但是像亚马逊、京东也吃一淘这一套??######

    很多电商是有接口的,应该是借口吧,

    至于人家为什么愿意提供接口。。。不知道,商业范畴

    ######应该是正则。之前京东屏蔽etao抓取价格的时候就是多加了一个div######不是图片化了吗######恩,你的回复也很有用~~多谢######真是多谢三位的回复~~   ######

    我以前分析过的,好几个电商的价格是另外一个请求

    你只需要把你要的商品的id获取到,然后保存下来,每次去遍历请求这些价格地址就行了

    因此我觉得一淘应该不是去读取他的网页的,都是异步加载,那么多商品不好去抓取

    很有可能是电商开放一部分商品给一淘

    一楼说的好像是的,一淘有个开放平台,以前看过,不过我觉得那个做法应该是很小的电商会做,京东这些,无法得知

    ######回复 @唐明星 : ETAO 给京东 当当代去的是流量, 你说他有闲情没有!######回复 @唐明星 : 那么它是如何从页面里分析出价格信息的,如果用正则来分析,当页面变化时岂不又要重写正则来匹配?######回复 @唐明星 : 呵呵。。淡定~~表这么火~~######回复 @唐明星 : 好吧,咱们都是在YY,反正我不知道一淘怎么做的,如果我是一淘老板,我不会这么去做。######回复 @ylmotol7 : 这就是行业自律了,人家只说不希望你来爬,如果非要爬,名声就败坏了######

    引用来自“朱坤朋”的答案

    应该是正则。之前京东屏蔽etao抓取价格的时候就是多加了一个div
    应该是有两手准备把,一边开放规则,不接受就直接页面抓取
    ###### ######回复 @杨松坤 : (⊙o⊙)…。。。我没有说我要用PHP来做呀!我表示惊讶!###### @fc_lamp PHP,我没用过,但对你这个话题,很感兴趣的###### @fc_lamp 是的。######这是表示关注吗?######

    1l  回答正确,我是做电商运维的,

    一般根据 etao 提供的规则,定时生成xml 文件,来供etao 抓取的。

    ######亚马逊 也会给一淘提供XML?? 不会吧?######

    引用来自“葱油拌面”的答案

    1l  回答正确,我是做电商运维的,

    一般根据 etao 提供的规则,定时生成xml 文件,来供etao 抓取的。

    上面也有人回答过了,类似京东等大的电商,是不允许你去抓取数据的,所以更不可能提供xml
    ######不可能经常变样式吧~
    2020-06-08 11:25:43
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
基于浏览器的实时构建探索之路--玄寂 立即下载
基于浏览器的实时构建探索之路 立即下载
地图场景的LBS智能信息分发技术 立即下载