我有两个问题:
1 一淘是如何知道电商网址的?是他们编辑后台录入的吗?还是怎么知道的呐?
2 一淘是如何分析出网页中商品信息的?如果用正则去分析,那要是页面板式更改了呐?岂不是又要重写正则??
求大牛指点一下!
etao 会事先提高一个规则给各个商城 , 各个商城根据ETAO 的规则 来生成了一些XML 文件
ETAO 来抓取商家指定位置的 XML
XML 包括全部商品XML
增量 XML(产品的修改) 等等
你可以在OPEN.ETAO.COM 上面申请个帐号 他提供的有文档
######恩,它这个XML只对小电商有用吧。但是像亚马逊、京东也吃一淘这一套??######很多电商是有接口的,应该是借口吧,
至于人家为什么愿意提供接口。。。不知道,商业范畴
######应该是正则。之前京东屏蔽etao抓取价格的时候就是多加了一个div######不是图片化了吗######恩,你的回复也很有用~~多谢######真是多谢三位的回复~~ ######我以前分析过的,好几个电商的价格是另外一个请求
你只需要把你要的商品的id获取到,然后保存下来,每次去遍历请求这些价格地址就行了
因此我觉得一淘应该不是去读取他的网页的,都是异步加载,那么多商品不好去抓取
很有可能是电商开放一部分商品给一淘
一楼说的好像是的,一淘有个开放平台,以前看过,不过我觉得那个做法应该是很小的电商会做,京东这些,无法得知
######回复 @唐明星 : ETAO 给京东 当当代去的是流量, 你说他有闲情没有!######回复 @唐明星 : 那么它是如何从页面里分析出价格信息的,如果用正则来分析,当页面变化时岂不又要重写正则来匹配?######回复 @唐明星 : 呵呵。。淡定~~表这么火~~######回复 @唐明星 : 好吧,咱们都是在YY,反正我不知道一淘怎么做的,如果我是一淘老板,我不会这么去做。######回复 @ylmotol7 : 这就是行业自律了,人家只说不希望你来爬,如果非要爬,名声就败坏了######1l 回答正确,我是做电商运维的,
一般根据 etao 提供的规则,定时生成xml 文件,来供etao 抓取的。
######亚马逊 也会给一淘提供XML?? 不会吧?######1l 回答正确,我是做电商运维的,
一般根据 etao 提供的规则,定时生成xml 文件,来供etao 抓取的。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。