• 关于

    抓取页面

    的搜索结果

问题

基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件 请求报错

基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件 -----------------------------------------------------------------------------...
kun坤 2020-05-28 16:03:29 4 浏览量 回答数 1

问题

用PHP抓取一个页面,但是这个页面需要登录才能显示,如何做呢?

用PHP抓取一个网页,但是这个网页需要登录之后才能显示出来,登录的时候有数字验证码。怎么才能抓取这个页面呢?有什么很好的方法吗?...
落地花开啦 2019-12-01 19:52:08 955 浏览量 回答数 1

回答

通常包含四个模块: 1)保存种子URL和待抓取的URL的数据结构。 2)保存已经抓取的URL数据结构,防止重复抓取。 3)页面抓取模块。 4)对已经抓去的页面内容的各个部分进行抽取的模块。
YDYK 2020-04-05 14:51:18 0 浏览量 回答数 0

问题

php采集高手进:利用curl模拟登录抓取数据遇到json调用问题不成功,求助!

我在抓取一个页面的信息(假设a.php),这个页面只是一些基本的html框架,其他关键信息是通过ajax请求(b.php)回来的,返回的是json,然后在通过页面js将json解析,绘制到页面上。问题的关键是ajax请求的信息里有个手机号码...
杨冬芳 2019-12-01 20:17:54 1067 浏览量 回答数 1

问题

想抓取页面数据,但是页面抓取下拉和浏览器直接保存下来,都不是原页面,而是一段js代码

请开启JavaScript功能...
tom朱 2019-12-01 19:23:33 761 浏览量 回答数 1

问题

虚拟主机,百度搜索抓取错误求大神解惑

虚拟主机,百度搜索抓取错误 服务器错误:爬虫发起抓取,httpcode 返回码是5XX 访问被拒绝:爬虫发起抓取,httpcode返回码是403 找不到页面ÿ...
饕餮的享受 2019-12-01 21:01:22 4397 浏览量 回答数 2

回答

回 楼主(我来问下) 的帖子 首先你整站使用CDN加速了吗? 其次。你在百度站长后台用抓取工具测试一下,看能否抓取。 如果不能抓取,分析抓取的错误页面。
woaj01 2019-12-02 01:48:58 0 浏览量 回答数 0

问题

百度蜘蛛抓取异常,同一页面抓取返回不同状态码;

baiduspider抓取同一个页面返回不同的状态码,第一次是返回302状态码,第二次是返回200状态码;网站有PC端和移动端,URL地址写的是相对地址,默认返回PC的源码。请教各位大神可能的原因是什么?在线等。。。...
moqiuhen 2019-12-01 19:49:26 9587 浏览量 回答数 2

问题

JS跨域抓取HTML页面并解析

,想通过JS抓取远端的HTML页面并解析页面(能分别解析tag最好,不能的话正则吧)获取内容不是node.js就是本地的javascript(或者jquery)想知道这种想法能实现么?...
小旋风柴进 2019-12-01 19:23:13 1436 浏览量 回答数 1

问题

JS跨域抓取HTML页面并解析

RT,想通过JS抓取远端的HTML页面并解析页面(能分别解析tag最好,不能的话正则吧)获取内容 不是node.js就是本地的javascript(或者jquery)想知道这种想法能实现么?...
杨冬芳 2019-12-01 19:57:10 1194 浏览量 回答数 1

问题

JS跨域抓取HTML页面并解析

RT,想通过JS抓取远端的HTML页面并解析页面(能分别解析tag最好,不能的话正则吧)获取内容不是node.js就是本地的javascript(或者jquery)想知道这种想法能实现么?...
a123456678 2019-12-01 19:23:06 1046 浏览量 回答数 3

问题

搜索引擎抓取系统概述(含搜索引擎工作原理等)

       站长朋友们,今后定期都将在这里跟大家分享一些有关搜索引擎工作原理及网站运营相关的内容,并且欢迎大家来此与我讨论或分享一些自己的经验、心得等等。今天先简单介绍一下关于搜索引擎抓取系统中有关抓取系统基本...
kideny 2019-12-01 21:30:39 5387 浏览量 回答数 1

问题

scrapy爬虫抓到的网页内容有时为空的

环境说明所抓取网址为https://www.weixinqun.com/,针对该网址大量抓取,有很多页面刚开始抓取时,设置下载延时2s,一切正常一天过后,还没抓完,这时发现开始出现报错,响应为200但是response.body却为空,即r...
贺卡贺卡 2019-12-01 20:07:29 2694 浏览量 回答数 1

问题

IOS从网页抓取数据

如题,假设我要从http://www.appinn.com/category/mac/这个链接页面里面抓取右侧的列表中的图片作为一个array放到我的app中,我应该怎样来抓取网页中的数据呢?...
a123456678 2019-12-01 20:27:49 880 浏览量 回答数 0

问题

如何通过Shell+Curl抓取远程页面中的链接并存入文本

curl http://www.baidu.com/ -o baidu.html这句是抓取页面内容到服务器上,但如何在Shell里对内容进行分析呢?...
a123456678 2019-12-01 19:57:58 1948 浏览量 回答数 1

回答

合理的标题,描述,关键字:搜索对着三项的权重重逐个分解,标题值突出重点即可,重要关键字出现不要超过2次,而且要靠前,不同页面title要有所不同; description把页面内容高度概述,长度合适,不可过分堆砌关键词,不同页面description有所不同; keywords列出重要关键词即可 语义化的HTML代码,符合W3C规范:语义化代码让搜索引擎容易理解网页 重要内容HTML代码放在最前:搜索引擎抓取HTML顺序是从上到下,有的搜索引擎对抓取长度有限制,保证重要内容一定会被抓取 重要内容不要用js输出:爬虫不会执行js获取内容 少用iframe:搜索引擎不会抓取iframe中的内容 非装饰性图片必须加alt 提高网站速度:网站速度是搜索引擎排序的一个重要指标
茶什i 2019-12-02 03:16:12 0 浏览量 回答数 0

问题

采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功

采用Jsoup抓取淘宝店铺的商品数据,在本地(windows系统)运行时可以正常解析页面并抓取对应的商品信息。 然后部署到阿里云上发现抓取过程中出现了奇怪的现象,页面解析不完整...
城市劣人 2019-12-01 21:01:34 16667 浏览量 回答数 9

回答

本人最近在尝试网页抓取,发现当当店铺的商品列表页面每次请求的结果都不相同。 举个例子:韩都衣舍 = http://shop.dangdang.com/4609/list.html。 多次请求这个地址会发现每次的商品页数可能不同,源码也不同。实际结果就是明明应该有几十页的内容,却只显示有几页。这是什么原因导致呢?因为我是通过页面内的下一页来抓取下一页内容,这样的话必然导致抓取不足,甚至有时候明明下一页是第三页,却显示了第一页的内容,望解答,谢谢。PS:可能表达不清,如需细节再补充
杨冬芳 2019-12-02 02:51:35 0 浏览量 回答数 0

问题

如何通过Shell的Curl抓取某个网页的指定节点间的内容?

比如我想通过Shell脚本在服务器上抓取红薯这篇文章的内容存入oschina.txt http://my.oschina.net/javayou/blog/17 那么应该就是先通过 curl 抓取页面内容 再截取 ‘ ’ 到 ‘’ 之间...
a123456678 2019-12-01 19:57:58 1366 浏览量 回答数 1

回答

单独为搜索引擎制作静态页面,检测请求UA,并将页面返回,这种方法算不算是黑帽SEO技术?这个算是黑帽,利用UA判断返回不同页面,这个让用户和搜索引擎看到不一样也有很多人在做,存活下来应该也有.百度现在对ajax这类数据抓取可能没有GG那么好,以前看一个案例,它好象是这样做的,它将要给用户看到信息以固定屏幕,但是其下方会有文字来说明描述,这样搜索引擎就可以抓取到页面要表达的内容,觉得可以参考借鉴。
a123456678 2019-12-02 03:15:44 0 浏览量 回答数 0

回答

Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功 这个是读取的一个日志文件,里面包含获取到的html信息 不过打开后,会跳转到tmall的登录页面 ------------------------- Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功 task-analyze.zip 是部署在阿里云上用Jsoup抓取到的一个店铺一页的商品信息。 但是发现里面抓取的内容不全,没有抓到它的分页数:1/25;商品信息也不存在了,保存为html,发现跳转到登录页面了 但是如果在本地部署是可以的,我找了另外一家的服务器(是windows的),也是能正常抓取到的。 ------------------------- 回1楼理财砖家的帖子 DNS都是OK的 ------------------------- ReRe采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功 引用第5楼城市劣人于2014-09-01 13:29发表的 Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功 : task-analyze.zip 是部署在阿里云上用Jsoup抓取到的一个店铺一页的商品信息。 但是发现里面抓取的内容不全,没有抓到它的分页数:1/25;商品信息也不存在了,保存为html,发现跳转到登录页面了 但是如果在本地部署是可以的,我找了另外一家的服务器(是windows的),也是能正常抓取到的。 补充抓取的地址是:抓取的地址是:http://osa.tmall.com/search.htm?&search=y&orderType=newOn_asc&tsearch=y ------------------------- Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功 咨询了阿里云技术售后客服,说阿里云服务器是没有限制的。 难道是centos系统,对抓取这一块 有什么特殊的权限吗? ------------------------- 回9楼bendchen的帖子 怎么操作法? ------------------------- 回11楼啊里新人的帖子 本地还没有环境测试,难道真的是环境问题 除了Jsoup抓取之外,有没有好的推荐? ------------------------- 回15楼千鸟的帖子 抓取到的html保存为文本,就是少了中间商品列表那部分,在4楼有附件 ------------------------- Re回12楼城市劣人的帖子 引用第13楼啊里新人于2014-09-11 18:09发表的 回 12楼(城市劣人) 的帖子 : jsoup解析数据比较好用,采集数据,我之前用的httpclient httpclient 有抓取整个页面数据的简单例子吗?只要能抓取到,再用jsoup解析数据 ------------------------- Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功 最新进展,ECS是在杭州可用区B(发现有这个问题),后来在C、D区部署测试了,就没有这个现象了。 后续抓取JD的数据测试了一下,B区也是能正常抓取的。 奇怪的是为什么在B区就不能抓取淘宝的数据呢? 程序是一样的     protected static WebClient getWebClient() {         if (wc == null) {             /** HtmlUnit请求web页面 */             wc = new WebClient(BrowserVersion.INTERNET_EXPLORER_11);             wc.getOptions().setJavaScriptEnabled(true); // 启用JS解释器,默认为true             wc.getOptions().setUseInsecureSSL(true);             wc.getOptions().setCssEnabled(false); // 禁用css支持             wc.getOptions().setActiveXNative(false);             wc.getOptions().setThrowExceptionOnScriptError(false); // js运行错误时,是否抛出异常             wc.getOptions().setThrowExceptionOnFailingStatusCode(false);             wc.waitForBackgroundJavaScript(10 * 1000);             wc.setJavaScriptTimeout(5000);             wc.getOptions().setTimeout(10000); // 设置连接超时时间 ,这里是10S。如果为0,则无限期等�?             wc.getOptions().setDoNotTrackEnabled(false);             wc.setAjaxController(new NicelyResynchronizingAjaxController());         }         return wc;     } page = getWebClient().getPage(url); String pageXml = page.asXml(); /** jsoup解析文档 */ Document doc = Jsoup.parse(pageXml, "http://aizhizao.tmall.com"); Elements listDiv = doc.getElementsByAttributeValue("class", "ui-page-s-len"); System.out.println(listDiv.html());
城市劣人 2019-12-02 00:16:48 0 浏览量 回答数 0

问题

同一请求地址两次的网页显示不同,源码也不一致

本人最近在尝试网页抓取,发现当当店铺的商品列表页面每次请求的结果都不相同。 举个例子:韩都衣舍 = http://shop.dangdang.com/4609/list.html。 多次请求这个地址会发现每次的商品页数可能不同,源码也不同。...
杨冬芳 2019-12-01 20:03:16 808 浏览量 回答数 1

回答

我的网站www.yulujiahe.com.cn也是遇到了同样的问题 1,服务器错误:爬虫发起抓取,httpcode返回码是5XX。如何解决?2,访问被拒绝:爬虫发起抓取,httpcode返回码是4033,找不到页面:爬虫发起抓取,httpcode返回码是4044,其他错误:爬虫发起抓取,httpcode返回码是4XX yinzhuizhen.com同样如此
7fym5p7uuvlpq 2020-04-15 11:27:40 0 浏览量 回答数 0

回答

我的网站www.yulujiahe.com.cn也是遇到了同样的问题 1,服务器错误:爬虫发起抓取,httpcode返回码是5XX。如何解决?2,访问被拒绝:爬虫发起抓取,httpcode返回码是4033,找不到页面:爬虫发起抓取,httpcode返回码是4044,其他错误:爬虫发起抓取,httpcode返回码是4XX ,不包括403和404
1909119779667328 2020-03-30 22:13:53 0 浏览量 回答数 0

回答

还是看下日志吧,看是哪些页面抓取错误....   百度站长里面应该能看到,然后具体页面具体分析。   蜘蛛爬取和普通访问的行为和返回应该是一致的,可以模拟蜘蛛抓取,找出问题。
服务器云 2019-12-02 00:39:23 0 浏览量 回答数 0

回答

还是看下日志吧,看是哪些页面抓取错误....   百度站长里面应该能看到,然后具体页面具体分析。   蜘蛛爬取和普通访问的行为和返回应该是一致的,可以模拟蜘蛛抓取,找出问题。
服务器云 2019-12-02 00:39:23 0 浏览量 回答数 0

问题

我的网站怎么360安全检测不了啊,抓取不了页面

我的网站怎么360安全检测不了啊,抓取不了页面?用360网站安全检测总是检测不出结果,看进程都是卡在网页抓取这一项,这是怎么回事,怎么解决? 求解答,谢谢...
成都物流 2019-12-01 20:57:43 2432 浏览量 回答数 2

问题

为什么ACE要提供自己的FetchURL服务?

为什么ACE要提供自己的FetchURL服务? 比如java php都有自己的页面抓取服务。由于ACE提供了自己的页面抓取服务,使得原生语言的无法使用,这是为什么呢?   还有就是在程序中怎么辨别是ACE服务器呢...
peach 2019-12-01 22:01:14 5939 浏览量 回答数 2

回答

我的网站www.luzhoukeji.com也是这样几个月了 都没有收录,今天才发现服务器错误:爬虫发起抓取,httpcode返回码是5XX 访问被拒绝:爬虫发起抓取,httpcode返回码是403 找不到页面:爬虫发起抓取,httpcode返回码是404
1614062585724585 2021-02-24 20:19:00 0 浏览量 回答数 0

回答

微博需要登陆才能抓取,加上curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);就跳转到登陆页面,问题是还得先登陆才能再抓取
落地花开啦 2019-12-02 02:50:29 0 浏览量 回答数 0

云产品推荐

上海奇点人才服务相关的云产品 小程序定制 上海微企信息技术相关的云产品 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 自然场景识别相关的云产品 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务