• 关于

    抓取内容

    的搜索结果

问题

scrapy爬虫抓到的网页内容有时为空的

贺卡贺卡 2019-12-01 20:07:29 2694 浏览量 回答数 1

问题

如何通过Shell的Curl抓取某个网页的指定节点间的内容?

a123456678 2019-12-01 19:57:58 1366 浏览量 回答数 1

问题

搜索引擎抓取系统概述(含搜索引擎工作原理等)

kideny 2019-12-01 21:30:39 5387 浏览量 回答数 1

阿里云试用中心,为您提供0门槛上云实践机会!

0元试用32+款产品,最高免费12个月!拨打95187-1,咨询专业上云建议!

问题

部署了CDN,但是爬虫抓取仍然超时。

kkjackson 2019-12-01 20:06:44 1150 浏览量 回答数 2

回答

通常包含四个模块: 1)保存种子URL和待抓取的URL的数据结构。 2)保存已经抓取的URL数据结构,防止重复抓取。 3)页面抓取模块。 4)对已经抓去的页面内容的各个部分进行抽取的模块。

YDYK 2020-04-05 14:51:18 0 浏览量 回答数 0

回答

合理的标题,描述,关键字:搜索对着三项的权重重逐个分解,标题值突出重点即可,重要关键字出现不要超过2次,而且要靠前,不同页面title要有所不同; description把页面内容高度概述,长度合适,不可过分堆砌关键词,不同页面description有所不同; keywords列出重要关键词即可 语义化的HTML代码,符合W3C规范:语义化代码让搜索引擎容易理解网页 重要内容HTML代码放在最前:搜索引擎抓取HTML顺序是从上到下,有的搜索引擎对抓取长度有限制,保证重要内容一定会被抓取 重要内容不要用js输出:爬虫不会执行js获取内容 少用iframe:搜索引擎不会抓取iframe中的内容 非装饰性图片必须加alt 提高网站速度:网站速度是搜索引擎排序的一个重要指标

茶什i 2019-12-02 03:16:12 0 浏览量 回答数 0

回答

重复性网页:互联网上已有的内容,百度不会再收录。主体内容空短的网页。内容中使用了百度抓取工具无法解析的技术:如JS、AJAX等。虽然对于网站用户来说,体验可能会更好,可以看到较丰富的内容,但会被搜索引擎筛选出去。搜索引擎只能抓取文本,如果有图片或者视频,需添加文字描述,方便搜索引擎抓取图片与视频的主要内容。部分作弊网页:让多个子域名跳转到同一个网站,如果被发现,将会影响到网站在百度的收录及排名。

剑曼红尘 2020-03-23 21:45:06 0 浏览量 回答数 0

回答

本人最近在尝试网页抓取,发现当当店铺的商品列表页面每次请求的结果都不相同。 举个例子:韩都衣舍 = http://shop.dangdang.com/4609/list.html。 多次请求这个地址会发现每次的商品页数可能不同,源码也不同。实际结果就是明明应该有几十页的内容,却只显示有几页。这是什么原因导致呢?因为我是通过页面内的下一页来抓取下一页内容,这样的话必然导致抓取不足,甚至有时候明明下一页是第三页,却显示了第一页的内容,望解答,谢谢。PS:可能表达不清,如需细节再补充

杨冬芳 2019-12-02 02:51:35 0 浏览量 回答数 0

问题

同一请求地址两次的网页显示不同,源码也不一致

杨冬芳 2019-12-01 20:03:16 808 浏览量 回答数 1

问题

如何通过Shell+Curl抓取远程页面中的链接并存入文本

a123456678 2019-12-01 19:57:58 1948 浏览量 回答数 1

问题

360搜索引擎抓取不到网站内容

1055222513771612 2019-12-01 19:08:02 63 浏览量 回答数 1

回答

Re搬到阿里云,百度蜘蛛抓取就不抓取了?是不是屏蔽了? 网站换ip,一周内不要删除老ip的网站,否则抓取出错的,因为蜘蛛有缓存 不过也最多一周之后就会给你恢复,认真做内容蜘蛛不会亏待你的 如果 你着急的话用那个dnspod专门给bd解析下ip 我们现在都给用户做站不给蜘蛛做,所以别介意这些! 祝你好远

朝夕网 2019-12-02 02:49:03 0 浏览量 回答数 0

问题

真心请各位用过spiderman的好汉进来一下?报错

爱吃鱼的程序员 2020-06-09 15:00:50 0 浏览量 回答数 1

回答

Re转用阿里云不知是对还是错 希望吧,独立IP 蜘蛛抓取时间缩短,可以抓取到更多的内容

嘿嘿-li 2019-12-02 00:43:21 0 浏览量 回答数 0

问题

curl抓取网站http_code显示302?

落地花开啦 2019-12-01 20:02:03 1396 浏览量 回答数 1

问题

基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件 请求报错

kun坤 2020-05-28 16:03:29 4 浏览量 回答数 1

回答

你要熟悉百度的优化算法, 为何不收录你的其他页面 为何蜘蛛抓取不抓取 你就要看你网站的SEO了 站点内容方面,最好要原创, 可以伪原创,内容好蜘蛛才喜欢爬行,千万不要去采集别人的内容照搬 而且网站内容的标题和段落的内容要选择好,要让百度蜘蛛喜欢去抓取你网站的内容,这样收录的页面会增加很多,然后选择网站关键词的时候很重要,要会自己造词,造词对一般不是SEO专员来说简直太难,这个不必太慌,可以提取热门的关键词,然后利用某些软件挖掘的,然后外链也很重要,让蜘蛛在不同的爬行路上慢慢爬到你的站点,一旦蜘蛛习惯性的爬行你网站抓取你内容的时候 你的收录会稳定增长了,然后就是在一些收录比较好,PR,权重好的地方发布,稳定的网站,服务器一定要稳定,站点的内部页面,站点内容页面的链接长短,越短越好 总之一句话 SEO道理很漫长,不会取决你用谁的主机收录多,谁的主机不收录, 蜘蛛只是一个工具,根据命令和设置的规则来爬行,又不是人,没有偏见, 你要了解掌握百度算法,然后根据他的算法规则去优化你的站点就OK了 现在最新百度算法对刷外链之类的已经基本不咋收录了 你可以去一些比较大的知名的SEO网站看看学学了解了解,

华杰科技 2019-12-01 23:38:08 0 浏览量 回答数 0

回答

1、 观察百度爬虫爬行网站的时间点的访问日志,观察web服务日志是否有问题。 2、议用户使用阿里云监控,监控系统负载,网络带宽使用率。观察系统负载以及网络带宽是否正常,如果偏高建议用户升级ECS服务器配置。 3、建议用户使用阿里云监控,监测网站的可用性的。http://www.aliyun.com/product/jiankong/ 4、使用百度站长工具了解网站的连通率:      A. 利用抓取异常、抓取频次工具观察抓取情况          注:每个工具页面的右侧下方都有使用说明可以了解,如下:                                  B. 利用抓取诊断工具观察抓取情况               为了保证网站对百度蜘蛛的稳定访问性能,日常需要养成定期抓取诊断的习惯,另外抓取诊断不是说光看看状态是否“抓取成功”就行了。有下面几步进行: A. 下拉选择分”pc”、 ”移动”进行抓取,”pc”意味着一般意义上的电脑端访问诊断,”移动”则是如手机、平板等移动设备端访问诊断。 B. 网站主要的引流页,如首页、详情页、内容页、专题页等都要进行抓取,另外可以重点几个时间段(比如网站高峰时间段)每天定期进行测试。 C. 抓取失败了,点击”抓取失败”查看提示信息,如果自己没有技术能力解决问题,可以跟空间商进行沟通,然后向工具提交报错。      D. 抓取成功后,也不能说就万事大吉了,还要点击”抓取成功”进去注意:提交网址、抓取网址、抓取UA、网站ip、下载时长、头部信息(服务器返回状态码、gzip等相关信息)、网页源码是否都正常。      特别说明:有很多站长就光注意抓取成功,却不知网站ip可能并非自己的实际ip,还可能每隔一段时间都变。当发现ip有问题,及时跟网络商沟通,并在网站ip旁点击“报错”按钮,百度会更新网站ip,但是切记不要ip变化频繁。此外当然还可能出现实际抓取网址、头部信息、网页源码等都不是自己本来设置的。 5. 测试抓取成功并能打开,这里主要注意DNS和空间的稳定性。     A. DNS的问题                 --------下方为百度官方资料-------------                当心dns服务器不稳导致站点被屏                近期百度站长平台收到多个反馈,称网站从百度网页搜索消失,site查询发现连通率为0。                 经追查发现这些网站都使用godaddy的DNS服务器 *.DOMAINCONTROL.COM,此系列DNS服务器存在稳定性问题,Baiduspider经常解析不到ip,在Baiduspider看来,网站是死站点。                此前我们也发现过多起小dns服务商屏蔽Baiduspider解析请求或者国外dns服务器不稳定的案例。                建议站长尽可能使用国内大型服务商提供的DNS服务,如dnspod等,以保证站点的稳定解析。                --------上方为百度官方资料-------------     B. 空间的稳定性                 空间的资源不足,内存、并发连接等等,当访问量很少的时候,用户察觉不出,当用户量高流量大时候出现网站打开异常会导致时,建议用户使用云监控监控网站打开延迟以及ECS服务器性能监控,了解服务器的性能异常及时调整服务器状态。             云监控配置方法,请查看链接:http://docs.aliyun.com/?spm=5176.775973980.2.3.ZU5cWe#/cms/User_Manual/Quick_Start&Site_Monitor 6. 建议用户与百度收录取得联系,询问下这边连通率的问题的。

KB小秘书 2019-12-02 01:28:38 0 浏览量 回答数 0

回答

Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功 这个是读取的一个日志文件,里面包含获取到的html信息 不过打开后,会跳转到tmall的登录页面 ------------------------- Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功 task-analyze.zip 是部署在阿里云上用Jsoup抓取到的一个店铺一页的商品信息。 但是发现里面抓取的内容不全,没有抓到它的分页数:1/25;商品信息也不存在了,保存为html,发现跳转到登录页面了 但是如果在本地部署是可以的,我找了另外一家的服务器(是windows的),也是能正常抓取到的。 ------------------------- 回1楼理财砖家的帖子 DNS都是OK的 ------------------------- ReRe采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功 引用第5楼城市劣人于2014-09-01 13:29发表的 Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功 : task-analyze.zip 是部署在阿里云上用Jsoup抓取到的一个店铺一页的商品信息。 但是发现里面抓取的内容不全,没有抓到它的分页数:1/25;商品信息也不存在了,保存为html,发现跳转到登录页面了 但是如果在本地部署是可以的,我找了另外一家的服务器(是windows的),也是能正常抓取到的。 补充抓取的地址是:抓取的地址是:http://osa.tmall.com/search.htm?&search=y&orderType=newOn_asc&tsearch=y ------------------------- Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功 咨询了阿里云技术售后客服,说阿里云服务器是没有限制的。 难道是centos系统,对抓取这一块 有什么特殊的权限吗? ------------------------- 回9楼bendchen的帖子 怎么操作法? ------------------------- 回11楼啊里新人的帖子 本地还没有环境测试,难道真的是环境问题 除了Jsoup抓取之外,有没有好的推荐? ------------------------- 回15楼千鸟的帖子 抓取到的html保存为文本,就是少了中间商品列表那部分,在4楼有附件 ------------------------- Re回12楼城市劣人的帖子 引用第13楼啊里新人于2014-09-11 18:09发表的 回 12楼(城市劣人) 的帖子 : jsoup解析数据比较好用,采集数据,我之前用的httpclient httpclient 有抓取整个页面数据的简单例子吗?只要能抓取到,再用jsoup解析数据 ------------------------- Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功 最新进展,ECS是在杭州可用区B(发现有这个问题),后来在C、D区部署测试了,就没有这个现象了。 后续抓取JD的数据测试了一下,B区也是能正常抓取的。 奇怪的是为什么在B区就不能抓取淘宝的数据呢? 程序是一样的     protected static WebClient getWebClient() {         if (wc == null) {             /** HtmlUnit请求web页面 */             wc = new WebClient(BrowserVersion.INTERNET_EXPLORER_11);             wc.getOptions().setJavaScriptEnabled(true); // 启用JS解释器,默认为true             wc.getOptions().setUseInsecureSSL(true);             wc.getOptions().setCssEnabled(false); // 禁用css支持             wc.getOptions().setActiveXNative(false);             wc.getOptions().setThrowExceptionOnScriptError(false); // js运行错误时,是否抛出异常             wc.getOptions().setThrowExceptionOnFailingStatusCode(false);             wc.waitForBackgroundJavaScript(10 * 1000);             wc.setJavaScriptTimeout(5000);             wc.getOptions().setTimeout(10000); // 设置连接超时时间 ,这里是10S。如果为0,则无限期等�?             wc.getOptions().setDoNotTrackEnabled(false);             wc.setAjaxController(new NicelyResynchronizingAjaxController());         }         return wc;     } page = getWebClient().getPage(url); String pageXml = page.asXml(); /** jsoup解析文档 */ Document doc = Jsoup.parse(pageXml, "http://aizhizao.tmall.com"); Elements listDiv = doc.getElementsByAttributeValue("class", "ui-page-s-len"); System.out.println(listDiv.html());

城市劣人 2019-12-02 00:16:48 0 浏览量 回答数 0

问题

阿里云的服务还是非常不错的。工单内容如下:

lnt142029 2019-12-01 21:39:57 8494 浏览量 回答数 2

问题

doc,pdf等文件被抓包后,抓包后的文件如何识别

爵霸 2019-12-01 19:55:15 868 浏览量 回答数 1

问题

使用阿里云CDN之后,蜘蛛抓取出现503

冉坤坤坤 2019-12-01 22:04:37 6255 浏览量 回答数 2

问题

JS跨域抓取HTML页面并解析

小旋风柴进 2019-12-01 19:23:13 1436 浏览量 回答数 1

问题

搜索引擎抓取不到,总是提示服务器错误

做人厚道 2019-12-01 18:56:27 89 浏览量 回答数 2

问题

JS跨域抓取HTML页面并解析

杨冬芳 2019-12-01 19:57:10 1194 浏览量 回答数 1

问题

JS跨域抓取HTML页面并解析

a123456678 2019-12-01 19:23:06 1046 浏览量 回答数 3

问题

【百度官方】建立符合搜索抓取习惯的网站

kideny 2019-12-01 21:29:16 8410 浏览量 回答数 5

问题

在Eclipse中配置Heritrix HTTP ERROR: 500 ...:报错

kun坤 2020-06-06 22:31:03 1 浏览量 回答数 1

回答

快照劫持就是你在百度搜索关键词出现的结果排名的快照内容不是你网站的内容,而是一些不良信息,关于bocai类等的,那么就是你的网站中招了。那么他们是怎么做到的呢?这个肯定就是你网站程序有漏洞,让黑客技术人员找到后门进入你的网站进行篡改的,他们篡改的时间一般是晚上凌晨以后,这样在百度搜索引擎蜘蛛抓取你的快照的时候就是他们篡改的内容被抓取到了,然后又神不知鬼不觉的又把你原来的TDK换回来了。这样你就会发现你的网站什么都没有变化,但是你的快照内容发生了更改,这个时候你就是丈二的和尚了。 那么当我们的网站快照被劫持 的时候,可以找专业的网站安全公司来解决网站被劫持的问题,国内像SINE安全、绿盟安全、启明星辰都是比较专业的安全公司。

网站安全 2019-12-02 02:01:37 0 浏览量 回答数 0

回答

python爬虫可从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

大财主 2019-12-02 01:05:48 0 浏览量 回答数 0
阿里云大学 云服务器ECS com域名 网站域名whois查询 开发者平台 小程序定制 小程序开发 国内短信套餐包 开发者技术与产品 云数据库 图像识别 开发者问答 阿里云建站 阿里云备案 云市场 万网 阿里云帮助文档 免费套餐 开发者工具 企业信息查询 小程序开发制作 视频内容分析 企业网站制作 视频集锦 代理记账服务 2020阿里巴巴研发效能峰会 企业建站模板 云效成长地图 高端建站