采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功

2014-08-29 14:31:38 18823 9
采用Jsoup抓取淘宝店铺的商品数据,在本地(windows系统)运行时可以正常解析页面并抓取对应的商品信息。
然后部署到阿里云上发现抓取过程中出现了奇怪的现象,页面解析不完整,商品数据没有解析出来(阿里云是采用的linux系统)。
后来测试了下,如果用别的主机(windows系统),可以正常解析。


难道阿里云主机对处理淘宝商品的解析有特别的屏蔽措施?应该不会啊?难道是linux系统有什么特别之处吗?
有没有高手一解疑惑!!!!
取消 提交回答
全部回答(9)
  • ymen
    2016-02-06 15:24:30
    我也遇到这个问题了,请问你们怎么解决的
    0 0
  • 陈二黑
    2014-12-14 16:54:20
    Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功
    我也遇到了 这个问题 这是什么情况  再本地可以 再阿里云上就出现了问题
    0 0
  • 千鸟
    2014-09-12 23:14:19
    抓取得到的html直接存成文本查看有什么区别
    0 0
  • pangchangfei
    2014-09-11 23:07:17
    0 0
  • 啊里新人
    2014-09-05 09:58:34
    建议在本地弄个liunx跑一下试试,

    -------------------------

    回 12楼(城市劣人) 的帖子
    jsoup解析数据比较好用,采集数据,我之前用的httpclient

    -------------------------

    我手里代码发不出去,公司加密了。网上找一下很多的,采集页面,只要没有做限制,还是很容易的

    0 0
  • 城市劣人
    2014-09-01 12:01:02
    Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功

    这个是读取的一个日志文件,里面包含获取到的html信息

    不过打开后,会跳转到tmall的登录页面

    -------------------------

    Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功
    task-analyze.zip 是部署在阿里云上用Jsoup抓取到的一个店铺一页的商品信息。
    但是发现里面抓取的内容不全,没有抓到它的分页数:1/25;商品信息也不存在了,保存为html,发现跳转到登录页面了

    但是如果在本地部署是可以的,我找了另外一家的服务器(是windows的),也是能正常抓取到的。

    -------------------------

    回1楼理财砖家的帖子
    DNS都是OK的

    -------------------------

    ReRe采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功
    引用第5楼城市劣人于2014-09-01 13:29发表的 Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功 :
    task-analyze.zip 是部署在阿里云上用Jsoup抓取到的一个店铺一页的商品信息。
    但是发现里面抓取的内容不全,没有抓到它的分页数:1/25;商品信息也不存在了,保存为html,发现跳转到登录页面了

    但是如果在本地部署是可以的,我找了另外一家的服务器(是windows的),也是能正常抓取到的。

    补充抓取的地址是:抓取的地址是:http://osa.tmall.com/search.htm?&search=y&orderType=newOn_asc&tsearch=y

    -------------------------

    Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功
    咨询了阿里云技术售后客服,说阿里云服务器是没有限制的。
    难道是centos系统,对抓取这一块 有什么特殊的权限吗?

    -------------------------

    回9楼bendchen的帖子
    怎么操作法?

    -------------------------

    回11楼啊里新人的帖子
    本地还没有环境测试,难道真的是环境问题
    除了Jsoup抓取之外,有没有好的推荐?

    -------------------------

    回15楼千鸟的帖子
    抓取到的html保存为文本,就是少了中间商品列表那部分,在4楼有附件

    -------------------------

    Re回12楼城市劣人的帖子
    引用第13楼啊里新人于2014-09-11 18:09发表的 回 12楼(城市劣人) 的帖子 :
    jsoup解析数据比较好用,采集数据,我之前用的httpclient


    httpclient 有抓取整个页面数据的简单例子吗?只要能抓取到,再用jsoup解析数据

    -------------------------

    Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功
    最新进展,ECS是在杭州可用区B(发现有这个问题),后来在C、D区部署测试了,就没有这个现象了。
    后续抓取JD的数据测试了一下,B区也是能正常抓取的。
    奇怪的是为什么在B区就不能抓取淘宝的数据呢?
    程序是一样的
        protected static WebClient getWebClient() {
            if (wc == null) {
                /** HtmlUnit请求web页面 */
                wc = new WebClient(BrowserVersion.INTERNET_EXPLORER_11);
                wc.getOptions().setJavaScriptEnabled(true); // 启用JS解释器,默认为true
                wc.getOptions().setUseInsecureSSL(true);
                wc.getOptions().setCssEnabled(false); // 禁用css支持
                wc.getOptions().setActiveXNative(false);
                wc.getOptions().setThrowExceptionOnScriptError(false); // js运行错误时,是否抛出异常
                wc.getOptions().setThrowExceptionOnFailingStatusCode(false);
                wc.waitForBackgroundJavaScript(10 * 1000);
                wc.setJavaScriptTimeout(5000);
                wc.getOptions().setTimeout(10000); // 设置连接超时时间 ,这里是10S。如果为0,则无限期等�?
                wc.getOptions().setDoNotTrackEnabled(false);
                wc.setAjaxController(new NicelyResynchronizingAjaxController());
            }
            return wc;
        }


    page = getWebClient().getPage(url);
    String pageXml = page.asXml();
    /** jsoup解析文档 */
    Document doc = Jsoup.parse(pageXml, "http://aizhizao.tmall.com");
    Elements listDiv = doc.getElementsByAttributeValue("class", "ui-page-s-len");
    System.out.println(listDiv.html());
    0 0
  • bendchen
    2014-08-29 16:36:24
    先取几个页面,把页面存储到文件,查有什么问题。

    -------------------------

    我没用过这个插件。
    不过我觉得如果 是页面返回到登录页面,可能是你的认证信息没有传送过去?
    或者你开一个线程,看看结果?

    0 0
  • 望穿秋水
    2014-08-29 15:04:50
    Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功
    高手快出现啊  
    0 0
  • 理财砖家
    2014-08-29 14:55:48
    DNS 解析不了吗
    0 0
滑动查看更多
相关问答

1

回答

我在本地的jmeter压测成功了,但是把脚本传到阿里云,就失败了是什么原因?

2022-07-21 10:25:22 244浏览量 回答数 1

1

回答

开发者论坛一周精粹(第五十七期) 阿里云免费套餐 个人备案备注

2018-09-07 16:44:27 2708浏览量 回答数 1

6

回答

阿里云的文档真不是人能理解的

2018-07-29 16:50:06 3262浏览量 回答数 6

1

回答

阿里云降配功能的费用计算方式有严重的问题,简直霸王条款

2018-03-14 12:04:52 2635浏览量 回答数 1

2

回答

如何将本地数据库迁移到阿里云?

2017-12-09 22:52:31 5434浏览量 回答数 2

1

回答

阿里云免费套餐rds数据库没有

2017-05-22 17:03:11 2043浏览量 回答数 1

1

回答

阿里云目前RDS 无法进行数据备份

2016-06-16 15:54:34 2148浏览量 回答数 1

6

回答

郑州或商丘谁有阿里云的幕布

2015-07-25 11:40:50 6658浏览量 回答数 6

3

回答

备案成功,求开通阿里云服务

2014-04-11 20:58:20 4821浏览量 回答数 3

4

回答

尼玛阿里云备案客服专线都很忙吗?

2012-09-03 14:19:46 5978浏览量 回答数 4
+关注
文章
问答
问答排行榜
最热
最新
相关电子书
更多
Phoenix Search Index 功能与应用场景介绍
立即下载
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载