开发者社区> 问答> 正文

采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功

采用Jsoup抓取淘宝店铺的商品数据,在本地(windows系统)运行时可以正常解析页面并抓取对应的商品信息。
然后部署到阿里云上发现抓取过程中出现了奇怪的现象,页面解析不完整,商品数据没有解析出来(阿里云是采用的linux系统)。
后来测试了下,如果用别的主机(windows系统),可以正常解析。


难道阿里云主机对处理淘宝商品的解析有特别的屏蔽措施?应该不会啊?难道是linux系统有什么特别之处吗?
有没有高手一解疑惑!!!!

展开
收起
城市劣人 2014-08-29 14:31:38 19161 0
9 条回答
写回答
取消 提交回答
  • 我也遇到这个问题了,请问你们怎么解决的
    2016-02-06 15:24:30
    赞同 展开评论 打赏
  • Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功
    我也遇到了 这个问题 这是什么情况  再本地可以 再阿里云上就出现了问题
    2014-12-14 16:54:20
    赞同 展开评论 打赏
  • LT是个伪程序员
    抓取得到的html直接存成文本查看有什么区别
    2014-09-12 23:14:19
    赞同 展开评论 打赏
  • www.aliyun.net.cn
    2014-09-11 23:07:17
    赞同 展开评论 打赏
  • 建议在本地弄个liunx跑一下试试,

    -------------------------

    回 12楼(城市劣人) 的帖子
    jsoup解析数据比较好用,采集数据,我之前用的httpclient

    -------------------------

    我手里代码发不出去,公司加密了。网上找一下很多的,采集页面,只要没有做限制,还是很容易的

    2014-09-05 09:58:34
    赞同 展开评论 打赏
  • Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功

    这个是读取的一个日志文件,里面包含获取到的html信息

    不过打开后,会跳转到tmall的登录页面

    -------------------------

    Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功
    task-analyze.zip 是部署在阿里云上用Jsoup抓取到的一个店铺一页的商品信息。
    但是发现里面抓取的内容不全,没有抓到它的分页数:1/25;商品信息也不存在了,保存为html,发现跳转到登录页面了

    但是如果在本地部署是可以的,我找了另外一家的服务器(是windows的),也是能正常抓取到的。

    -------------------------

    回1楼理财砖家的帖子
    DNS都是OK的

    -------------------------

    ReRe采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功
    引用第5楼城市劣人于2014-09-01 13:29发表的 Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功 :
    task-analyze.zip 是部署在阿里云上用Jsoup抓取到的一个店铺一页的商品信息。
    但是发现里面抓取的内容不全,没有抓到它的分页数:1/25;商品信息也不存在了,保存为html,发现跳转到登录页面了

    但是如果在本地部署是可以的,我找了另外一家的服务器(是windows的),也是能正常抓取到的。

    补充抓取的地址是:抓取的地址是:http://osa.tmall.com/search.htm?&search=y&orderType=newOn_asc&tsearch=y

    -------------------------

    Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功
    咨询了阿里云技术售后客服,说阿里云服务器是没有限制的。
    难道是centos系统,对抓取这一块 有什么特殊的权限吗?

    -------------------------

    回9楼bendchen的帖子
    怎么操作法?

    -------------------------

    回11楼啊里新人的帖子
    本地还没有环境测试,难道真的是环境问题
    除了Jsoup抓取之外,有没有好的推荐?

    -------------------------

    回15楼千鸟的帖子
    抓取到的html保存为文本,就是少了中间商品列表那部分,在4楼有附件

    -------------------------

    Re回12楼城市劣人的帖子
    引用第13楼啊里新人于2014-09-11 18:09发表的 回 12楼(城市劣人) 的帖子 :
    jsoup解析数据比较好用,采集数据,我之前用的httpclient


    httpclient 有抓取整个页面数据的简单例子吗?只要能抓取到,再用jsoup解析数据

    -------------------------

    Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功
    最新进展,ECS是在杭州可用区B(发现有这个问题),后来在C、D区部署测试了,就没有这个现象了。
    后续抓取JD的数据测试了一下,B区也是能正常抓取的。
    奇怪的是为什么在B区就不能抓取淘宝的数据呢?
    程序是一样的
        protected static WebClient getWebClient() {
            if (wc == null) {
                /** HtmlUnit请求web页面 */
                wc = new WebClient(BrowserVersion.INTERNET_EXPLORER_11);
                wc.getOptions().setJavaScriptEnabled(true); // 启用JS解释器,默认为true
                wc.getOptions().setUseInsecureSSL(true);
                wc.getOptions().setCssEnabled(false); // 禁用css支持
                wc.getOptions().setActiveXNative(false);
                wc.getOptions().setThrowExceptionOnScriptError(false); // js运行错误时,是否抛出异常
                wc.getOptions().setThrowExceptionOnFailingStatusCode(false);
                wc.waitForBackgroundJavaScript(10 * 1000);
                wc.setJavaScriptTimeout(5000);
                wc.getOptions().setTimeout(10000); // 设置连接超时时间 ,这里是10S。如果为0,则无限期等�?
                wc.getOptions().setDoNotTrackEnabled(false);
                wc.setAjaxController(new NicelyResynchronizingAjaxController());
            }
            return wc;
        }


    page = getWebClient().getPage(url);
    String pageXml = page.asXml();
    /** jsoup解析文档 */
    Document doc = Jsoup.parse(pageXml, "http://aizhizao.tmall.com");
    Elements listDiv = doc.getElementsByAttributeValue("class", "ui-page-s-len");
    System.out.println(listDiv.html());
    2014-09-01 12:01:02
    赞同 展开评论 打赏
  • 先取几个页面,把页面存储到文件,查有什么问题。

    -------------------------

    我没用过这个插件。
    不过我觉得如果 是页面返回到登录页面,可能是你的认证信息没有传送过去?
    或者你开一个线程,看看结果?

    2014-08-29 16:36:24
    赞同 展开评论 打赏
  • Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功
    高手快出现啊  
    2014-08-29 15:04:50
    赞同 展开评论 打赏
  • DNS 解析不了吗
    2014-08-29 14:55:48
    赞同 展开评论 打赏
滑动查看更多
问答排行榜
最热
最新

相关电子书

更多
阿里云产品五月刊 立即下载
阿里云云原生技术实践营 AI 原生应用架构专场·北京站 立即下载
低代码开发师(初级)实战教程 立即下载