城市劣人个人页面-阿里云开发者社区

个人头像照片 城市劣人 TA的个人档案
0
2

个人介绍

暂无个人介绍

擅长的技术

  • Java
获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
  • 高分内容
  • 最新动态
  • 文章
  • 问答
  • 提交了问题 2014-08-29

    采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功

正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
暂无更多信息
  • 回答了问题 2014-09-01

    采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功

    Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功

    这个是读取的一个日志文件,里面包含获取到的html信息

    不过打开后,会跳转到tmall的登录页面

    -------------------------

    Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功
    task-analyze.zip 是部署在阿里云上用Jsoup抓取到的一个店铺一页的商品信息。
    但是发现里面抓取的内容不全,没有抓到它的分页数:1/25;商品信息也不存在了,保存为html,发现跳转到登录页面了

    但是如果在本地部署是可以的,我找了另外一家的服务器(是windows的),也是能正常抓取到的。

    -------------------------

    回1楼理财砖家的帖子
    DNS都是OK的

    -------------------------

    ReRe采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功
    引用第5楼城市劣人于2014-09-01 13:29发表的 Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功 :
    task-analyze.zip 是部署在阿里云上用Jsoup抓取到的一个店铺一页的商品信息。
    但是发现里面抓取的内容不全,没有抓到它的分页数:1/25;商品信息也不存在了,保存为html,发现跳转到登录页面了

    但是如果在本地部署是可以的,我找了另外一家的服务器(是windows的),也是能正常抓取到的。

    补充抓取的地址是:抓取的地址是:http://osa.tmall.com/search.htm?&search=y&orderType=newOn_asc&tsearch=y

    -------------------------

    Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功
    咨询了阿里云技术售后客服,说阿里云服务器是没有限制的。
    难道是centos系统,对抓取这一块 有什么特殊的权限吗?

    -------------------------

    回9楼bendchen的帖子
    怎么操作法?

    -------------------------

    回11楼啊里新人的帖子
    本地还没有环境测试,难道真的是环境问题
    除了Jsoup抓取之外,有没有好的推荐?

    -------------------------

    回15楼千鸟的帖子
    抓取到的html保存为文本,就是少了中间商品列表那部分,在4楼有附件

    -------------------------

    Re回12楼城市劣人的帖子
    引用第13楼啊里新人于2014-09-11 18:09发表的 回 12楼(城市劣人) 的帖子 :
    jsoup解析数据比较好用,采集数据,我之前用的httpclient


    httpclient 有抓取整个页面数据的简单例子吗?只要能抓取到,再用jsoup解析数据

    -------------------------

    Re采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功
    最新进展,ECS是在杭州可用区B(发现有这个问题),后来在C、D区部署测试了,就没有这个现象了。
    后续抓取JD的数据测试了一下,B区也是能正常抓取的。
    奇怪的是为什么在B区就不能抓取淘宝的数据呢?
    程序是一样的
        protected static WebClient getWebClient() {
            if (wc == null) {
                /** HtmlUnit请求web页面 */
                wc = new WebClient(BrowserVersion.INTERNET_EXPLORER_11);
                wc.getOptions().setJavaScriptEnabled(true); // 启用JS解释器,默认为true
                wc.getOptions().setUseInsecureSSL(true);
                wc.getOptions().setCssEnabled(false); // 禁用css支持
                wc.getOptions().setActiveXNative(false);
                wc.getOptions().setThrowExceptionOnScriptError(false); // js运行错误时,是否抛出异常
                wc.getOptions().setThrowExceptionOnFailingStatusCode(false);
                wc.waitForBackgroundJavaScript(10 * 1000);
                wc.setJavaScriptTimeout(5000);
                wc.getOptions().setTimeout(10000); // 设置连接超时时间 ,这里是10S。如果为0,则无限期等�?
                wc.getOptions().setDoNotTrackEnabled(false);
                wc.setAjaxController(new NicelyResynchronizingAjaxController());
            }
            return wc;
        }


    page = getWebClient().getPage(url);
    String pageXml = page.asXml();
    /** jsoup解析文档 */
    Document doc = Jsoup.parse(pageXml, "http://aizhizao.tmall.com");
    Elements listDiv = doc.getElementsByAttributeValue("class", "ui-page-s-len");
    System.out.println(listDiv.html());
    踩0 评论0
  • 提交了问题 2014-08-29

    采用Jsoup抓取TB数据,本地正常,部署在阿里云上无法成功

正在加载, 请稍后...
滑动查看更多