开发者社区> 问答> 正文

Spider抓取动态内容(JavaScript指向的页面)

PHP新手,在写爬虫练手,一般情况下跟踪链接不是很难,但是如果是动态页面就束手无策了。

也许分析协议(但是怎么分析?),模拟执行JavaScript脚本(怎么弄?),……

另外可能写一个通用的爬取AJAX页面的Spider或许是比较复杂的问题,没有听说或相关开源项目。

下面是问题描述:

比如一个页面的下一页(ajax函数中有一个得到url对应数据放到content标签部分):

javascript: 下一页
对应的JavaScript代码可能是:

function Down(index)
{
    $("#pageindex").val(parseInt(index)+1);
    ajaxpage(parseInt(index)+1);
}

function ajaxpage(index)
{
    $.ajax({
    type:"post",
    url:"class.aspx",
 data:"Option=select&cid="+$("#classid").val()+"&asc="+$("#orderselect>option:selected").val()+"&keyword="+escape($("#textfield").val())+"&PI="+index,
    success:function(data)
    {
        $("#content").html(data);
    },
    error: function(data) { 
             alert("连接超时,稍后再试!");
    }
}

展开
收起
a123456678 2016-03-10 16:52:10 2136 0
1 条回答
写回答
取消 提交回答
  • 对于ajax的请求,一般都会返回json或者xml格式的数据,打开网页的时候你可以用firebug来查看后台发送的ajax请求的格式,程序中设置请求的头信息,有的网站还需要设置cookie信息,不然不会返回数据,cooike的信息firebug都能查得到的。然后在发送请求,一般都会成功。
    技术稍微过关的网站都会设置请求的频率限制,所以,注意发送请求的频率。

    2019-07-17 18:57:56
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
JavaScript异步编程 立即下载
Delivering Javascript to World 立即下载
编程语言如何演化-以JS的private为例 立即下载