网贷之家的爬虫之旅

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: [导读]  因为本人公司正处于P2P的行业,分析行业数据,对平台的运营决策有着很大的作用,因此需要爬网贷之家的相关数据。 1、分析        通过右键查看页面源代码发现页面结构为表格布局,因此设想可以分为四个步骤来采集数据:       1、使用爬虫将页面抓取下来;       2、对页面数据进行解析;       3、入库(mysql);       4、写个定时服务每天定时抓取。

[导读]  因为本人公司正处于P2P的行业,分析行业数据,对平台的运营决策有着很大的作用,因此需要爬网贷之家的相关数据。

1、分析

       通过右键查看页面源代码发现页面结构为表格布局,因此设想可以分为四个步骤来采集数据:

      1、使用爬虫将页面抓取下来;

      2、对页面数据进行解析;

      3、入库(mysql);

      4、写个定时服务每天定时抓取。

      因为公司网站使用PHP,最近也学习了一点,curl非常适合用来爬去网页,决定用PHP程序进行抓取。

image

2、抓取页面

       网贷之家有一个数据的二级域名,展示所有接入的P2P公司的各种成交数据,输入日期可以查询对应日期的数据(http://shuju.wangdaizhijia.com/indexs-0-0-0-400-0-0.html?startTime=2015-04-04&endTime=2015-04-04),分析url发现只要改变后面的日期就可以分别的抓取各个日期下的数据,分析完毕,找一个url开始抓取;有一个小插曲,刚开始抓取的时候,返回的页面信息都是404.html,最后分析发现网站对非浏览器的请求进行了屏蔽,直接跳转404。后台加绿色代码的部分,成功抓取数据。

function crawl($url){
         $ch = curl_init();
         curl_setopt($ch, CURLOPT_URL, $url);
         curl_setopt($ch, CURLOPT_HEADER, false);
         

curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.1.4322)');

         curl_setopt($curl, CURLOPT_POST, 1); 
         curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
         $result=curl_exec($ch);
         curl_close($ch);
         return $result;
    }

3、解析数据

     查看页面源代码发现,第一行为title去掉,最后两列为平台的连接和关注,均过滤掉。第一列的id需要根据下列的连接来截取,中间的所有数据会有汉子的单位和一些特殊字符,使用preg_replace进行替换,最后按照网贷之家平台的数据格式进行拼接入库的SQL,返回done。

function  analyze($dom,$satTime){
        $html = new simple_html_dom();
        $sql= "insert into XXX_data (XXPlatId,platName,averageMonth,dayTotal,averageRate,investNumber,averageInvestMoney,averageBorrowTime,borrowNumer,borrowBidNumber,averageBorrowMoney,firstTenInvestRate,firstTenBorrowRate,bidEndTime,registerTime,registerMoney,leverageFund,invest30total,repay60total,repayTotal,statisticsTime,excuteTime) values ";                
        $html->load($dom);
        $istitle=0;
        foreach($html->find('tr') as $tr){
          $istitle=$istitle+1;
          if($istitle==1){
            continue;
          }
          $sql.="(";
          $count=0;
          foreach($tr->find('td') as $element){       
              $count=$count+1;
              if($count==1){
                $href=$element->next_sibling()->find('a', 0)->href;
                $href=strstr($href, '.', TRUE);
                $href=strstr($href,'-');            
                $sql.="'".substr($href,1)."',";
              }elseif($count==2){
                $val=$element->find('a', 0)->innertext;
                $sql.="'".$val."',";
              }elseif($count<21){
                $patterns = array();
                $patterns[0] = '/([\x80-\xff]*)/i';
                $patterns[1] = '/[%*]/';
                $val=preg_replace($patterns,'',$element->innertext);
                $sql.="'".$val."',";
              }
          }
          $sql.="'".$satTime."','".date('Y-m-d H:i:s')."'),";    
        } 
        $sql = substr($sql,0,strlen($sql)-1);
        $sql = strip_tags($sql);
        return $sql;
    }

4、入库

         通过网上的查找学习,发现PHP操作mysql比起java来说更简单,几句代码搞定.

 function  save($sql){
        $con = mysql_connect("192.168.0.1","root","root");
        if (!$con){
           die('Could not connect: ' . mysql_error());
        }
        mysql_select_db("xx_data", $con);
        mysql_query("set names utf8");
        mysql_query($sql);
        mysql_close($con);
    }

5、批量爬取

     通过分析数据的查询条件,每次的查询都是根据url后缀的日期来查询当日交易数据,  http://XXX/indexs.html?startTime=2015-04-01&endTime=2015-04-01,因为只需要遍历历史日期来拼接URl就用来爬取历史的所有交易。

function execute(){
      $starttime="2014-04-15";
      $endtime="2015-04-15";
      for($start = strtotime($starttime); $start <= strtotime($endtime);$start += 86400){
         $date=date('Y-m-d',$start);
         $url="http://shuju.XX.com/indexs.html?startTime=".$date."&endTime=".$date;
         //第一步 抓取
         $dom=crawl($url);
         //第二步  解析
         $sql=analyze($dom,$date);
         //第三步 入库
         save($sql);
     }
      echo  "execute end";
    }
     
     execute();

6、设置定时服务

       设置定时任务来每天固定时间来抓取最新的数据,以免每次手工来执行,php也有自己的定时任务,但是网上看了下实现起来太复杂,因此利用linux的crontab来实现,linux下面输入crontab –e 进入编辑状态,添加一条定时利用curl来调用,至此爬虫功能完毕。

    30 09 * * * curl  http://192.168.0.1/crawl.php

 

此程序仅供学习交流,如果有需要完整源码的朋友可以单独联系我。

相关文章
|
8月前
全民k歌 and B站 爬取
全民k歌 and B站 爬取
107 0
|
2月前
|
前端开发 JavaScript 开发者
惊!这些前端技术竟然能让你的网站在社交媒体上疯传!
【10月更文挑战第30天】在这个信息爆炸的时代,社交媒体成为内容传播的重要渠道。本文介绍了前端开发者如何利用技术让网站内容在社交媒体上疯传,包括优化分享链接、创建引人注目的标题和描述、利用Open Graph和Twitter Cards、实现一键分享功能以及创造交互式内容。通过这些方法,提升用户分享意愿,使网站成为社交媒体上的热门话题。
53 2
|
存储 缓存 前端开发
2018年各大互联网前端面试题五(今日头条)
2018年各大互联网前端面试题五(今日头条)
80 0
|
移动开发 前端开发 搜索推荐
基于PHP开发的拍卖直播系统源码分享
东莞梦幻网络科技最新推出的拍卖直播系统源码,安卓端使用Java语言开发,苹果端则采用Objective-C开发,前端H5则采用了Vue.js开发,后台管理系统基于PHP的ThinkPHP框架开发。
|
云计算
【云计算的1024种玩法】为求职加分:为自己建个炫酷的简历网页
对于我们学生来说,个人简历是以后走向工作岗位的第一把钥匙,一份优秀而又美观新颖的简历不仅会让你与其他人与众不同脱颖而出,甚至还可以让面试官因为你的独特而额外加分呢。我相信大部分同学都对自己的简历有着十分的重视,我也是其中之一。
38647 0
|
Web App开发 数据采集 iOS开发
一入爬虫深似海,总结python爬虫学习笔记!
正文 〇. python 基础 先放上python 3 的官方文档:https://docs.python.org/3/ (看文档是个好习惯) 关于python 3 基础语法方面的东西,网上有很多,大家可以自行查找.
1998 0
|
新零售 搜索推荐 SEO
某知名电商网站营销总监教你如何做[伪原创]内容,搞网络推广的必看!!!
这是一篇关于伪原创写作的帖子,写这个并不是鼓励大家去抄改编,只是教大家如何利用别人的资源,以掘取到更多的资源。在网络中,最重要的部分无疑是内容,网站只是一种内容的体现。内容为王总是对的。但这不是说你能写出原创的内容,就能在网络上称王称霸了。
1239 0
|
安全 测试技术 开发工具
.NET开发不可错过的25款必备工具,徐汇区网站设计
【Csdn独家译稿 7月12日】这些年来,我们的.NET开发团队不断在更新升级开发工具,这也提供了一个机会,让我们能对.NET系列的开发工具做出不断的评估和规范。以下是我们总结出的一些.NET开发不可错过的高效工具。
1660 0
|
数据采集 前端开发 Python
Python爬虫入门教程 38-100 教育部高校名单数据爬虫 scrapy
爬前叨叨 今天要爬取一下正规大学名单,这些名单是教育部公布具有招生资格的高校名单,除了这些学校以外,其他招生的单位,其所招学生的学籍、发放的毕业证书国家均不予承认,也就是俗称的野鸡大学! 网址是 https://daxue.
1255 0