玩玩小爬虫——试搭小架构-阿里云开发者社区

玩玩小爬虫——试搭小架构

2016-04-13 1538

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云数据库 MongoDB，独享型 2核8GB

简介：

第一篇我们做了一个简单的页面广度优先来抓取url，很显然缺点有很多，第一：数据结构都是基于内存的，第二：单线程抓取

速度太慢，在实际开发中肯定不会这么做的，起码得要有序列化到硬盘的机制，对于整个爬虫架构来说，构建好爬虫队列相当重要。

先上一幅我自己构思的架构图，不是很完善，算是一个雏形吧。

一：TODO队列和Visited集合

在众多的nosql数据库中，mongodb还是很不错的，这里也就选择它了，做集群，做分片轻而易举。

二：中央处理器

群架，斗殴都是有带头的，那中央处理器就可以干这样的事情，它的任务很简单，

第一：启动时，根据我们定义好的规则将种子页面分发到各个执行服务器。

第二：定时轮询”TODO——MongoDB“，将读取的新Url根据规则分发到对应的执行服务器中。

三：分发服务器

中央处理器将url分发到了执行服务器的内存中，分发服务器可以开启10个线程依次读取队列来获取url，然后解析url，

第一：如果url是外链，直接剔除。

第二：如果url不是本机负责抓取的，就放到”TODO——MongoDB“中。

第三：如果是本机负责的，将新提取的url放入本机内存队列中。

四：代码实现

首先下载mongodb http://www.mongodb.org/downloads，简单起见就在一个database里面建两个collection。迫不及

待了，我要爬一个美女网站，http://www.800meinv.com ，申明一下，并非推广网站，看下”中央处理器“的实现。

namespace CrawlerCPU
{
    /* 根据规格，一个服务爬取3个导航页（由 中央处理器 统一管理）
     * 第一个服务：日韩时装，港台时装
     * 第二个服务：，欧美时装，明星穿衣，显瘦搭配
     * 第三个服务：少女搭配，职场搭配，裙装搭配
     */
    public class Program
    {
        static Dictionary<string, string> dicMapping = new Dictionary<string, string>();

        static void Main(string[] args)
        {
            //初始Url的分发
            foreach (var key in ConfigurationManager.AppSettings)
            {
                var factory = new ChannelFactory<ICrawlerService>(new NetTcpBinding(), new EndpointAddress(key.ToString()))
                                 .CreateChannel();

                var urls = ConfigurationManager.AppSettings[key.ToString()]
                                               .Split(new char[] { ';' }, StringSplitOptions.RemoveEmptyEntries)
                                               .ToList();

                factory.AddRange(urls);

                //将网址和“WCF分发地址“建立Mapping映射
                foreach (var item in urls)
                    dicMapping.Add(item, key.ToString());
            }

            Console.WriteLine("爬虫 中央处理器开启，正在监视TODO列表！");

            //开启定时监视MongoDB
            Timer timer = new Timer();

            timer.Interval = 1000 * 10; //10s轮询一次
            timer.Elapsed += new ElapsedEventHandler(timer_Elapsed);
            timer.Start();

            Console.Read();
        }

        static void timer_Elapsed(object sender, ElapsedEventArgs e)
        {
            //获取mongodb里面的数据
            MongodbHelper<Message> mongodb = new MongodbHelper<Message>("todo");

            //根据url的类型分发到相应的服务器中去处理
            var urls = mongodb.List(100);

            if (urls == null || urls.Count == 0)
                return;

            foreach (var item in dicMapping.Keys)
            {
                foreach (var url in urls)
                {
                    //寻找正确的 wcf 分发地址
                    if (url.Url.StartsWith(item))
                    {
                        var factory = new ChannelFactory<ICrawlerService>(new NetTcpBinding(),
                                      new EndpointAddress(dicMapping[item]))
                                      .CreateChannel();

                        //向正确的地方分发地址
                        factory.Add(url.Url);

                        break;
                    }
                }
            }

            //删除mongodb中的TODO表中指定数据
            mongodb.Remove(urls);
        }
    }
}

接下来，我们开启WCF服务，当然我们可以做10份，20份的copy，核心代码如下：

/// <summary>
        /// 开始执行任务
        /// </summary>
        public static void Start()
        {
            while (true)
            {
                //监视工作线程，如果某个线程已经跑完数据，则重新分配任务给该线程
                for (int j = 0; j < 10; j++)
                {
                    if (tasks[j] == null || tasks[j].IsCompleted || tasks[j].IsCanceled || tasks[j].IsFaulted)
                    {
                        //如果队列还有数据
                        if (todoQueue.Count > 0)
                        {
                            string currentUrl = string.Empty;

                            todoQueue.TryDequeue(out currentUrl);

                            Console.WriteLine("当前队列的个数为:{0}", todoQueue.Count);

                            tasks[j] = Task.Factory.StartNew((obj) =>
                            {
                                DownLoad(obj.ToString());

                            }, currentUrl);
                        }
                    }
                }
            }
        }

然后我们把”分发服务器“和”中央处理器“开启：

好了，稍等会，我们就会看到，数据已经哗啦啦的往mongodb里面跑了。

五：不足点

有的时候会出现某些机器非常free，而某些机器非常busy，这时就要实现双工通讯了，当执行服务器的内存队列到达

一个量级的时候就应该通知中央处理器，要么减缓对该执行服务器的任务分发，要么将任务分给其他的执行服务器。

最后是工程代码，有什么好的建议可以提出来，大家可以一起研究研究：ConsoleApplication1.rar

玩玩小爬虫——试搭小架构

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

玩玩小爬虫——试搭小架构

热门文章

最新文章

相关课程

相关电子书

相关实验场景