ASP.NET视频采集站核心技术分析(附送对付搜索引擎蜘蛛的贱招)

简介:

很多站长都是从做“垃圾站”起家了。什么是“垃圾站”?说白了就是采集别人的数据存入自己的数据库,加以聚合、整理、归类,或增加自己的一些小修改,然后自己做一个节目,成为自己的网站。一直以来最流行的“垃圾站”多是文章内的,因为文章内比较容易采集,而且数据量大,有利于搜索引擎。前两三年开始有人做视频采集站,甚至还有了一些很完善的视频采集系统(如马克思CMS,非常专业),也让一些站长发了一笔横财。可是随着用马克思的人越来越多,越晚开始做的站就越没搞头了,呵呵。解决方法其实也简单,就是趁现在视频采集站还不够泛滥,自己写视频采集站,不用别人做的通用系统,只需要稍微做一点SEO,搜索引擎就会照顾你咯~ o(∩_∩)o。

     下面以采集土豆为例,谈谈如何以最简单粗暴的方式采集视频。

      成功案例:http://www.kangxiyoulaile.com/( 康熙又来了)

     自从Youtube出来之后,视频采集站就根本不需要采集视频了——它只需要采集Flash播放器参数即可。

     比如以下这个视频,我们只需要采集到它的参数“K1hf2uocE1Y”就可以了。当然,为了显得更专业,我们还要采集视频的相关信息,比如视频名字、视频时长、观看次数、网友评论、内容简介等等,这都是举一反三的事了,^_^,通通都存入我们自己的数据库中!

     既然是做垃圾站,那么一定要有自己的分类。我们就把这作为起点吧!用土豆搜索功能!

搜索“康熙来了”+日期,就可以得到某日期内的“康熙来了”节目,如“康熙来了20090720”,我们就来到了http://so.tudou.com/isearch.do?kw=%BF%B5%CE%F5%C0%B4%C1%CB20090720

      明白了吧?我们定期让程序打开http://so.tudou.com/isearch.do?kw=%BF%B5%CE%F5%C0%B4%C1%CB + ‘当前日期’ 就可以了达到自动采集的效果了。

 

      如何用ASP.NET获取HTML呢?这是一个没有技术含量的问题。我们直接给代码。

/// <summary>
/// 获取网页内容
/// </summary>
/// <param name="url"></param>
/// <returns></returns>
public static string GetHtml(string url)
{
string result = "";
try
{
WebRequest request = WebRequest.Create(url);
WebResponse response = request.GetResponse();
StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding("GBK"));
result = reader.ReadToEnd();
}
catch
{
result = "";
}
return result;
}

      接下来,我们分析得到的HTML。现在这个年代,大家都采用div+css,这也让我们的采集变得很容易。嘿嘿,仔细想想,土豆在采用div+css来做界面的时候,肯定会为每一个“节目”单独做一个css的class吧? 嗯,这就对了!分析源文件后,果然,我们发现在搜索节目列表中,每一个节目都采用了“pack pack_video_card”这个css的class。

     我们应该怎么做呢? 将整个源文件作为一个字符串,然后以“<div class="pack pack_video_card">” 作为分隔符,将字符串切割到一个字符串数组中。这样,在得到的字符串数组中,除了第一个字符串不是视频以外,其他的每一个字符串都包含我们需要的视频信息!

     代码如下:

string[] list=html.Split(new string[]{"<div class=\"pack pack_video_card\">"},StringSplitOptions.RemoveEmptyEntries);

      加一些简单的控制条件,然后从每一个字符串片段中提取信息放入类里。

      如采集视频缩略图:

           foreach (string s in list)
{
               begin = s.IndexOf("src")+5;
end = s.IndexOf("</a>")-4;
v.ImgUrl = s.Substring(begin, end - begin + 1);

                         …………

                         }

        

      有了这样的基础,就可以进一步封装成一些函数,便于快速采集了。如:

/// <summary>
/// 获取两个日期段之间的所有视频实体
/// </summary>
/// <param name="beginDate"></param>
/// <param name="endDate"></param>
/// <param name="everydayMax">每天的最大视频数</param>
/// <returns></returns>
public static List<Video> GetVideoByDate(DateTime beginDate, DateTime endDate,int everydayMax)
{
ByDateVideoList = new List<Video>();
DateTime dt = beginDate;
    while (dt <= endDate)
{
ByDateVideoList.AddRange(GetTopVideo(GetTudouString(dt.ToString("yyyyMMdd")),everydayMax));
dt = dt.AddDays(1);
}
return ByDateVideoList;
}

       

       还有一个小细节。土豆网采用的是GBK编码,我们如果也采用GBK编码,搜索引擎就会发现重复数据太大,所以我们必须要修改编码。假设我们的网站使用UTF8编码,如何将采集到的GBK编码数据转换成UTF8进行展示呢? 参考以下函数:

     

public static string ConvertEncoding(Encoding oldEncoding, Encoding newEncoding, string oldString)
{
byte[] oldBytes = oldEncoding.GetBytes(oldString);
byte[] newsBytes = Encoding.Convert(oldEncoding, newEncoding, oldBytes);
char[] newChars = new char[newEncoding.GetCharCount(newsBytes, 0, newsBytes.Length)];
newEncoding.GetChars(newsBytes, 0, newsBytes.Length, newChars, 0);
string newString = new string(newChars);
return newString;
}
     最后,很重要了!做一个简单的URL Rewrite,方便搜索引擎搜录。按照Google排PR的原则,离根目录越近、地址越短、get参数越少的地址更容易收录并靠前。
我们可以这样来做,在Global.asax.cs里这样写
  protected void Application_BeginRequest(object sender, EventArgs e)
        {
            robot();

            string Id = Request.Path.Substring(Request.Path.LastIndexOf('/') + 1);
            if (Id.Length==16)
            {
                Server.Transfer("~/V.aspx?Id=" + Id.Substring(0,11));
            }
        }
     这样,原本是 http://www.kangxiyoulaile.com/v.aspx?id=3IPFQqeKtKc 的地址就可以通过
http://www.kangxiyoulaile.com/3IPFQqeKtKc.aspx  来访问。把网站上所有带参数形式的内部链接都改成后者,就可以瞒过搜索引擎了。
    我们还可以贱一点,做一些针对搜索引擎的优化。例如以下代码是判断搜索引擎蜘蛛访问的。我们大可以在判断到访问者是搜索引擎蜘蛛之后,对页面数据做一些更改。。嘿嘿。。由于这招太贱了,以下不演示具体细节。稍微改改下面的代码你就可以……
 

  /// <summary>
        /// 判断蜘蛛是否来过
        /// </summary>
        /// <returns></returns>
        protected bool robot()
        {
            bool brtn = false;
            string king_robots = "mailto:Baiduspider+@Baidu%7CGooglebot@Google%7Cia_archiver@Alexa%7CIAArchiver@Alexa%7CASPSeek@ASPSeek%7CYahooSeeker@Yahoo%7Csohu-search@Sohu%7Chelp.yahoo.com/help/us/ysearch/slurp@Yahoo%7Csohu-search@SOHU%7CMSNBOT@MSN";
            string ls_spr;

            ls_spr = Request.ServerVariables["http_user_agent"].ToString();
            char[] delimiterChars = { '|' };
            char[] x = { '@' };
            string[] I1 = king_robots.Split(delimiterChars);

            for (int i = 0; i < I1.Length; i++)
            {
                string[] spider = I1[i].Split(x);
                if (ls_spr.IndexOf(spider[0].ToString()) > -1)
                {
                    brtn = true;
                    logrobots(spider[1].ToString()+"|"+Request.Path+"|");
                    break;
                }
            }
            return brtn;
        }

好了!关键的技术都分析完了,我们点到为止吧,靠大家自己了!o(∩_∩)o



本文转自 流牛木马 博客园博客,原文链接:http://www.cnblogs.com/azure/archive/2009/07/30/KangXiLaiLe_CAIJI_TUDOU_KANGXIYOULAILE_DEMO.html,如需转载请自行联系原作者

相关文章
|
28天前
|
自然语言处理 物联网 图形学
.NET 技术凭借其独特的优势和特性,为开发者们提供了一种高效、可靠且富有创造力的开发体验
本文深入探讨了.NET技术的独特优势及其在多个领域的应用,包括企业级应用、Web应用、桌面应用、移动应用和游戏开发。通过强大的工具集、高效的代码管理、跨平台支持及稳定的性能,.NET为开发者提供了高效、可靠的开发体验,并面对技术更新和竞争压力,不断创新发展。
45 7
|
27天前
|
开发框架 安全 .NET
在数字化时代,.NET 技术凭借跨平台兼容性、丰富的开发工具和框架、高效的性能及强大的安全稳定性,成为软件开发的重要支柱
在数字化时代,.NET 技术凭借跨平台兼容性、丰富的开发工具和框架、高效的性能及强大的安全稳定性,成为软件开发的重要支柱。它不仅加速了应用开发进程,提升了开发质量和可靠性,还促进了创新和业务发展,培养了专业人才和技术社区,为软件开发和数字化转型做出了重要贡献。
24 5
|
27天前
|
传感器 人工智能 供应链
.NET开发技术在数字化时代的创新作用,从高效的开发环境、强大的性能表现、丰富的库和框架资源等方面揭示了其关键优势。
本文深入探讨了.NET开发技术在数字化时代的创新作用,从高效的开发环境、强大的性能表现、丰富的库和框架资源等方面揭示了其关键优势。通过企业级应用、Web应用及移动应用的创新案例,展示了.NET在各领域的广泛应用和巨大潜力。展望未来,.NET将与新兴技术深度融合,拓展跨平台开发,推动云原生应用发展,持续创新。
28 4
|
27天前
|
开发框架 .NET C#
.NET 技术凭借高效开发环境、强大框架支持及跨平台特性,在软件开发中占据重要地位
.NET 技术凭借高效开发环境、强大框架支持及跨平台特性,在软件开发中占据重要地位。从企业应用到电子商务,再到移动开发,.NET 均展现出卓越性能,助力开发者提升效率与项目质量,推动行业持续发展。
27 4
|
28天前
|
机器学习/深度学习 人工智能 物联网
.NET 技术:引领未来开发潮流
.NET 技术以其跨平台兼容性、高效的开发体验、强大的性能表现和安全可靠的架构,成为引领未来开发潮流的重要力量。本文深入探讨了 .NET 的核心优势与特点,及其在企业级应用、移动开发、云计算、人工智能等领域的广泛应用,展示了其卓越的应用价值和未来发展前景。
58 5
|
27天前
|
机器学习/深度学习 人工智能 Cloud Native
在数字化时代,.NET 技术凭借其跨平台兼容性、丰富的类库和工具集以及卓越的性能与效率,成为软件开发的重要平台
在数字化时代,.NET 技术凭借其跨平台兼容性、丰富的类库和工具集以及卓越的性能与效率,成为软件开发的重要平台。本文深入解析 .NET 的核心优势,探讨其在企业级应用、Web 开发及移动应用等领域的应用案例,并展望未来在人工智能、云原生等方面的发展趋势。
33 3
|
27天前
|
敏捷开发 缓存 中间件
.NET技术的高效开发模式,涵盖面向对象编程、良好架构设计及高效代码编写与管理三大关键要素
本文深入探讨了.NET技术的高效开发模式,涵盖面向对象编程、良好架构设计及高效代码编写与管理三大关键要素,并通过企业级应用和Web应用开发的实践案例,展示了如何在实际项目中应用这些模式,旨在为开发者提供有益的参考和指导。
24 3
|
27天前
|
开发框架 安全 Java
.NET技术的独特魅力与优势,涵盖高效的开发体验、强大的性能表现、高度的可扩展性及丰富的生态系统等方面,展示了其在软件开发领域的核心竞争力
本文深入探讨了.NET技术的独特魅力与优势,涵盖高效的开发体验、强大的性能表现、高度的可扩展性及丰富的生态系统等方面,展示了其在软件开发领域的核心竞争力。.NET不仅支持跨平台开发,具备出色的安全性和稳定性,还能与多种技术无缝集成,为企业级应用提供全面支持。
29 3
|
1月前
|
人工智能 开发框架 前端开发
C#/.NET/.NET Core技术前沿周刊 | 第 12 期(2024年11.01-11.10)
C#/.NET/.NET Core技术前沿周刊 | 第 12 期(2024年11.01-11.10)
|
1月前
|
人工智能 开发框架 安全
C#/.NET/.NET Core技术前沿周刊 | 第 13 期(2024年11.11-11.17)
C#/.NET/.NET Core技术前沿周刊 | 第 13 期(2024年11.11-11.17)