我来做百科(第二十天) B

简介:
tag系统完成,再修复一些添加词条,修改内容的问题,就可以做数据采集了。
数据采集网上的资料很多,再结合自己的需要,写了一下代码:
protected   void  Button1_Click( object  sender, EventArgs e)
    
{
        Lemma lemma 
= new Lemma();

        Response.Write(
"采集结果:<br/><br/>");
        Response.Flush();

        
for (int i = 0; i <= 3; i++)
        
{

            
string sUrl = strurl + (i * 10).ToString();

            Response.Write(
"采集url:" + sUrl + "<br/>");
            Response.Flush();

            
foreach (string temp in GetHtmls(@"/view/\d+\.htm", GetUrlHtml(sUrl)))
            
{
                
string url = u + temp;

                
string sHtml = GetUrlHtml(url);

                
string sLemma = GetLemma(sHtml);
                
string sDetail = GetDetail(sHtml);
                
string sTag = GetTag(sHtml);

                
int idLemma = lemma.AddLemma(sLemma, sDetail, "cloud"0string.Empty, url, sTag);

                StringBuilder sb 
= new StringBuilder();
                sb.Append(
"id:").Append(idLemma).Append("<br/> 词条:").Append(sLemma).Append("<br/>");
                sb.Append(
"Tag:").Append(sTag).Append("<br/> 连接:<a href='").Append(url).Append("'' target='_blank'>").Append(url).Append("</a><br/>");

                
if (idLemma > 0)
                
{
                    sb.Append(
"成功!").Append(" <a href='../index/show.aspx?id=").Append(idLemma).Append("' target='_blank'>查看</a>"); ;
                }

                
else
                
{
                    sb.Append(
"失败!错误代码:").Append(idLemma);
                }


                sb.Append(
"<br/><br/>");

                Response.Write(sb.ToString());
                Response.Flush();
            }

        }

    }


    
public   static   string  GetUrlHtml( string  url)
    
{
        
string output = "";
        Encoding encode 
= Encoding.Default;
        WebClient webclient 
= new WebClient();
        
try
        
{
            webclient.Headers.Add(
"Referer", url);
            
byte[] buff = webclient.DownloadData(url);
            output 
= encode.GetString(buff);
        }

        
catch
        
{
        }

        
return output;
    }


    
public   static   string  GetHtml( string  begin,  string  end,  string  content)
    
{
        
return GetHtml(begin + "((.*?\\n?)*?)" + end, content);
    }


    
public   static   string  GetHtml( string  pattern,  string  content)
    
{
        Regex reg 
= new Regex(pattern);
        Match match 
= reg.Match(content);

        
if (match != Match.Empty)
        
{
            
//content = content.Replace(match.Groups[1].ToString(), string.Empty);
            return match.Groups[1].ToString();
        }

        
else
        
{
            
return string.Empty;
        }

    }


    
public   static  StringCollection GetHtmls( string  begin,  string  end,  string  content)
    
{
        
return GetHtmls(begin + "((.*?\\n?)*?)" + end, content);
    }


    
public   static  StringCollection GetHtmls( string  pattern,  string  content)
    
{
        Regex reg 
= new Regex(pattern);
        MatchCollection matches 
= reg.Matches(content);
        StringCollection list 
= new StringCollection();
        
foreach (Match match in matches)
        
{
            
if (match != Match.Empty)
            
{
                list.Add(match.Value);
            }

        }

        
return list;
    }


    
/// <summary>
    
/// 正则替换
    
/// </summary>

     public   static   string  ReplaceText( string  input,  string  pattern,  string  replacement)
    
{
        
if (string.IsNullOrEmpty(input)) return string.Empty;
        Regex rgx 
= new Regex(pattern, RegexOptions.IgnoreCase | RegexOptions.Multiline);
        
return rgx.Replace(input, replacement);
    }


    
/// <summary>
    
/// 去标签 包括内容
    
/// </summary>

     public   static   string  ClearWholeTag( string  input,  string  tag)
    
{
        
return ReplaceText(input, @"<" + tag + "[^>]*?>.*?</" + tag + ">""");
    }


    
/// <summary>
    
/// 去标签 不包括内容
    
/// </summary>

     public   static   string  ClearTag( string  input,  string  tag)
    
{
        
return ReplaceText(input, @"<\/?" + tag + "[^>]*>""");
    }


    
/// <summary>
    
/// 去全部标签
    
/// </summary>

     public   static   string  ClearAllTag( string  input)
    
{
        
return ReplaceText(input, @"<\/?[a-zA-Z]+[^>]*>""");
    }

数据采集就是爽,先来三百多条吧,哈哈。

本文转自博客园cloudgamer的博客,原文链接:我来做百科(第二十天) B,如需转载请自行联系原博主。

相关文章
|
7月前
|
弹性计算 NoSQL 关系型数据库
晕~阿里云降价了!没买的来看看吧!
晕~阿里云降价了!还没买的来看看吧!2024年最新阿里云降价,立即生效!百款产品直降,平均降幅20%,阿里云希望通过此次大规模降价,让更多企业和开发者用上先进的公共云服务,加速云计算在中国各行各业的普及和发展。这次降价包括云服务器ECS、对象存储OSS、云数据库都降价了,真降价,直降价:百款产品直降,平均降幅20%,阿里云百科分享阿里云2024年降价信息汇总表
|
7月前
|
JavaScript 前端开发 测试技术
"0元搞定!手把手教你建网站,简单得就像泡桶方便面一样,上线个人网站轻而易举!"
没有服务器和公网IP,想要其他人访问自己做好的网站,该怎么办?今天教大家使用这款简单免费的内网穿透小工具——ngrok,有了它轻松让别人访问你的项目~
|
存储 人工智能 NoSQL
阿里云服务器主要用途是干嘛的?对于大学生,可以用它做啥事?
阿里云服务器主要用途是干嘛的?对于大学生,可以用它做啥事?阿里云服务器提供了完善的云计算服务和开发环境,对于大学生来说是一个非常好的学习和实践平台。学习云计算可以提高大学生的实践能力和竞争力,阿里云服务器可以提供实际的实践环境,让大学生可以更加深入地了解云计算的原理和技术,并能够在此基础上进行开发和实践。
|
Linux Python
本人是一名就读软件技术大三的一名学生,因为最近疫情原因学校开始封闭式管理,开始网上教学模式,老师们在我上给我们授课,应为疫情原因课余时间也只能在宿舍呆着,我们老师给我们推荐了阿里云的飞天加速计划,可以在阿里云领取一份学生专享服务器,正好我们最近课程需要所以通过老师知道了阿里云服务器,也领取到了14天使用权限。我觉得要好好趁着最近课余时间充足学习一下云服务器的功能与作用
本人是一名就读软件技术大三的一名学生,因为最近疫情原因学校开始封闭式管理,开始网上教学模式,老师们在我上给我们授课,应为疫情原因课余时间也只能在宿舍呆着,我们老师给我们推荐了阿里云的飞天加速计划,可以在阿里云领取一份学生专享服务器,正好我们最近课程需要所以通过老师知道了阿里云服务器,也领取到了14天使用权限。我觉得要好好趁着最近课余时间充足学习一下云服务器的功能与作用
|
数据安全/隐私保护
|
前端开发 JavaScript