读取chinanews新闻列表及内容

简介:

复制代码
string[] urilist ={ " http://www.chinanews.com/rss/scroll-news.xml%22,//热点
                            " http://www.chinanews.com/rss/finance.xml%22,//财经
                            " http://www.chinanews.com/rss/sports.xml%22,//体育
                            " http://www.chinanews.com/rss/ent.xml%22,//娱乐
                            " http://www.chinanews.com/rss/health.xml%22,//健康
                            " http://www.chinanews.com/rss/auto.xml%22,//汽车
                            " http://www.chinanews.com/rss/society.xml%22,//社会
                     };
复制代码
复制代码
  private  void ReadNews( string uri,  ushort type)
        {
             try
            {
                 string xml = NetHelper.ReadHtml(uri, Encoding.GetEncoding( " gb2312 "));
                XmlDocument doc =  new XmlDocument();
                doc.LoadXml(xml);
                Dictionary< ushort, NewsEntity> newslist =  new Dictionary< ushort, NewsEntity>();
                XmlNodeList list = doc.SelectNodes( " rss/channel/item ");
                 for ( int i =  0; i < list.Count; i++)
                {
                     string title = System.Helpers.XmlHelper.GetChileNode(list[i],  " title ").InnerText.Replace( " (图) """).Replace( " (组图) """).Replace( " (图) """);
                     string link = System.Helpers.XmlHelper.GetChileNode(list[i],  " link ").InnerText;
                     string result =  "";
                     int end =  0;
                     string html = NetHelper.ReadHtml(link, Encoding.Default);
                     int start = html.IndexOf( " <div class=left_zw> ");
                     if (start >  0)
                        end = html.IndexOf( " <!--正文--> ", start);
                    result = html.Substring(start, end - start);

                     int _end =  0;
                     int _start = result.IndexOf( @" <div id=""function_code_page""> ");
                     if (_start >  0)
                        _end = result.IndexOf( " </div> ", _start);
                     string pageStr = result.Substring(_start, _end - _start);

                    result = result.Replace(pageStr,  "");
                    result = Regex.Replace(result,  " \r """, RegexOptions.IgnoreCase);
                    result = Regex.Replace(result,  " \n """, RegexOptions.IgnoreCase);
                    result = Regex.Replace(result,  " <.*?> """, RegexOptions.IgnoreCase);                    
                    result = Regex.Replace(result,  @" &(.{2,6}); """, RegexOptions.IgnoreCase);  
                    result = Regex.Replace(result,  " \r{2,} "" \r ", RegexOptions.IgnoreCase);
                    result = Regex.Replace(result,  " \t{2,} "" \t ", RegexOptions.IgnoreCase);
                    result = Regex.Replace(result,  @" \s{2,} """, RegexOptions.IgnoreCase);
                    Console.WriteLine(result);
                    result = result.Trim( ' \r '' \n ').TrimEnd();
                     if (! string.IsNullOrEmpty(title) && ! string.IsNullOrEmpty(result))
                    {
                        
                    }
                }
                         
        }
             catch
            {
                
            }

        }



本文转自94cool博客园博客,原文链接:http://www.cnblogs.com/94cool/archive/2011/10/20/2218576.html,如需转载请自行联系原作者
相关文章
|
7月前
|
存储 数据可视化 数据挖掘
数据的处理包括哪些内容
数据的处理包括数据的收集、数据的分析和数据的可视化。收集和存储是数据处理的基础,企业内部收集来的各种原始数据都要经过这些处理才能为企业内部决策服务。在分析和可视化阶段,则是对各种信息进行加工整理,用来指导决策,为企业创造更大价值。
|
7月前
|
JSON 前端开发 Java
基于Java爬取微博数据(五) 补充微博正文列表图片 or 视频 内容
【5月更文挑战第15天】基于Java爬取微博数据(五) 补充微博正文列表图片 or 视频 内容
|
Kubernetes Cloud Native 前端开发
分权分域有啥内容?
分权分域有啥内容?
148 0
|
存储 C语言 C++
C++内容总结
C++内容总结
154 0
|
小程序 API 数据库
小程序中读取腾讯文档的表格数据
小程序中读取腾讯文档的表格数据
小程序中读取腾讯文档的表格数据
|
开发工具 git
关于https://github.blog/2020-12-15-token-authentication-requirements-for-git-operations/的部分内容
关于https://github.blog/2020-12-15-token-authentication-requirements-for-git-operations/的部分内容
83 0
|
移动开发 Python
批量查找文本中的内容
@echo off findstr /ims "查找内容" *.*>list.txtps:把含有相关文字内容的文档输出到list.txt文本中,适用于能用notepad打开的各种文档.   是一个修改升级的版本,原程序是这个《批量查找替换文本文件内容》。
1061 0
html+css实战109-新闻列表-内容
html+css实战109-新闻列表-内容
112 0
html+css实战109-新闻列表-内容
html+css实战108-新闻列表-标题
html+css实战108-新闻列表-标题
247 0
html+css实战108-新闻列表-标题
|
SQL 监控 Oracle
Kettle发送邮箱并在正文中以表格形式展示内容[基础版]
Kettle发送邮箱并在正文中以表格形式展示内容[基础版]