用asp.net实现远程获取其他网站页面指定内容[转]

2024-03-21 17:48•数据库•阅读 518

远程获取网页内容.经过一定的处理和灵活应用,可以开发成成体系网站内容采集系统.通常也叫做"新闻小偷"一般来说.做内容采集分为如下几个大致的步骤:

　　1.远程获取页面的全部Html源文本.

　　2.通过过滤处理,分析有效内容文本.(通常用正则表达式来截取有效数据)

　　3.将格式有效的数据,根据自己的数据库结构分标题,内容....一些其他属性保存到自己的本地数据库.

　　ok整个采集过程如此简单.原理也不难.下面我们看看实现的具体基础代码!

　　首先我们来写一个获取远程Html源的方法.

　　public string GetHttpData(string Url)

　　 {

　　 string sException=null;

　　 string sRslt=null;

　　 WebResponse oWebRps=null;

　　 WebRequest oWebRqst=WebRequest.Create(Url);

　　 oWebRqst.Timeout=50000;

　　 try

　　 {

　　 oWebRps=oWebRqst.GetResponse();

　　 }

　　 catch(WebException e)

　　 {

　　 sException=e.Message.ToString();

　　 Response.Write(sException);

　　 }

　　 catch(Exception e)

　　 {

　　 sException=e.ToString();

　　 Response.Write(sException);

　　 }

　　 finally

　　 {

　　 if(oWebRps!=null)

　　 {

　　 StreamReader oStreamRd=new StreamReader(oWebRps.GetResponseStream(),Encoding.GetEncoding("GB2312"));

　　 sRslt=oStreamRd.ReadToEnd();

　　 oStreamRd.Close();

　　 oWebRps.Close();

　　 }

　　 return sRslt;

　　 }

　　以上代码为获取远程Html源的一个方法.参数仅一个.就是你要获取的目标页面的完整Url路径.返回一个string类型的Html源数据.

　　下面我们再来继续第二个步骤.分析自己需要的有效数据!这里我假设某个页面来做分析...

　　public string [] GetData(string Html)

　　{

　　String [ ] rS=new String[2];

　　string s = Html;

　　 s=Regex.Replace(s,"\s{3,}","");

　　 s=s.Replace("\r","");

　　 s=s.Replace("\n","");

　　 string Pat="<td align=\"center\" class=\"24p\"><B>(.*)</B></td></tr><tr>.*(<table width=\"95%\" 0\" cellspacing=\"0\" cellpadding=\"10\">.*</table>)<table width=\"98%\" 0\" cellspacing=\"0\" cellpadding=\"0\">(.*)<td align=center class="l6h">";

　　 Regex Re = new Regex(Pat);

　　 Match Ma= Re.Match(s);

　　 if(Ma.Success)

　　 {

　　 rS[0]=Ma.Groups[1].ToString();

　　 rS[1]=Ma.Groups[2].ToString();

　　 pgStr=Ma.Groups[3].ToString();

　　 }

　　return rS;

　　}

　　这个方法也很简单.主要功能及时截取获取过来的Html源.取得自己需要的数据...

　　参数是一个string类型的.将我们获取的html源通过参数传递过来.

　　在方法类通过一个正则的模式匹配找到标题和内容的位置并取出来.存入一个string的数组给方法返回...以后的事我就不多说了..你只要把你取出来的数据存到你数据库对应的字段就ok了!

上一篇 »PHP写的爬虫，爬指定网站页面上的各种图片
下一篇 »asp.net 2.0中动态修改页面标题

用asp.net实现远程获取其他网站页面指定内容[转]

相关推荐

ASP.NET MVC 后台获取前台页面传值的几种方法？

利用缓存提高ASP.NET网站速度

ASP.NET MVC中Action实现页面跳转

ASP.NET速度优化

用ASP.NET实现下载远程图片保存到本地的方法 保存抓取远程图片的方法

asp与asp.net共用session

asp.net 获取网站根目录

Asp.net模板生成静态化Html首页

用ASP.NET实现下载远程图片保存到本地的方法保存抓取远程图片的方法