宝哥软件园

Asp使用微软XMLHTTP .抓取网页内容并过滤需要的

编辑:宝哥软件园 来源:互联网 时间:2021-11-08

山杨使用微软XMLHTTP .抓取网页内容(没用乱码),并过滤需要的内容示例源码:复制代码代码如下:% Dim xmlull,http,strHTML,strBody xmlUrl=Request .查询字符串(' u') REM异步读取可扩展置标语言源设置http=服务器CreateObject('微软. XMLHTTP') http .打开POST ',xmlUrl,false http。setrequestheader ' User-Agent ',' Mozilla/4.0 ' http。setrequestheader ' Connection ',' Keep-Alive ' http。setrequestheader ' Content-Type ',' application/x-www-form-URL编码' http .Send() strHTML=BytesToBstr(http .ResponseBody)设置http=nothing REM抓取主要内容strBody=GetBody(strHTML,' Div id=' Div _ new content c ' ' class=' CNT ' ','/div ',0,0) strBody=Replace(strBody,'(本文首发于,' ')strBody=替换(strBody,)财富动力网/a,转载请注明出处)',' ')strBody=Replace(strBody,'本文首发于,转载请注明出处)',' ')strBody=Replace(strBody,'财富动力网/a:http://www.927953.com ',' ')strBody=Replace(strBody,'本文首发于,'')回应写删除获取对应网址响应的超文本标记语言函数BytesToBstr(body) dim objstream设置服务器.CreateObject(' adodb。流)obj流.Type=1 objstream .模式=3 objstream .打开objstream .写身体流.位置=0 objstream .Type=2 objstream .Charset='UTF-8 ' '转换原来默认的UTF-8编码转换成GB2312编码,否则直接用XMLHTTP调用有中文字符的网页得到的将是乱码BytesToBstr=objstream .ReadText objstream .关闭集合对象流=无结束函数使用正则表达式,抓取之内标记的内容函数GetBody(常量、起始字符串、OverStr、IncluL、IncluR)如果ConStr=' $ False $ '或const='或为空(常量)=真或StartStr='或为空(开始字符串)=真或OverStr='或为全(过冲)=真那么GetBody='$False$ '退出函数目标如果调光控制温度调光启动,过恒定温度=Lcase(恒定)Start str=Lcase(Start str)OverStr=Lcase(OverStr)Start=InStrB(1,恒定温度过滤a超链接函数RemoveHref(HTMLstr)设置ra=新正则表达式ra .忽略=真ra .全局=真ra .模式='a[^](。)/a“拆卸”href=更换(ra。替换(HTMl字符串,' $1 '),' href=' http://www。927953 .com ' ',' ')END函数%效果图如下

更多资讯
游戏推荐
更多+