当cheerio DOM解析和解析时,
1.如果。使用text()方法,一般不会有html实体编码的问题。
2.如果。使用html()方法,它会出现在很多情况下(其中大部分是非英语)。这时,它可能需要被逃脱。
类似于这些,因为需要数据存储,都需要转换
副本代码如下: .
大部分都是(x)?的格式
所以我使用常规转换
Var body=.//这是请求后得到的返回数据,或者是请求后得到的数据。html()//一般可以先转换成标准的unicode格式(必要时添加:当返回的数据呈现过多的\u等)。身体=逃避(身体。替换(/ u/g,' %)//再次转义实体符号。//如果有X,表示十六进制,$1表示匹配是否有X,$2表示第二个括号捕获的内容。将$2转换为body=body.replace(/(x))对应的二进制表示形式。( w);/g,函数($,$1,$ 2){ return string . fromcharcode(parsent($ 2,$1?16:10));});好吧~
当然,网上也有很多转换版本,应用就好
后记:
在使用爬虫抓取网页数据时,经常会用到cheerio模块,它和jq一样方便快捷
(但是,有些函数不受支持或以某种形式更改,例如jquery('。my class’)。jq的prop ('outer html '),cheerio相当于jquery.html('。my class ')http://www.mgenware.com/blog/? p=2514)