宝哥软件园

详细解释java crawler jsoup解析多空间类数据

编辑:宝哥软件园 来源:互联网 时间:2021-08-28

使用jsoup抓取其他网站的数据时,发现class是一个带有空格的多选。如果医生。直接使用getelementsbyclass(" value of class "),无法通过此方法获得所需的数据。

1.问题描述:

使用jsoup抓取其他网站的数据时,发现class是一个带有空格的多选。如果医生。直接使用getelementsbyclass(" value of class "),无法通过此方法获得所需的数据。

爬行网站的页面结构如下:

2.文章列表的div为:div class=' am-cfinner _ liinner _ Li _ abtest '/div

我们可以看到它的类的值是:am-cf inner_li inner_li_abtest。有空间。多值的。

如果我们仍然使用getElementsByClass来获取它,我们就无法获取它。Eclipse断点如下:

3.可以看到获取值的长度是size=0。没有获得任何数据。

经过各方搜索,找到了解决方案:不使用getElementsByClass方法,可以使用其他方法。

先成功后截图:

4.我们可以看到数据的长度是size=20。意味着数据已经被获取。

选择方法使用解释如下:

元素选择

5.样式选择器。

检查源代码:

6.我们知道可以有不止一个。

看看我们的案例,我们使用div . am-cf . inner _ Li . inner _ Li _ abtest。为什么要这样写?

检查要爬网的文章的页面结构:

总结:以上是关于java crawler jsoup解析多空间类数据的详细内容。感谢您的阅读和支持。

更多资讯
游戏推荐
更多+