jsoup是一款爪哇的超文本标记语言解析器,可直接解析某个统一资源定位器地址、超文本标记语言文本内容。它提供了一套非常省力的原料药,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
下面是招聘网站的超文本标记语言信息:
div class=' new list _ list _ content ' id=' new list _ list _ content _ table '表宽=' 853 ' class=' new list '单元格填充=' 0 '单元格间距=' 0 ' t正文tr th class=' zwmc ' span职位名称/span/th=' gsmc '公司名称th class=' zwyx '职位月薪th class=' gzdd '工作地点th class=' gxsj '发布日期/th/tr/t正文/表格表格单元格填充=' 0 单元格间距=' 0 ' width=' 853 ' class=' new list ' t body tr TD class=' zwmc ' input type=' checkbox ' name=' vacanchyid ' value=' cc 415107716j 90250224000 _ 635 _ 1 _ 03 _ 201 _ 1 _ onclick=' zlapply。 uncheckall(' all vacanchyid ')'/div style=' float : left ' a style=' font-weight : bold ' par=' ssid key=yss=201 ff=03 ' href=' http://jobs。智联招聘。com/415107716250224。htm ' rel='外部无跟随' target=' _ blank ' Android开发工程师/a/div/TD TD class=' gsmc ' a href=' http://special。智联招聘。com/page publish/41510771/index。html ' rel='外部无跟随' target=' _ blank '南京天洑软件有限公司/a/TD/TD class=' zwyx '面议/TD TD TD class=' gzdd '南京/TD TD class=' gxsj ' span 10-24/spana class=' newlist _ list _ XL BTN ' href=' JavaScript :'rel='外部无跟随'/a/TD/tr style=' display : none ' class=' newlist _ tr _ detail ' TD width=' 833 px ' style=' line-height : 0;0 ' col span=' 5 ' div class=' new list _ detail ' div class=' clear fix ' ul Li class=' new list _ deatil _ two ' span地点:南京/spanspan公司性质:民营/spanspan公司规模:20-99人/spanspan经验:1-3年/spanspan学历:大专/span/Li Li='新列表_直到最后'岗位职责: 1、根据需求,基于机器人平台进行程序开发;2、根据产品功能模块设计,编码实现各模块功能,并确保开发质量;3、编写相关的开发文档。任职要求: 1、大专以上学历,计算机或相关专业者优先;2、2年以上机器人开发经验;3、熟悉爪哇编./Li/ul dl dt a href=' JAVAScript : void(0)' rel=' external no follow ' onclick=' return zlapply。找工作。ajaxapprybrig 1(' cc 415107716j 90250224000 _ 635 ',' ssi ',' _ 1 _ 03 _ 201 _ _ 2 _ ')' img src=' http 3360/assets/images/new list _ sqimg _ 03。jpg/'下面使用jsoup解析超文本标记语言获取招聘信息:
公共静态listmlfeed parse(String html){ Document doc=Jsoup。解析(html);元素元素=文档。getelementsbyclass('新列表').选择(' tr ');listmlfeed list=new arraylishmlfeed();对于(ele ele :元素){ if(!ele.select('td ').toString().等于(" "){字符串job _ URL=ele。getelementsbyclass(' zwmc ').选择(' a ').attr(' href ');字符串作业=ele。getelementsbyclass(' zwmc ').text();字符串公司=ele。getelementsbyclass(' gsmc ').text();字符串地址=ele。getelementsbyclass(' gzdd ').text();字符串日期=ele.getElementsByClass('gxsj ').text();HTMlFeed feed=new HTMlFeed();if(!job_url.toString().等于(' ')!job.toString().等于(' ')!addr.toString().等于(' ')!company.toString().等于(' ')!date.toString().等于(" " { feed。setjob _ URL(作业_ URL。tostring());喂。setjob(作业。tostring());喂。setaddr(addr。tostring());喂。setcompany(公司。tostring());喂。setdate(日期。tostring());list.add(提要);} } }返回列表;}效果图如下:
效果图如下
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。