位置:首页 > 软件下载 > 插件下载 > 其它插件 > Web安装_Web手机软件下载大全
Web Scraper

Web Scraper

大小:1MB 软件类型:国外软件

软件语言:简体中文 时间:2021-09-01 07:18:22

软件授权:商业软件 运行环境:Win All

暂无下载
软件简介
Web Scraper是一款非常好用的chrome网页爬虫插件,Web Scraper适用于各种类型的网站,可以帮助用户轻松抓取网站上的所有数据内容,可任意选择抓取范围,让你想抓就抓随心所欲,还支持将抓取的内容导出为CSV格式的文件,需要的朋友赶紧来本站下载吧!

Web刮板是一个非常容易使用的chrome网络爬虫插件。Web Scraper适用于各种类型的网站,可以帮助用户轻松抓取网站上的所有数据内容,并且可以随意选择抓取范围,让你可以抓取任何你想要的内容。它还支持将已爬网内容导出为CSV格式文件。如果你需要朋友,快来这个网站下载吧!

web  scraper

Web刮板操作简单,不需要编写任何代码,只需几个简单的步骤就可以通过插件设置页面数据提取规则,帮助用户实现数据抓取功能,快速、有效、准确地提取页面数据。

软件特色

1.擦除多页

2.从动态页面

3.导出刮取数据作为CSV

4.导入和导出站点地图

5.只靠Chrome浏览器

6.提取数据(JavaScript AJAX)

7.暂存数据存储在本地存储器或CouchDB中

8.浏览刮擦数据/3。多种数据选择类型

软件功能

使用多线程快速扫描任何网站

在主网页抓取器窗口中,您必须指定要扫描的网页的网址和完成该过程的线程数。您可以使用简单的滑块来调整以下参数。

为了避免任何不必要的扫描,您可以选择只抓取单个网页,然后通过简单的鼠标点击开始该过程。在实时查看窗口中,您可以看到每个链接返回的状态消息,这在处理调试任务时可能很有用。

提取各种类型的信息,并将数据导出为CSV或JSON

在web刮板输出面板中,您可以选择希望实用程序从网页中提取的信息类型:URL、标题、描述、与不同类或id相关联的内容、标题、各种格式的页面内容(纯文本、HTML或标记)以及上次修改日期。

也可以选择输出文件格式(CSV或JSON),决定合并空格,文件超过一定大小时设置报警。如果选择CSV格式,则可以选择何时在列周围使用引号,并用引号替换引号或行分隔符类型。

最后但并非最不重要的一点是,web刮板还允许您更改用户代理,设置主页链接和点击次数的限制,忽略查询字符串,并使根域的子域成为内部页面。

Web Scraper使用教程

1.在标签页输入【chrome://extensions/】进入chrome扩展程序,解压你在此页面下载的Web Scraper插件,拖拽到扩展程序页面。

2.插件安装后,其按钮标记会出现在浏览器中。用户可以先在设置页面设置插件的存储设置和存储类型功能。

3.用户可以使用网页抓取器插件抓取网页。操作方法如下:

1)打开要抓取的网页。

首先,要使用插件提取网页数据,需要在开发人员工具模式下使用。使用快捷键Ctrl Shift I/F12或者右键选择“检查”,可以看到开发者工具下的WebScraper的Tab。如下图所示:

web  scraper截图1

2)创建新的站点地图。单击创建新站点地图。有两种选择。导入sitemap是一个导入现成sitemap的指南,一般是没有的,所以一般不选择这一个,只选择create sitemap。

web  scraper截图2

然后执行这两个操作:

(1)网站地图名称:表示本网站地图适用于哪个网页,可以根据网页进行命名,但需要使用英文字母。比如,如果我掌握了今天头条的数据,我会用头条号来命名;

(2)网站地图网址:将网页链接复制到星网址列。例如,在图片中,我将“吴晓波频道”的主页链接复制到此栏,然后单击下面的创建站点地图来创建新的站点地图。

3)设置此站点地图

整个刮网器的抓取逻辑如下:设置第一个选择器,选择抓取范围;在主选择器下设置辅助选择器,选择抓取字段,然后抓取。

对于一篇文章,第一级选择器意味着你想要圈出这篇文章的元素,这些元素可能包括标题、作者、发布时间、评论数量等。然后我们在二级选择器中挑选出我们想要的元素,比如标题、作者、阅读次数。

让我们分解设置主选择器和次选择器的工作流程:

web  scraper截图3

(1)单击添加新选择器以创建一级选择器。

然后按照以下步骤操作:

输入id: id代表你抓取的整个范围,比如这里有一篇文章,我们可以把它命名为wuxiaoboarticles;

选择类型:类型代表你抓取的部分的类型,比如element/text/link,因为这是整篇文章的元素范围选择,我们需要先用Element来选择整体(如果这个页面需要滑动加载更多,那么选择Element向下滚动);

选中多个:选中多个前面的小框,因为您想要选择多个元素而不是单个元素。当我们检查时,爬虫插件会帮助我们识别多篇同类文章;

保留设置:其余未提及的将保留默认设置。

(2)单击选择选择范围,并按照以下步骤操作:

选择范围:用鼠标选择要抓取的数据范围。绿色为待选区域,用鼠标点击后变为红色,即为选中区域;

多选:不要只选一个,还要选下面的,否则只有一行数据爬出来;

完成选择:记得点击完成选择;

保存:单击保存选择器。

web  scraper截图4

(3)设置完一级选择器后,点击设置二级选择器,按照以下步骤操作:

创建新选择器:单击添加新选择器;

输入id: id表示你抓取的是哪个字段,所以可以取这个字段的英文。比如我要选“作者”,我就写“作家”;

选择类型:选择文本,因为你要抓取的是文本;

不要勾选Multiple:不要勾选Multiple前面的小方框,因为我们要在这里抓取单个元素;

保留设置:其余未提及的将保留默认设置。

web  scraper截图5

(4)单击选择,然后单击要爬网的字段,并按照以下步骤操作:

选择字段:这里爬取的字段是单个的,可以用鼠标点击选择。例如,如果要对标题进行爬网,请用鼠标单击文章的标题。当字段所在的区域变为红色时,它将被选中。

完成选择:记得点击完成选择;

保存:单击保存选择器。

web  scraper截图6

(5)重复以上操作,直到选择了想要攀爬的场地。

4.抓取数据

(1)在您想要对数据进行爬网后,您只需要将所有选择器设置为启动:

点击刮擦,然后开始刮擦,弹出一个小窗口,爬虫开始工作。你会得到一个包含你想要的所有数据的列表。

(2)如果要对数据进行排序,如阅读量、点赞数、作者等,使数据一目了然,可以点击“导出数据为CSV”,导入到Excel表格中。

(3)导入Excel后,可以对数据进行过滤。

web  scraper截图7

我们只是简单的介绍和总结一下Web刮板插件的功能、安装和一个简单的单页示例。其实刮网器的功能远不止这些。事实上,它还可以对页面、页面和元素以及辅助页面进行爬网。

显示全部

Web类似的软件

猜你喜欢

返回顶部