章鱼收集器可以说是一款帮助用户轻松抓取互联网数据的软件。当然Python可以自己写爬虫,但是用这个软件就相当于自己写爬虫,但是要简单得多,只需要导入爬行规则,模板也很多。边肖整理了这个软件的使用教程,方便大家更快上手。
2.如何使用【采集模板】第一步:进入【模板详情页】后,仔细阅读【模板介绍】、【采集字段预览】、【采集参数预览】、【样本数据】确认该模板采集的数据符合要求。注意:模板中的字段是固定的,所以不能自己添加字段。如果您想在模板中添加字段,请联系官方客服。第二步:确认模板符合要求后,点击【立即使用】和【配置参数】。常用参数包括关键词、页面、城市、网址等。请仔细查看模板简介中的使用说明和参数说明,输入格式正确的参数,否则会影响模板的使用。第三步:然后点击【保存并开始】,选择开始【本地采集】。章鱼自动开始收集任务并收集数据。
第四步:数据采集完成后,可以按照需要的格式导出。以导出为[Excel]为例。
数据示例:
通过[获取模板]创建和保存的任务将放在[我的任务]中。在“我的任务”中,您可以对任务执行各种操作,并查看任务收集的历史数据。如何定制收藏?使用【智能识别】【智能识别】,只需输入网址即可自动智能识别网页数据。支持列表网页数据的自动识别、滚动和翻页。在主页的输入框中,输入目的网址,点击开始采集。章鱼自动打开网页,开始智能识别。给它一些时间,等待智能识别完成。智能识别成功。一个网页可能有多组数据。章鱼会识别所有数据,然后智能推荐最常用的群组。如果推荐不是自己想要的,可以自己切换识别结果。同时,它可以自动识别网页的滚动和翻页。在这个示例URL中,您只需要翻页而不是滚动,因此只识别和检查[翻页并收集多页数据]。自动识别完成后,点击【生成采集设置】,自动生成相应的采集流程,方便用户编辑修改。然后点击左上角的【采集】,选择【开始本地采集】,章鱼会自动开始采集数据。收集完成后,以所需的方式导出数据。通过[智能识别]创建和保存的任务将放置在[我的任务]中。在“我的任务”中,您可以对任务执行各种操作,并查看任务收集的历史数据。值得注意的是,目前自动识别只支持识别列表式网页、滚动和翻页