位置:首页 > 软件下载 > 网络工具 > 上网辅助 > GeneralNewsExtractor(新闻网页正文通用抽取器) v0.2.6官方版
GeneralNewsExtractor(新闻网页正文通用抽取器) v0.2.6官方版

GeneralNewsExtractor(新闻网页正文通用抽取器) v0.2.6官方版

大小:15KB 软件类型:汉化软件

软件语言:简体中文 时间:2021-09-19 17:01:26

软件授权:试用软件 运行环境:WinAll

立即下载
软件简介
GeneralNewsExtractor(新闻网页正文通用抽取器),GeneralNewsExtractor新闻网页正文通用抽取器是一个基于《基于文本及符号密度的网页正文提取方法》论文用Python实现的正文抽取器,可以用来提取HTML中正文的内容、作者、标题,您可以免费下载。

GeneralNewsExtractor是一个基于《基于文本及符号密度的网页正文提取方法》论文,用Python实现的文本提取器,可以用来提取HTML中文本的内容、作者和标题。

发展概论

项目来源

这个项目的开发源于我在知网(—— 《基于文本及符号密度的网页正文提取方法》)上找到了一篇关于新闻网站自动文本提取的算法论文。

本文描述的算法看起来简洁、清晰、符合逻辑。但是因为论文只讲了算法原理,没有用具体的语言实现,所以我根据论文用Python实现了这个提取器。我们分别用今日头条、网易新闻、漫游者之星、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻进行测试,发现提取效果极佳,准确率几乎达到100%。

项目状态。

在文中描述的文本提取的基础上,增加了标题、发布时间和作者的自动检测和提取功能。

目前这个项目是一个非常非常早的Demo,发布是希望能尽快得到大家的反馈,让开发更有针对性。

为了避免不必要的风险,这个项目被命名为提取器,而不是爬虫。因此,这个项目的输入是HTML,输出是字典。请使用适当的方法自行获取目标网站的HTML。

这个项目不会,也不会提供主动请求网站HTML的功能。

显示全部

GeneralNewsExtractor(新闻网页正文通用抽取器)类似的软件

猜你喜欢

返回顶部