位置:首页 > 软件下载 > 编程开发 > 数据库相关 > Jcseg(Java中文分词器) v2.6.2官方版
Jcseg(Java中文分词器) v2.6.2官方版

Jcseg(Java中文分词器) v2.6.2官方版

大小:4.9M 软件类型:汉化软件

软件语言:简体中文 时间:2021-09-22 09:01:53

软件授权:试用软件 运行环境:WinAll

立即下载
软件简介
Jcseg(Java中文分词器),Jcseg是基于mmseg算法的一个轻量级Java中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的搜索分词接口,您可以免费下载。

Jcseg是基于mmseg算法的轻量级Java中文分词器,集成了关键词抽取、关键短语抽取、关键句子抽取、文章自动摘要等功能,并提供了基于Jetty的web服务器,方便各大语言的http直接调用,提供了最新版本的lucene、solr和elasticsearch搜索分词接口!

Jcseg(Java中文分词器)

功能介绍

Jcseg核心功能:

中文分词:mmseg算法Jcseg独创优化算法,七种分词模式。

关键词提取:基于textRank算法。

关键短语提取:基于textRank算法。

关键句提取:基于textRank算法。

自动摘要:基于BM25 textRank算法。

自动词性标注:基于词库(统计歧义消除计划),目前效果不太理想,不推荐用于对词性标注结果要求较高的应用。

命名实体标注:基于词库(统计歧义消解方案)、电子邮件、网站、大陆手机号、地名、人名、货币、日期时间、长度、面积、距离单位等。

Restful api: Embedding jetty提供了一个绝对高性能的服务器模块,包含了所有功能性的http接口,规范了json输出格式,方便各种语言的客户端直接调用。

Jcseg的中文分词:

七种细分模式:

简单模式:FMM算法,适合速度要求。

复杂模式:MMSEG四种过滤算法歧义消解度高,分词准确率达到98.41%。

检测模式:只返回词库中已有的词,非常适合一些应用。

大多数模式:为检索而设计的细粒度分割与复杂模式(英语、复合词等)一致。)中文处理除外(不具备中文姓名、数字识别等智能功能)。

分隔符模式:根据给定的字符划分条目,默认为空格,应用于特定场合。

NLP模式:继承自复杂模式,改变了数字、单位等术语的组合,增加了邮件、大陆手机号、网址、人名、地名、货币等的识别和返回。以及无限种类的用户定义实体。

N-gram模式:实现CJK和拉丁文字的通用n-gram切分。

分词功能:

支持自定义同义词库。在词库文件夹下,可以随意添加/删除/更改词库和词库内容,对词库进行分类。

支持同义词库多目录加载。将lexicon.path配置为使用“;”。分隔多个同义词库目录。

词库分为简体/繁体/简体-繁体混合词库:可以专门应用于简体分词、繁体分词、简体-繁体混合分词,可以使用下面提到的同义词来实现,让简体和繁体词典互相搜索。Jcseg还提供了两个简单的词典管理工具来转换和合并简化的和传统的词典。

中英文同义词添加/同义词匹配中文词条拼音添加。词库集成了《现代汉语词典》和cc-cedict词典中的词条,按照cc-cedict词典用拼音标注词条,按照《中华同义词词典》(未完成)用同义词标注词条。更改jcseg.properties配置文档,将拼音和同义词添加到分词结果中。

还有中文数字的分数识别,比如:“这里有150个人,40个人里有1个。”在‘一百五十’和‘一四十分之一’中。并且Jcseg会自动将其转换为阿拉伯数字并添加到分词结果中。例如150,1/40。

支持英汉混合词和英汉混合词的识别(维护词库识别任意组合)。比如:b超、x光、卡拉ok、奇度KTV、哆啦a梦。

支持英文中类似中文的切分,同时使用mmseg算法消除歧义。比如“openarkcompiler”会分为“open ark compiler”,这个功能也可以关闭。

更好的拉丁语支持,电子邮件,域名,小数,分数,百分比,字母和标点组合(如C,c#)。

自定义分段保留标点符号。例如,保留,您可以识别像kr这样的复杂条目。

用:对英文分词结果进行二次分词,可以保持原有的组合,同时避免了复杂分词带来的检索命中率下降。比如QQ2013会分成: QQ 2013/QQ/2013,chenxin619315@gmail.com会分成: chenxin619315@gmail.com/陈欣/619315/Gmail/com。

支持阿拉伯数字/小数/中文数字基本词单位的识别,如2012、1.75m、38.6,打五折,Jcseg会转换成“打五折”加到分词结果中。

智能圆角半角,英文大小写转换。

特殊字母识别:例如:一、二;特殊数字标识:例如:、。

匹配内容抽取:比如最好的Java书《java编程思想》,《畅想杯黑客技术大赛》,用标点符号标注的内容。(1.6.8版本开始支持)。

智能中文姓名/外文翻译姓名识别。中文姓名识别正确率在94%以上。(中文名字可以维护lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex提高准确率),(引入规则和词性后,识别准确率会达到98%以上)。

自动中英文停用词过滤功能(这个选项需要在jcseg.properties中打开,lex-stopwords.lex是停用词词库)。

词库更新的自动加载功能,启动一个守护线程定期检测并加载词库更新(注意在对应的词库目录下需要有lex-autoload.todo文件的写权限)。

自动词性标注(目前基于词库)。

自动实体识别,默认支持:邮箱、网址、大陆手机号、地名、人名、货币等。可以在同义词库中自定义各种实体,并在分段中返回。

显示全部

Jcseg(Java中文分词器)类似的软件

猜你喜欢

返回顶部