宝哥软件园

使用Node.js分割文本内容并提取关键词

编辑:宝哥软件园 来源:互联网 时间:2021-09-04

卖孟之前讨论技术,你不懂吃货的世界~ ~

很多翻译的文章都有标签,用户可以根据标签快速过滤感兴趣的文章,也可以根据标签关联推荐文章。但是很多人翻译的标签都是在推荐文章的时候设置的,而且都是英文的。而且,手动设置不可避免地不规则和不完整。虽然文章发布后可以手动编辑,但不能指望用户或管理员一直编辑合适的标签,所以需要工具自动生成标签。

在目前的开源分词工具中,jieba是一个功能强大、性能优越的分词组件。幸运的是,它有一个节点版本。

Nodejieba易于安装和使用:

NPM install nodejiebavar nodejieba=require(' nodejieba ');var result=nodejieba . cut(‘帝国主义想瓜分我们的土地’);console.log(结果);//[《帝国主义》,《尧》,《放》,《我们》,《德》,《地》,《分》,《降》]结果=nodejieba.cut(《地,我伟大的金箍在哪里?》);console.log(结果);//['地',','我','老','孙','德','金箍','在','在哪里',】结果=nodejieba . cut(‘大圣,你的金箍棒特别适合你的脑袋!' );console.log(结果);//['大圣',','你','金箍','正义','伟大','在','特殊','匹配','你','头型',']我们可以加载自己的字典,并为字典中的每个单词设置权重和词性:

编辑user.uft8红薯9999nGolden hoop 999nStick in 9999然后通过nodejieba.load加载字典

var nodejieba=require(' nodejieba ');nodejieba . load({ user dict : })。/user.utf8 ',});var result=nodejieba . cut(‘帝国主义想瓜分我们的土地’);console.log(结果);//[《帝国主义》,《尧》,《放》,《我们》,《德》,《红薯》,《分》,《降》]结果=nodejieba . cut(‘土地,我伟大的金箍在哪里?’);console.log(结果);//['地',','我','老','孙','德','金箍','在','在哪里',】结果=nodejieba . cut(‘大圣,你的金箍棒特别适合你的脑袋!' );console.log(结果);//['大圣',','你','金箍','棒是棒在','特殊','火柴','你','头','!']除了分词,我们还可以使用nodejieba提取关键词:

常量内容=`HTTP,HTTP/2和性能优化

本文的目的是告诉您为什么我们应该从HTTP迁移到HTTPS,以及为什么我们应该通过比较来增加对HTTP/2的支持。在比较HTTP和HTTP/2之前,我们先来看看什么是HTTP。

什么是HTTP

HTTP是万维网上的一套通信规则。HTTP属于应用层协议,运行在TCP/IP层之上。当用户通过浏览器请求网页时,HTTP负责处理请求并在Web服务器和客户端之间建立连接。

有了HTTP/2,不需要雪碧图,不需要压缩,不需要拼接,就可以提高性能。然而,这并不意味着不应该使用这些技术。然而,这清楚地表明了从HTTP/1.1转向HTTP/2的必要性。`;

const nodejieba=require(' nodejieba ');const result=nodejieba . extract(content,20);console.log(结果);输出类似于以下内容:

[{word:' http ',weight: 140.8704516850025},{word:' request ',weight: 14.23018001394},{word3360' should ',Weight : 14.052171126120001},{word: '环球网',Weight : 11.2222220001 weight: 9.41204128224}、{word:' use '、weight: 9.03259988558}、{ word : ' assessment '、weight3360.81927328699 }、{word:' add '、weight: 8.0484751722}]我们给词典增加了一些新的关键词:

性能HTTP/2

输出结果如下:

[{word:' http ',weight: 106.65283876375187},{word:' http/2 ',weight: 58.69602153541771},{word3360' request ',Weight: 14.23018001394},{word:' should ',Weight: 14。 {word: '网页',weight: 9.53122979951},{word: '服务器',weight3360.41204128224},{word: '使用',weight: 9.03259988558}]在此基础上,我们通过白名单的方式筛选出一些可以作为标签的词:

常量内容=`HTTP,HTTP/2和性能优化

本文的目的是告诉您为什么我们应该从HTTP迁移到HTTPS,以及为什么我们应该通过比较来增加对HTTP/2的支持。在比较HTTP和HTTP/2之前,我们先来看看什么是HTTP。

什么是HTTP

HTTP是万维网上的一套通信规则。HTTP属于应用层协议,运行在TCP/IP层之上。当用户通过浏览器请求网页时,HTTP负责处理请求并在Web服务器和客户端之间建立连接。

有了HTTP/2,不需要雪碧图,不需要压缩,不需要拼接,就可以提高性能。然而,这并不意味着不应该使用这些技术。然而,这清楚地表明了从HTTP/1.1转向HTTP/2的必要性。`;

const nodejieba=require(' nodejieba ');nodejieba . load({ user dict : })。/user.utf8 ',});const result=nodejieba . extract(content,20);Consttaglist=['https ',' http ',' http/2 ',' web ',' browser ',' performance '];console . log(result . filter(item=taglist . indexof(item . word)=0));最后,我们得到:

[{word:' http ',weight: 106.65283876375187},{word:' http/2 ',weight: 58.69602153541771},{word3360' performance ',Weight: 12.61259281884},{word:' https ',weight: 11

以上是词库nodejieba的基本用法。未来我们可以利用它对众诚翻译发布的翻译进行自动分析并添加标签,为译者和读者提供更好的用户体验。

以上是边肖介绍的使用Node.js对文本内容进行分段,提取关键词,希望对大家有所帮助。如果你有任何问题,请给我留言,边肖会及时回复你。非常感谢您对我们网站的支持!

更多资讯
游戏推荐
更多+