一.框架介绍
宇宙魔方是一款图片识别工具,可以抓取图片中的文字,支持多种语言(默认为英语)。如果需要下载开源文件,可以在github上下载。如果知识应用不想学太多,可以直接用谷歌代码搜索下载。
第二,宇宙魔方内容
文档:
Tessdata:存储各种字库(chi_sim.traineddata:中文等。)
Tessseract.exe可以启动文件开始调用宇宙魔方,它可以被cmd调用。先将cd转到对应的目录,然后输入tesseract.exe图片名称导出文件名(如tesseract.exe 1.txt 1),然后将1.jpg文件识别结果放在与魔方相同的目录下即可存储在1.txt文件中。当然,如果需要支持中文,需要在tessdata中添加chi_sim.traineddata文件。
然后打个比方:tesseract.exe 1.jpg 1-lchi _ sim是根据什么字库来识别建立的。当然图片地址可以参考全路径,输出结果也可以参考全路径。如果只是想用Tesseract CT作为文本解析的工具,不追求成功率太高的用户,就可以满足需求,直接通过CMD调用exe执行。需要玩的朋友可以直接下载附件Tesseract _并简单使用。rar文件
三.高级使用。网络项目
如果。Net项目需要被DLL引用进行研发,可以下载Tesseract_DLL引用包。
X86和X64是Tesseract的关联参考dll,根据程序所在系统的位数自适应配置。
当IIS在windows server 2003中发布时,文件liblept168.dll无法加载错误消息:找不到平台x86的库“liblept 168 . dll”。如果是在更高版本的系统中发布,可以正常使用。Tesseract.DLL应该被添加到相应的项目中。以下是测试tesseract.dll代码:
使用(var engine=new TesseractEngine(服务器。MapPath(@'~/tessdata '),' eng ',EngineMode。默认情况下){ //必须通过位图加载Pix,因为Pix不支持加载流。使用(变化图像=新系统。绘图.位图(图像文件。PostedFile . input trea m)){使用(var pix=PixConverter。ToPix(image)) {使用(var page=engine。进程(像素)){意味着信任标签。InnerText=字符串。格式(' {0:P} ',第页。getmeaniconfidence());结果文本。InnerText=page。GetText();}}}} }TesseractEngine:构造函数参数的注意事项=“第一个是字体路径必须以tessdata结尾,第二个是中文如果需要使用chi_sim。
以上就是本文的全部内容,希望大家喜欢。