前言
不用引入什么dll,以及各种乱七八糟的东西。不废话,直接开始教程!没有过多讲解里面的知识点,如有需要详细了解请加Qq:1101165230
1、Linux下安装与使用
1.1 安装tesseract(复制粘贴敲回车,中间输入Y)
sudo yum install tesseract tesseract-langpack-eng tesseract-langpack-chi_sim
额外介绍
上面命令我们只安装了中文简体识别和英文识别,如果需要更多的扩展。
请访问:https://github.com/tesseract-ocr/tessdata
安装好后我们去检查是否安装成功,安装完成后系统的会有一个/usr/share/tesseract/的文件夹
tesseract -v
#如果打印以下信息就成功了
#tesseract 3.04.00
# leptonica-1.72
# libgif 4.1.6(?) : libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib # 1.2.7 : libwebp 0.3.0
2、 Springboot项目中如何使用?
2.1 pom.xml 中加入
<!--OCR-->
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>4.5.0</version>
</dependency>
2.2 测试代码
/**
* 提交图片地址形式
* @param url
* @return
* @throws TesseractException
* @throws IOException
*/
@GetMapping("/orc")
public String performOCR(@RequestParam("url") String url) throws TesseractException, IOException {
Tesseract tesseract = new Tesseract();
tesseract.setDatapath("/usr/share/tesseract/");
tesseract.setLanguage("chi_sim+eng");
URL uri = new URL(url);
BufferedImage bufferedImage = ImageIO.read(uri);
String txt = tesseract.doOCR(bufferedImage);
return txt;
}
/**
* 提交图片文件形式
* @param file
* @return
* @throws TesseractException
* @throws IOException
*/
@PostMapping("/orc")
public String performOCR1(@RequestParam("file") MultipartFile file) throws TesseractException, IOException {
Tesseract tesseract = new Tesseract();
tesseract.setDatapath("/usr/share/tesseract/");
tesseract.setLanguage("chi_sim+eng");
BufferedImage bufferedImage = ImageIO.read(file.getInputStream());
String txt = tesseract.doOCR(bufferedImage);
return txt;
}
3、测试
3.1 测试图片地址提交
我这里用的是CSDN的log测试