本文接上一篇:Tess4j Linux/Ubuntu需要安装额外依赖程序说明,构建在Linux中可运行Tess4j的环境。
Tess4j 4.x 依赖Tesseract 4.x,构建比较容易。基于官方OpenJDK17 slim镜像进行构建。Dockerfile 参考如下:
FROM openjdk:17-jdk-slim
# 安装 Tesseract OCR 和 Tess4J 所需的依赖
RUN apt-get update && \
apt-get install -y --no-install-recommends \
tesseract-ocr \
tesseract-ocr-eng \
tesseract-ocr-chi-sim \
tesseract-ocr-chi-tra \
libtesseract-dev \
libleptonica-dev \
&& rm -rf /var/lib/apt/lists/*
构建命令:(与Dockerfile同目录执行)
docker build -t openjdk:17-slim-tesseract-ocr-4 .
构建完成后即可使用
提示:该方案安装完成后
tesseract
版本为4.1.1 与Tess4j
4.5.5 已完成了验证,确保可正常使用。
docker run -it --rm --entrypoint /bin/bash your-image-name
tesseract --version
find / -name "libtesseract.so*" 2>/dev/null
ldd $(which tesseract)
Tess4j 5.x 依赖Tesseract 5.x,构建需要源码编译对应版本的Tesseract,比较耗时且需要外网。
Dockerfile
以上配置已通过完整的代码测试验证。
Dockerfile
# 使用openjdk 17 作为基础镜像
FROM openjdk:17-jdk-slim
# 只需要修改下面的两个环境变量版本即可编译
ENV TESSERACT_VERSION 5.5.1
ENV LEPTONICA_VERSION 1.83.1
# ----其余配置与上一个脚本一致,无语修改,所以下面部分忽略------
根据上面源码编译脚本,修改环境变量里面的版本可源码构建4.0.0-5.5.1(最新版),需要注意leptonica
版本对应关系
leptonica
版本对应关系:
tesseract
5.3.2 - 5.5.1 对应 leptonica
>=1.83.1(推荐:1.83.1)tesseract
5.0.0 - 5.3.1 对应1.83.1>=leptonic
>= 1.74.2 (推荐:1.74.2)tesseract
4.x.x(4.x全系版本) 对应 leptonic
>= (推荐:1.74.2)
https://www.leftso.com/article/250807122722507.html