본문 바로가기

Tesseract

(1)

OCR을 이용하여 PDF에서 특정 텍스트 추출하기 사전 준비 1. Tesseract-OCR 설치Window 기준으로 OCR을 사용하려면 Tesseract-OCR을 설치해야 한다.https://github.com/UB-Mannheim/tesseract/wiki HomeTesseract Open Source OCR Engine (main repository) - UB-Mannheim/tesseractgithub.com 여길 들어가 “tesseract-ocr-w64-setup-5.5.0.20241111.exe (64 bit)” 를 다운하면 된다. 2. poppler 설치이 라이브러리는 PDF에서 image로 변환할 때 필요한 라이브러리다.https://github.com/oschwartz10612/poppler-windows/releases/여기 링크에 ..

이전 1 다음

티스토리툴바