Как использовать Tesseract OCR в Java

Видео: How to use Tesseract OCR with Java? | Extract text from image

Содержание

направления

Библиотеки оптического распознавания символов Tesseract предлагают разработчикам способ сканирования документов и текста в изображение. Они используются для хранения изображений документов, которые вам больше не нужны, на бумаге. Вы можете использовать их в Java, создавая циклы управления для каждого символа и записывая каждый в файл. Чтобы использовать библиотеки Tesseract, вы должны включить «пространство имен» Java для функций OCR.

направления

Библиотеки Tesseract позволяют пользователям сканировать свои документы (Джон Фокс / Stockbyte / Getty Images)

Щелкните правой кнопкой мыши файл Java, который вы хотите использовать для создания документа OCR. Нажмите «Открыть с помощью» и выберите редактор Java по вашему выбору.
Добавьте пространство имен библиотеки OCR в верхней части файла. Скопируйте и вставьте следующий код в ваш исходный файл:

com.tplan.robot.imagecomparison.tesseractocr
Создайте код, отвечающий за сканирование символов для файла. Например, следующий код создает циклы для каждого символа в файле и записывает их в файл изображения:

(I = 1; {i} <{lines} +1; i = {i}) - это набор значений, которые определены как: +1) {Введите текст "{_TOCR_LINE {i}}"}
Нажмите кнопку «Сохранить» в редакторе и нажмите «Выполнить», чтобы запустить код в компиляторе Java.