Как использовать Tesseract OCR в Java

Автор: Judy Howell
Дата создания: 4 Июль 2021
Дата обновления: 1 Май 2024
Anonim
How to use Tesseract OCR with Java? | Extract text from image
Видео: How to use Tesseract OCR with Java? | Extract text from image

Содержание

Библиотеки оптического распознавания символов Tesseract предлагают разработчикам способ сканирования документов и текста в изображение. Они используются для хранения изображений документов, которые вам больше не нужны, на бумаге. Вы можете использовать их в Java, создавая циклы управления для каждого символа и записывая каждый в файл. Чтобы использовать библиотеки Tesseract, вы должны включить «пространство имен» Java для функций OCR.


направления

Библиотеки Tesseract позволяют пользователям сканировать свои документы (Джон Фокс / Stockbyte / Getty Images)
  1. Щелкните правой кнопкой мыши файл Java, который вы хотите использовать для создания документа OCR. Нажмите «Открыть с помощью» и выберите редактор Java по вашему выбору.

  2. Добавьте пространство имен библиотеки OCR в верхней части файла. Скопируйте и вставьте следующий код в ваш исходный файл:

    com.tplan.robot.imagecomparison.tesseractocr

  3. Создайте код, отвечающий за сканирование символов для файла. Например, следующий код создает циклы для каждого символа в файле и записывает их в файл изображения:

    (I = 1; {i} <{lines} +1; i = {i}) - это набор значений, которые определены как: +1) {Введите текст "{_TOCR_LINE {i}}"}

  4. Нажмите кнопку «Сохранить» в редакторе и нажмите «Выполнить», чтобы запустить код в компиляторе Java.