Tesseract (*)

De acordo com a página do Tesseract, "Tesseract is an open source text recognizer (OCR) Engine, available under the Apache 2.0 license. It can be used directly, or (for programmers) using an API to extract printed text from images. It supports a wide variety of languages".

Versões Disponíveis

  • tesseract/4.00.00alpha

Submissão de Jobs Seriais

Crie um arquivo chamado, por exemplo, submit_serial_jobs.sh.

#SBATCH -t 23:00:00

module load tesseract

goo-job-nanny tesseract --tessdata-dir $TESSDATA -l heb hebrew.png out

Para submeter o processo, basta usar o comando:

sbatch submit_serial_jobs.sh


Para informações adicionais sobre o software, consulte a documentação do Tesseract.