piątek, 1 marca 2013

Tesseract

Tesseract to doskonały program służąca do automatycznego rozpoznawania tekstu (ang. Optical Character Recognition, OCR) o otwartym kodzie który został "Otwarty" przez Google w 2006 roku. W 2008 powstało również wsparcie dla języka polskiego http://code.google.com/p/tesseract-polish Instalacja Tesseract bez praw root http://code.google.com/p/tesseract-ocr/wiki/Compiling#Install_elsewhere_/_without_root Instalacja: sudo apt-get install autoconf automake libtool sudo apt-get install libpng12-dev sudo apt-get install libjpeg62-dev sudo apt-get install libtiff4-dev sudo apt-get install zlib1g-dev Kompilacja [http://pl.wikipedia.org/wiki/Kompilator] wget http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.02.tar.gz tar -xvfz tesseract-ocr-3.02.02.tar.gz cd tesseract-ocr-3.02.02 ./autogen.sh ./configure make sudo make install sudo ldconfig Kompilacja [http://pl.wikipedia.org/wiki/Kompilator] wget wget http://code.google.com/p/leptonica/downloads/detail?name=leptonica-1.69.tar.bz2&can=2&q= tar -xvjf leptonica-1.69.tar.bz2 cd leptonlib-1.69 ./configure make sudo ldconfig Pobieranie plików językowych Angielski http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.eng.tar.gz tar xf tesseract-ocr-3.02.eng.tar.gz /usr/local/share/tessdata Polski http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.pol.tar.gz tar xf tesseract-ocr-3.02.pol.tar.gz /usr/local/share/tessdata Używanie tesseract inputfilename outputfile

Brak komentarzy:

Prześlij komentarz

thanks