OCR:
Zrejme ste už zistili, že oskenovaný text zaberá príliš veľa priestoru. Dá sa zmenšiť pri použití vhodnej kompresie, zmenšením počtu bodov, farebnej hĺbky, orezaním na vhodný rozmer, použitím vhodných filtrov - ale stále je to obrázok, v ktorom sa rozumným spôsobom nedá text editovať.

Na tento účel sú vytvorené rôzne programy typu OCR, ktoré pomocou inteligentných algoritmov a zabudovaných slovníkov rozoznávajú text z bitmapy, prípadne ho priamo prevádzajú do textu alebo do tabuliek. Pre naše účely môžeme použiť vlastne iba jeden produkt - Finereader od ruskej firmy Abbyy. Od verzie 6, 7 už je veľmi slušne použiteľný. Ďalej v texte bude označovaný iba ako FR.

V časopise Chip 1/2003 vyšiel článok OCR a čo s tým + free verzia Finereader 5 Sprint - prečítajte si ho, možno vám niečo málo pomôže. Pre FR7 je k dispozícii manuál po česky v pdf, a  aj slovenský manuál v pdf.

Pomoc pri nastavení a používaní programu Finereader
- Pred začatím skenovania je  potrebné zvoliť pracovný jazyk, prípadne viac jazykov naraz, ak sa vyskytujú v texte. FR9 to vie aj automaticky, ale často sa pomýli.
- V Nastavení Finereaderu v položke Skenovanie si povoľte "Rozdeliť dvojité strany". V takomto prípade dokáže FR samostatne natočiť každú stranu nezávisle, výrazne sa tým zmenšuje chybovosť. Ak jednom skene máte iba jednu stranu, potom túto voľbu nepoužívajte. Zároveň si povoľte "Upraviť skosenie snímky" (Narovnať textové čiary) a "Rozpoznať orientáciu obrázkov" (Zistiť orientáciu strany).
- Samozrejmosťou je možnosť ručného upravovania veľkosti blokov, ich typu /obrázok, text, tabuľka, čiarový kód/ ... - po týchto úpravách treba príslušný dokument znovu prečítať. Pre oblasti so zložitým tvarom môžete použiť kombináciu Ctrl+Shift+klik ľavým tlačidlom myši, vytvorí sa tým nový uzol, pomocou ktorého môžete upravovať tvar oblasti.
- Ak upravujete viac blokov po predchádzajúcom automatickom rozoznaní, nemá zmysel rozoznávať každú stranu samostatne. Hlavne FR9 je v takomto prípade veľmi pomalý. Stačí, ak po dokončení ručnej editácie v okne dokumentu označíte všetky strany a zadáte "Čítať stranu". V takom prípade FR prečíta iba všetky zmenené bloky.
- Uložte výsledný dokument ako rtf. Ak dokument aj uložíte z Finereaderu ako doc, stále to bude rtf, ale s nesprávnou príponou! Dokument môžete aj odoslať priamo do editoru, ale stále to bude rtf.
- Pri ukladaní použite voľbu pri FR6-8 "Tabuľky, odstavce, písma", pri FR9 "Upraviteľná kópia".
- Okrem toho použite voľby nastavenia textu: "Zachovať hlavičky a päty, Zachovať zlomy strán, Zachovať zlomy riadkov". Je to dôležité pri neskoršej editácii pomocou Santiagovho makra, vysvetlenie je nižšie. Ak prikladáte skeny alebo kontrolujete výsledný dokument podľa originálu, môžete pri FR9 zrušiť voľbu "Zachovať hlavičky a päty", ušetrí to trochu práce.
- Nastavenie obrázkov - použite kvalitu strednú, pre obrazovku. Táto voľba je vyhovujúca skoro na všetko.
 

Načítanie do editoru a základná úprava
- Dokument vo formáte rtf je základom, dokáže ho načítať každý textový editor. Ale má zásadné obmedzenie a to je formát obrázkov. Dokáže ich uchovávať iba ako nekomprimovaný bmp, takže ak dokument obsahuje niekoľko väčších obrázkov, môže mať niekoľko desiatok i stoviek MB. Preto ho po načítaní uložte znovu ako formát doc, dokument sa obvykle výrazne zmenší. Je to tým, že formáty doc, docx, odt už používajú komprimované formáty - png a jpg, takže pri ukladaní si obrázky prekonvertujú. OpenOffice oproti Wordu dokonca pri prevode z rtf  do doc vytvorí o niečo málo menší dokument.
- Rýchlosť načítavania dokumentu - zatiaľ je najrýchlejší Word XP. Word 2000 má veľké problémy pri niekoľkostostranových súboroch, Word 2003 je už o niečo pomalší, Word 2007 je výrazne pomalší. Slušnou alternatívou je OpenOffice vo verzii 3.
- Na základnú úpravu textu je dobré použiť Santiagove makrá. Nájdete ich na webovej stránke http://santiago.wz.cz, odkaz sa otvára v samostatnom okne. Po inštalácii do Wordu 2000 až 2007 si nájdete doplnené menu Knížka, v ktorej je mnoho užitočných možností. Odporúčam použiť hlavne položku Úprava knížky - Spojení stránek a řádků. Vtedy sa spoja rozlámané riadky, strany a odstránia sa spojovníky na konci riadkov. Po ňom potom komplexné makro Základní úprava textu. Od toho okamžiku je dokument prichystaný na opravu podľa predlohy.