Informácie

OCR:

Zrejme ste už zistili, že oskenovaný text zaberá príliš veľa priestoru. Dá sa zmenšiť pri použití vhodnej kompresie, zmenšením počtu bodov, farebnej hĺbky, orezaním na vhodný rozmer, použitím vhodných filtrov - ale stále je to obrázok, v ktorom sa rozumným spôsobom nedá text editovať.
Na tento účel sú vytvorené rôzne programy typu OCR, ktoré pomocou inteligentných algoritmov a zabudovaných slovníkov rozoznávajú text z bitmapy, prípadne ho priamo prevádzajú do textu alebo do tabuliek. Asi njlepší je Finereader od firmy Abbyy, od verzie 6, 7 už je veľmi slušne použiteľný. Ďalej v texte bude označovaný iba ako FR.
K niektorým skenerom býva priložená verzia Finereader Sprint, býva obmedzená v nepodstatných záležitostiach. Aktuálne verzia sa dá stiahnuť priamo u výrobcu, je potrebné vyplniť aj výrobcu vášho skeneru. Návod na použitie je k dispozícii v češtine, taktiež u výrobcu.

Pomoc pri nastavení a používaní programu Finereader:

Finereader - Nástroje, Možnosti.
- Jazyky - Pred začatím skenovania je  potrebné zvoliť pracovný jazyk, prípadne viac jazykov naraz, ak sa vyskytujú v texte.
- OCR - Rýchlosť a presnosť OCR - Dôkladné rozoznávanie
- Nastavenie formátu - pre doc(x) Formátovaný text, veľkosť A5, Obrázky kompaktná veľkosť, Zachovať konce strán, Zachovať konce riadkov a spojovníky.
- Samozrejmosťou je možnosť ručného upravovania veľkosti blokov, ich typu /obrázok, text, tabuľka, čiarový kód/ ... - po týchto úpravách treba príslušný dokument znovu prečítať. Pre oblasti so zložitým tvarom môžete použiť kombináciu Ctrl+Shift+klik ľavým tlačidlom myši, vytvorí sa tým nový uzol, pomocou ktorého môžete upravovať tvar oblasti.
- Ak upravujete viac blokov po predchádzajúcom automatickom rozoznaní, nemá zmysel rozoznávať každú stranu samostatne. Stačí, ak po dokončení ručnej editácie v okne dokumentu zadáte Rozpoznať, Rozpoznať všetky strany. V takom prípade FR prečíta iba všetky zmenené bloky.
- Uložte výsledný dokument ako docx, rozloženie dokumentu Formátovaný text..

Načítanie do editoru a základná úprava:

- Dokument vo formáte rtf je základom, dokáže ho načítať každý textový editor. Ale má zásadné obmedzenie a to je formát obrázkov. Dokáže ich uchovávať iba ako nekomprimovaný bmp, takže ak dokument obsahuje niekoľko väčších obrázkov, môže mať niekoľko desiatok i stoviek MB. Preto ho po načítaní uložte znovu ako formát doc, dokument sa obvykle výrazne zmenší. Je to tým, že formáty doc, docx, odt už používajú komprimované formáty - png a jpg, takže pri ukladaní si obrázky prekonvertujú. OpenOffice oproti Wordu dokonca pri prevode z rtf  do doc vytvorí o niečo málo menší dokument.
Dnes je už základom formát .docx alebo výrazne menšinový .odt. V princípe sú veľmi podobné, fungujú na základe xml a dajú sa dobre konvertovať, sú vnútorne komprimované.
- Rýchlosť načítavania dokumentu - zatiaľ je najrýchlejší Word XP. Word 2000 má veľké problémy pri niekoľkostostranových súboroch, Word 2003 je už o niečo pomalší, Word 2007 je výrazne pomalší, dnes je minimom Word 2010. Slušnou alternatívou je OpenOffice alebo LibreOfice.

Santiagove makrá

- Na základnú úpravu textu v MSOffice je dobré použiť Santiagove makrá. Nájdete ich na webovej stránke
http://santiago.wz.cz, odkaz sa otvára v samostatnom okne.
Po inštalácii do Wordu 2000 až 2010 si nájdete doplnené menu Knížka, v ktorej je mnoho užitočných možností.
V prípade, že dokument obsahuje veľa prázdnych riadkov na oddelenie logických blokov, tak z FR ukladajte dokument s voľbou Upraviteľná kópia. Potom v makre môžete použiť ako celkom prvú voľbu Text - Spojení stránek a řádků, Vložení konce řádků. Vtedy zostanú zachované prázdne riadky a nebudú odstránené pri ďalších makrách.
Pri bežných dokumentoch uložených s voľbou Formátovaný text začínate v poradí Text - Spojení stránek a řádků, Nahrazení odrážek a číslování odstavců. Ak by ste totiž odstraňovali štýly, tak bez nahradenia odrážok a číslovania by tieto odrážky a číslovanie boli odstránené.
Pokračujete - Nahrazení tabelátorů a Základní úprava textu. V prípade, že dokument obsahuje veľa štýlov, tak je nevyhnutné použiť Styly - Odstranění stylů. Doporučujem zafajknúť Zachovať - Odsazení a naopak zrušiť Původní dokument - Použít styl "Text".
Od tohto okamžiku je dokument pripravený na čítanie a opravy.