Oprava po OCR, Formátovanie a úprava textu:
Najprv trošku všeobecne. Po digitalizácii dokumentu v texte vždy zostane určité množstvo značiek, ktoré možno práve teraz problémy nerobia, ale neskôr sa možno prejavia - buď pri konverzii do iných formátov, alebo pri čítaní v nových čítacích programoch. Napríklad Word má určité rezervy, veľa vecí ignoruje - ale čo keď sa to niekedy trafí? HTML stránky tiež niekedy na konci riadka pridávajú značku, ktorú potom musíme odstrániť.

Najjednoduchšie sa formátovacie značky odstránia tak, že celý dokument sa uloží ako prostý text. Ten sa potom otvorí buď priamo vo Worde alebo /lepšie/ text sa cez schránku /Vybrať všetko alebo Ctrl+A, Skopírovať do schránky alebo Ctrl+C/ vloží do dokumentu /Vložiť alebo Ctrl+V/.

Je vhodné si vopred vytvoriť šablónu dokumentu, ja používam šablónu na knihu formátu A5. Súbor Kniha_A5.dot je šablóna určená pre MS Word 97-2003, kniha-a5.ott - je šablóna pre OpenOffice určená pre verziu 2.0 a 1.1.5, súbor kniha-a5.stw - je šablóna určená pre verziu 1.x.x. Stačí, keď si ju rozbalíte a skopírujete do vášho adresára so šablónami, prípadne si ju priamo môžete spustiť.

Normálne neviditeľné znaky si zobrazíte tlačítkom Zobrazit vše. je možné ho vyvolať iba z panelu nástrojov - Zobrazit. Potom je vidieť napríklad koniec odstavca, alebo voliteľné rozdelenie slova /z OCR/, ktoré Word ignoruje, prípadne ručné zalomenie riadka, ktoré používajú hlavne pri html stránkach.

Vo Worde používam funkciu Rozvrhnutie dokumentu, podľa mňa je vhodnejšia než Obsah. Umožňuje rýchly pohyb po dokumente a dobrý prehľad. Vyvoláva sa z menu Zobrazit / Rozvržení dokumentu.

Potom sa dajú jednotlivé nadpisy označovať príslušným štýlom. Ak aj nebude hneď vyhovovať, nevadí, po ukončení opráv sa dajú naraz upraviť z menu Formát / Štýl / Upraviť / Formát - odstavca alebo písma....

V prípade, že chcete použiť písma mierne neštandardné /okrem klasických napríklad Ariel, Times/, je dobré mať povolenú funkciu Vložit písma True Type z menu Nástroje / Možnosti / Uložit. Ak dáte vložit Pouze použité znaky, budete mať neskôr problém pri editovaní - dokument vyhlási, že je zamknutý pre úpravy. Vtedy pomôže iba cez schránku vložiť obsah dokumentu do nového.

FineReader dokáže vyexportovať text s plným formátovaním tak, že vytvorí aj niekoľko stoviek /zažil som aj tisícky/ štýlov, líšiacich sa napríklad veľkosťou písma o desatinu bodu, rozšírením či zúžením o desatinky... Dajú sa síce postupne poodstraňovať Formát / Štýl / Odstranit / vtedy sa odstránený štýl nahradí štýlom Normal/ ale býva to nekonečná práca. Vtedy je lepšie označiť celý dokument /Ctrl+A/ a z tlačítkového menu Štýly vybrať Normálny. Zostane nanajvýš niekoľko desiatok štýlov, s ktorými sa už dá pracovať. Hlavný býva štýl Kurzíva a ten obvykle zostane zachovaný.
FineReader7 je v tomto ohľade lepší, ale aj u neho si dávajte pozor, aj ten si často vymýšľa a vyrába kurzívu aj tam, kde nie je.

Používajte dôsledne štýly, ak sa ich raz naučíte používať, veľmi vám to v budúcnosti uľahčí prácu.