DigiBooks - informace

Opravy textu a korektúry:

Znovu by som pripomenul jednu základnú vec: text je zdigitalizovaný vtedy, keď je oskenovaný, prebehol cez OCR, bol skontrolovaný podľa originálu a vychytaná väčšina chýb. Ak bol iba oskenovaný, mal by byť archivovaný minimálne v rozlíšení 300DPI /lepšie 600/, odtieňoch sivej /Gray/, pokiaľ možno v bezstratovom formáte /png/.
Nevidiaci obvykle môžu zabezpečiť iba prechod cez OCR, nemajú možnosť skontrolovať text podľa originálu. Dôsledkom toho bývajú pomiešané a chýbajúce stránky, poškodené a pomiešané bloky textu, veľmi chybový výstup, takže veľa z týchto textov je nepoužiteľných.
Najspoľahlivejší spôsob na dobrú opravu textu po OCR je uloženie výstupu do txt súboru, otvoriť v Poznámkovom bloku, cez schránku preniesť do pripravenej šablóny vo Worde. Nie je dobré veľké texty opravovať priamo v OCR /i keď to ide/ je to pracnejšie, zanecháva to viac chýb a korektor sa menej sústredí na obsah textu.
Pred čítaním je dobré celý text označiť ako štýl Normal /stále hovorím o oprave po OCR/, meno autora ako štýl Nadpis1, názov textu ako štýl Nadpis2, názov kapitoly /alebo celej časti/ ako Nadpis3, podnadpisu ako Nadpis4. Maximálne má význam ísť do úrovne Nadpis5, ale iba v odôvodnených prípadoch. V priebehu čítania si nechajte k dispozícii lištu štýlov až kým nenadefinujete všetky potrebné štýly k vašej spokojnosti, potom už stačí iba vyberať.
Použiť príliš veľa štýlov tiež nie je dobré, snažte sa tie čo používate nadefinovať dostatočne univerzálne. Nezabúdajte že taký Word nie je profesionálny program na zalamovanie textu, ale je to kompromis medzi tým, čo chcete a čo je jednoduché na ovládanie. Skúste si vždy predstaviť, ako to bude vyzerať, keď spracovávaný text uložíte ako holý txt - tam na žiadne špeciality nezostane miesto...

Ak sú kapitoly dostatočne dlhé, používajte zalomenie strán pred nasledujúcou kapitolou, hlavne vtedy, ak v texte máte obrázky. Zalomenie oddielov používajte, iba ak je to nevyhnutné - pri zmene orientácie strany, číslovaní strán, inak na to nie je dôvod.
Ak to ide, obrázky vkladajte priamo do textu, nepoužívajte obtekanie - nanajvýš pri malých alebo tam, kde je to nevyhnutné. Obrázok titulnej strany zvyknem nastaviť s vlastnosťou "cez text", takže prekrýva autora a nadpis diela - ale iba vtedy, keď je v obrázku nadpis a autor už obsiahnutý.
Nemá význam zaraďovať prázdne strany, tie sú tam iba kvôli papierovej tlači. Neodstraňujte vydavateľa, rok vydania, prekladateľa - dajú sa potom lepšie porovnať rôzne texty medzi sebou a ak si niekedy budete priať, aby ste mali daný titul aj v papierovej forme, obvykle je lacnejšie si ho kúpiť a takto budete vedieť, kde.
Nepoužívajte stĺpce. Ak necháte veľkosť strany dokumentu A5, stĺpce nie sú potrebné.

Nahradzovanie: Veľká výhoda opravy vo Worde je v tom, že môžete nahradzovať v celom dokumente. Funkcia Nahradzovať /Ctrl+h/ má široké možnosti a veľmi vie pomôcť. Nahradzujem tri bodky ... trojbodkou … /Ctrl+./, pred trojbodkou nemá byť medzera, Takisto nemôžete mať medzeru pred otáznikom a výkričníkom. Nahradzujem viacnásobné medzery jednou, alebo ak je náhodou medzera na začiatku odstavca,dá sa hromadne nahradiť funkciou Nahradiť, Viac, Špeciálne, Znak konca odstavca + medzera za iba Znak konca odstavca /^p/. Pomlčku a veľkú pomlčku nahrádzam strednou pomlčkou spôsobom - medzera + pomlčka je nahradená medzerou + strednou pomlčkou /Ctrl-/. Totiž v češtine je prípona -li a bez tej medzery by sa pomlčka zlikvidovala. Takisto nahradzujem aj nepasujúce úvodzovky /„xxxx"/ pri náhrade " za ". Word dokáže pekne priradiť správne úvodzovky /„xxxx“/.
Ak si dáte Zobraziť a skryť netlačiteľné znaky, nájdete možno značku voliteľného rozdelenia, ak ste ju nezakázali v OCR - /Prižmúril/ no ono to skôr vyzerá ako L otočené o 270^o. Tieto odstraňujem /Ctrl+h, ^-/, takisto nahradzujem ručne zalomený riadok za znak konca odstavca./Ctrl+h, ^l za ^p/ - toto vzniká pri importe z html.

Pri nahradzovaní slov a ich skupín treba postupovať opatrne, najlepšie potvrdzovať po jednom.

Tieto chyby by sa mali odstraňovať pri oprave po OCR, preto je táto oprava najdôležitejšia. Samozrejmou podmienkou je čo najdôkladnejšia kontrola všetkých nejasných miest podľa originálu. Ak sa kontrola podľa predlohy zanedbá, ťažko sa to napráva.

1. a ďalšia korektúra: Nemá význam, aby ten, čo robil opravu po OCR, robil aj korektúry. Z praktických výsledkov vyplynulo, že ten, čo to ešte raz po sebe číta, nenájde ani tretinu tých chýb, ktoré zbadá ten, čo daný dokument ešte nikdy nečítal. Pri korektúrach sa korektor už sústreďuje viac na obsahovú stránku /po oprave po OCR by nemala zostať viac ako 1 chyba na stránke, po 1. korektúre 1 chyba na 5 stranách.../, prehliadnuté chyby pri skenovaní...

V tejto etape /pretože korektor obvykle nemá k dispozícii predlohu/ sa ale stáva to, že korektor si začne vymýšľať a nahradzuje pôvodné slová alebo spojenia takými, ktoré mu tam pasujú lepšie - či už z nevedomosti, alebo úmyselne. Ak je použité slangové spojenia /obvykle v priamej reči/, neopravujte to, spisovateľ na to má dôvod. To isté platí aj pre archaizmy. Korektor by si mal uvedomiť svoje hranice a to, čo mu nie je jasné, radšej nechať na pokoji. V takomto prípade odporúčam radšej kritické spojenie skopírovať a vložiť na začiatok dokumentu - aspoň tri slová, to otázne uprostred, aby sa to dalo dodatočne vyhľadať. Napríklad počitky a požitky vyzerajú podobne, ale nie je to to isté...
Snažte sa zachovávať logické rozvrhnutie - zmena scény by mala mať oddeľovač fyzického typu, nestačí zmena formátovania. Mal by tam byť prázdny riadok, pomlčka alebo hviezdička. Taktiež pri rozhovore pri prechode z jedného účastníka hovoru na druhého obvykle dochádza k zalomeniu odstavca - prechod na druhý riadok /ak sa to nedodržuje, tak časom stratí čitateľ súvislosť, kto vlastne rozpráva/.
V tejto etape sa do korektúr môžu zapojiť nevidiaci, pretože hlasový výstup upozorní podstatne výraznejšie na chybu /napríklad bežná zámena l a 1, alebo é a č/ než pri bežnom čítaní. Vtedy je aj chýb už pomenej a opraviť danú chybu už nedá toľko práce.

Označovanie stupňa práce: Ak daný dokument používate v doc alebo rtf, napíšte vždy do Vlastnosti dokumentu stav, v akom ste ho zanechali - samozrejme iba vtedy, keď niečo opravíte - trebárs skenoval xxx, oprava po OCR yyy alebo digitalizoval zzz /ak urobil oboje/, 1. - x. tá korektúra. Vo Vlastnostiach dokumentu nepoužívajte diakritiku. Ak to tam nenapíšete, napíšte to aspoň na začiatok textu - to je lepší variant, prípadne na koniec.

Oddeľovanie logických celkov: Pri testovaní screenreaderov sme zistili, že majú veľké problémy s čítaním textu v takom prípade, že je prázdny riadok a za ním nasledujú hviezdičky - či už s medzerami alebo bez nich. Takže ak môžete, odstraňujte tie prázdne riadky a medzeru nahraďte formátovaním príslušného štýlu. Aby to bolo 100%, môžete hviezdičky nahradiť symbolom + alebo #.

Užívateľské postrehy: Poměrně velmi často se stává, že text označený jako Oprava po OCR obsahuje chyby, které by už obsahovat neměl, protože se dají odstranit takříkajíc "za pomoci stroje". Chci podotknout, že každý, kdo se hodlá vážněji zaobírat prací se skenovaným textem, resp. korekturami, by si práci s touto funkcí měl osvojit a co najčastěji ji používat.
Pro doplnění:
- v textu by se nikdy neměly vyskytovat dva znaky "mezera" za sebou. Necháme-li toto vyhledat, často narazíme na různé "nečistoty" na skenované stránce, interpretované Finereaderem jako znak, oddělený mezerami, a můžeme je odstranit (mezery i nepatřičné znaky)
- nikdy se nemohou vyskytovat dvoje uvozovky, ať už těsne za sebou ("") nebo oddělené mezerami (" "). Toto spojení nahradíme uvozovkami+znak konce odstavce+uvozovky
- odstavec nemůže končit (nebo jen vyjimečně) malým nebo velkým písmenem. Toto vyhledáme při použití zástupných znaků, vložíme-li do pole Najít výraz [A-ž]^13 a zaškrtneme Použít zástupné znaky
- odstavec rovněž nemůže začínat malým písmenem; tuto anomálii najdeme obdobne, jako předcházející, použitím výrazu ^13[a-ž]
- dále hledáme ostavce, které končí čárkou (,^13), středníkem (;^13), spojovníkem (-^13) a pod.
- hledáme i spojovníky (tzv. krátké pomlčky), které zůstanou po nahrazení spojení mezera+spojovník za mezera+strední pomlčka; před vlastním hledáním nahradíme částici -li za např. xXxXx, vyhledáme a odstraníme zbytečné spojovníky a xXxXx nahradíme zpět za -li (použijeme volbu Rozlišovat malá a velká písmena)
- další chybou, která se často vyskytuje, jsou spojení dvou čárek (,,) místo uvozovek; někdy se vyskytují i tečka+čárka (.,), dvě tečky, čárka+tečka; hledáme i více než tři tečky resp. čárky, popř. spojení čárka+mezera+čárka, popř v kombinaci s tečkou
- tečka ani čárka se nemůže vyskytovat na začátku slova - to najdeme při volbě Použít zástupné znaky vložením výrazu ,< popř. .<
- Finereader má jednu necnost - svévolně nahrazuje některá správná spojení. Typickým příkladem je dvojice slov "že je", kterou nahrazuje za slovo "zeje"; jinou takovou dvojicí je "si je", "se je", nahrazovaná za "šije" nebo "sije" a pod. Jméno "Bill" bývá nahrazeno za "Bili", sloveso "cuchat" a jeho různé tvary (cuchá, cuchal...) za "čuchal" (zajímavě pak zní spojení "vítr jí čuchal vlasy...) a další a další. Narazíme-li v korigovaném textu na takto "opravená" slova, je vhodné pomocí funkce "Najít" vyhledat jejich výskyt v celém dokumentu a opravit.
Oxiran

FineReader i při zapnutém "Odstranit volitelné spojovníky" nechává v textu rozdělená slova ... to nejde nahradit (aspoň jsem na to zatím nepřišel), ale musí se to přes ctrl+F najít ručně jako ^$-^$ a vyházet ... nebo nahradit ty co mají zůstat např. xxxxx a pomlčky mezi slovy (ve tvaru ' - ') nahradit taky nějakým řetězcem a potom ty ve slovech prostě nahradit nebo spíš vyhodit ...
Dávám si pozor na slovo 'líp' ... FR ho přeloží jako 'lip', ale je i v mnoha dalších slovech takže ho nejde nahradit hromadně ... další věcí je 'l' místo '!' v textu psaném kurzívou, tam to většinou rozhodí i uvozovky za tím vykřičníkem. Potom taky ještě, když věta začíná '"J' tak ve většině případů je ',J' a totéž se stává s ' "A' -> ',A' a to jak v normálním textu tak v kurzívě ...
] nahrazuje j i i jiná písmena nebo i vykřičník nebo otazník.
Navrhuju nepoužívat dělení slov, text to zkrátí jen pro tisk a při korektuře se líp čte bez rozdělených slov.
maerlyn