Prihlásiť
Vyhľadávanie
Nastavenie
O knižnici
Novinky
-100 - -Arc
-Arg - -Čer
-Čes - -DiV
-Div - -F&S
-F1 - -Imm
-In - -Kom
-Kon - -Lev
-Lex - -Mod
-Moj - -Per
-PES - -Prí
-Pří - -Sbí
-Sbo - -Sta
-Šta - -Tre
-Trn - -VTM
-Výb - ab H
Abag - Adle
Adli - Algr
Algu - Ande
Andj - Arlt
Arma - Avar
Avdě - Bake
Bakk - Barb
Barč - Bart
Bárt - Beat
Beau - Bell
Belm - Berá
Bera - Beth
Bett - Bisc
Bish - Blaž
Blec - Boke
Boko - Both
Botí - Bran
Bras - Bris
Brit - Brug
Brůh - Bukv
Buľ, - Butl
Búto - Camp
Čamp - Carr
Čars - Céli
Čelk - Červ
Cerv - Chau
Chav - Chro
Chrt - Číže
Čížk - Cole
Colf - Corn
Corr - Crum
Crus - Daib
Daic - Davi
Daví - De P
de P - Demj
Deml - Diet
Diff - Dola
Dolc - Dost
Dotl - Druž
Drve - Dura
Durb - Dyer
Dyga - Eism
Eisn - Eötv
Ephr - Fabr
Fábr - Fejf
Feke - Fige
Figu - Flee
Fleg - Forš
Fors - Free
Freh - Fuči
Fučí - Galí
Gáli - Gayl
Gayn - Giff
Gila - Gold
Göld - Graf
Gráf - Greg
Greh - Gryl
Grym - Haem
Haen - Hall
Halm - Hanu
Hany - Hart
Härt - Havr
Hawa - Helf
Helg - Héru
Herv - Hirt
Hisl - Hofb
Hofé - Holo
Hols - Horč
Hoře - Hovo
Howa - Hrub
Hrud - Hunt
Huny - Incl
Incz - Jahn
Jähn - Janí
Jani - Jedl
Jedn - Jilí
Jílk - Jone
Jong - Jusk
Just - Kali
Kall - Kari
Karj - Kay,
Kaye - Kern
Kero - Kirk
Kirn - Klim
Klím - Koch
Kočí - Kolm
Koln - Kopp
Köpp - Kote
Kotě - Kozá
Koza - Krat
Krau - Křiv
Kriv - Kubá
Kube - Kuld
Kule - Kuzn
Kuźn - Lake
Lakh - Laro
LaRo - Leat
Leav - Lend
Leng - Lhot
Li, - Lišk
List - Lore
Lori - Lukš
Lulá - Mach
Mách - Mahm
Mahr - Maná
Maňá - Marg
Marh - Mart
Márt - Matr
Mats - McCa
McCh - Med,
Mede - Merl
Mero - Míčk
Mičk - Milo
Mils - Mohl
Mohr - Mora
Morá - Mowr
Moye - Murp
Murr - Navr
Naxe - Nesv
Nešv - Nito
Nive - Nová
Nova - O'Ro
O'Sh - Olšo
Olss - Osma
Ošme - Pala
Palá - Park
Parl - Pave
Pavi - Pejč
Pejř - Pešt
Pest - Pica
Picc - Pitz
Pius - Poho
Pohr - Pont
Pool - Prae
Prág - Proc
Proč - Puzy
Pých - Rako
Rakú - Redf
Redg - René
Renf - Rieč
Ried - Robi
Robl - Rose
Rosi - Rubi
Rubí - Rybá
Ryba - Šáhí
Sahl - Sans
Sant - Sche
Schi - Schu
Schü - Sedl
Sedm - Šest
Sest - Ship
Shir - Šime
Sime - Site
Šiti - Slab
Slac - Smej
Šmej - Snie
Snig - Sora
Sorá - Spil
Špin - Staň
Stan - Stei
Štei - Štoc
Stoc - Stri
Stří - Sue,
Süe- - Švar
Švař - Swal
Swan - Tamm
Tamp - Terr
Terš - Tich
Tidb - Tomi
Tomí - Trév
Trev - Ture
Turg - Urba
Urbá - Vale
Valé - Vani
Vaňk - Vegr
Veho - Vice
Vích - Vlče
Vlčk - von
Von - Vrzg
Všel - Wall
Walm - Wegl
Wegn - Whar
What - Will
Wilm - Woll
Wöll - Yves
z Al - Zarh
Žarn - Žert
Zerz - Zozu
Zółk - Østb
DigiBooks - Informácie

O združení Infoblind
Sponzori
Prihláška
Pravidlá
Pomoc
Zoznam textov
Rebríček obľúbenosti
Skenovanie
OCR
Oprava po OCR
Korektúry
Formáty kníh
Obrázky
Diskusia
Interná pošta

Opravy textu a korektúry:

Znovu by som pripomenul jednu základnú vec: text je zdigitalizovaný vtedy, keď je oskenovaný, prebehol cez OCR, bol skontrolovaný podľa originálu a vychytaná väčšina chýb. Ak bol iba oskenovaný, mal by byť archivovaný minimálne v rozlíšení 300DPI /lepšie 600/, odtieňoch sivej /Gray/, pokiaľ možno v bezstratovom formáte /png/.
Nevidiaci obvykle môžu zabezpečiť iba prechod cez OCR, nemajú možnosť skontrolovať text podľa originálu. Dôsledkom toho bývajú pomiešané a chýbajúce stránky, poškodené a pomiešané bloky textu, veľmi chybový výstup, takže veľa z týchto textov je nepoužiteľných.
Najspoľahlivejší spôsob na dobrú opravu textu po OCR je uloženie výstupu do txt súboru, otvoriť v Poznámkovom bloku, cez schránku preniesť do pripravenej šablóny vo Worde. Nie je dobré veľké texty opravovať priamo v OCR /i keď to ide/ je to pracnejšie, zanecháva to viac chýb a korektor sa menej sústredí na obsah textu.
Pred čítaním je dobré celý text označiť ako štýl Normal /stále hovorím o oprave po OCR/, meno autora ako štýl Nadpis1, názov textu ako štýl Nadpis2, názov kapitoly /alebo celej časti/ ako Nadpis3, podnadpisu ako Nadpis4. Maximálne má význam ísť do úrovne Nadpis5, ale iba v odôvodnených prípadoch. V priebehu čítania si nechajte k dispozícii lištu štýlov až kým nenadefinujete všetky potrebné štýly k vašej spokojnosti, potom už stačí iba vyberať.
Použiť príliš veľa štýlov tiež nie je dobré, snažte sa tie čo používate nadefinovať dostatočne univerzálne. Nezabúdajte že taký Word nie je profesionálny program na zalamovanie textu, ale je to kompromis medzi tým, čo chcete a čo je jednoduché na ovládanie. Skúste si vždy predstaviť, ako to bude vyzerať, keď spracovávaný text uložíte ako holý txt - tam na žiadne špeciality nezostane miesto...

Ak sú kapitoly dostatočne dlhé, používajte zalomenie strán pred nasledujúcou kapitolou, hlavne vtedy, ak v texte máte obrázky. Zalomenie oddielov používajte, iba ak je to nevyhnutné - pri zmene orientácie strany, číslovaní strán, inak na to nie je dôvod.
Ak to ide, obrázky vkladajte priamo do textu, nepoužívajte obtekanie - nanajvýš pri malých alebo tam, kde je to nevyhnutné. Obrázok titulnej strany zvyknem nastaviť s vlastnosťou "cez text", takže prekrýva autora a nadpis diela - ale iba vtedy, keď je v obrázku nadpis a autor už obsiahnutý.
Nemá význam zaraďovať prázdne strany, tie sú tam iba kvôli papierovej tlači. Neodstraňujte vydavateľa, rok vydania, prekladateľa - dajú sa potom lepšie porovnať rôzne texty medzi sebou a ak si niekedy budete priať, aby ste mali daný titul aj v papierovej forme, obvykle je lacnejšie si ho kúpiť a takto budete vedieť, kde.
Nepoužívajte stĺpce. Ak necháte veľkosť strany dokumentu A5, stĺpce nie sú potrebné.

Nahradzovanie: Veľká výhoda opravy vo Worde je v tom, že môžete nahradzovať v celom dokumente. Funkcia Nahradzovať /Ctrl+h/ má široké možnosti a veľmi vie pomôcť. Nahradzujem tri bodky ... trojbodkou … /Ctrl+./, pred trojbodkou nemá byť medzera, Takisto nemôžete mať medzeru pred otáznikom a výkričníkom. Nahradzujem viacnásobné medzery jednou, alebo ak je náhodou medzera na začiatku odstavca,dá sa hromadne nahradiť funkciou Nahradiť, Viac, Špeciálne, Znak konca odstavca + medzera za iba Znak konca odstavca /^p/. Pomlčku a veľkú pomlčku nahrádzam strednou pomlčkou spôsobom - medzera + pomlčka je nahradená medzerou + strednou pomlčkou /Ctrl-/. Totiž v češtine je prípona -li a bez tej medzery by sa pomlčka zlikvidovala. Takisto nahradzujem aj nepasujúce úvodzovky /„xxxx"/ pri náhrade " za ". Word dokáže pekne priradiť správne úvodzovky /„xxxx“/.
Ak si dáte Zobraziť a skryť netlačiteľné znaky, nájdete možno značku voliteľného rozdelenia, ak ste ju nezakázali v OCR - /Priž­múril/ no ono to skôr vyzerá ako L otočené o 270o . Tieto odstraňujem /Ctrl+h, ^-/, takisto nahradzujem ručne zalomený riadok za znak konca odstavca./Ctrl+h, ^l za ^p/ - toto vzniká pri importe z html.

Pri nahradzovaní slov a ich skupín treba postupovať opatrne, najlepšie potvrdzovať po jednom.

Tieto chyby by sa mali odstraňovať pri oprave po OCR, preto je táto oprava najdôležitejšia. Samozrejmou podmienkou je čo najdôkladnejšia kontrola všetkých nejasných miest podľa originálu. Ak sa kontrola podľa predlohy zanedbá, ťažko sa to napráva.

1. a ďalšia korektúra: Nemá význam, aby ten, čo robil opravu po OCR, robil aj korektúry. Z praktických výsledkov vyplynulo, že ten, čo to ešte raz po sebe číta, nenájde ani tretinu tých chýb, ktoré zbadá ten, čo daný dokument ešte nikdy nečítal. Pri korektúrach sa korektor už sústreďuje viac na obsahovú stránku /po oprave po OCR by nemala zostať viac ako 1 chyba na stránke, po 1. korektúre 1 chyba na 5 stranách.../, prehliadnuté chyby pri skenovaní...

V tejto etape /pretože korektor obvykle nemá k dispozícii predlohu/ sa ale stáva to, že korektor si začne vymýšľať a nahradzuje pôvodné slová alebo spojenia takými, ktoré mu tam pasujú lepšie - či už z nevedomosti, alebo úmyselne. Ak je použité slangové spojenia /obvykle v priamej reči/, neopravujte to, spisovateľ na to má dôvod. To isté platí aj pre archaizmy. Korektor by si mal uvedomiť svoje hranice a to, čo mu nie je jasné, radšej nechať na pokoji. V takomto prípade odporúčam radšej kritické spojenie skopírovať a vložiť na začiatok dokumentu - aspoň tri slová, to otázne uprostred, aby sa to dalo dodatočne vyhľadať. Napríklad počitky a požitky vyzerajú podobne, ale nie je to to isté...
Snažte sa zachovávať logické rozvrhnutie - zmena scény by mala mať oddeľovač fyzického typu, nestačí zmena formátovania. Mal by tam byť prázdny riadok, pomlčka alebo hviezdička. Taktiež pri rozhovore pri prechode z jedného účastníka hovoru na druhého obvykle dochádza k zalomeniu odstavca - prechod na druhý riadok /ak sa to nedodržuje, tak časom stratí čitateľ súvislosť, kto vlastne rozpráva/.
V tejto etape sa do korektúr môžu zapojiť nevidiaci, pretože hlasový výstup upozorní podstatne výraznejšie na chybu /napríklad bežná zámena l a 1, alebo é a č/ než pri bežnom čítaní. Vtedy je aj chýb už pomenej a opraviť danú chybu už nedá toľko práce.

Označovanie stupňa práce: Ak daný dokument používate v doc alebo rtf, napíšte vždy do Vlastnosti dokumentu stav, v akom ste ho zanechali - samozrejme iba vtedy, keď niečo opravíte - trebárs skenoval xxx, oprava po OCR yyy alebo digitalizoval zzz /ak urobil oboje/, 1. - x. tá korektúra. Vo Vlastnostiach dokumentu nepoužívajte diakritiku. Ak to tam nenapíšete, napíšte to aspoň na začiatok textu - to je lepší variant, prípadne na koniec.

Oddeľovanie logických celkov: Pri testovaní screenreaderov sme zistili, že majú veľké problémy s čítaním textu v takom prípade, že je prázdny riadok a za ním nasledujú hviezdičky - či už s medzerami alebo bez nich. Takže ak môžete, odstraňujte tie prázdne riadky a medzeru nahraďte formátovaním príslušného štýlu. Aby to bolo 100%, môžete hviezdičky nahradiť symbolom + alebo #.


Užívateľské postrehy: Poměrně velmi často se stává, že text označený jako Oprava po OCR obsahuje chyby, které by už obsahovat neměl, protože se dají odstranit takříkajíc "za pomoci stroje". Chci podotknout, že každý, kdo se hodlá vážněji zaobírat prací se skenovaným textem, resp. korekturami, by si práci s touto funkcí měl osvojit a co najčastěji ji používat.
Pro doplnění:
- v textu by se nikdy neměly vyskytovat dva znaky "mezera" za sebou. Necháme-li toto vyhledat, často narazíme na různé "nečistoty" na skenované stránce, interpretované Finereaderem jako znak, oddělený mezerami, a můžeme je odstranit (mezery i nepatřičné znaky)
- nikdy se nemohou vyskytovat dvoje uvozovky, ať už těsne za sebou ("") nebo oddělené mezerami (" "). Toto spojení nahradíme uvozovkami+znak konce odstavce+uvozovky
- odstavec nemůže končit (nebo jen vyjimečně) malým nebo velkým písmenem. Toto vyhledáme při použití zástupných znaků, vložíme-li do pole Najít výraz [A-ž]^13 a zaškrtneme Použít zástupné znaky
- odstavec rovněž nemůže začínat malým písmenem; tuto anomálii najdeme obdobne, jako předcházející, použitím výrazu ^13[a-ž]
- dále hledáme ostavce, které končí čárkou (,^13), středníkem (;^13), spojovníkem (-^13) a pod.
- hledáme i spojovníky (tzv. krátké pomlčky), které zůstanou po nahrazení spojení mezera+spojovník za mezera+strední pomlčka; před vlastním hledáním nahradíme částici -li za např. xXxXx, vyhledáme a odstraníme zbytečné spojovníky a xXxXx nahradíme zpět za -li (použijeme volbu Rozlišovat malá a velká písmena)
- další chybou, která se často vyskytuje, jsou spojení dvou čárek (,,) místo uvozovek; někdy se vyskytují i tečka+čárka (.,), dvě tečky, čárka+tečka; hledáme i více než tři tečky resp. čárky, popř. spojení čárka+mezera+čárka, popř v kombinaci s tečkou
- tečka ani čárka se nemůže vyskytovat na začátku slova - to najdeme při volbě Použít zástupné znaky vložením výrazu ,< popř. .<
- Finereader má jednu necnost - svévolně nahrazuje některá správná spojení. Typickým příkladem je dvojice slov "že je", kterou nahrazuje za slovo "zeje"; jinou takovou dvojicí je "si je", "se je", nahrazovaná za "šije" nebo "sije" a pod. Jméno "Bill" bývá nahrazeno za "Bili", sloveso "cuchat" a jeho různé tvary (cuchá, cuchal...) za "čuchal" (zajímavě pak zní spojení "vítr jí čuchal vlasy...) a další a další. Narazíme-li v korigovaném textu na takto "opravená" slova, je vhodné pomocí funkce "Najít" vyhledat jejich výskyt v celém dokumentu a opravit.
Oxiran


FineReader i při zapnutém "Odstranit volitelné spojovníky" nechává v textu rozdělená slova ... to nejde nahradit (aspoň jsem na to zatím nepřišel), ale musí se to přes ctrl+F najít ručně jako ^$-^$ a vyházet ... nebo nahradit ty co mají zůstat např. xxxxx a pomlčky mezi slovy (ve tvaru ' - ') nahradit taky nějakým řetězcem a potom ty ve slovech prostě nahradit nebo spíš vyhodit ...
Dávám si pozor na slovo 'líp' ... FR ho přeloží jako 'lip', ale je i v mnoha dalších slovech takže ho nejde nahradit hromadně ... další věcí je 'l' místo '!' v textu psaném kurzívou, tam to většinou rozhodí i uvozovky za tím vykřičníkem. Potom taky ještě, když věta začíná '"J' tak ve většině případů je ',J' a totéž se stává s ' "A' -> ',A' a to jak v normálním textu tak v kurzívě ...
] nahrazuje j i i jiná písmena nebo i vykřičník nebo otazník.
Navrhuju nepoužívat dělení slov, text to zkrátí jen pro tisk a při korektuře se líp čte bez rozdělených slov.
maerlyn