Prihlásiť
Vyhľadávanie
Nastavenie
O knižnici
Novinky
-100 - -Arc
-Arg - -Čer
-Čes - -DiV
-Div - -F&S
-F1 - -Imm
-In - -Kom
-Kon - -Lev
-Lex - -Mod
-Moj - -Per
-PES - -Prí
-Pří - -Sbí
-Sbo - -Sta
-Šta - -Tre
-Trn - -VTM
-Výb - ab H
Abag - Adle
Adli - Algr
Algu - Ande
Andj - Arlt
Arma - Aval
Avar - Bake
Bakk - Barb
Barč - Bart
Bárt - Beat
Beau - Bell
Belm - Berá
Bera - Beth
Bett - Bisc
Bish - Blaž
Blec - Boke
Boko - Both
Botí - Bran
Bras - Bris
Brit - Brug
Brůh - Bukv
Buľ, - Butl
Búto - Camp
Čamp - Carr
Čars - Céli
Čelk - Červ
Cerv - Chau
Chav - Chro
Chrt - Číže
Čížk - Cole
Colf - Corn
Corr - Crum
Crus - Daib
Daic - Davi
Daví - De P
de P - Demj
Deml - Diet
Diff - Dola
Dolc - Dost
Dotl - Druž
Drve - Dura
Durb - Dyer
Dyga - Eism
Eisn - Eötv
Ephr - Fabr
Fábr - Fejf
Feke - Fige
Figu - Flee
Fleg - Forš
Fors - Free
Freh - Fuči
Fučí - Galí
Gáli - Gayl
Gayn - Giff
Gila - Gold
Göld - Graf
Gráf - Greg
Greh - Gryl
Grym - Haem
Haen - Hall
Halm - Hanu
Hany - Hart
Härt - Havr
Hawa - Helf
Helg - Héru
Herv - Hirt
Hisl - Hofb
Hofé - Holo
Hols - Horč
Hoře - Hovo
Howa - Hrub
Hrud - Hunt
Huny - Inch
Incl - Jahn
Jähn - Janí
Jani - Jedl
Jedn - Jilí
Jílk - Jone
Jong - Jusk
Just - Kali
Kall - Kari
Karj - Kay,
Kaye - Kern
Kero - Kirk
Kirn - Klim
Klím - Koch
Kočí - Kolm
Koln - Kopp
Köpp - Kote
Kotě - Kozá
Koza - Krat
Krau - Křiv
Kriv - Kubá
Kube - Kuld
Kule - Kuzn
Kuźn - Lake
Lakh - Laro
LaRo - Leat
Leav - Lend
Leng - Lhot
Li, - Lišk
List - Lore
Lori - Lukš
Lulá - Mach
Mách - Mahl
Mahm - Man-
Maňá - Marg
Marh - Mart
Márt - Matr
Mats - McCa
McCh - Med,
Mede - Merl
Mero - Míčk
Mičk - Milo
Mils - Mohl
Mohr - Mora
Morá - Mowr
Moye - Murp
Murr - Navr
Naxe - Nesv
Nešv - Nito
Nive - Nová
Nova - O'Ro
O'Sh - Olšo
Olss - Osma
Ošme - Pala
Palá - Park
Parl - Pave
Pavi - Pejč
Pejř - Pešt
Pest - Pica
Picc - Pitz
Pius - Poho
Pohr - Pont
Pool - Prae
Prág - Proc
Proč - Puzy
Pých - Rako
Rakú - Redf
Redg - René
Renf - Rieč
Ried - Robi
Robl - Rose
Rosi - Rubi
Rubí - Rybá
Ryba - Šáhí
Sahl - Sans
Sant - Sche
Schi - Schu
Schü - Sedl
Sedm - Šest
Sest - Ship
Shir - Šime
Sime - Site
Šiti - Slab
Slac - Smej
Šmej - Snie
Snig - Sora
Sorá - Spil
Špin - Staň
Stan - Stei
Štei - Štoc
Stoc - Stri
Stří - Sue,
Süe- - Švar
Švař - Swal
Swan - Tamm
Tamp - Terr
Terš - Tich
Tidb - Tomi
Tomí - Trév
Trev - Ture
Turg - Urba
Urbá - Vale
Valé - Vani
Vaňk - Vegr
Veho - Vice
Vích - Vlče
Vlčk - von
Von - Vrzá
Vrzg - Wall
Walm - Wegl
Wegn - Whar
What - Will
Wilm - Woll
Wöll - Yves
z Al - Zarh
Žarn - Žert
Zerz - Zozu
Zółk - Østb
DigiBooks - Informácie

O združení Infoblind
Sponzori
Prihláška
Pravidlá
Pomoc
Zoznam textov
Rebríček obľúbenosti
Skenovanie
OCR
Oprava po OCR
Korektúry
Formáty kníh
Obrázky
Diskusia
Interná pošta

OCR:
Zrejme ste už zistili, že oskenovaný text zaberá príliš veľa priestoru. Dá sa zmenšiť pri použití vhodnej kompresie, zmenšením počtu bodov, farebnej hĺbky, orezaním na vhodný rozmer, použitím vhodných filtrov - ale stále je to obrázok, v ktorom sa rozumným spôsobom nedá text editovať.

Na tento účel sú vytvorené rôzne programy typu OCR, ktoré pomocou inteligentných algoritmov a zabudovaných slovníkov rozoznávajú text z bitmapy, prípadne ho priamo prevádzajú do textu alebo do tabuliek. Pre naše účely môžeme použiť vlastne iba jeden produkt - Finereader od ruskej firmy Abbyy. Od verzie 6, 7 už je veľmi slušne použiteľný. Ďalej v texte bude označovaný iba ako FR.

V časopise Chip 1/2003 vyšiel článok OCR a čo s tým + free verzia Finereader 5 Sprint - prečítajte si ho, možno vám niečo málo pomôže. Pre FR7 je k dispozícii manuál po česky v pdf, a  aj slovenský manuál v pdf.

Pomoc pri nastavení a používaní programu Finereader
- Pred začatím skenovania je  potrebné zvoliť pracovný jazyk, prípadne viac jazykov naraz, ak sa vyskytujú v texte. FR9 to vie aj automaticky, ale často sa pomýli.
- V Nastavení Finereaderu v položke Skenovanie si povoľte "Rozdeliť dvojité strany". V takomto prípade dokáže FR samostatne natočiť každú stranu nezávisle, výrazne sa tým zmenšuje chybovosť. Ak jednom skene máte iba jednu stranu, potom túto voľbu nepoužívajte. Zároveň si povoľte "Upraviť skosenie snímky" (Narovnať textové čiary) a "Rozpoznať orientáciu obrázkov" (Zistiť orientáciu strany).
- Samozrejmosťou je možnosť ručného upravovania veľkosti blokov, ich typu /obrázok, text, tabuľka, čiarový kód/ ... - po týchto úpravách treba príslušný dokument znovu prečítať. Pre oblasti so zložitým tvarom môžete použiť kombináciu Ctrl+Shift+klik ľavým tlačidlom myši, vytvorí sa tým nový uzol, pomocou ktorého môžete upravovať tvar oblasti.
- Ak upravujete viac blokov po predchádzajúcom automatickom rozoznaní, nemá zmysel rozoznávať každú stranu samostatne. Hlavne FR9 je v takomto prípade veľmi pomalý. Stačí, ak po dokončení ručnej editácie v okne dokumentu označíte všetky strany a zadáte "Čítať stranu". V takom prípade FR prečíta iba všetky zmenené bloky.
- Uložte výsledný dokument ako rtf. Ak dokument aj uložíte z Finereaderu ako doc, stále to bude rtf, ale s nesprávnou príponou! Dokument môžete aj odoslať priamo do editoru, ale stále to bude rtf.
- Pri ukladaní použite voľbu pri FR6-8 "Tabuľky, odstavce, písma", pri FR9 "Upraviteľná kópia".
- Okrem toho použite voľby nastavenia textu: "Zachovať hlavičky a päty, Zachovať zlomy strán, Zachovať zlomy riadkov". Je to dôležité pri neskoršej editácii pomocou Santiagovho makra, vysvetlenie je nižšie. Ak prikladáte skeny alebo kontrolujete výsledný dokument podľa originálu, môžete pri FR9 zrušiť voľbu "Zachovať hlavičky a päty", ušetrí to trochu práce.
- Nastavenie obrázkov - použite kvalitu strednú, pre obrazovku. Táto voľba je vyhovujúca skoro na všetko.
 

Načítanie do editoru a základná úprava
- Dokument vo formáte rtf je základom, dokáže ho načítať každý textový editor. Ale má zásadné obmedzenie a to je formát obrázkov. Dokáže ich uchovávať iba ako nekomprimovaný bmp, takže ak dokument obsahuje niekoľko väčších obrázkov, môže mať niekoľko desiatok i stoviek MB. Preto ho po načítaní uložte znovu ako formát doc, dokument sa obvykle výrazne zmenší. Je to tým, že formáty doc, docx, odt už používajú komprimované formáty - png a jpg, takže pri ukladaní si obrázky prekonvertujú. OpenOffice oproti Wordu dokonca pri prevode z rtf  do doc vytvorí o niečo málo menší dokument.
- Rýchlosť načítavania dokumentu - zatiaľ je najrýchlejší Word XP. Word 2000 má veľké problémy pri niekoľkostostranových súboroch, Word 2003 je už o niečo pomalší, Word 2007 je výrazne pomalší. Slušnou alternatívou je OpenOffice vo verzii 3.
- Na základnú úpravu textu je dobré použiť Santiagove makrá. Nájdete ich na webovej stránke http://santiago.wz.cz, odkaz sa otvára v samostatnom okne. Po inštalácii do Wordu 2000 až 2007 si nájdete doplnené menu Knížka, v ktorej je mnoho užitočných možností. Odporúčam použiť hlavne položku Úprava knížky - Spojení stránek a řádků. Vtedy sa spoja rozlámané riadky, strany a odstránia sa spojovníky na konci riadkov. Po ňom potom komplexné makro Základní úprava textu. Od toho okamžiku je dokument prichystaný na opravu podľa predlohy.