Page 1

Kuharica za digitalizaciju knjiga

Page 1 of 11

Kuharica za digitalizaciju knjiga (v0.1)

Cilj je ovog kratkog priručnika pomoći u pretvaranju tiskanih knjiga u digitalni format. Digitalne knjige namijenjene su zbirci za slijepe i slabovidne osobe na kojoj, u okviru projekta IPSIS, rade Hrvatski savez slijepih i Odsjek za informacijske znanosti Filozofskoga fakulteta u Zagrebu. Od korisnika ovog priručnika očekuje se da poznaju osnove rada s Windows(TM) operativnim sustavom: da znaju kreirati foldere, editirati tekst, služiti se cut & paste tehnikom i slično. Korisno je (ali ne i nužno) znati i temeljne elemente HTML-a (HyperText Markup Language). Naime, naše digitalne knjige bit će u HTML formatu, tj. formatu web-stranica - zato što je ovaj format lagan, čitljiv na svakom operativnom sustavu te, zbog korištenja (hiper)linkova, pogodan za brzo i jednostavno kretanje tekstom. U pisanju HTML koda dobro je pratiti preporuke WWW konzorcija. [Web Content Accessibility Guidelines trenutno su u verziji 1.0, posljednju verziju možete pronaći na stranicama WWW konzorcija.]

Sadržaj: z z z z z z z z z

Kako treba izgledati digitalna knjiga Vježba Softver & hardver Skeniranje i OCRanje Prebacivanje u HTML Uređivanje HTML datoteka Što sa slikama (i grafovima)? Što s fusnotama i bilješkama? Završna napomena

Kako treba izgledati digitalna knjiga Digitalna knjiga kojom se bavi ovaj priručnik je preslik originalnog djela u obliku web-stranice. Djelo, stoga, mora biti pri prijenosu u digitalni format sačuvana u što izvornijem obliku. Smjernice koje slijede služe kao primjer kako se takav prijenos može učinkovito i bezbolno napraviti. Zamišljeno je da digitalna knjiga izgleda ovako: knjigu razbijamo u više datoteka koje se nalaze u istom folderu. Ime tog foldera neka bude sastavljeno od imena autora i naslova knjige (npr. 'Masayuki Saionji - Specijalna orijentala bozanstvena masaza'). U imenima foldera i datoteka poželjno je izbjegavati tzv. znakove s kvačicama (š đ č ć ž). Datoteka 'index.html' je sadržaj sastavljen od naslova knjige i linkova na pojedina poglavlja. Jedna datoteka predstavlja jedno poglavlje i mora sadržavati link na prethodno poglavlje, sljedeće poglavlje i na sadržaj. U posebne datoteke treba staviti sve fusnote, bilješke, napomene, bibliografije i slično. Iza svake pojedine fusnote ili napomene treba se nalaziti link koji vodi natrag na tekst (npr. 'natrag na tekst').

Vježba U ovoj vježbi možete pokušati ovu kuharicu iz tiskanog (isprintanog) formata pretvoriti natrag u webstranicu. Rezultat mora biti (gotovo) identičan dokument ovom koji upravo čitate. Ova vježba će vam

http://www.jedinstvo.hr/~sven/kuharica/

1.3.2012.


Kuharica za digitalizaciju knjiga

Page 2 of 11

poslužiti kao dobar uvod u buduće postupke digitalizacije knjiga. 1. Otisnite ovaj dokument naredbom "Print". Pazite da u printeru ima dovoljno boje/tonera, jer otisak mora biti kvalitetan radi skeniranja. 2. Otvorite "My documents" i u njemu kreirajte novi folder u koji ćete spremati digitalizirane knjige. Dajte mu neko maštovito ime, na primjer "Digitalne knjige". 3. Otvorite "Digitalne knjige" i u njemu kreirajte folder "IPSIS kuharica za digitalizaciju knjiga". U ovaj folder ćete spremati datoteke koje će sačinjavati digitalnu kuharicu. 4. Pokrenite Fine Reader. 5. Umetnite prvu stranicu isprintane Kuharice u skener. 6. U Fine Readeru pritisnite 'Scan & Read', odnosno Ctrl+D. Pritiskom na 'Scan' u sljedećem prozoru, Fine Reader skenira i prepoznaje stranicu po stranicu teksta. 7. Nakon što ste ovaj postupak ponovili za sve stranice, pritisnite F7 (ili 'Check Spelling') i provjerite pravopis. 8. Zatim, pritiskom na F2 ili 'Save Text to File', sve skenirane stranice snimite u datoteku koju ćete nazvati "index.html", u prethodno kreiranom folder "IPSIS kuharica za digitalizaciju knjiga". (Potrebno je uključiti i opciju 'Keep Pictures'!) Nakon toga biste u istom folderu trebali imati: datoteku "index.html" i sve slike koje Kuharica sadrži. Kada otvorite ovu datoteku, pred vama bi trebala biti identična kopije Kuharice koju upravo čitate. Napomena: Ova vježba je samo skraćeni opis postupka koji je detaljnije opisan u nastavku ovog priručnika. Prateći ovaj postupak trebali biste doći do istoga rezultata. Opisani postupak odnosi se na digitalizaciju knjiga, pa je moguće da u procesu digitalizacije isprintanih stranica postupak treba djelomično prilagoditi.

Softver & hardver Digitalizacija knjige sastoji se od: skeniranja, prepoznavanja teksta (OCR, Optical Character Recognition), prebacivanja u HTML format i uređivanja HTML datoteka. Koristit ćemo sljedeći softver: Fine Reader - program za prepoznavanje skeniranog teksta (OCR) (download besplatne probne verzije) Front Page Express - jednostavni HTML editor, za uređivanje skeniranog teksta (download) i po potrebi, Web Notepad - jednostavni uređivač HTML koda, za one koji ga poznaju (download) Na računalu na kojem radite trebali bi biti instalirani ovi programi i priključen skener (fotografija skenera). I naravno računalo treba biti upaljeno :)

Skeniranje i OCRanje Program koji se prvi koristi je Fine Reader. Proces skeniranja trebao bi teći ovako: Pokrenemo Fine Reader. Na alatnoj traci (toolbaru) podesimo jezik koji će program koristiti za prepoznavanje teksta (slika 1).

http://www.jedinstvo.hr/~sven/kuharica/

1.3.2012.


Kuharica za digitalizaciju knjiga

Page 3 of 11

Slika 1 U većini slučajeva je za knjige na hrvatskom dobro odabrati opciju 'Select multiple languages' i zatim uz hrvatski označiti označiti i engleski jezik, ili drugi jezik iz kojega se riječi često pojavljuju u tekstu. Na taj način riječi iz stranog jezika prilikom provjere pravopisa (spelling check) neće biti prepoznate kao nepoznate. Stavimo početnu stranicu knjige u skener, pazeći pritom na veličinu knjige. Kut skenirane stranice treba biti u kutu skenera označenom strelicom. (Ako poklopac skenera podižemo od sebe to je donji lijevi kut.) Na skeneru su označene granice formata (A4, B5) koji se skenira. Za pokretanje skenera i čitanje stranice u Fine Readeru kliknemo na 'Scan&Read' ili koristimo kombinaciju tipaka Ctrl+D (slika 2).

Slika 2 U prozoru koji se zatim pojavljuje potrebno je podesiti sljedeće opcije (slika 3): 'Color Mode: Text Enhanced' (tako da skeniranje bude prilagođeno tekstu) 'Resolution: 300 dpi' (rezolucija slike) 'Paper Size: ' (A4, B5... odabrati prema formatu skenirane knjige)

http://www.jedinstvo.hr/~sven/kuharica/

1.3.2012.


Kuharica za digitalizaciju knjiga

Page 4 of 11

Slika 3 Nakon toga započinjemo skeniranjem klikom na 'Scan' (gore lijevo) ili kombinacijom tipaka Ctrl+D. Nakon što je Fine Reader poskenirao i pročitao stranicu knjige, u lijevom većem prozoru pokazuje sliku poskenirane stranice, a u desnom tekst koji je prepoznao na slici. Ovo zatim treba ponoviti za čitavu knjigu. Proces se može skratiti ako se pritiskom na 'Scan&Read' odabere 'Scan&Read Multiple Images' (slika 2). (Isto postižemo ako iz izbornika 'Process' (kombinacija tipaka Alt+P) izaberemo istu naredbu, 'Scan&Read Multiple Images'). Kvaliteta prepoznavanja teksta može ovisiti i o položaju knjige u skeneru: važno je paziti da rub stranice prati rub okvira te da je stranica dobro priljubljena uz površinu skenera. Slijedi provjera pravopisa. Klikom na 'Check Spelling' ili pritiskon na F7, pojavljuje se prozor u kojemu Fine Reader nudi opcije za potencijalno krivo prepoznate riječi. Ako je riječ pogrešno prepoznata, možemo je zamijeniti drugom ponuđenom ('Replace') ili ručno ispraviti u polju s tekstom. U mnogim slučajevima Fine Reader upozorava na riječi koje je ispravno prepoznao, ali ih nema u svom rječniku. Te riječi možemo ignorirati ('Ignore') ili, još bolje, dodati u rječnik ('Add') (slika 4).

http://www.jedinstvo.hr/~sven/kuharica/

1.3.2012.


Kuharica za digitalizaciju knjiga

Page 5 of 11

Slika 4

Prebacivanje u HTML Nakon provjere pravopisa knjigu treba snimiti u HTML formatu. Ovdje treba imati na umu kako konačna verzija knjige treba izgledati. Budući da pojedina poglavlja knjige trebaju biti u zasebnim HTML datotekama, najbolje je prepoznat i ispravljen tekst izravno iz Fine Readera snimati u HTML format. Prvo, u lijevom stupcu u kojem su prikazane skenirane stranice, označimo stranicu sa naslovom i sadržajem (tako što jednom kliknemo na nju - označena je stranica plava). Zatim iz izbornika 'Save' biramo 'Save Text To File' (isto je ako samo pritisnemo tipku 'F2', slika 5).

Slika 5 U prozoru koji se pojavljuje treba podesiti opcije za snimanje HTML datoteke ('Save Text As', slika 6): 'File Name' - bit će "index.html", budući da se radi o početnoj stranici knjige s koje će linkovi voditi

http://www.jedinstvo.hr/~sven/kuharica/

1.3.2012.


Kuharica za digitalizaciju knjiga

Page 6 of 11

na pojedina poglavlja; 'Save As Type: HTML Document (*.htm)' - jer knjigu snimamo u HTML formatu; 'Save Pages: Selected Pages' - snimamo samo odabranu stranicu (ili, kasnije, odabrane stranice); 'File options: Create a single file for all pages' - sve odabrane stranice bit će u jednoj

datoteci; 'Retain Layout: Remove All Formatting' - nije nam potrebno sačuvati originalan izgled fonta i

stranice; 'Keep Pictures' - treba biti označeno, ako želimo da uz stranicu budu snimljene i slike.

Slika 6 Još je potrebno podesiti opcije formata stranice, pa kliknemo na 'Format Settings'. U sljedećem prozoru ('Formats Settings', slika 7) opcije koje treba podesiti su: 'Code Page: Automatic' 'Code Page Type: Windows' 'Picture Resolution: 72' 'Format - Simple (compatible with all browsers)'

Nakon podešavanja ovih opcija pritisnemo 'OK'.

http://www.jedinstvo.hr/~sven/kuharica/

1.3.2012.


Kuharica za digitalizaciju knjiga

Page 7 of 11

Slika 7 Nakon svega, klikom na 'Save' snimamo datoteku. Ovu proceduru je potrebno ponoviti i za pojedina poglavlja. Jedina je razlika što sada ne odabiremo samo jednu stranicu, već više njih. To je najlakše učiniti tako da se u lijevom stupcu (u kojem smo prije označili samo 1 stranicu) označi/klikne prvu stranicu poglavlja, drži pritisnita tipka Shift, i zatim klikne na zadnju stranicu poglavlja (ili se strelicom spušta dolje do posljednje stranice). Sve odabrane stranice moraju biti osjenčane plavo. (Ovo može zahtijevati više koncentracije i malo vježbe u koordinaciji lijeve i desne ruke i rada s tipkovnicom i mišem, ali izvedivo je :). Nakon prebacivanja svih poglavlja u HTML, trebali bismo u folderu imati: datoteku "index.html", s naslovom i autorom knjige i sadržajem te datoteke s pojedinim poglavljima. Također, ako je u knjizi bilo slika, one bi morale biti snimljene u istom folderu.

Uređivanje HTML datoteka Za uređivanje HTML datoteka ovdje koristimo Front Page Express. U FPXu radi se vrlo slično kao u bilo kojem tekst-editoru (recimo Wordu). Prvo otvaramo "index.html" datoteku - stranicu koja sadrži naslov knjige i sadržaj. Da bismo stranici dali naslov, trebamo iz izbornika File (kratica: Alt+F) izabrati Page Properties. Zatim u polje Title unosimo naslov knjige. (Ovaj će se naslov pojavljivati na rubu prozora u kojem je stranica otvorena.) Ovo treba napraviti za svaku novu stranicu. Stranice koje sadrže pojedina poglavlja knjige neka nose naslov tih poglavlja. Iz sadržaja, kao i kasnije iz pojedinih poglavlja, možemo odmah obrisati brojeve stranica jer u digitalnom formatu nisu potrebni. Zatim naslove poglavlja treba pretvoriti u linkove na poglavlja: Označimo riječ koja će biti link na određeno poglavlje. Nju zatim pretvaramo u link pritiskom na Ctrl+k ili klikom na izbornik Edit, pa Hyperlink (slika 8).

http://www.jedinstvo.hr/~sven/kuharica/

1.3.2012.


Kuharica za digitalizaciju knjiga

Page 8 of 11

Slika 8 U prozor koji se zatim pojavljuje odabere se opcija 'Hyperlink Type: file' i upiše ime datoteka na koju vodi link s početne stranice (slika 9). U našem primjeru to je datoteka "prilog.html".

Slika 9 Da bismo provjerili radi li novi link, trebamo na njega kliknuti desnim buttonom, pa ići na 'Follow Hyperlink', odnosno označiti link i iz izbornika Tools (Alt+T) izabrati 'Follow Hyperlink' (slika 10).

http://www.jedinstvo.hr/~sven/kuharica/

1.3.2012.


Kuharica za digitalizaciju knjiga

Page 9 of 11

Slika 10 Pa se vratimo natrag tako što iz izbornika Go (Alt+T) ili Tools (Alt+T) izaberemo Back, ili kliknemo na lijevu strelicu na alatnoj traci (iliti toolbaru). Ovo treba ponoviti za sve (buduće) linkove.

Što sa slikama (i grafovima)? Slike u digitalnoj knjizi za slijepe moramo prilagoditi slijepima. To ćemo učiniti tako da svakoj slici pridružimo kratak opis (najviše 1 rečenica). (U HTMLu ovo je tzv. ALT atribut.) Postupak je sljedeći (slika 11): Desnim klikom na sliku dobijemo izbornik iz kojega odaberemo 'Image properties'. (Isto dobijemo ako iz izbornika Edit (Alt+E) odaberemo 'Image properties', odnosno upotrijebimo kombinaciju tipaka Alt+Enter.) U prozoru koji se zatim pojavljuje u polje 'image source' upisuje se lokacija slike. Ako smo npr. za tu svrhu kreirali folder "slike", u ovo polje unosimo "slike/imeslike.jpg". Ako smo slike ostavili u istom folderu u koji ih je snimio Fine Reader, u ovo polje unosimo samo ime slike (odnosno ime datoteka koja sadrži sliku). Pod 'alternative representations', u polje 'text' unosimo kratak opis slike.

Slika 11

http://www.jedinstvo.hr/~sven/kuharica/

1.3.2012.


Kuharica za digitalizaciju knjiga

Page 10 of 11

Ovaj je opis vidljiv kada kursorom zastanete na slici, dok ga browser za slijepe jednostavno pročita umjesto da prikaže sliku. (Ako kursor zaustavite na gornjoj slici pojavit će se tekst "Slika 11: opisivanje slike".) Grafove (i slične grafičke prikaze) tretiramo isto kao i slike. Opis grafa može biti uobičajeni kratki opis koji se obično već nalazi u tekstu knjige. Međutim, ako je graf složeniji, potrebno ga je dodatno opisati. To možemo učini tako da ispod grafa upišemo "Detaljniji opis grafa" i zatim to pretvorimo u link. Ovaj link neka vodi u posebnu datoteku s opširnijim pojašnjenjem. Ova datoteka osim opisa grafa treba sadržavati i link za povratak na tekst knjige.

Što s fusnotama ili bilješkama? Najjednostavnije rješenje je fusnote ostaviti onako kako ih je Fine Reader snimio: nakon svake stranice teksta bit će fusnote koje se odnose na tu stranicu. To znači da će poglavlje knjige biti isprekidano fusnotama, što prilično otežava čitanje. Alternativno rješenje je idealno za čitanje ali zahtjeva više posla. Evo o čemu se radi: Radi lakšeg čitanja sve fusnote iz nekog poglavlja prebacujemo u zasebnu datoteku. Cilj nam je da broj fusnote (na stranici s tekstom) bude link na fusnotu (na stranici s fusnotama). Također, iza svake fusnote treba biti link (npr. "natrag na fusnotu") koji će voditi natrag na mjesto u tekstu u kojem se pojavljuje fusnota. Da bismo to postigli, prvo moramo sve fusnote iz nekog poglavlja snimiti u zasebnu datoteku (npr. datoteka s fusnotama iz prvog poglavlja knjige zvat će se "fusnote1.html"). Zatim broj fusnote u tekstu pretvaramo u link (procedura opisana gore). Ovo je jednostavno kada se radi o fusnoti "1" - slijedeći navedeni postupak sve će raditi kako treba. Ali kako postići da nas link "natrag na fusnotu" vodi upravo na mjesto u tekstu na kojem smo stali čitati? Kako nas neka fusnota mora voditi baš na određeno mjestu u tekstu potrebne su nam dodatne opcije. Mjesto u tekstu na koje vodi neki link (fusnota na stranici s fusnotama, odnosno mjesto na kojem smo stali čitati) moramo označiti na sljedeći način. Postavimo kursor na željeno mjesto u tekstu. Recimo da je to fusnota broj 13. Prvo broj 13 treba pretvoriti u link na stranicu s fusnotama. Ali, ovo mjesto u tekstu treba dodatno označiti, tako da bi se pri čitanju na njega mogli vratiti. Iz izbornika Edit (kombinacija tipaka Alt+E) biramo Bookmark. U polje prozora upisujemo broj fusnote (npr. 13). Sada je ovo mjesto u tekstu označeno kao mjesto fusnote 13. Zatim, kao i prije, slijedimo link (desni klik, 'Follow Hyperlink', ili označimo link i iz izbornika Tools (Alt+T) biramo 'Follow Hyperlink'). Time za uređivanje otvaramo stranicu s fusnotama. I mjesto fusnote 13 na stranici s fusnotama potrebno je obilježiti na isti način. Stoga postavljamo kursor ispred broja fusnote i ponovo iz izbornika Edit biramo Bookmark i u polje prozora upisujemo isti broj fusnote kao i na stranici s tekstom. Da bismo se sa stranice s fusnotama mogli vratiti na mjesto na kojm smo stali čitati, potrebno je iza svake fusnote ubaciti odgovarajući link. Odlučili smo se npr. za "natrag na tekst". Nakon što smo ovu frazu upisali iza teksta fusnote 13, pretvaramo je u link. Link mora voditi na stranicu s tekstom, odnosno na mjesto fusnote 13 u tekstu. Označimo "Natrag na tekst" i pretvorimo ge u link (izbornik Edit, pa Hyperlink, ili Ctrl+K). U prozoru koji se pojavljuje treba odabrati: datoteku na koju link treba voditi (datoteku s tekstom poglavlja) - kod opcije 'Open Pages' odabiremo datoteku; mjesto u tekstu na koje se treb vratiti - kod opcije 'Bookmark' biramo broj fusnote. (Slika 12).

http://www.jedinstvo.hr/~sven/kuharica/

1.3.2012.


Kuharica za digitalizaciju knjiga

Page 11 of 11

Slika 12 Nažalost, ovaj postupak treba ponoviti za svaku fusnotu pojedinačno. :( (Budući da je ovaj postupak prilično mukotrpan, bilo bi idealno imati skriptu koja bi čitavu stvar s uređivanjem fusnota automatizirala. Zasad je međutim sve ovo potrebno raditi ručno.) Na kraju ovog postupka trebali bismo, uz malo sreće i nešto više truda, doći do digitalne knjige kakva je opisana na početku. scvek@ffzg.hr. _sC Copyleft IPSIS 2002.

http://www.jedinstvo.hr/~sven/kuharica/

1.3.2012.

Digitalizacija knjiga  
Digitalizacija knjiga  

Digitalizacija