Page 1

SVEUČILIŠTE U ZAGREBU EKONOMSKI FAKULTET – ZAGREB

Servis za pravopisnu provjeru hrvatskog i engleskog jezika HASCHECK

Mirjana Šarčević 0067455929 Maja Šarenić 0067451059 Mentor: Dr. sc. Božidar Jaković

Zagreb, siječanj 2013.


Sadržaj 1.

UVOD.............................................................................................................................2 1.1.Predmet i cilj rada .........................................................................................................2 1.2.

Izvori podataka i metode prikupljanja .......................................................................2

1.3. Sadržaj i struktura rada.................................................................................................2 2. KRATKI OPIS WEB SERVISA.........................................................................................3 2.2. Link Web servisa i ekranski prikaz (engl. Screenshot) početne Web stranice servisa ....4 3. TEHNOLOŠKI OKVIR......................................................................................................5 4. KRATAK RAZVOJ ...........................................................................................................6 5. OPIS PROBLEMA KOJI SE RJEŠAVA UPOTREBOM HASCHECKA ...........................8 6. DETALJNA RAZRADA TEME ........................................................................................9 6.1. Detaljni opis funkcionalnosti........................................................................................9 6.2. Upute za upotrebu Haschecka kroz primjer ................................................................11 6.3 Desktop aplikacije.......................................................................................................17 8. POSLOVNA PRIMJENA.................................................................................................21 10. POZITIVNE VS. NEGATIVNE STRANE .....................................................................35 10.1. Pozitivne strane ........................................................................................................35 10.2. Negativne strane.......................................................................................................36 12. TROŠKOVI, POKAZATELJI POSLOVANJA, USPJEŠNOST......................................38 13. MOGUĆNOST NADOGRADNJE FUNKCIONALNOSTI U BUDUĆNOSTI ..............39 14. ZAKLJUČAK ................................................................................................................41 15. LITERATURA...............................................................................................................42 16. POPIS SLIKA I TABELA..............................................................................................42 17. SAŽETAK......................................................................................................................44

1


1. UVOD 1.1.Predmet i cilj rada

Predmet ovog rada je pobliže objasniti jedan od najpoznatijih internetskih programa za pravopisnu provjeru na hrvatskom jeziku, s osvrtom na njegov razvoj i usporedbu s drugim programima za provjeru pravopisa. Kao glavni cilj ovog zadatka, prikazat će se mnoge prednosti ovog internetskog programa, kao i mogućnosti razvoja u budućnosti

1.2. Izvori podataka i metode prikupljanja

Podaci koji su prikazani na narednim stranicama ovog rada u većem dijelu su prikupljeni putem Interneta. Kao pomoć u pisanju ovog rada, korištena je i strana literatura, knjige, udžbenici i razni članci.

1.3. Sadržaj i struktura rada

Koncept rada ustrojen je tako da će se prvo definirati i objasniti sam pojam Haschecka, njegov tehnološki okvir te razvoj kroz povijest. Prije detaljne razrade teme, opisat će se problem koji se rješava putem ovog odabranog web servisa. Nakon toga slijedi obrazloženje o njegovoj poslovnoj primjeni, kratko istraživanje o postojećoj konkurenciji te su, u jednom od poglavlja, navedene pozitivne i negativne strane Haschecka. Nadalje, razrađena je i SWOT analiza, kao i troškovi, pokazatelji i uspješnost poslovanja te mogućnosti nadogradnje funkcionalnosti u budućnosti, nakon čega slijedi zaključak ovog rada.

2


2. KRATKI OPIS WEB SERVISA

Hrvatski akademski spelling checker, internetski program za pravopisnu provjeru hrvatskog i engleskog jezika, omogućuje online strojnu provjeru pravopisa teksta upisanog preko obrasca, ali i provjeru datoteka u formatima PDF, DOC, TXT, kao i provjeru pravopisa sadržaja zadane web-stranice. Hascheck su razvili znanstvenici s FER-a: prof. dr. sc. Šandor Dembitz koji je izgradio jezgreno rješenje spelling checkera, doc. dr. sc. Gordan Gledec koji je izradio web-sučelje, dok je autor dijela sučelja koje nudi izbornike s ispravcima Hrvoje Miholić.1

Slika 1 Hascheckov logo

Izvor: http://hacheck.tel.fer.hr/

Slika 2 Prof. dr. sc. Šandor Dembitz

Sandor Dembitz, Gordan Gledec, Bruno Blaskovic (2010.), Architecture of Hascheck: an intelligent spellchecker for croatian language

1

3


Izvor:http://www.hkv.hr/ 2.2. Link Web servisa i ekranski prikaz (engl. Screenshot) početne Web stranice servisa

Haschecku je moguće pristupiti putem sljedećeg linka: http://hacheck.tel.fer.hr/

Slika 3 Ekranski prikaz Haschecka

Izvor: http://hacheck.tel.fer.hr/ 4


3. TEHNOLOŠKI OKVIR

Hrvatski akademski spelling checker HTML je kratica za HyperText Markup Language, što znači prezentacijski jezik za izradu web stranica. Hipertekst dokument stvara se pomoću HTML jezika. HTML jezikom oblikuje se sadržaj i stvaraju se hiperveze hipertext dokumenta. HTML je jednostavan za uporabu i lako se uči, što je jedan od razloga njegove opće prihvaćenosti i popularnosti. Svoju raširenost zahvaljuje jednostavnosti i tome što je od početka bio zamišljen kao besplatan i tako dostupan svima. Prikaz hipertekst dokumenta omogućuje web preglednik. Temeljna zadaća HTML jezika jest uputiti web preglednik kako prikazati hipertext dokument. Pri tome se nastoji da taj dokument izgleda jednako bez obzira o kojemu je web pregledniku, računalu i operacijskom sustavu riječ. HTML nije programski jezik niti su ljudi koji ga koriste programeri. Njime ne možemo izvršiti nikakvu zadaću, pa čak ni najjednostavniju operaciju zbrajanja ili oduzimanja dvaju cijelih brojeva. On služi samo za opis naših hipertekstualnih dokumenata. Html datoteke su zapravo obične tekstualne datoteke, ekstenzija im je .html ili .htm. Osnovni građevni element svake stranice su znakovi (tags) koji opisuju kako će se nešto prikazati u web pregledniku. Povezice unutar HTML dokumenata povezuju dokumente u uređenu hijerarhijsku strukturu i time određuju način na koji posjetitelj doživljava sadržaj stranica.

HTML4 predstavljen je u prosincu 1997., prihvaćao je oznake nametnute od strane 5


proizvođača različitih web preglednika, no istovremeno je pokrenuto i "čišćenje" standarda proglašavanje nekih od njih suvišnim. Manje promjene u specifikaciji ovog standarda predstavljene su u prosincu 1999., kada je predstavljena konačna verzija ovog jezika HTML4.01 koju koristi Hascheck.2

4. KRATAK RAZVOJ Hrvatski akademski spelling checker, Hascheck je jedna od najstarijih internetskih usluga u Hrvatskoj. Usluga je zaživjela početkom 1993. godine u lokalnoj mreži Elektrotehničkoga fakulteta Sveučilišta u Zagrebu (danas Fakultet elektrotehnike i računarstva). Od 21. ožujka 1994. godine Hascheck je besplatna javna usluga strojne pravopisne provjere teksta.

Prvo razdoblje Hascheckova života, do ljeta 2003. godine, je tzv. e-mail faza. U toj fazi tekst je pristizao u obliku poruke na poslužitelj koji bi ga obradio i rezultate obrade u obliku izvještajnoga popisa potom vraćao na adresu pošiljatelja. U e-mail fazi Hascheck je bio prilično ekskluzivna usluga sa svega nekoliko stotina korisnika u zemlji i inozemstvu, ali je u toj fazi ipak obrađen korpus od blizu 40 milijuna pojavnica.

U ljeto 2003. Hascheck dobiva web-sučelje dostupno na adresi http://Hascheck.tel.fer.hr/. Web-faza službeno počinje 1. rujna 2003. godine i u njoj Hascheck prerasta u široko prihvaćenu uslugu, s desetcima tisuća korisnika u zemlji i inozemstvu.3

Slika 4 Prvotni izgled Haschecka online 2

http://www.w3.org/TR/html401/ (studeni 2012.) Kristina Mrvelj (2012.), Modeliranje prometa usluge strojne provjere pravopisa, Fakultet elektrotehnike i računarstva, diplomski rad br. 385

3

6


Izvor: http://hacheck.tel.fer.hr/

Slika 5 Sadašnji izgled Haschecka online

Izvor: http://hacheck.tel.fer.hr/

U ovoj je fazi do 1. travnja 2012. godine obrađen korpus od 766,982,755 pojavnica.

7


5. OPIS PROBLEMA KOJI SE RJEŠAVA UPOTREBOM HASCHECKA

Većina online komunikacije je u pisanom obliku i stoga je nužno pisati tekstove pravopisno ispravno kako u komunikaciji ne bi došlo do nesporazuma. Hascheck je alat koji omogućuje provjeru pravopisne ispravnosti zapisanih riječi, na hrvatskom ili engleskom jeziku, jednostavnim kopiranjem teksta u za to određeno polje. Odabirom opcije pronađi pogreške, broj pogrešaka se prikazuje pri dnu, nakon obrade. Same pogreške u tekstu su podvučene. Ako je tekst pravopisno ispravan, traka pri dnu ekrana postaje zelena te je tekst spreman za daljnju upotrebu. Uz osnovni pregled tekstova, mogu se provjeriti i čitave datoteke i web stranice.

8


6. DETALJNA RAZRADA TEME

6.1. Detaljni opis funkcionalnosti

Hascheck je mrežni pravopisni provjernik u pozadini kojega djeluje sustav za učenje. Zadaća sustava je funkcionalna leksikografija u smislu da se iz tekstova zaprimljenih na obradu izdvajaju one različnice koje obogaćuju Hascheckov rječnik, a čime se popravlja njegova jezična funkcionalnost.

Hascheckova arhitektura bitno se razlikuje od arhitekture konvencionalnih pravopisnih provjernik koji uz standardne tri komponente: • rječnik, • ekstraktor, koji iz teksta za daljnju obradu izdvaja sve ono što u rječniku nije pronađeno, • korektor, koji nudi moguće ispravke za različnice koje nisu u rječniku, sadržavaju još i klasifikator i morfologizator.

Ove dvije komponente daju dodatnu »inteligenciju« sustavu.

Rječnik je ključni dio svake provjere pravopisa. Postoje tri glavna pristupa njegovoj izgradnji:

9


• kompilacija liste riječi • odvojena izrada word datoteke (.dic) i affix datoteke (.aff) • opisujući moguće obrasce riječi dvorazinskom morfologijom. Zadnja dva pristupa su dominantna kod konvencionalnih provjera pravopisa, dok je za online provjeru pravopisa specifičan prvi pristup i u tome leži jedna od njegovih prednosti.

Hascheckov rječnik se sastoji od tri popisa različnica: • različnice hrvatskoga općejezičnog fonda (WT-popis); sadržava riječi koje podliježu hrvatskome pravopisu, a mogu se pisati malim ili velikim početnim slovom. • različnice hrvatskoga posebnojezičnog fonda (NT-popis); sadržava osobna, vlastita i druga imena, zatim sve ostale elemente pisanja osjetljive na uporabu velikih i malih slova (kratice, mjerne jedinice i slično), riječi iz stranih jezika koja se u pisanju na hrvatskome rabe u izvornoj grafiji, itd. • različnice engleskog općejezičnog fonda (EngT-popis).

Hascheck inicijalni rječnik broji nešto manje od 100 000 uobičajenih vrsta riječi. Ovdje moramo objasniti pojam “riječ” i kako ga koristimo. Lingvistička riječ je ono što se nalazi na lijevoj strani konvencionalnog rječnika. Primjenom njezine morfologije, prirodni jezik stvara obrasce riječi za svaku lingvističku riječ.

Rječnička baza nije statična. Ona se mijenja ovisno o obradama. U pozadini usluge djeluje ekspertni sustav koji uči nove riječi iz tekstova pristiglih na obradu. Radi očuvanja visoke čistoće rječničke baze učenje je nadgledano, što predstavlja ljudski energetski input u održavanje i poboljšavanje usluge. Rečeni input držimo razlogom zašto usluga ima dugogodišnji trend porasta opsega prometa od približno 10% mjesečno. Hascheck je već obradio korpus koji premašuje 100 milijuna riječi-pojavnica (najveći ikada obrađeni korpus u Hrvatskoj), te raspolaže s rječničkom bazom s više od milijun riječirazličnica,

koje

sve

imaju

potvrdu

u

tekstovima

pisanim

hrvatskim

jezikom.

10


Svoje znanje Hašek temelji i na brojnim obrađenim leksikografskim djelima, počevši s dvotomnim Hrvatskim leksikonom.

6.2. Upute za upotrebu Haschecka kroz primjer4

Prvi korak je odabir taba s oznakom Tekst za provjeru. Zatim se se upisuje ili kopira tekst u sivo polje. Na obradu je tekst moguće poslati: • klikom na Pronađi pogreške!, koji se nalazi u gornjem desnom kutu

Slika 6 Prikaz obrade teksa za provjeru - pronađi pogreške

4

http://hacheck.tel.fer.hr/ (2012.)

11


Izvor: http://hacheck.tel.fer.hr/ ili • dvostrukim klikom na tekst.

Ispod teksta se potom dobije poruka o statusu provjere: • ako nije pronađena nijedna pogreška, odgovarajuća poruka bit će ispisana u statusnoj liniji, na zelenoj pozadini,

Slika 7 Prikaz obrade teksa za provjeru – nema pogrešaka

12


Izvor: http://hacheck.tel.fer.hr/

• ako u tekstu ima pogrešaka, broj pogrešaka bit će ispisan na statusnoj liniji, na crvenoj pozadini.

Slika 8 Prikaz obrade teksa za provjeru – broj pogrešaka

13


Izvor: http://hacheck.tel.fer.hr/

Svaka vrsta pogreške označena je odgovarajućom bojom, koja ovisi o stupnju pogreške i stupnju Hascheckove sumnje u pogrešnost riječi, svaka označena riječ istovremeno je izbornik: klikom na nju može se izabrati ispravna riječ s popisa mogućih ispravaka; označavanjem kućice mogu se istovremeno zamijeniti sve pojave te pogrešno napisane riječi.

Slika 9 Prikaz obrade teksa za provjeru - popis mogućih ispravaka

14


Izvor: http://hacheck.tel.fer.hr/

Dvostrukim klikom na tekst s naznačenim porukama, korisnik se vraća u uređivanje tog istog teksta. Klikom na Očisti obrazac!, koji se nalazi desno iznad teksta, briše se tekst i može se upisati novi.

Slika 10 Prikaz obrade teksa za provjeru – Očisti obrazac

15


Izvor:http://hacheck.tel.fer.hr/

Pritiskom na odgovarajući izbor s lijeve strane, na analizu je moguće poslati i datoteke u formatima PDF, DOC iTXT ili upisati adresu stranice koja se želi analizirati. Rezultati se dobij u tabu Tekst za provjeru.

Slika 11 Povjera teksta datoteka i web-stranica

16


Izvor:http://hacheck.tel.fer.hr/

6.3 Desktop aplikacije Primjeri „desktop” računalnih aplikacija koje omogućuju provjeru pravopisa su: • Microsoft Office, • LibreOffice i 17


• tinySpell Microsoft Office i LibreOffice omogućuju provjeru pravopisa engleskog i hrvatskog jezika, dok tinySpell omogućuje provjeru pravopisa samo engleskog jezika.

Microsoft Office Microsoft Office je programski paket namijenjen uredskoj obradi podataka razvijenih od strane Microsofta za operativne sustave Microsoft Windows te Apple Mac OS i OS X. Programi Microsoft Office-a su najčešće korištene „desktop“ računalne aplikacije za provjeru pravopisa hrvatskog i engleskog jezika. Svaka od jezičnih verzija sustava Microsoft Office sadrži alate za jezičnu provjeru, kao što su rječnici i gramatička pravila, za veći broj jezika, uključujući engleski i hrvatski jezik.5 Alat za provjeru pravopisa automatski koristi rječnik odabranog jezika i ukazuje na pravopisne pogreške u tekstu. Slika 12 Microsoft Word – prikaz provjere pravopisa

Izvor: Microsoft Word LibreOffice LibreOffice je besplatni programski paket namijenjen uredskoj obradi podataka, razvijen od strane Zaklade Dokumenata (engl. The Document Foundation). Kompatibilan je sa mnoštvom drugih programskih paketa poput Microsoft Office-a, te je dostupan na nekolicini platformi. 5

http://office.microsoft.com/hr-hr/word-help/provjera-pravopisa-i-gramatike-na-nekom-drugom-jezikuHA010354780.aspx (2013)

18


Sučelje LibreOffice-a je, zahvaljujući zalaganju hrvatske Open Source zajednice, u cijelosti prevedeno na hrvatski, a podržana je i provjera pravopisa u tekstovima na hrvatskom. 6

Slika 13 LibreOffice Writer – prikaz provjere pravopisa

Izvor: http://otvorenikod.nsk.hr/2011/09/28/libreoffice-3-4/

tinySpell

Aplikacija tinySpell omogućuje provjeru pravopisa engleskog jezika u bilo kojoj Windows aplikaciji, uključujući programe koji nemaju provjeru pravopisa. 6

http://otvorenikod.nsk.hr/2011/09/28/libreoffice-3-4/

19


Obavijest o pravopisnoj pogrešci se javlja programskoj traci.

Slika 14 tinySpell – prikaz provjere pravopisa

Izvor: http://tinyspell.numerit.com/

7. KREIRANJE PROFILA

Hascheck ne nudi mogućnost kreiranja profila.

20


Hascheck se može koristiti besplatno pristupom na njegov Web servis bez kreiranja profila te logiranja što olakšava i ubrzava upotrebu.

8. POSLOVNA PRIMJENA

21


Jednako kao što izgled i stil govore o osobi koju upoznajemo, toliko u današnjem poslovanju stil i sadržaj poslovnog pisma s kojim se istupa prema poslovnim partnerima govore o pošiljatelju.

Najčešći oblik današnje poslovne komunikacije odvija se putem e-maila kojim se poslovnim partnerima i kompanijama šalju projekti, ponude proizvoda ili usluga, ponude za zaposlenje, pozivi za prezentacije, objave za medije, a poslovno pismo služi održavanju poslovnih veza, predstavljanju poduzeća i ima važnu promotivnu funkciju. Sve navedeno upućuje na to da je poznavanje pravopisa vrlo važan segment poslovne komunikacije sa sudionicima poslovanja te, također, i značajan čimbenik uspjeha u poslovanju.

Hrvatska agencija specijalizirana za mystery shopping MSA provela je istraživanje kojim je utvrdila kvalitetu online komunikacije nekih od vodećih tvrtki koje posluju na hrvatskom tržištu. U razdoblju od 24. rujna do 1. listopada 2012. godine tajni kupci slali su elektroničku poštu vodećim teleoperaterima, osiguravajućim kućama i generalnim zastupnicima automobilskih marki u Hrvatskoj, a kojom su izražavali interes za kupnju proizvoda od tvrtki obuhvaćenih istraživanjem. Za ljubaznost se može reći da je manji problem jer su tajni kupci čak 85 posto odgovora ocijenili vrlo ljubaznim i prijatnim. Drugačija je situacija s poznavanjem pravopisa koji izgleda predstavlja veliki problem za zaposlenike tvrtki obuhvaćenih istraživanjem. Tako rezultati istraživanja pokazuju da je čak 30 posto zaprimljenih odgovora sadržavalo veće pravopisne greške – poput recimo neispravnog korištenja dijakritičkih znakova. Po pitanju pravopisa daleko najlošija situacija je kod osiguravajućih kuća čiji su djelatnici u čak 60 posto slučajeva potrošačima slali odgovore prepune pravopisnih grešaka. Pokazano nepoznavanje pravopisa od strane djelatnika osiguravajućih kuća svakako može loše utjecati na imidž koje te tvrtke ostvaruju u javnosti pa onda i na odluku kupca prilikom izbora osiguravatelja kojem će podariti povjerenje.7

7

http://www.poslovni.hr/hrvatska/gotovo-trecina-tvrtki-u-hrvatskoj-jos-uvijek-ne-odgovara-na-online-upitekupaca-217546 (studeni, 2012.)

22


Danas je, uz pravopis, u poslovnoj komunikaciji bitna brzina odgovora na upućeni upit. Obje potrebe se mogu ostvariti korištenjem Haschecka.

Nadalje, vlastitim jezikom trebao bi se baviti svaki pojedinac koji drži do sebe, a naročito u poslovanju gdje pismenom komunikacijom predstavlja i sebe i poduzeće u kojem radi. Stoga je nužna svakodnevna uporaba pravopisnih ili jezičnih priručnika. Kao što je već navedeno, Hascheck olakšava tu obavezu.

Primjena Haschecka je bitna i tijekom školovanja i studiranja. Iako se tu ne radi izravno o poslovnoj primjeni, značajno je povezana s njom i predstavlja uvod u stvaranje poslovne karijere. Naime, nastavnici su gotovo svakodnevno suočeni sa seminarskim, završnim, diplomskim, magistarskim ili doktorskim radovima. Prvi korak u većini je slučajeva ispravljanje pravopisnih pogrešaka i tipfelera, a onda i lektoriranje što nije posao koji bi trebao obavljati nastavnik.

23


9. KONKURENCIJA

S obzirom na to da Hascheck nudi provjeru hrvatskog, ali engleskog pravopisa, potrebno je konkurente sagledati s ta dva aspekta.

Usluge provjere pravopisa koje nudi Hascheck su trenutno jedinstvene po načinu provođenja te usluge. Uzme li se u obzir glavna korist i funkcionalnost Haschecka, njegove konkurente čine sljedeći portali: • Hrvatski morfološki leksikon (http://hml.ffzg.hr) leksička je baza s više od 45.000 riječi općeg jezika, 15.000 osobnih muških i ženskih imena i 50.000 prezimena registriranih u Republici Hrvatskoj. Na temelju toga rječničkog blaga proizvedeno je više od 3.900.000 njihovih oblika, kako navode na servisu. Za njegovo korištenje, potrebno je registrirati se za razliku od Haschecka. Također je moguće unositi tekstovne datoteke, ali se svaka riječ mora nalaziti u novom retku.

Slika 15 Hrvatski morfološki leksikon

Izvor: http://hml.ffzg.hr

24


• Hrvatski jezični portal (http://hjp.novi-liber.hr/) ne omogućuje provjeravati cijeli tekst, već samo pojedine riječi. Ali zato nudi sve informacije o unesenim riječima - osnovne gramatičke podatke, definiciju, sintagmu, frazeologiju, onomastiku, etimologiju i druge pojmove.

Slika 16 Hrvatski jezični portal

Izvor: http://hjp.novi-liber.hr/

25


Sljedeću skupinu konkurenata čine razni jezični savjetnici na stranicama i servisima, čiji je broj popriličan, a ovdje su navedena dva najznačajnija. • Zbirka

jezičnih

savjeta

Instituta

za

hrvatski

jezik

i

jezikoslovlje

(http://savjetnik.ihjj.hr) koja nudi kvalitetnu bazu praktičnih savjeta.

Slika 17 Jezični savjeti

Izvor: http://savjetnik.ihjj.hr

26


• Priručnik hrvatskoga poslovnog jezika je besplatno e-izdanje pod nazivom Jezični priručnik Coca-Cole HBC Hrvatska - hrvatski jezik u poslovnoj komunikaciji (http://www.prirucnik.hr/) koji su pripremili Lana Hudeček, znanstvena savjetnica iz Instituta za hrvatski jezik i jezikoslovlje, Maja Matković, dugogodišnja voditeljica lektora i redaktora u Večernjemu listu, i Igor Ćutuk, voditelj odnosa s javnošću CocaCole HBC Hrvatska.

Slika 18 Jezični priručnik Coca-Cole HBC Hrvatska

Izvor: http://www.prirucnik.hr/

Razlog ne navođenja knjiga i časopisa o pravopisu hrvatskog jezika u fizičkom obliku je značajan i kontinuiran pad primjene istih te se sukladno tome potreba za njima naziva intenzivno opadajuća, budući da tu potrebu sada zadovoljava internet s bogatim sadržajem i mogućnostima za bržim i jednostavnijim pronalaskom željenih odgovora.

27


Kao što je već navedeno, Hascheck omogućuje ispravljanje pravopisnih pogreška hrvatskog jezika i engleskog jezika. Stoga su njegovi konkurenti i alati za online provjeru pravopisa engleskog jezika.

U nastavku je navedeno 7 osnovnih Online pravopisa engleskog jezika: • SpellCheckPlus (http://spellcheckplus.com/) je alat koji provjerava gramatičke greške na engleskom jeziku i pronalazi uobičajene pravopisne pogreške.

Slika 19 SpellCheckPlus

Izvor: http://spellcheckplus.com/

28


• CheckDog (http://checkdog.com/) je web aplikacija koja pregledava web mjesto i izvješćuje o pravopisnim greškama sadržaja.

Slika 20 CheckDog

Izvor: http://checkdog.com/

29


• Orangoo (http://orangoo.com/spellcheck/) besplatni je online alat za provjeru pravopisa koji omogućava korisnicima da pronađu grešake tekstova s bilo kojeg sustava ili računala koji imaju pristup internetu te omogućuje provjeru pravopisa cijelih web stranica.

Slika 21 Orangoo

Izvor: http://orangoo.com/spellcheck/

30


• Respelt

(http://respelt.com/) omogućuje besplatnu online provjeru pravopisa

dokumenata, web stranica i RSS feedova. Za korištenje Respelta, potrebno je kopirati i zalijepiti članak u Respelt ploču, unijeti URL, ili čak unijeti RSS feed.

Slika 22 Respelt

Izvor: http://respelt.com/

31


• Spellchecker.net (http://www.spellchecker.net/) je besplatni online alat za provjeru engleske gramatike koji ima widget provjeru pravopisa. MoŞe se dodati na web stranice te provjeravati pravopis i gramatiku.

Slika 23 Spellchecker

Izvor: http://www.spellchecker.net/

32


• English Spell Check (http://en.spellcheck.cc/) je besplatni online alat za provjeru gramatike i pravopisa.Automatski ispravlja tekstove na engleskom i pritom traži značenje riječi u rječniku.

Slika 24 English Spell Check

Izvor: http://en.spellcheck.cc/

33


• SpellJax (http://www.spelljax.com/) je web aplikacija koja trenutno provjerava pravopis teksta, besplatno i online.

Slika 25 SpellJax

Izvor: http://www.spelljax.com/

34


10. POZITIVNE VS. NEGATIVNE STRANE Kroz ovo poglavlje bit će navedene pozitivne i negativne strane Haschecka.

10.1. Pozitivne strane

Osnovna prednost leži u zajednici korisnika okupljenih oko online provjere pravopisa. Ako je zajednica dovoljno velika, može se smatrati reprezentativnim uzorkom ljudi koji koriste jezik i sustav pisanja tretiran provjerom pravopisa. Za razliku od konvencionalnih provjera pravopisa, gdje je odnos korisnik-alat “jedan-na-jedan”, u online provjeri pravopisa imamo odnos “više-na-jedan”. Taj novi odnos je potencijalno vrlo produktivan za ažuriranje provjere pravopisa. Također, dok konvencionalni rječnici pohranjuju prepoznate greške jednog korisnika, sve prepoznate greške koje se pojavljuju u online provjeri pravopisa mogu biti pohranjene u jednom rječniku i korištene od strane čitave zajednice. Dakle, online provjera pravopisa nudi mogućnost konstantnog unaprjeđenja svoje jezične funkcionalnosti kroz interakciju sa zajednicom korisnika. Prednost online provjere pravopisa leži i u pristupu izgradnji rječnika za provjeru pravopisa putem kompilacije liste riječi. Osnovne prednosti, a ujedno i snage Haschecka su sljedeće: • nudi detaljne upute za korištenje i jednostavan je za korištenje, • upute za korištenje nalaze se na vidljivom mjestu, • novi korisnici mogu vrlo brzo naučiti koristiti Hascheck - za korištenje Haschecka nije potrebno veliko predznanje i/ili tehnička pomoć, • Hascheck sadrži potrebne funkcionalnosti (provjera web stranice, učitavanje datoteke s tekstom), • FER-ov spelling checker ubrzava korekcije, • korisničko sučelje Haschecka je ugodno za korištenje, • povratna informacija (pogreške i mogući ispravci) jednostavna je za razumijevanje, • nudi mogućnost upotrebe stare i nove verzije, ovisno o preferencijama korisnika, • besplatan je za korištenje, • Hascheck je moguće koristiti putem Windows Gadgeta i Web stranice, • korištenje ne zahtjeva logiranje prije uporabe budući da mogućnost kreiranja profila niti ne postoji, što ubrzava i olakšava svakodnevnu upotrebu,

35


10.2. Negativne strane

Hascheck se temelji na vrlo velikim leksikonima ispravno napisanih riječi, a taj pristup ima nekoliko manjkavosti: • nizovi pismena koji predstavljaju ispravno napisane riječi mogu se pojaviti u pogrješnome kontekstu, • nemogućnost prepoznavanja ispravno napisanih riječi koje su nepoznate leksikonu, • ako se radi o velikim količinama tekstova, rezultati će stizati znatno sporije, • Hascheck je stroj te ne prepoznaje stilske pogreške, • Hascheck ispravlja pogreške s/sa, ukoliko/ako te ponavljanja riječi tek od lipnja 2012., • neposredno prije ili poslije korištenja Haschecka, svakako je potrebno još jednom pročitati cijeli tekst, Daljnje negativne strane su sljedeće: • korištenje Haschecka putem Windows Gadgeta često ne funkcionira kako bi trebalo, • vrlo mali broj ljudi direktno i redovito radi na razvoju Haschecka, • ne postoje značajniji prihodi s obzirom na to da je korištenje besplatno, • broj korisnika hrvatskog jezika je vrlo mali, • mogućnosti nadogradnje i razvoja Haschecka su ograničene, • nedovoljan broj studenata i poslovnih ljudi je upoznat s Hascheckom,

36


11. SWOT ANALIZA Tabela 1 SWOT analiza Strenghts → snaga • znanja i vještine kreatora Haschecka • Hascheck je prvi servis za provjeru pravopisa u Hrvatskoj

Weaknesses → slabosti • kompleksnost hrvatskog jezika • neprepoznavanje pogrešnog konteksta ispravno napisanih riječi

• besplatan je za korištenje

• neprepoznavanje stilskih pogrešaka

• jednostavan je za korištenje

• neprepoznavanje ispravno napisanih

• ubrzava korekcije • moguće

ga

je

riječi nepoznate rječniku Haschecka koristiti

putem

Windows Gadgeta i Web stranice

• Hascheck

• suradnja Haschecka s Agrokorom potvrđuje važnost projekta • mogućnost

provjere

ne

ostvaruje

značajne

prihode s obzirom na to da je korištenje besplatno

pravopisa

hrvatskog, ali i engleskog jezika

• nedovoljna prepoznatljivost na tržištu • mali broj ljudi direktno i redovito radi

• nepostojanje direktnih supstituta

na razvoju Haschecka

• omogućen je slobodan pristup putem interneta 24/7

• mogućnosti

nadogradnje

i

razvoja

Haschecka su ograničene

Opportunities → prilike • sve veće zanimanje

i

Threats → prijetnje uviđanje • velik broj konkurenata - servisa za

potrebe za takvim servisom • zainteresiranost

• sporija obrada veće količine teksta

provjeru pravopisa engleskog jezika u

• sve jači utjecaj engleskog jezika na

području informatike za dodatno

poslovni i svakodnevni jezik hrvatskog

razvijanje servisa

društva

• želja

za

stručnjaka

njegovanjem

hrvatskog

jezika • nedovoljno

• nedostatak financijskog poticaja država u području informatičke tehnologije

pravopisa

• gospodarska kriza usmjeruje fokus na

hrvatskog jezika od strane studenata,

egzistencijalne troškove te umanjuje

poslovnih ljudi i drugih

ulaganja u razvoj tehnologije

• nedovoljno

poznavanje

vremena za provjeru

pravopisa na tradicionalan način

• broj

korisnika

hrvatskog

jezika,

globalno gledano, je vrlo mali i opada

(pomoću fizičkih knjiga)

37


12. TROŠKOVI, POKAZATELJI POSLOVANJA, USPJEŠNOST

Korištenje Haschecka je u potpunosti besplatno. Usluga se ne naplaćuje od strane korisnika, stoga taj način ostvarivanja prihoda ovdje nije prisutan.

U početku razvoja Hascheck, direktno mu niti novčić nije bio dodijeljen već je on bio istraživački i razvojni projekt skupine profesora Fakulteta elektrotehnike i računarstva u Zagrebu. Razlog tomu je specifičnost i kompleksnost hrvatskog jezika koji kao takav predstavlja značaj izazov i rizik pri izradi projekta kao što je Hascheck. No upravo zbog tih njegovih karakteristika, postojanje takvog servisa je od velike važnosti. Problem financiranja projekta je bio i u tome što se dugi niz godina nije dovoljno niti znalo za njega.

Pri pokušaju informiranja i traženja potpore Ministarstva znanosti i tehnologije, danas Ministarstva znanosti, obrazovanja i sporta, kreatori Haschecka nisu došli do pozitivnog odgovora, ali dobili su potporu Microsofta Hrvatska. Potporu i pomoć su pružile i mnoge druge kolege i inženjeri čija su istraživanja bila srodna razvoju Haschecka. Oni nisu bili glavni korisnici Haschecka, ali su shvatili ciljeve i poziciju glavnih kreatora.

Troškovi projekta Haschecka u prvih šest godina njegova nastanka i razvijanja procjenjuju se na 40 000 dolara, ne uključujući i vrijednost vremena glavnih kreatora koji su ga razvijali. Svi se danas slažu da nije lako steći znanja, ali da je znanje moć. Mnogi znanstvenici i inženjeri danas pokušavaju stvoriti strojne automatske modele za obradu podataka te sustave znanja temeljene na umjetnoj inteligenciji. Za njihov nastanak i razvoj, osim inicijative, volje i želje znanstvenika da takvo nešto stvore, potrebna je i financijska potpora države i privatnog sektora.8 Danas kada se Hascheck koristi u 74 zemlje svijeta sa svih 6 kontinenata uslugu podupire Agrokor, što upućuje na uspjeh projekta. 8

The Eighteenth Annual International Conference of the British Computer Society Specialist Group on Expert Systems, Applications and innovations in expert systems VI : proceedings of ES98, Cambridge, December 1998

38


13. MOGUĆNOST NADOGRADNJE FUNKCIONALNOSTI U BUDUĆNOSTI

U slučaju jezika kao što je hrvatski, budući razvoj online provjere pravopisa je pitanje opstanka jer jezik obično postoji u suradnji sa središnjim jezikom (engleski, francuski, španjolski

i

sl.)

koji

stavlja

pritisak

na

službeno

pisanu

komunikaciju.

Naprotiv, u slučaju necentralnih jezika, istraživanje i razvoj će se uglavnom okrenuti kontekstualnoj provjeri pravopisa. Kontekst se može koristiti za nadogradnju nekontekstualne funkcionalnosti provjere pravopisa bez da se gubi preciznost provjere pravopisa. Međutim, to je moguće, s opterećenjima prihvatljivima za istraživače, samo u online provjeri pravopisa. Postoji samo jedan korak od korištenja u kontekstu ljudskog nadzora učenja do konteksta uporabe u automatskoj provjeri pravopisa. Korak nije jednostavan, ali je uglavnom tehničke prirode. Nadalje, kontekstualna provjera pravopisa će se nositi ne samo s real-word otkrivanjem pogreške i ispravljanja problema, već i s algoritmima koji poboljšavaju predlaganje primjerenosti za non-word korekcije na temelju konteksta u kojem se ne-riječi pojavljuju. Za obje svrhe, bogati dnevnici dobiveni kroz nekontekstualnu online provjeru pravopisa od velike su vrijednosti. Konačno, u okviru kontekstno ovisne provjere pravopisa, mnogo veća pažnja će se posvetiti imenovanju pravopisa jer osobni pravopis i druga imena mogu biti uspješno provjerena i, ako je potrebno, korigirana uvidom u kontekst. Nove zbirke rječnika provjere pravopisa također imaju tendenciju da imaju sve više i više tipova novih imena jer je to jedini način u kojem sveukupno povlačenje zrele provjere pravopisa može biti poboljšano. Hascheck je dobar primjer za to.

Online provjera pravopisa bi mogla postati dominantan oblik usluge u budućnosti. Ovo nagađanje temelji se na karakteristikama živih jezika i zahtjevima koji proizlaze iz ljudskog pisanja. Ljudsko je pisanje, kao individualan i kreativan čin, vrlo promjenjivo. Ono može biti višejezično (znanstveno pisanje obično uključuje korištenje tehničkog podjezika); ono može zahtijevati opsežnu uporabu osobnih imena različitih izvora (u novinarstvu) ili pak intenzivno korištenje arhaizama, slenga, dijalekata, pravopisnih varijanti (fiktivno pisanje) i tako dalje. Ni jedna od postojećih konvencionalnih provjera pravopisa ne može zadovoljiti sve ove zahtjeve u isto vrijeme. S druge strane, jezik zaslužuje da se zove živim ako i samo ako stalno 39


proizvodi nove riječi kao rezultat promjena u svom realnom okruženju. Istodobno, neke riječi izumiru i postaju dio arhaizama umjesto zajedničkog ljudskog rječnika. Sve promjene i varijacije moraju biti registrirane odmah, na lingvistički dokazan način, u kompjutoriziranim rječnicima živih jezika. To je moguće samo sa sustavima koji prate što se događa unutar jezika na dnevnoj bazi, dakle samo s online provjerom pravopisa.

Umjesto same konkurencije kojoj smo danas svjedoci, budućnost bi također mogla donijeti konkurenciju, ali i - mrežnu suradnju između distributera različitih provjera pravopisa kao neke vrste resursa temeljenih na znanju, održavanih od strane lingvistički kvalificiranih stručnjaka u kojem se korisnički alat za pisanje može pozvati automatski, koliko je potrebno, ovisno o karakteristikama nečijeg pisanja.9

9

Sandor Dembitz (2012.), CROATIAN N-GRAM SYSTEM - extended abstract for FASSB2012

40


14. ZAKLJUČAK Hrvatski standardni jezik predstavlja opće kulturno dobro i glavni instrument komunikacije u Hrvatskoj. Stoga je potrebno osvijestiti važnost poznavanja hrvatskoga jezika i pravilne primjene njegovog pravopisa.

Hascheck nudi jedan oblik neposrednog cjeloživotnog učenja u kojem korisnik iz ponavljanja/ispravljanja grešaka uči svoj jezik i samim time podiže kvalitetu samog sebe i pridonosi imidžu organizacije u kojoj djeluje.

Uspjeh Haschecka i njegova korisnost za hrvatsko društvo nije vidljiva samo kroz njegovu jednostavnu primjenu već se njegov uspjeh očituje i u snažnom utjecaju na njegovanje hrvatskog jezika. Sljedeća značajnost je da je Hrvatska jedna od rijetkih malih zemalja koja ima modernu besplatnu operativnu uslugu pravilnog pisanja službenog jezika dostupnu 24 sata dnevno. Mi vidimo uslugu Haschecka kao prvu kariku u nizu budućeg razvoja distribuiranih mrežnih obrada hrvatskog jezika koje bi mogle držati hrvatski jezik živ u nadolazećem informacijskom dobu.

41


15. LITERATURA • http://hacheck.tel.fer.hr/ (studeni, 2012.) • Sandor Dembitz, Gordan Gledec, Bruno Blaskovic (2010.) , Architecture of Hascheck: an intelligent spellchecker for croatian language • Sandor Dembitz (2012.), CROATIAN N-GRAM SYSTEM - extended abstract for FASSB2012 • The Eighteenth Annual International Conference of the British Computer Society Specialist Group on Expert Systems, Applications and innovations in expert systems VI : proceedings of ES98, Cambridge, December 1998 • Kristina Mrvelj (2012.), Modeliranje prometa usluge strojne provjere pravopisa, Fakultet elektrotehnike i računarstva, diplomski rad br. 385 • http://www.emo.org.tr/ekler/44a44559d151ead_ek.pdf (studeni, 2012.) • http://forum.openoffice.org/en/forum/viewtopic.php?f=6&t=9977 (studeni, 2012.) • http://www.springerlink.com/content/978-3642153891/#section=776659&page=3&locus=12 (studeni, 2012.) • http://tinyspell.numerit.com/ (siječanj, 2013) 16. POPIS SLIKA I TABELA Slika 1 Hascheckov logo.........................................................................................................3 Slika 2 Prof. dr. sc. Šandor Dembitz .......................................................................................3 Slika 3 Ekranski prikaz Haschecka .........................................................................................4 Slika 4 Prvotni izgled Haschecka on-line ................................................................................6 Slika 5 Sadašnji izgled Haschecka online................................................................................7 Slika 6 Prikaz obrade teksa za provjeru - pronađi pogreške...................................................11 Slika 7 Prikaz obrade teksa za provjeru – nema pogrešaka....................................................12 Slika 8 Prikaz obrade teksa za provjeru – broj pogrešaka ......................................................13 Slika 9 Prikaz obrade teksa za provjeru - popis mogućih ispravaka .......................................14 Slika 10 Prikaz obrade teksa za provjeru – Očisti obrazac.....................................................15 Slika 11 Povjera teksta datoteka i web-stranica.....................................................................16 Slika 12 Microsoft Word – prikaz provjere pravopisa ...........................................................18 Slika 13 LibreOffice Writer – prikaz provjere pravopisa.......................................................19 Slika 14 tinySpell – prikaz provjere pravopisa ......................................................................20 42


Slika 15 Hrvatski morfološki leksikon ..................................................................................24 Slika 16 Hrvatski jezični portal.............................................................................................25 Slika 17 Jezični savjeti .........................................................................................................26 Slika 18 Jezični priručnik Coca-Cole HBC Hrvatska ............................................................27 Slika 19 SpellCheckPlus.......................................................................................................28 Slika 20 CheckDog...............................................................................................................29 Slika 21 Orangoo..................................................................................................................30 Slika 22 Respelt....................................................................................................................31 Slika 23 Spellchecker ...........................................................................................................32 Slika 24 English Spell Check................................................................................................33 Slika 25 SpellJax ..................................................................................................................34

Tabela 1 SWOT analiza........................................................................................................37

43


17. SAŽETAK

Hascheck je najznačajniji internetskih programa za pravopisnu provjeru na hrvatskom jeziku, osnovan 1994. godine, a razvili su ga znanstvenici s FER-a: prof. dr. sc. Šandor Dembitz koji je izgradio jezgreno rješenje spelling checkera, doc. dr. sc. Gordan Gledec koji je izradio websučelje, dok je autor dijela sučelja koje nudi izbornike s ispravcima Hrvoje Miholić.

Prvo razdoblje Hascheckova života, do ljeta 2003. godine, je tzv. e-mail faza. U toj fazi tekst je pristizao u obliku poruke na poslužitelj koji bi ga obradio i rezultate obrade u obliku izvještajnoga popisa potom vraćao na adresu pošiljatelja. U e-mail fazi Hascheck je bio prilično ekskluzivna usluga sa svega nekoliko stotina korisnika u zemlji i inozemstvu, ali je u toj fazi ipak obrađen korpus od blizu 40 milijuna pojavnica.

U ljeto 2003. Hascheck dobiva web-sučelje dostupno na adresi http://Hascheck.tel.fer.hr/. Web-faza službeno počinje 1. rujna 2003. godine i u njoj Hascheck prerasta u široko prihvaćenu uslugu, s desetcima tisuća korisnika u zemlji i inozemstvu.

Hascheck je mrežni pravopisni provjernik u pozadini kojega djeluje sustav za učenje. Zadaća sustava je funkcionalna leksikografija u smislu da se iz tekstova zaprimljenih na obradu izdvajaju one različnice koje obogaćuju Hascheckov rječnik, a čime se popravlja njegova jezična funkcionalnost.

Korištenje Haschecka je u potpunosti besplatno. Usluga se ne naplaćuje od strane korisnika, stoga taj način ostvarivanja prihoda ovdje nije prisutan. U početku razvoja Hascheck, direktno mu niti novčić nije bio dodijeljen već je on bio istraživački i razvojni projekt skupine profesora Fakulteta elektrotehnike i računarstva u Zagrebu.

Razlog tomu je specifičnost i kompleksnost hrvatskog jezika koji kao takav predstavlja značaj izazov i rizik pri izradi projekta kao što je Hascheck. No upravo zbog tih njegovih karakteristika, postojanje takvog servisa je od velike važnosti.

44


Danas, kada se Hascheck koristi u 74 zemlje svijeta na svih 6 kontinenata, uslugu podupire Agrokor. Broj zemalja u kojima se Hascheck koristi upućuje na uspjeh projekta.

Hascheckova arhitektura bitno se razlikuje od arhitekture konvencionalnih pravopisnih provjernik koji uz standardne tri komponente: • rječnik, • ekstraktor, koji iz teksta za daljnju obradu izdvaja sve ono što u rječniku nije pronađeno, • korektor, koji nudi moguće ispravke za različnice koje nisu u rječniku, sadržavaju još i klasifikator i morfologizator.

Ove dvije komponente daju dodatnu »inteligenciju« sustavu.

Haschcek se može koristiti besplatno pristupom na njegov Web servis bez kreiranja profila te logiranja što olakšava i ubrzava upotrebu. Njegova poslovna primjena ogleda se u tome da stil i sadržaj poslovnog pisma s kojim se istupa prema poslovnim partnerima govore o pošiljatelju. Najčešći oblik današnje poslovne komunikacije odvija se putem e-maila kojim se poslovnim partnerima i kompanijama šalju projekti, ponude proizvoda ili usluga, ponude za zaposlenje, pozivi za prezentacije, objave za medije, a poslovno pismo služi održavanju poslovnih veza, predstavljanju poduzeća i ima važnu promotivnu funkciju. Sve navedeno upućuje na to da je poznavanje pravopisa vrlo važan segment poslovne komunikacije sa sudionicima poslovanja te također i značajan čimbenik uspjeha u poslovanju. Danas je, uz pravopis, u poslovnoj komunikaciji bitna brzina odgovora na upućeni upit. Obje potrebe se mogu ostvariti korištenjem Haschecka. Primjena Haschecka je bitna i tijekom školovanja i studiranja. Iako se tu ne radi izravno o poslovnoj primjeni, značajno je povezana s njom i predstavlja uvod u stvaranje poslovne karijere.

Konkurencija postoji, ali Hascheck, zbog svojih prednosti (prvi na hrvatskom tržištu, besplatno i jednostavno korištenje, funkcionalnost) pred njome još uvijek ne posustaje. U budućnosti, online provjera pravopisa bi mogla postati dominantan oblik usluge.

45


Brošura prezentacije

46


47


48

19_Šarčević_Šarenić_hacheck.tel.fer.hr  

Servis za pravopisnu provjeru hrvatskog i engleskog jezika - HASCHECK

Read more
Read more
Similar to
Popular now
Just for you