Issuu on Google+

Informazio-Konpetentziak ikasgaia Ikus-Entzunezko Komunikazioa Gradua

IZENA: Aitziber Onaindia

Irakurketa-galderak Mateos Sánchez, M.; García_figuerola, C. (2009). Recuperación de información en la web. Gijón: Trea • Lehenengo artikulu osoa irakurri eta gero erantzun galdera hauek. • Erantzun batzuetarako komeni da Interneten bilaketa batzuk egitea. • Bukatzean Interneten Issun igo. Gero zuen blogean ekarpena egin eta esteka txertatu. 1. Zein dira aipatzen diren bi arazo nagusienak informazioa bilatzerakoan? Lehenengo arazoa, jendea hitz gakoak erabiltzerako orduan da, izan ere, hitz desegokiak erabiltzen dute informazio zehatza bilatzeko. Bigarren arazoa, sistemak eskaintzen dituen emaitzak gehiegi direla ere aipatzen da, sarean dauden milaka webgune azaltzen dira eta.

2. Bilatzaileen Crawler-rak Robot ere deitzen dira. Azaldu zure hitzetan zer egiten duten. Bilatu Interneten nola izena duen Googlen Robotak. •

Crawler-rak, sare osoko webguneak aztertu egiten ditu. Horrela, salikapen bat lortu dezakezu eta datu base moduan erabiltzeko.

1

Googleren robot programak “Googlebot” du izena.


Informazio-Konpetentziak ikasgaia Ikus-Entzunezko Komunikazioa Gradua

3. Zer esan nahi du “búsqueda sintáctica”? “Busqueda sintactica”, webguneak bilatzen dituen bilaketa sistema bat da. Honen bidez, hitz jakin batzuekin erlazioa dauzkaten webguneak aurkitzen ditu, hitzen esanahiak kontuan hartu gabe.

4. Googlen algoritmoa Page Rank da. Zein da bere eginkizun nagusia ? Page Rank-en eginkizun nagusia, sailkapenean dauden orrialdeen garrantzia neurtzea da, orrialde horietako bakoitzak zenbat link edo lotura dituen kontuan izanda. Hau da, orrialde batek zenbat eta lotura gehiago izan, webgune horrek gero eta garrantzia handiagoa izango du.

5. Googlen bilaketa bat egiten duzunean zer gertatzen da? Azaldu zer gertatzen den “Googlen” barruan Googlek, bilaketei erantzun ahal izateko, lehenik datu base baliagarri bat izan beharra dauka. Horretarako, lehenengo, crawler deiturikoek sarea arakatzen dute orrialdeak aztertu eta sailkatuz, URLserverrek gidaturik. Crawlerrek orrialdeak bilatu ostean, konprimitu eta gordetzeaz arduratuko da store server. Informazio hori repsitory delakoan gordeko du eta bakoitzari doc ID bat egokituko zaio. Hori erabilita, indexer eta sorterrak sailkapena egingo dute. Lehenengoak, repositorytik banan-banan orrialde guztiak hartu eta aztertuko ditu, bertako gako hitzak (hit) eta ezaugarriak argituz. Ondoren, hit horiek guztiak barrelsetan gordetzen ditu ordenaturik eta azkenik, anchors file delakoan webgune bakoitzaren loturak gordetzen ditu (kanpotik orrialdera, eta orrialdetik kanporakoak). Bigarrenak, indexerrak egindako lanean oinarriturik, doc IDak world ID bihurtuko ditum offsetsak ere sortuz. 2


Informazio-Konpetentziak ikasgaia Ikus-Entzunezko Komunikazioa Gradua

Gainera, URL resolverrak anchors fitxategitik loturak hartuz, bakoitzari dagokion doc IDa emango dio eta bere jatorria eta helmuga aztertu ostean, Page Rankari lagunduko dio orrialdeen garrantzia erabakitzen bildutako informazioaz baiatuz. Azkenik, Dump Lexikon delakoak sorterrak eta indexerrak prozesaturiko datuei esker lexicon delakoa sortuko du, kontsulta motoreak bilaketak egiteko erabiliko duena. Hortaz, bilaketa egiterakoan, motore horrek lexikon zerrendan bilatuko du, betiere Page Rank edo orrialdeen garrantzia kontuan hartuz emaitzak erabiltzaileari erakusteko.

3


10.ekarpena