Webheuristiek

Page 1

Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

Het wereldwijde web als bron voor historisch onderzoek Wanneer u informatie van het wereldwijde web (webpagina's, afbeeldingen) gebruikt als bron voor historisch onderzoek of als informatieve bron in het algemeen, moet u rekening houden met een aantal struikelblokken. Webinformatie is anders opgebouwd dan wat u gewend bent: er is een enorm verschil met andere geschreven bronnen, maar het werkt ook volledig anders dan andere digitale tekstdocumenten. Het web is evenmin een archief: daarvoor is de informatie te vergankelijk. Dat u via zoekmachines (vb. Google) alles kan vinden, is een wijdverbreide mythe. Het www heeft het begrip auteursrecht en citaatrecht erg uitgehold. Wie is de eigenaar en/of de auteur van de informatie? Hoe werkt het internet en het www in het bijzonder? Wat zijn de verschillen tussen internetbronnen en andere digitale tekstdocumenten? Welke problemen kunnen er optreden bij internetbronnen? Waarom is het niet eenvoudig om internetbronnen voor lange termijn te bewaren? Hoe komt u meer te weten over de 'auteurs' achter een internetbron en de 'plaats' waar die digitale informatie zich bevindt? In welke mate kan u internetbronnen kopiëren en gebruiken in uw eigen teksten? Mag u Wikipedia-artikels klakkeloos overnemen.

Hoe werkt het internet voor beginners 1. het internet als netwerk Het internet als 'toepassing' bestaat al sinds de zestiger jaren van de twintigste eeuw. Internet is in feite niet meer dan een verzameling van computers die via telefoonkabels informatie uitwisselen. Gaandeweg werden steeds meer 'netwerken' van computers met elkaar verbonden. Hierdoor is het internet een netwerk van duizenden netwerken geworden. Om die computers en netwerken met elkaar te kunnen verbinden, moesten ze ook softwarematig met elkaar kunnen spreken. Hiervoor werd het TCP/IP-protocol ontwikkeld. Elk netwerk en elke computer binnen dat netwerk krijgt een IP-adres (een 'adres' bestaande uit een aantal cijfers). Netwerken of computers met een vast (statisch) IPadres, zijn voor alle computers van het internet te bereiken. Zij fungeren als server. Binnen een netwerk krijgen computers vaak een dynamisch (= op regelmatige tijdstippen wijzigend) IP-adres. Zulke toestellen dienen als client en kunnen niet (blijvend) van buitenaf bereikt worden. “De protocollen worden vastgesteld door de Internet Engineering Taskforce (IETF). De protocollen komen tot stand via een publieke discussie. De IETF legt standaarden vast in documenten die RFC's worden genoemd. Sommige van deze worden door de Internet Architecture Board (IAB) verheven tot internetstandaard.” Bron en meer informatie: http://nl.wikipedia.org/wiki/Internet

2. Het wereldwijde web Het world wide web zoals wij het nu kennen, ontstond begin jaren 90 aan het CERN (instituut voor deeltjesfysica) in Geneve. Tim Berners Lee zocht er samen met zijn collega, de Belg Robert Caillou, naar een manier om tekstdocumenten vlot bereikbaar te maken copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

binnen een netwerk. De teksten moesten door iedere computer ongeacht het besturingssysteem of de gebruikte software kunnen bekeken worden. Bovendien moest je vlot door de informatie kunnen bladeren. Het HYPERTEKST-systeem van Vannevar Bush en Ted Nelson (veertiger jaren!) leek hiervoor het meest geschikt. Bij HYPERTEKST zijn ook kernwoorden in een tekst aanklikbaar waardoor je van de ene pagina naar de andere kan zappen. Hiervoor moesten nieuwe (softwarematige) afspraken ontwikkeld worden: protocollen. 

HTTP: het hypertext transfer protocol HTTP maakt het mogelijk om hypertekst tussen systemen uit te wisselen.

URL: uniform resource locator Een map met hypertekstbestanden die via een server wordt aangeboden, moet bereikbaar zijn via een eenvoudig voor mensen makkelijk te onthouden adres en niet door een IP-nummer.

HTML: hyptertext markup language HTML is een markeertaal afgeleid van het door IBM ontwikkelde SGML. Een markeertaal maakt het voor een computer duidelijk waar bepaalde onderdelen van een tekstdocument beginnen en eindigen.

De term WWW is geen protocol maar een naam die Tim Berners Lee voor zijn systeem bedacht. Voor het bekijken van HTML-documenten moet de gebruiker op zijn systeem een BROWSER (bladerprogramma) installeren dat de markeertaal weergeeft in een voor mensen leesbare vorm.

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

Teksdocumenten en webpagina's 1. Een belangrijk verschil Tekstdocumenten en pagina's op uw computer Ongetwijfeld heeft u al met een tekstverwerker gewerkt. Een tekstverwerkingsdocument (bijvoorbeeld: Microsoft Word of .doc) of een PDF-bestand bestaat net zoals een echt boek uit een aantal pagina's. Tenzij u het anders heeft ingesteld, is elke pagina een afzonderlijk A4-document wanneer u het gaat afdrukken. Afbeeldingen, grafieken enz. worden wanneer u ze 'invoegt' of 'importeert' in het document ingevoegd. Het bestand zal hierdoor merkelijk groter worden en meer opslagruimte in beslag nemen. Het tekstdocument en de afbeeldingen zitten samen opgeslagen in één digitaal en binair gecodeerd bestand. Zo'n tekstdocument kan u enkel openen met een stuk software dat deze binaire code weer kan lezen en omzetten naar een voor mensen leesbare vorm. Omdat dit leidt tot afhankelijkheid van bepaalde programma's (software) en softwarefirma's. Hierdoor is de eis gegroeid naar open standaarden die door overheden en de 'industrie' kan worden gehanteerd.  

Het ODT-formaat is het eerste tekstverwerkingsformaat dat aan die eis heeft voldaan. Microsoft heeft met het oog hierop het DOCX-formaat ontwikkeld.

Toch heeft u nog steeds software nodig dat deze bestanden kan openen en lezen. Wat zijn dan de voordelen?  ODT en DOCX zijn niet binair gecodeerd  in beide formaten zijn tekst, layout en afbeeldingen strict gescheiden ook al zitten ze nog steeds in één bestand (voor de gebruiksvriendelijkheid.  De teksten in een ODT- of DOCX-bestand zijn opgeslagen in het XML-formaat.  ODT en DOCX zijn geZIPte bestanden. U kan ze 'uitpakken' en de inhoud ervan lezen. Hiervoor moet u de extensie DOCX of ODT manueel veranderen naar ZIP. Vervolgens kan u ze met een ZIP-programma uitpakken.

Een website bestaat uit webpagina's Ook al gebruiken we het woord webpagina's voor de tekstdocumenten die u op het web bekijkt, toch werken websites fundamenteel anders dan klassieke tekstdocumenten. De belangrijkste verschillen: 

webpagina's worden niet 'onder' elkaar weergegeven, MAAR door de webmaster aan elkaar gelinkt. Wanneer u op zo'n link klikt, wordt een nieuwe (web)pagina geopend. De oudere pagina is dan niet meer zichtbaar.

Wanneer u webpagina's afdrukt, kan een webpagina meerdere vellen A4 in beslag nemen.

Afbeeldingen zijn niet opgeslagen in de webpagina (in het document), maar copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

worden EXTERN bewaard. De webpagina bevat enkel een verwijzing naar de afbeelding. De browser interpreteert die verwijzing en TOONT de gevraagde afbeelding dan op de correcte plaats. Wanneer een afbeelding wordt verwijderd van de 'server', kan de afbeelding niet meer weergegeven worden in de webpagina. De browser Internet Explorer vervangt een ontbrekende afbeelding dan door een kader en een rood kruisje. 

Webpagina's worden opgesteld met HTML (hypertext markup language). Deze structuurtaal is enkel bedoeld om tekstinformatie op een 'gestructureerde' manier aan de bezoeker te tonen. De HTML-code wordt door de browser geïnterpreteerd en in een leesbare vorm weergegeven. HTML kan enkel teksten structureren (alinea's, titels, tabellen...) en verwijzingen naar externe pagina's of afbeeldingen opnemen. Met HTML kan u niet tekenen (vb. grafieken tekenen).

Met de nieuwe versies van HTML (html5) en sommige gelijkende talen (SVG) kan er wel getekend worden. Sommige browsers ondersteunen ook de mogelijkheid om afbeeldingen in te sluiten in een HTML-document. De afbeelding staat dan niet meer extern.

Afbeeldingen op internet zijn doorgaans opgeslagen onder een lagere resolutie (minder pixels) om sneller doorsturen van de bestanden mogelijk te maken. Drukwerk gebruikt afbeeldingen van 150 of 300, voor internet van 72 dpi (pixels per inch).

HTML-documenten zijn NIET BINAIR gecodeerd. Ze zijn opgeslagen in het ASCIIof UTF-formaat. Hierdoor zijn ze perfect te 'lezen' door elke teksteditor of tekstverwerker.

Wat is ASCII en UTF? ASCII is een afkorting van American Standard Code for Information Interchange en is een standaard om een aantal letters, cijfers, leestekens en andere symbolen te representeren en aan ieder teken in die reeks een geheel getal te koppelen, waarmee dat teken kan worden aangeduid. De code werd ontworpen door Bob Bemer. De standaard ASCII-tabel bestaat uit twee delen: de 95 zichtbare tekens (hoofd- en kleine letters, cijfers, leestekens, de spatie en enkele andere symbolen), en stuurcodes. Deze codes representeren geen zichtbare tekens, maar zijn opdrachten aan uitvoerapparaten of geven informatie over de data die verstuurd wordt. Bron en meer info: http://nl.wikipedia.org/wiki/ASCII_(tekenset)

Omdat ASCII maar een beperkt aantal tekens ondersteunt, is UTF (unicode) ontwikkeld. Hierdoor is het mogelijk om ook andere tekens en andere karakters op een computer weer te geven.

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

2. HTML is Hypertekst HTML staat voor hypertext markup language. HTML is geen programmeertaal, maar beschrijft enkel de tekststructuur. Het duidt titels, alinea's, lijsten enz. aan in een tekst. In een webpagina staat in de eerste plaats tekst. Die tekst heeft een bepaalde structuur en kan een of meerdere van de volgende onderdelen bevatten:  titels of koppen  alinea's  citaten  tabellen  lijsten  verwijzingen of referenties (links, hyperlinks) naar andere webpagina's of websites  (verwijzingen naar) afbeeldingen  ... Mensen onderscheiden meteen een titel of een alinea. Een computerprogramma daarentegen is dom. Je moet het op een of andere manier vertellen waar de verschillende onderdelen staan. Dit kan je enkel door aan het programma letterlijk te vertellen waar elk onderdeel begint en eindigt. HTML markeert een titel of alinea zoals je dat zelf misschien al eens in een cursus deed met een markeerstift. Met een HTML-markering duid je het begin en het einde van een tekstonderdeel of tekstelement aan. Voorbeelden van markeringen [begin van de titel] Mijn titel [einde van de titel] [begin van een lijst] [begin van het opsommingspunt]eerste opsommingspunt[einde van het opsommingspunt] [begin van het opsommingspunt]tweede opsommingspunt[einde van het opsommingspunt] [begin van het opsommingspunt]derde opsommingspunt[einde van het opsommingspunt] [einde van de lijst] In HTML zien de bovenstaande voorbeelden er als volgt uit: <h1>Mijn titel</h1> <ul> <li>eerste opsommingspunt</li> <li>tweede opsommingspunt</li> <li>derde opsommingspunt</li> </ul> Verklaring van de (bovenstaande) afkortingen in HTML:  h = head  ul = unordered list (niet-genummerde lijst)  li = list item copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

Webbrowsers renderen de HTML naar een leesbare weergave Webbrowsers, maar ook andere programma's lezen die markeringen uit en zetten de HTML-structuur om in een voor mensen leesbare weergave. Dit proces noemen we "renderen" of "parsen". Door aan te duiden waar een bepaald tekstonderdeel begint en eindigt, herkent de webbrowser (Internet Explorer, Firefox, Safari...) de verschillende tekstonderdelen.

Wat is hypertekst? HTML kan "hypertekst" bevatten en dit maakt het nu net zo fantastisch. Een document kan verwijzingen bevatten naar andere documenten. Dit kunnen verwijzingen zijn naar documenten zoals foto's en teksten die zich op dezelfde computer of medium bevinden, maar ook naar documenten die zich ergens op de wereldwijde locatie van het internet bevinden. De "lezer" zal hiervan niets merken. Links en referenties U kan een link opnemen naar een bepaald doel binnen hetzelfde document (webpagina) of naar een andere webpagina, document of internetadres. U kan een link opnemen door gebruik te maken van de <a>-markering (=anker of anchor). <a>Link naar de contactpagina</a> Deze link verwijst nog naar geen enkel adres. Om de link aanklikbaar te maken, moeten we nog een referentie-attribuut opnemen (href= hyperlink reference). <a href=”contact.html”>Link naar de contactpagina</a> Wanneer u op de bovenstaande link klikt, wordt de weergegeven webpagina vervangen door de webpagina contact.html. U kan ook verwijzen naar adressen op andere websites: <a href=”http://www.google.be”>Link naar Google</a> Afbeeldingen Afbeeldingen en andere multimedia-elementen worden standaard niet in de webpagina opgenomen, maar gelinkt. Dit kan met de <embed>-markering. Voor afbeeldingen gebruikt men de <img>-markering. <img></img> Vermits een <img>-markering geen teksinhoud kan bevatten, is het niet nodig een beginen eindmarkering te gebruiken. We gebruiken in dit geval de verkorte notatie: <img/> Natuurlijk moeten we aan de browser ook nog vertellen welke afbeelding weergegeven moet worden. Hiervoor moeten we aan de <img>-markering ook een src-attribuut copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

(source=bron) meegeven. <img src=”foto.jpg”/> Attribuutwaardes moeten tussen dubbele (of enkele) aanhalingstekens geplaatst worden. De volgende afbeeldingstypes kunnen via een <img>-markering weergegeven worden: ● jpg of jpeg ● gif ● png De afbeeldingen moeten zich op hetzelfde domein bevinden. Als ze zich op een ander domein bevinden, moet het src-attribuut aangepast worden: <img src=”http://www.anderesite.be/afbeeldingen/foto.jpg”/>

3. Een webpagina in HTML HTML bestaat uit pure tekstinformatie. U kan een HTML-bestand m.a.w. gewoon openen in een programma als Kladblok (Windows Notepad). Voor het schrijven van webpagina's heeft u geen speciale software nodig. Een webpagina kan geschreven worden in een teksteditor (vb. Windows Notepad) vermits HTML pure tekstinformatie bevat. Een document dat u maakt met een tekstverwerker zoals Corel Word Perfect of Microsoft Word kan enkel met zijn respectievelijk programma geopend worden omdat het binair gecodeerd is. Als u een Worddocument (*.doc-formaat) opent in een teksteditor zoals Kladblok krijgt u "vreemde" tekens te zien.

Head en body Een webpagina bestaat uit 2 onderdelen: 1. De "head" bevat     

algemene gegevens over de webpagina zoals titel, auteur, kernwoorden, beschrijving.... de adressen (URL's) van externe stijlbestanden en externe javascripts stijlgegevens javascriptfuncties

De gegevens in de HEAD kunnen weggelaten worden. 2. De "body" bevat De HTML-markeringen en teksten die de eindgebruiker op zijn scherm te zien krijgt. Dit deel bevat eveneens de links en hyperlinks naar andere webdocumenten, de verwijzingen naar afbeeldingen enz.

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

Hoe werkt het web? Hoe wordt een website opgebouwd? Hoe komt het dat je vanuit je luie zetel informatie kan opvragen van waar ook ter wereld? Hoe werkt het wereldwijde web?

1. Een map op een server Een website kan u niet zonder meer op uw eigen computer plaatsen. Een website bestaat uit een map met een aantal HTML-documenten en referenties (afbeeldingen enz.) Die map moet op een webserver geplaatst worden. Een webserver is een computer die o.a. aan de volgende eisen moet voldoen: 

een besturingssysteem (in de meeste gevallen Linux of UNIX, in mindere mate Windows)

ondersteuning voor het HTTP-protocol

speciale webserversoftware (Apache of Microsoft IIS)

Op één webserver kunnen meerdere websites geplaatst worden. Een website is niet meer dan een map op de harde schijf van de server. De webserversoftware koppelt de domeinnaam aan een specifieke map. Elke map kan onderliggende mappen bevatten. De webmaster kan o.a. via het FTP-protocol (File Transfer Protocol) bestanden aan zijn map toevoegen, bestanden verwijderen of bestanden wijzigen. De aanwezigheid van bepaalde bestanden (webpagina's, afbeeldingen...) hangt dus volledig af van de webmaster.

2. Het web is geen archief Redenen waarom bestanden na een bepaalde tijd kunnen verdwijnen: 

webmaster beslist website stop te zetten

de firma achter de webserver gaat failliet

de webmaster betaalt zijn rekening voor de webruimte of de domeinnaam niet

de website blijft bestaan, maar de domeinnaam verdwijnt

problemen met de webserver of software

terroristische aanslag, webserver verwijnt (vb. WTC-torens)

webmaster maakt gebruik van gratis webruimte van zijn provider. De dienst wordt betalend of de webmaster verandert van provider.

De webmaster gebruikt gratis online software voor het publiceren van webpagina's. De gratis dienst verdwijnt of wordt betalend.

Fout van de webmaster.

Webmaster verwijdert oude bestanden.

Gebrek aan interesse van de webmaster...

... copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek Op de website www.archive.org kan u via een WayBackMachine bekijken hoe een bepaalde website er jaren geleden heeft uitgezien. Het doel van Archive.org is een digitaal archief van het internet aan te leggen.

3. Bladeren op het web Een thuisgebruiker gebruikt een bladerprogramma of browser om een bepaalde website of webpagina te bekijken.

1. Hij voert het adres (URL) in. 2. De webbrowser verzendt de aanvraag. 3. De DNS (domain name service) van de provider houdt een lijst bij waarin wordt bijgehouden welke domeinnamen op welke IP-adressen beschikbaar zijn. 4. De aanvraag wordt op die manier doorgestuurd naar de correcte webserver. 5. De webserversoftware antwoordt op de vraag door de gewenste webpagina en gerefereerde afbeeldingen naar de eindgebruiker terug te sturen. Daarna verbreekt de webserver opnieuw het contact met de gebruiker. 6. De webbrowser ontvangt de gevraagde bestanden en zet de HTML-code om in een leesbare weergave.

Het web is een gesloten boek Een groot deel van het web is verborgen. Ook zoekmachines zoals Google vinden een groot deel van de op het web aangeboden informatie niet omdat zij het niet kunnen indexeren. Wat is hiervan de oorzaak?

1. Een statische website Wanneer een website bestaat uit een relatief beperkt aantal gelinkte webpagina's spreken we van een statische website, ook al worden de pagina's vrijwel dagelijks geüpdateted. Elke webpagina op een statische website bestaat uit een afzonderlijk HTML-bestand. De startpagina van de website heet in bijna alle gevallen index.html en uitzonderlijker default.html (ipv html kan de extensie ook htm zijn). De werserversoftware weet dat het copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

deze pagina moet terugsturen wanneer de gebruiker enkel de domeinnaam intikt. Wanneer een zoekmachine/zoekrobot een statische website bezoekt, volgt de robot de pagina's die vanaf index.html zijn gelinkt. Hiervoor leest de zoekrobot de HTML-code uit speurend naar HTML-markeringen voor links (<a href=”document.html”>ga naar een pagina</a>).

2. Een dynamische of databankgestuurde website Veel websites bewaren hun informatie in databanken. Afhankelijk van de vraag van de bezoeker wordt informatie uit de databank opgehaald en automatisch omgezet in een webpagina (HTML). Dit betekent dat niet alle webpagina's ook fysiek aanwezig zijn op de server. De pagina's en bijhorende HTML-code worden pas 'gemaakt' wanneer een gebruiker de informatie opvraagt. De pagina's worden naar de gebruiker gestuurd, maar niet op de server bewaard. Het is duidelijk wat de voordelen zijn als u Google of Ebay als voorbeeld neemt: men maakt niet vooraf webpagina's voor alle mogelijke zoektermen die een potentiële bezoeker zou kunnen opvragen. Pas wanneer de bezoeker zijn zoekterm intikt, wordt de webpagina gemaakt. Dit werk gebeurt uiteraard niet door mensenhanden, maar door software.

Bekende voorbeelden zijn winkelsites zoals Amazon en Ebay en forums waar bezoekers vragen kunnen stellen en antwoorden kunnen geven. Ook wachtwoordbeveiligde sites die een deel van hun informatie voorbehouden voor geregistreerde gebruikers, blogsites, krantensites of websites als Wikipedia vallen onder deze categorie. Maar ook veel kleinere sites maken gebruik van informatie die in databanken is gestockeerd. Voor de webmasters en hun klanten zijn zulke sites makkelijker te onderhouden dan klassieke sites. In tegenstelling tot een klassieke “statische” website die uit een beperkt aantal gelinkte pagina's is opgebouwd, biedt een databankgestuurde site meer “dynamiek” aan de bezoeker: de informatie wordt vaker geüpdateted en aangevuld, vaak is er een zoekmechanisme ingebouwd enz. Bovendien kan een databank informatie zeer gestructureerd opslaan in tabellen. Voorbeeld: “Een digitale krant” Een krantenartikel bestaat uit een aantal vaste onderdelen:  een titel  een inleiding  de eigenlijke tekst  de auteur  de publicatiedatum In een tabel kan zulke informatie makkelijk worden opgeslagen Tabel artikels: uniek nummer (id)

titel

inleiding (beschrijving)

tekst

auteur

publicatiedatum

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be

rubrieknummer


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

Een tweede tabel zou bijvoorbeeld een lijst van rubrieken of thema's kunnen bewaren: Tabel rubrieken: rubrieknummer (uniek)

  

naam rubriek

Een dergelijke website zou de gebruiker de volgende mogelijkheden kunnen bieden: zoekmechanisme: wanneer de bezoeker een zoekterm ingeeft, doorzoekt een stuk software op de webserver de tabel op zoek naar velden waarin de zoekterm voorkomt. Anders dan bijvoorbeeld bij Google kan u vaak maar één woord of term tegelijkertijd invoeren. Een zoekfunctie die meerdere termen en/of zoekoperatoren (+, -, AND...) ondersteunt, is veel moeilijker te programmeren en komt dan ook veel minder voor. lijsten: de site biedt een selectie van bijvoorbeeld rubrieken of auteurs aan... Wanneer u een van die items selecteert, krijgt u alle gerelateerde artikels uit de databank. rubrieken (via navigatie): wanneer de bezoeker op een link in de navigatiebalk klikt, selecteert de software op de webserver alle artikels met dat rubrieknummer. Voordeel van een databank is dat de informatie in HTML kan worden omgezet, maar met de juiste software ook in bijvoorbeeld PDF of RSS.

Hoe herken je een databankgestuurde website? Een statische website bestaat uit een reeks onderling verbonden (gelinkte) webpagina's en afbeeldingen. Je herkent zulke bestanden door de extensie .htm of .html. Bij een databankgestuurde website komt er meer programmeerwerkt aan te pas. Zo'n websites bestaan eveneens uit een aantal pagina's, die een reeks programmainstructies aan boord hebben om informatie uit een databank op te halen, te verwijderen of naar de databank weg te schrijven. Zulke webpagina's herken je aan de extensie .asp, .aspx, .php, .jsp, .cfm, .lasso. Voorbeeld en analyse van een link op een databankgestuurde website: www.site.com/index.php?id=3478&lan=nl De volgende link verwijst naar de pagina index.php. De naam van de webpagina wordt gevolgd door een vraagteken en een aantal parameters. In dit geval verwijst de parameter (query) id naar het nummer van een artikel in de tabel in de databank. De paramete lan stuurt de geselecteerde taal van de bezoeker mee.

3. De informatie in databanken blijft verborgen Vermits zoekmachines zoals Google enkel tekstdocumenten doorzoeken, blijft dus een grote bron van informatie onaangeboord: de sites worden wel opgenomen, maar de informatie die in de databanken verscholen ligt, wordt niet geïndexeerd. Deze verborgen informatie krijgt de naam Invisible Web, Hidden Web of Deep Web tegenover Surface Web voor de pagina's die wel door de zoekmachines worden geïndexeerd. Sommige sites lossen dit probleem op door de zoekrobots ander informatie voor te schotelen dan 'menselijke' bezoekers. Toch blijft het vaak bij probeerwerk van de betrokken programmeurs. copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

Wie zoekt, die vindt 1. Zoekmachines zijn noodzakelijk Al snel was er op het groeiende web nood aan een zoekmechanisme om in die overvloed van pagina's en informatie een weg te vinden. Zoekmachines zoals Google speelden in op die vraag. Als we het www zouden vergelijken met een boek of encyclopedie dan is Google niet de inhoudstafel, maar eerder de index. Het indexeren van miljarden steeds wijzigende webpagina's gebeurt natuurlijk niet door mensenhanden. Dit zou veel te veel tijd in beslag nemen en voor een gratis dienst als Google onbetaalbaar worden. Het indexeren gebeurt met behulp van een zoekrobot, de Googlebot. Uiteraard is dit geen echte “robot”, maar een stuk software. De Googlebot vraagt een webpagina op bij een server. De server stuurt de gevraagde pagina terug. Zoals u merkt lijkt de werking van de Googlebot erg op die van een browser, alleen is de Googlebot veel sneller dan een menselijke surfer: hij kan duizenden pagina's tegelijk opvragen. Om een webserver niet te overbelasten, spreidt de Googlebot zijn simultane vraag over meerdere servers en websites. Vindt de Googlebot op de opgevraagde pagina's nog links naar andere pagina's, kan hij ook die opvragen.

2. Google indexeert het web De Googlebot geeft de ontvangen webpagina's door aan een ander stuk software: de Indexer. Dit programma doorzoekt de documenten en maakt een index van de belangrijkste termen. Hierbij wordt voorrang gegeven aan zelfstandige naamwoorden en werkwoorden. Lidwoorden, voegwoorden en voornaamwoorden worden nagenoeg niet geïndexeerd. Vervolgens slaat de Indexer de resultaten op in een databank. In de Googledatabank worden 4 gegevens opgeslagen:

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

1. lijst van documenten waarin de zoekterm voorkomt 2. lijst van zoektermen 3. plaats in het document waar de term voorkomt. 4. een kopie van de webpagina (cache) Omdat webpagina's ook kunnen wijzigen, moeten ze op regelmatige basis opnieuw geïndexeerd worden. Sommige webpagina's wijzigen regelmatig, andere zelden. Google verliest zinvolle tijd als het een niet gewijzigde pagina's opnieuw indexeert. Daarom probeert de zoekmachine uit te vissen met welke regelmaat een pagina wijzigt. Als Google vaststelt dat dit vaak gebeurt, vraagt de Googlebot de pagina sneller weer op. In de logbestanden van websites kunnen de webmasters lezen wanneer zoekrobots of spiders als de Googlebot hun webpagina's hebben bezocht.

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

3. Hoe Google uw vraag beantwoordt Naast de Googlebot en de Indexer is de Query Processor het derde belangrijke onderdeel van Googles zoekmachine. Dit onderdeel handelt de vragen van de bezoekers afi n luttele seconden. Toch verlopen er heel wat stappen tussen het invoeren van de zoektermen en het weergeven van de zoekresultaten. 1. 2. 3. 4. 5.

De gebruiker tikt zijn zoektermen in op de Googlewebsite. De gebruiker klikt op de knop Google zoeken. De Google Web Server ontvangt de vraag en stuurt ze door naar de Index Servers. De Index Servers vergelijken de zoektermen met de index in hun databank. De Index Servers sturen een lijst met bestanden waarin de zoektermen voorkomen naar de Doc Servers die een kopie bewaren van alle geïndexeerde webpagina's. 6. De Doc Servers genereren webpagina's met daarin fragmenten van de webpagina's waarin de zoektermen voorkomen. 7. De gegenereerde webpagina's worden doorgestuurd naar de browser van de gebruiker.

4. Vinden Zoekmachines wat u zoekt? Google heeft ondertussen meer dan 10 miljard webpagina's geïndexeerd. Toch is dit maar een fractie van de omvang van het World Wide Web dat naar schatting 500 keer groter zou zijn! Het Deep Web is immers niet zo makkelijk te doorzoeken!

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

5. Google koloniseert verder Lange tijd beperkten de zoekmachines zich tot het indexeren van pure tekstbestanden zoals HTML-pagina's. Daardoor bleven ook binaire bestanden zoals afbeeldingen, Worddocumenten en PDF-bestanden buiten het terrein van de zoekmachines. Momenteel is ook dat deel van het web ontgonnen door de zoekmachines. Google indexeert nu ook die bestanden. Worddocumenten en PDF-bestanden worden door Google zelfs automatisch in een HTML-equivalent omgezet en op http://images.google.com kan je afbeeldingen zoeken.

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

Domeinnamen en hun extensie 1. Domeinextensies en TLD's Het internet en hierdoor ook het www wordt internationaal beheerd door het ICANN. Het ICANN (Internet Corporation for Assigned Names and Numbers) is een nietcommerciële organisatie die zich bezighoudt met het toewijzen van domeinnamen, het verdelen van IP-nummers (per land) en het goedkeuren van TLD's (Top level domains). Een TLD kent u wellicht beter als de extensie van een domeinnaam (het uiterst rechtste deel achter de laatste punt). Een TLD bestaat minimaal uit 2 tekens, maximaal uit 6. Er bestaan 2 soorten TLD's:  country code top level domain (ccTLD)  generic top level domain (gTLD) Niet-gesponsorde gTLD's Extensie / TLD

Doelgroep

Beschikbaar voor iedereen?

.com

commerciele organisaties

ja

.edu

opleidingsinstituten (education)

nee, enkel Amerikaanse instellingen voor hoger onderwijs

.gov

overheidsorganen (government)

nee, enkel Amerikaanse instellingen van de federale overheid

.mil

militaire groepen

nee, enkel Amerikaanse krijgsmacht

.net

netwerkorganisaties

ja, maar oorspronkelijk bedoeld voor ISP's

.org

niet-commerciële organisaties

ja

.int

internationale organisaties

nee

.info

informatieve websites van organisaties

ja

.biz

commerciële organisatie

nee

.eu

europese organisaties

ja

.name

voor een individueel persoon

.pro

voor beroepen

.arts

voor kunst

.asia

continentaal, voor Aziatische langen inclusief Australië

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

gesponsorde gTLD's Extensie / TLD

Doelgroep

.aero

luchttransport-gerelateerd

.cat

Catalaanse taal/cultuur

.coop

coöperatief

.jobs

personeelszaken

.museum

musea

.mobi

mobiele telefonie

.travel

reisindustrie

Tegenwoordig is men minder streng op het toekennen van top level domains. U hoeft bijvoorbeeld geen organisatie te hebben om een .org-domeinnaam toegekend te krijgen. ICANN (pronounced /aɪkæn/, eye-can) is the Internet Corporation for Assigned Names and Numbers. Headquartered in Marina Del Rey, California, United States, ICANN is a non-profit corporation that was created on September 18, 1998 in order to oversee a number of Internetrelated tasks previously performed directly on behalf of the U.S. government by other organizations, notably the Internet Assigned Numbers Authority (IANA). ICANN's tasks include responsibility for Internet Protocol (IP) address space allocation, protocol identifier assignment, generic (gTLD) and country code (ccTLD) Top Level Domain name system management, and root server system management functions. More generically, ICANN is responsible for managing the assignment of domain names and IP addresses. To date, much of its work has concerned the introduction of new generic top-level domains. The technical work of ICANN is referred to as the IANA function. ICANN's other primary function involves helping preserve the operational stability of the Internet; to promote competition; to achieve broad representation of global Internet community; and to develop policies appropriate to its mission through bottom-up, consensus-based processes. On September 29, 2006, ICANN signed a new agreement with the United States Department of Commerce (DOC) that is a step forward toward the full management of the Internet's system of centrally coordinated identifiers through the multi-stakeholder model of consultation that ICANN represents. Paul Twomey has been the President/CEO of ICANN since March 27, 2003. As of November 3, 2007, Peter Dengate Thrush replaced Vint Cerf as Chairman of the ICANN Board of Directors Bron en meer informatie: http://en.wikipedia.org/wiki/Internet_Corporation_for_Assigned_Names_and_Numbers

Er heerst veel ongenoegen over de werking van het ICANN. De porno-industrie – een van de grootste commerciële actoren op het web – vraagt bijvoorbeeld al lange tijd voor het toelaten van het xxx-TLD. Als alternatief is het YOUCANN opgericht dat meer TLD's toelaat. Recent heeft het ICANN toegestaan dat iedereen een eigen TLD kan registreren en de domeinnamen daarop zelf mag exploiteren. Het toekennen van een eigen TLD is echter niet gratis. U betaalt hiervoor een opstartkost van ongeveer 200.000 dollar en bijkomeden jaarlijkse 'kosten'. Hierdoor wordt het voor grote firma's mogelijk om hun eigen TLD te gaan gebruiken vb. www.site.ibm of www.site.ford copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

2. Een domeinnaam Een domeinnaam dient u te kopen via een erkend agent. Agenten moeten erkend zijn door de DNS-dienst van hun land of door het ICANN. Een agent moet hiervoor jaarlijks een bepaalde som (loopt in de duizenden euro) betalen. In ruil kan een agent namen verdelen en op jaarbasis verhuren. Een eindgebruiker betaalt jaarlijks voor een domeinnaam. Een agent kan zich beperken tot de domeinnaamextensie van zijn eigen land of ook andere extensies gaan verdelen. Hij kan hiervoor ook een erkenning aanvragen in een ander land of de namen via 'onderaanneming' bij een erkend agent in dat land aankopen.

3. Domeiruimte, hosting en forwarding Een eindgebruiker die een domeinnaam huurt, beschikt op dat moment enkel over een naam. De naam moet nog gekoppeld worden aan een domeinruimte op een webserver. Hiervoor kan hij gebruikmaken van gratis ruimte van zijn ISP (internet service provider, de dienst waar eindgebruikers hun internetaansluiting bij hebben) of ruimte huren bij een hosting provider. Wie gebruik wil maken van een databank op zijn website kan dit niet op gratis webruimte. Die huur betaal je per jaar. De prijzen zijn afhankelijk van de hoeveelheid ruimte die je nodig hebt. Ter vergelijking: een simpele USB-stick met 2 gigabyte ruimte kost in de Carrefour nog €20, maar voor een zelfde hoeveelheid ruimte op een server betaal je al snel €1500 euro per jaar. Natuurlijk heb je voor een site niet zo veel ruimte nodig. 100 megabyte moet ruimschoots volstaan voor een relatief kleine website met een beperkt aantal pagina's. Hoe meer ruimte je huurt, hoe goedkoper die in verhouding wordt. Hosting in mensentaal Jan Peters (=domeinnaam) huurt een studio (=domeinruimte) in een appartement (=server). Hoe groter en luxueuzer de studio, hoe meer Jan Peters betaalt. De naam "Jan Peters" staat bij de gemeente (=internetproviders zoals Telenet) gedomicilieerd (=domain name service) op het adres van zijn studio. Jan Peters moet nu nog zorgen voor de inboedel (=website), anders is zijn studio leeg en valt er niet veel te beleven.

Bij een hosting huurt een gebruiker ruimte op een webserver. De hosting provider koppelt de domeinnaam vervolgens aan de gehuurde ruimte. Dit kan op 2 manieren:  

hosting: de domeinnaam verwijst naar een stuk ruimte op een server. forwarding: wanneer een bezoeker de domeinnaam intikt, wordt hij doorgesluisd naar een bepaald onderdeel van een andere site (domeinnaam) op dezelfde server of op een andere server.  gewone forwarding: vb. u tikt www.site1.be in in de adresbalk, maar u komt tercht op www.site2.be of op www.site2.be/site1, in de adresbalk zal u www.site2.be of www.site2.be/site1 zien.  cloaked forwarding: vb. u tikt www.site1.be in in de adresbalk, maar u komt tercht op www.site2.be of op www.site2.be/site2, MAAR in de adresbalk zal u www.site1.be blijven zien. copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

De term cloaking kan ook nog wat anders betekenen: Bij cloaking controleert de website (met een stukje software) wie de site opvraagt. Een zoekrobot krijgt een andere webpagina te zien dan de gewone gebruiker. Voorbeeld: Links de site zoals een gewone bezoeker hem te zien krijgt, rechts zoals de Googlebot hem te zien krijgt.

Voordelen van een forwarding Forwards zijn niet bedoeld om bezoekers te misleiden, maar bieden tal van voordelen:  meerdere domeinnamen kunnen aan één domeinruimte gekoppeld worden (vb. www.site.be en www.site.nl)  Forwarding is goedkoper omdat de webmaster slechts 1 keer domeinruimte moet huren en hosting betalen.

Hoe ontdek je een forward? Een forward is relatief makkelijk te ontdekken. 1. Open een website door de domeinnaam in te voeren in de adresbalk van de browser. 2. Klik met de rechtermuisknop in het venster. 3. In Firefox is de optie Dit deelvenster geactiveerd. 4. Kies Dit deelvenster > Deelvensterinfo bekijken. 5. Het venster met de info verschijnt in beeld. 6. Wanneer u merkt dat de domeinnaam in de adresbalk verschilt van de domeinnaam in het infovenster, dan heeft u wellicht te maken met een cloaked forwarding. copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

Wie zit erachter? 1. De eigenaar van een domeinnaam opsporen Belgische domeinnamen Eigenaars van Belgische domeinnamen zijn makkelijk terug te vinden via de website www.dns.be. 1. 2. 3. 4.

Open www.dns.be Voer een .be-domeinnaam in. Tik de captcha over. Vraag de informatie op.

Alle domeinen Naast de eigenaar van een domeinnaam vindt u heel heel wat andere informatie over een domein ook via http://www.alldomains.org/ 1. 2. 3. 4.

Bezoek www.alldomains.org Klik op whois search. Voer een domeinnaam in (met extensie) Klik op de knop Lookup.

U vindt op die manier o.a.  de eigenaar en zijn adres  de datum waarop de naam geregistreerd is  de nameservers waarop de domeinnaam gehost is  de datums waarop er wijzigingen zijn aangebracht (bijvoorbeeld verhuis van de domeinnaam naar een andere webserver)  de technische contactpersoon (vaak de hosting provider) Voorbeeld www.microsoft.com

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

Op zoek naar de bron Mogelijk biedt ook de broncode van de webpagina u meer informatie: 1. 2. 3. 4.

Klik met de rechtermuisknop op een webpagina. Klik op Bron weergeven. De HTML-code verschijnt in beeld. Zoek in het begin van het document tussen <head> en </head> naar informatie over de auteur of eigenaar.

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

2. De eigenaar zoeken op Facebook en Google Via een eenvoudige zoekopdracht in Google of op Facebook (of een ander sociale profielsite) vindt u vaak snel informatie over de eigenaar(s).

3. hosting in maten en gewichten (en vooral prijzen) Webservers bevinden zich in een datacenter. Omdat het op internet niet uitmaakt, waar een server zich fysiek bevindt, zijn veel datacenters gevestigd in landen waar de infrastructuur goedkoper is. Een .be-domeinnaam staat dus niet noodzakelijkerwijs op een server die zich letterlijk in België bevindt. Bovendien is de manier waarop een server wordt gehost heel verschillend. Een webmaster heeft in de meeste gevallen de server die hij huurt nog nooit gezien. Dit geldt ook voor de hosting providers. Vaak huren zij een aantal servers bij een firma in het buitenland. De server wordt vanop afstand via een aantal internetprotocollen (FTP, Telnet) aangestuurd. Wanneer er zich hardwarematige problemen met de server voordoen, is het voor de hosting provider net zoals voor de webmaster vaak afwachten en rekenen op de goodwill van de buitenlandse firma. Onderverhuur is gemeengoed op het www. Soorten hosting en servers Gratis hosting Meestal met beperkte mogelijkheden. Het draaien van scripts (bijvoorbeeld PHP) en het voeren van een eigen domeinnaam is vaak niet mogelijk. Schijfruimte en bandbreedte zijn meestal ook beperkt. Soms voegt de hostingfirma reclameboodschappen toe aan elke pagina. Shared hosting Hierbij worden meerdere (honderden) websites op dezelfde server geplaatst. Hierdoor is het mogelijk dat de ene website de andere doet vertragen of zelfs crashen. Reseller hosting Bestemd voor wie zelf een webhost wil worden. Voorziet in een hoge schijfruimte en bandbreedte die kan verdeeld worden over alle sites die de gebruiker er wil op plaatsen. Te vergelijken met shared hosting, maar u heeft meer vrijheid en u kunt zelf webhostng verkopen. Virtual Private Server (VPS) hosting Hiermee kan één fysieke server meerdere virtuele servers huisvesten. Elke klant heeft dan adminstrator of root-rechten om de server te configureren en gebruikers rechten toe te kennen. De klant kan een VPS ook voor andere toepassingen dan websites gebruiken. Als een virtuele server crasht, dan hebben de andere klanten daar geen last van. Processorcapaciteit en bandbreedte naar de harde schijf worden wel gedeeld door de klanten. Dedicated hosting De klant krijgt werkelijk een eigen server (machine). Wel heeft deze zich te houden aan datalimiet en hardeschrijf ruimte. Co-Located hosting De klant plaatst een eigen server in de ruimte van de colocatieprovider. Het is vereist om een copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek "19" rack mountable"-server te plaatsen van 1, 2 of 4U (Units). Ook hier heeft de klant rekening te houden met datalimiet, maar harde schijven kunnen naar gewenste hoeveelheid worden geplaatst of vervangen door grotere. Bron: wikipedia

4. De locatie van de server vinden Het kan belangrijk zijn uit te zoeken waar een server zich precies bevindt. Dit gaat vrij makkelijk omdat IP-nummers per werelddeel en per land zijn verdeeld. Wanneer u een website opvraagt, gaat dit verzoek bovendien via diverse 'knooppunten' (hops) in het internet. Zulke knooppunten zijn plaatsen waar diverse grote internet'wegen' samenkomen, kortweg een soort kruispunten in de bekabeling van het internet. Via een traceroute-test kan u achterhalen via welke hops u bij een webserver terechtkomt. Het tracerouteprogramma is op (bijna) elk besturingssysteem beschikbaar. 1. Open het commando- of dos-venster 2. Voer de opdracht tracert domeinnaam in. Onder Mac OS X of Linux gebruikt u het commando traceroute domeinnaam. 3. Druk op de ENTER-toets. 4. U krijgt een overzicht van alle hops en de tijd die een 'pakketje' van de server er over doet om de afstand tussen de gebruiker en de server af te leggen. Een traceroute wordt vooral ook uitgevoerd om fouten in een netwerk op te sporen.

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

Het is met speciale software ook mogelijk om een een traceroute visueel voor te stellen. De hops en de weg die het pakket aflegt worden dan getoond op een wereldkaart. U kan dan meteen zien waar de server zich bevindt. Het bekendste (maar betalende) programma is zonder twijfel VisualRoute.

Op http://www.snapfiles.com/Freeware/network/fwtraceroute.html vindt u een aantal gratis trace-programma's voor Windows.

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

Probeer het zelf via mapulator

Via de website www.mapulator.com kan u de resultaten van een Traceroute visueel weergeven op een Google Maps-kaart. 1. 2. 3. 4. 5. 6.

Voer een traceroute (tracert) uit in het commandovenster. Kopieer de resultaten. Ga naar de website www.mapulator.com Klik op de link or paste your own traceroute. Plak je resultaten (met de rechtermuisknop) in het tekstveld. Klik op de knop Trace.

Hieronder de resultaten voor een traceroute voor het domein www.vanin.be

Let echter op: Ook deze manier van geo-lookups kan fouten opleveren. Het kan gebeuren dat sommige nodes (hops) de controlepakketjes van het tracerouteprogramma tegenhouden waardoor je de indruk krijgt dat de server ergens anders staat. Het is dus zeker geen overbodige luxe om meerdere trace-programma's naast elkaar uit te testen.

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

5. Controleren of een site of server nog bestaat met ping Met het ping-commando kan u controleren of een site of server nog online is, of uw internetverbinding actief is. U kan er ook het IP-nummer van een website (webserver) mee achterhalen. 1. Open het commandovenster. 2. Voer het volgende commando in: ping domeinnaam. 3. Als het venster meteen weer sluit, is er iets mis met de verbinding of is de server niet bereikbaar. In het andere geval krijgt u het IP-adres van de webserver.

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

Webpagina's zijn vaak blokkendozen Een webpagina opslaan op uw computer om het achteraf te raadplegen? Het kan, maar er bestaan heel wat struikelblokken die een correcte opslag nauwelijks mogelijk maken.

1. Frames In een vorig onderdeel hebben we bekeken hoe u een forwarding kan ontdekken. Het is echter ook mogelijk dat een webpagina als een frame in een andere webpagina is ingevoegd. Wat u in het browservenster te zien krijgt, bestaat in de meeste gevallen uit één enkel HTML-document. In de beginjaren van het www, maakten veel webmasters gebruik van frames. Hierbij kon het browservenster in een willekeurig aantal (rechthoekige) frames worden opgesplitst. In elk frame kon een ander HTML-document worden geopend.

Op amateursites of oudere websites komt u deze techniek nog wel eens tegen. In de HTML-code van de webpagina zal het bovenstaande voorbeeld er als volgt uitzien: <html> <frameset cols="25%,50%,25%"> <frame src="frame_a.htm"> <frame src="frame_b.htm"> <frame src="frame_c.htm"> </frameset> </html>

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

2. iframes Terwijl het gebruik van frames wordt afgeraden en ook steeds minder voorkomt, worden iframes nog zeer vaak ingezet. Bij een iframe wordt er in het browservenster één HTML-pagina ingelezen. In (een) bepaalde rechthoekige zone(s) van het document wordt een ander HTML-document ingelezen. Dit document kan van dezelfde of van een andere site afkomstig zijn. In het onderstaande voorbeeld is een iframe ingelezen in het midden van het browservenster. Ook de Google-advertenties zitten in een iframe.

Dankzij iframes kunnen webmaster makkelijk andere informatie (van andere websites) in hun webpagina inlezen. De techniek wordt veelvuldig gebruikt voor o.a. Google Maps.

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

3. info inlezen met Javascript Niet alles wat u op een webpagina kan lezen staat ook in de HTML-code. Wanneer u een webpagina opslaat als een bestand op uw computer met de bedoeling het achteraf nog te lezen, staat er niet noodzakelijke alle info of tekst in die u zou willen bewaren. Een webmaster kan in een webpagina gebruikmaken van Javascript. Dit is een scriptingtaal waarmee interactiviteit aan een webpagina kan toegevoegd worden. Met Javascript kan ook informatie van andere sites worden ingelezen. In de HTML-code staat dan enkel een stukje Javascriptcode. Niet de server (die de HTML naar de gebruiker zendt) zal die Javascriptcode uitvoeren, maar de browser van de gebruiker. Dit betekent dat de informatie pas door de browser wordt opgehaald en niet in de HTML staat. Wanneer u een HTML-document dat zulke stukken Javascript bevat achteraf weer opent, is de kans groot dat de code niet meer wordt uitgevoerd of dat de informatie die door de code wordt ingelezen of via internet wordt opgehaald, niet langer bestaat.

4. ajax of informatie in stukjes De vrij recente en op Javascript gebaseerde techniek AJAX maakt enorm opgang op het www. Dankzij AJAX zijn veel sites in grote mate gebruiksvriendelijker geworden. Voor het archiveren van webpagina's vormt het echter een grote belemmering. Wanneer u een webpagina die veelvuldig van AJAX gebruikmaakt op uw computer opslaat om hem achteraf te bekijken, is de kans groot dat u later een 'lege' pagina te zien krijgt. AJAX staat voor Asynchronous Javascript and XML. Wanneer u op een link klikt, wordt bij AJAX niet noodzakelijk de ganse webpagina door een andere vervangen in het browservenster. De techniek maakt het mogelijk om een bepaald onderdeel van de pagina door andere informatie te vervangen. Het grote voordeel is dat er tussen de computer van de gebruiker en de server niet langer volledige HTML-documenten worden uitgewisseld, maar slechts 'kleine brokjes' informatie. Met AJAX kan bijvoorbeeld de tekst in een bepaalde HTML-alinea door andere tekst vervangen worden wanneer de gebruiker er (bijvoorbeeld) met de muis op klikt. AJAX-scripts kunnen enkel info ophalen vanaf hetzelfde domein (lees: domeinnaam). Het doel is de veiligheid van de eindgebruiker. Dit betekent echter wel dat ze niet meer zullen werken wanneer u ze zo'n webpagina op uw eigen computer opslaat. AJAX-pagina's zijn mijlenver verwijderd van het klassieke concept 'pagina'. De bekendste AJAX-toepassing is ongetwijfeld maps.google.com. Wanneer u op het zoomknopje klikt, worden de afbeeldingen van de kaart vervangen door andere afbeeldingen.

5. Flash Een ander struikelblok voor archivering zijn flashbestanden. Flash is een propriëtair bestandsformaat van de firma Adobe. Een Flashbestand kan via speciale HTML-code in een webpagina worden ingevoegd. Om het te kunnen bekijken, dient de browser te zijn uitgebreid met een insteekmodule: de Flash-player. Flashbestanden (.swf-extensie) kunnen echter niet buiten de browser worden afgespeeld of bekeken tenzij u het betalende programma Flash installeert (het programma waarmee u copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

Flashbestanden kan bouwen). Flashbestanden kan u herkennen door er met de rechtermuisknop op te klikken.

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

Web 2: het web wordt sociaal Begin jaren 1990 ontstond het wereldwijde web. Aanvankelijk maken vooral bedrijven er gebruik van om hun zaak of producten aan het grote publiek voor te stellen. Al snel gevolgd door hobby'isten die hun eigen websites online plaatsten.

1. Sociale web Begin eenentwintigste eeuw ontstaat het 'sociale web': consumenten kunnen via bepaalde websites persoonlijke informatie aan het web toevoegen en virtueel contacten leggen. Hiervoor moet de gebruiker geen kennis hebben van HTML of andere webtechnieken. Het toevoegen van informatie gebeurt via 'online' software. Naast dagboeken (blogs) waarop persoonlijke informatie of interesses worden gedeeld, zijn vooral ook profielsites populair (vb. Facebook). Het uitwisselen van informatie zoals muziek en films gebeurt vaak in strijd met auteursrechten. Een kort overzicht:  Facebook, Linkedin: profielsites  WordPress: een blogsysteem dat ook op uw eigen server kan geïnstalleerd worden  MySpace: 'artiesten' delen muziek, film enz.  YouTube, blip.tv, Metacafe: gebruikers kunnen hun eigen films uploaden  Flickr, Picasa...: 'delen' van foto's en albums  Google Docs: online (samen)werken aan documenten en rekenbladen.  Delicious: favoriete links uitwisselen

2. Wikisystemen Een 'geval' apart is Wikipedia. In een Wiki-systeem kunnen gebruikers/bezoekers informatie aan de artikels toevoegen of gegevens wijzigen. Via een controlesysteem wordt de geschiedenis van elk artikel bijgehouden. Voordelen  snelle controle: gebruikers verbeteren foutieve informatie of kunnen ontbrekende informatie toevoegen.  snelle groei: de databank met artikels groeit in een zeer snel tempo Nadelen  wildgroei: niet alle informatie is even 'hoogstaand'. Artikels van onbekende artiesten zijn even 'belangrijk' als die van wereldberoemde kunstenaars.  controle is relatief: niet alle artikels worden in dezelfde mate gecontroleerd. Onbekendere 'onderwerpen' worden niet snel verbeterd of aangepast. Vooral professionele auteurs 'kijken neer' op Wikipedia. Toch hebben onafhankelijke studies uitgewezen dat de kwaliteit van de artikels niet moet onderdoen voor die van 'professionele' encyclopedieën zoals bijvoorbeelde de Encyclopedia Britannica. Grootste struikelblok voor deze auterus is dat informatie vrij beschikbaar is. Een auteur staat zijn rechten af en de informatie verschijnt onder de GNU Free Documentation License.

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

3. Waar staat wat? De benaming Web 2.0 verwijst zowel naar het sociale web als naar de reeds eerder genoemde AJAX-techniek. Informatie uitwisselen tussen diverse websites en servers is makkelijker dan ooit. Op één site kan een website bijvoorbeeld kaarten van Google Maps, video's van YouTube en dies meer integreren. Dit betekent dat niet alle informatie die op een webpagina getoond wordt, ook effectief op dat domein staat. 4. RSS – het nieuws komt tot bij u Heel wat web 2.0-systemen bieden hun informatie ook aan via een RSS-bestand. Databankgestuurde websites exporteren hun informatie niet alleen naar HTMLdocumenten. De laatst toegevoegde artikels worden vaak ook geëxporteerd als een gestructureerde lijst: een RSS-bestand. Een RSS-bestand bevat de volgende onderdelen:  titel  artikelnummer  inleiding (korte omschrijving)  auteurs  link naar het volledige artikel Een RSS-bestand bevat geen opmaakgegevens.

Hoe ziet een RSS-bestand eruit? Net zoals een HTML-document bevat een RSS-bestand geen binaire code. U kan het openen in elke teksteditor. RSS is net zoals HTML een vorm van XML (extended markup language). XML is geen taal, maar een methode om digitale documenten met behulp van begin- en eindmarkeringen te structureren. <?xml version="1.0" encoding="UTF-8"?> <rss version="0.91"> <channel> <title>Mijn Krant</title> <link>http://www.mijnkrant.be</link> <description>Laatste artikels van MijnKrant</description> <language>nl-be</language> <item> <title> <![CDATA[Aarde warmt op]]> </title> <description><![CDATA[Wetenschappers voorspellen dat de ijskappen in 2100 volledig zullen afgesmolten zijn.]]> </description> <link> <![CDATA[http://www.mijnkrant.be/index.php?id=18987]]> </link> </item> </channel> </rss> Opmerking bij bovenstaande code: Natuurlijk zal een RSS-bestand meer dan één item bevatten. copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

RSS-bestanden vinden Een website die een RSS-nieuwskanaal aanbiedt, zal dit doorgaans zelf vermelden op de website. In de meeste gevallen gebruikt men hiervoor hetzelfde figuurtje: Een aantal browsers geef het RSS-icoon ook weer in de adresbalk.

RSS-bestanden lezen Moderne browsers kunnen RSS-bestanden ook weergeven in een voor mensen leesbare vorm. Wanneer u zich op een RSS-nieuwsstroom 'abonneert', komt het nieuws automatisch tot bij u. Dit betekent dat u niet elke dag het adres opnieuw moet invoeren, maar dat uw browser de informatie zelf voor u ophaalt. In plaats van een browser, kan u RSS ook ontvangen via een emailprogramma. U ontvangt dan nieuwe berichten zoals u ook uw emails ontvangen. U kan ook een apart stuk software installeren waarmee u RSS-kanalen kan ontvangen.

Zeer gestructureerd Het grote voordeel van RSS is dat het in een zeer gestructureerde vorm wordt aangeboden. Ook HTML is gestructureerd, maar RSS biedt de informatie steeds op dezelfde manier aan. Bijvoorbeeld: een artikel Titel

de aarde warmt op

Inleiding

wetenschappers voorspellen dat de ijskappen in 2100 volledige zullen afgesmolten zijn.

in HTML beschikt een webmaster over meerdere mogelijkheden afhankelijk van zijn smaak: <h1>de aarde warmt op</h1> <p>wetenschappers voorspellen dat de ijskappen in 2100 volledige zullen afgesmolten zijn.</p>

of <h3>de aarde warmt op</h3> <div>wetenschappers voorspellen dat de ijskappen in 2100 volledige zullen afgesmolten zijn.</div>

of... In RSS moet de webmaster een vaste structuur gebruiken: <title>de aarde warmt op</title> <description> wetenschappers voorspellen dat de ijskappen in 2100 volledige zullen afgesmolten zijn. </description> copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

Praktische toepassingen van RSS Hoe gestructureerder de informatie wordt aangeboden, hoe makkelijker ze kan geïnterpreteerd worden door software. Google leest de RSS-nieuwsstromen van duizenden sites uit, indexeert ze en biedt ze aan op het portaal Google News (news.google.com). Via Yahoo Pipes kunnen webmasters en ontwikkelaars zelf RSS-nieuwsstromen van de meest uiteenlopende websites combineren tot een eigen RSS-nieuwsstroom. Van recycleren gesproken! Aan het werk in Yahoo Pipes:

RSS voor audio: PODCASTS Wanneer de links in een RSS-bestand verwijzen naar audiobestanden ipv naar webpagina's, dan spreekt men van een PODCAST. Het populaire programma iTunes kan podcasts inlezen en weergeven. Podcasts kunnen beluisterd worden op de iPod en de iPhone. Radiostations, maar ook musea en zelfs educatieve instellingen bieden informatie ook aan in het podcastformaat. Voordeel van een podcast tegenover een radio is dat u de audiobestanden kan beluisteren wanneer u dat maar wil. Een programma zoals Juice kan de gelinkte audiobestanden ook downloaden. Wanneer men ipv audiobestanden videobestanden aanbiedt, wordt wel eens de term VODCAST gebruikt. In tegenstelling tot XML-documenten (HTML, RSS...) zijn audio- en videobestanden binair gecodeerd. U moet dus over software beschikken die de bestanden kan weergeven. Het zou ons echter te ver leiden om alle problemen op het vlak van audio- en videoweergave op te sommen.

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

Wie heeft dit geschreven? Krantensites en RSS-nieuwsstromen geven vaak duidelijk de auteur van de teksten weer. De teksten en afbeeldingen op deze sites vallen net zoals boeken onder de regels van het auteursrecht en citaatrecht. U kan dus niet zonder meer (zonder bronvermelding) teksten overnemen. Op het web is het klakkeloos kopiëren van teksten echter gemeengoed geworden. Rechtszaken draaien vaak op niets uit omdat teksten weer even snel van een site zijn verwijderd. De 'echte' auteur vinden van een internetbron is dus alles behalve makkelijk. Daarom vermeldt men vaak ipv een naam enkel de volledige URL als bronvermelding. Sommige sites bieden ook een disclaimer-webpagina aan waarin wordt bepaald welke informatie mag worden overgenomen. Over de rechtsgeldigheid van een aantal disclaimers tast men vaak in het duister. Disclaimers vermelden soms bepalingen die niet wettelijk zijn of niet van toepassing in het land waar de webpagina wordt bekeken. Een disclaimer-link vindt u vaak onderaan de webpagina.

Rechten geschonden Voor geschreven webdocumenten gelden dezelfde regels als voor andere geschreven bronnen. Toch gelden er op het web soms andere RECHTSGELDIGE licentievoorwaarden voor het gebruik van tekstdocumenten. Hieronder bespreken we kort de belangrijkste 'open' licenties.

1. GPL De GPL is niet meteen van toepassing op tekstdocumenten, maar heeft de aanzet gevormd voor licenties zoals de CC en FreeDoc die zich wel richten op tekstbronnen. Richard Stallman, een notoir 'hacker' verbonden aan het Massachusetts Institute of Technology stichtte begin jaren 1980 de Free Software Foundation (FSF). De FSF stelt zich tot doel de verspreiding van 'free' software te bevorderen. De beroemde uitspraak 'free as in freedom, not as in beer' wijst erop dat het begrip 'free' slaat op vrijheid en niet in de eerste plaats op 'gratis'. De eindgebruiker moet de vrijdheid hebben om de broncode (programmeercode) van een programma te wijzigen en er afgeleide werken van te maken. Om die voorwaarden ook rechtsgeldig te maken werd de GNU General Public License of kortweg GPL uitgewerkt. De GPL is een copyleftlicentie voor software en bepaalt dat “je met de software mag doen wat je wil (inclusief aanpassen en verkopen), mits je dat recht ook doorgeeft aan anderen en de auteur(s) van de software vermeldt. Concreet komt dat er op neer dat als je software die onder de GPL is gepubliceerd wilt verkopen, je daar de broncode bij zult moeten doen. Deze broncode mag dan weer verder worden verspreid onder de GPL. Iedereen kan ervoor kiezen zijn of haar programma onder de voorwaarden van deze licentie te publiceren.” (Bron: wikipedia) De GPL en Open Source software zijn sindsdien zeer populair geworden. Ook grote firma's zoals IBM, Sun, Google, Novell, RedHat enz. kiezen resoluut voor het gebruik van copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

de GPL-licentie of voor licenties die er op lijken (BSD-licentie, LGPL, MIT...). Het leverde al tal van grote en populaire softwarepakketten op: Apache, PHP, MySQL, OpenOffice.org, GIMP, Linux, Audacity... De website www.sourceforge.net en www.freshmeat.net zijn verzamelplaatsen voor ontwikkelaars van open source software. “De GNU Lesser General Public License (of kortweg de LGPL) is een afgezwakte versie van de GPL die soepeler omgaat met het gebruik van software in software met een andere licentie. Deze verschilt met de GPL op het punt dat software die gebruik maakt (als bibliotheek bijvoorbeeld) van LGPL-gelicenseerde software, zelf niet onder de LGPL hoeft te worden vrijgegeven.” (Bron: Wikipedia) Een samenvatting van de voorwaarden van de GPL: 0. Afbakening: welke definities worden gehanteerd en wat valt wel en wat valt niet onder de licentie. 1. Voorwaarden waaronder kopiëren en distribueren van de software toegestaan is. 2. Voorwaarden over het modificeren van de software. 3. Voorwaarden over het verspreiden van software in uitvoerbare code. 4. Het is alleen mogelijk om de software te kopiëren, wijzigen en sublicenceren onder de voorwaarden in de GPL. 5. Er worden alleen rechten gegeven als voldaan wordt aan de GPL (of er worden helemaal geen rechten gegeven). 6. De ontvanger van de software krijgt dezelfde rechten als de distributeur van de software (overdraagbaarheid). 7. Als op enige wijze niet voldoen kan worden aan de GPL, dan is het niet toegestaan om de software te distribueren. 8. Bepaling om in specifieke situaties de distributie van de software geografisch beperken (om te kunnen omgaan met patenten die in sommige landen van wel gelden en in andere landen niet). 9. Hoe om te gaan met verschillende versies van de GPL. 10. Bepaling dat het opnemen van GPL software in andere free software alleen kan met de toestemming van de auteur(s). 11. Bepaling dat de ontvanger geen garantie krijgt op de software. 12. Bepaling dat de copyrighthouder of "houders" niet aansprakelijk gesteld kunnen worden voor schade die ontstaat door het gebruik van de software. (Bron: http://www.zaanzone.nl/forum/viewtopic.php?id=27)

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

2. Creative Commons Lawrence Lessig startte in 2001 met het ontwikkelde van de Creative Commons-licentie, kortweg CC. Hij wil hiermee pleiten voor een soepeler systeem van auteursrechten? Bedoelings is om 'creatieve' werken (teksten, muziek, afbeeldingen, video...) vrijer -maar niet compleet vrij- te maken dan bij traditioneel auteursrecht. Tegenover de term copyright (voor klassiek auteursrecht) stelt CC het copyleft. “De vier punten van de CC licenties: ●

BY: Attribution of Naamsvermelding: het kopiëren, distribueren, vertonen en uitvoeren van het werk en afgeleide werken is toegestaan op voorwaarde van het vermelden van de originele auteur.

NC: Non-commercial of niet-commercieel: het kopiëren, distribueren, vertonen en uitvoeren van het werk en afgeleide werken mag niet voor commerciële doeleinden.

ND: No Derivative Works of geen afgeleiden: het kopiëren, distribueren, vertonen en uitvoeren van het werk is toegestaan, maar niet het veranderen van het werk

SA: Share Alike of gelijk delen: het distribueren van afgeleide werken is alleen toegestaan onder een identieke licentie, zie ook copyleft.

Er zijn verschillende CC licenties, die genoemd worden naar welke van de hierboven genoemde punten ze bevatten. Zo is er bijvoorbeeld CC-BY, die wel BY maar niet NC en SA bevat, of CC-BY-NC-ND, die wel BY, NC, ND bevat, maar niet SA.” (Bron: Wikipedia) De afbeeldingen op de Wikimediaservers (o.a. Wikipedia) zijn over het algemeen onder een CC-licentie verspreid.

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

3. Wikipedia-artikels gebruiken - Freedoc-licentie De teksten op Wikipedia zijn gepubliceerd onder de GNU Freedoc-licentie. Veel auteurs en eindgebruikers menen dat Wikipedia-artikels vrij zijn van auteursrechten. Dat is echter een wijdverbreid misverstand. Overnemen van een gans artikel mag, maar de "overnemer" is nog steeds verplicht om Wikipedia als bron te vermelden. Wiki-artikels vallen immers onder de voorwaarden van de GNU Free Doc License. Wanneer de gebruiker de bron niet vermeld, maakt hij zich aldus schuldig aan plagiaat. Opgelet: Wanneer u een tekst invoert op Wikipedia, gaat u er mee akkoord dat uw auteursrechten automatisch worden omgezet in de GNU Freedoc-licentie. Daarom vermeldt u bij het toevoegen aan Wikipedia steeds de regel toe: “Vrijgegeven voor publicatie door (naam)”. Anders loopt u misschien het risico dat u er onterecht van wordt 'beschuldigd' Wikipediaartikels te plagiëren. De GFDL (GNU Freedoc License) was oorspronkelijk bedoeld als licentie voor de handleidingen bij software die onder de GPL (zie hogerop) worden vrijgegeven. De GFDL bevat dus ruwweg dezelfde voorwaarden als de GPL. Bij een GFDL-document mag iedereen de teksten kopiëren, veranderen en zelfs verkopen indien aan de onderstaande voorwaarden wordt voldaan. ● ● ● ● ●

Als u een volledig GFDL-document overneemt, moet u het ook weer onder de GFDL vrijgeven. Ook al heeft u de tekst ervan gewijzigd! In elke al dan niet gewijzigde versie van het document moet u minstens 5 auteurs vermelden. Indien er minder dan 5 auteurs zijn, moet alle auteurs vermelden. Een kopie van GFDL-licentie moet bij het document worden meegeleverd. De GFDL blijft van toepassing op het document totdat het auteursrecht vervalt (in o.a. België is dit tot 70 jaar na de dood van alle hoofdauteurs). “Invariante secties. In de uiteindelijke gebruikte licentietekst voor het document kan onder bepaalde voorwaarden een lijst van invariante secties worden opgenomen die na het maken van een kopie niet veranderd mogen worden.” (Bron: Wikipedia)

Citaatrecht in GFDL Wanneer u een document uitgeeft dat zich baseert op GFDL-documenten, dan valt ook het uitgegeven document onder de GFDL-licentie! Wanneer u echter onderdelen van een GFDL-document of een volledig GFDL-document in een ander tekstdocument aggregeert (opneemt), valt het aggregaat onder GFDL, terwijl dat niet hoeft voor de rest van het document. In alle gevallen dient u rekening te houden met de bovenstaande voorwaarden.

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

Afbeeldingen op het internet Het JPG/JPEG—formaat is zonder twijfel het meest gebruikte afbeeldingsformaat op internet. Het biedt tal van voordelen tov andere formaten:

1. Voordelen van JPEG Een JPEG/JPG-afbeelding kan sterk gecomprimeerd worden. De kwaliteit van de afbeelding wordt bepaald door de graad van compressie, maar vooral ook door het aantal horizontale en verticale pixels. 'Het menselijk oog is gevoeliger voor helderheid dan voor kleur. Om op een onzichtbare manier informatie te verwijderen is het de bedoeling dat we minder informatie aan kleur opslaan dan aan helderheid.' (Wikipedia) Bij een JPG-afbeelding worden dus heel wat kleurverschilen weggelaten. Simpel voorgesteld: een jpeg verdeelt een afbeelding in een raster waarbij gemiddelde waardes worden gemeten. Veel variatie in kleur wordt weggelaten. Hoe meer verschillen weggelaten worden, hoe groter de compressie. Door de grote compressiemogelijkheden werd het JPEG-formaat al snel het standaard formaat van afbeeldingen voor internet. Daarnaast vindt u op internet vooral GIF- en PNGafbeeldingen.

2. metadata in afbeeldingen JPEG-afbeeldingen kunnens naast de afbeelding ook METADATA bevatten. Dit houdt in dat er ook tekstinformatie in de afbeeldingen kan opgeslagen zijn. U ziet deze informatie niet, maar met de juiste software kan u die informatie uitlezen. De metadata kan op verschillende manieren 'ingesloten' zijn: ● ● ●

Exif (ontwikkeld door de Japan Electronic Industry Development Association) IPTC (ontwikkeld door de International Press Telecommunications Council) XMP (ontwikkeld door Adobe)

De metadata kunnen zeer uiteenlopende informatie bevatten. Vaak slaan digitale fototoestellen automatisch metadata in een foto in zoals: ● model digitale camera ● de datum en de tijd waarop de foto is gemaakt ● sluitertijd ● GPS-informatie (locatie) ● kleine versie van de foto (thumbnail) Wanneer u de foto bewerkt in een softwareprogramma, sluit dit programma vaak ook informatie over zichzelf in de afbeelding.

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

3. verborgen informatie in afbeeldingen Wanneer JPEG's worden opgeslagen voor internetgebruik, worden metadata vaak uit de afbeelding verwijderd omdat de bestandsomvang hierdoor wordt verkleind. Hierdoor kan interessante informatie verloren gaan. Anderzijds kan het niet verwijderen van de metadata voor informatielekken zorgen. Als de maker de foto bijknipt om bepaalde delen niet mogen verspreid worden, bevat de ingesloten thumbnail vaak nog de volledige foto. Voorbeelden: De Amerikaanse Cat Schwartz ondervond dit aan den 'lijve' toen ze een foto publiceerde op haar persoonlijke weblog. De thumbnail in de metadata toonde haar (volledig) naakt! In februari 2006 publiceerde de Washington Post een interview met een hacker. De hacker stond het interview enkel toe als zijn naam en adres niet zou vermeld worden. De krant maakte een foto van de

hacker. Achteraf werd de foto 'uitgeknipt' zodat slechts een feel van zijn gezicht zichtbaar was. De IPTCmetadata bevatten echter nog steeds GPS- en datuminformatie toen de foto op de website verscheen. De zaak wordt nog straffer als je weet dat IPTC-metadata manueel moeten ingegeven worden en niet door de camera worden weggeschreven: “As a couple of other Slashdotters noted, these appear to have been entered by The Washington Post photographer. It's probably completely routine for them. After all, that's what IPTC (International Press Telecommunications Council) fields were designed for: to help periodicals manage their huge number of digital photographs.” (Bron: http://fishbowl.pastiche.org/2006/02/19/the_perils_of_metadata/)

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek De thumbnail rechts (uit de exif-data) bevat de totale afbeelding. Links ziet u de bijgesneden afbeelding.

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

3. Metadata lezen, bewerken of verwijderen Met programma's als jhead, irfanview, Xnview (www.xnview.com) kan u de METADATA in afbeeldigen lezen, aanpassen en of verwijderen. Exifer toont vlotjes alle in JPEG's ingesloten thumbnails (http://www.friedemann-schmidt.com/software/exifer/). Geosetter (http://www.geosetter.de/) leest de GPS-data uit afbeeldingen uit en geeft de locatie meteen weer op een Google Maps-kaart. Metadata bewerken of lezen met Xnview.

De Exif Viewer-uitbreiding voor de webbrowser Firefox kan de EXIF-gegevens van afbeeldingen die u op het web bekijkt weergeven. 1. Open Firefox. 2. Ga naar de website https://addons.mozilla.org/en-US/firefox/addon/3905. 3. Installeer de addon. 4. Herstart firefox. 5. Rechtsklik op een afbeelding en kies View Image Exif Data.

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

Soms leidt dit tot 'verbazende' resultaten: In het onderstaande voorbeeld krijgt u de indruk dat de foto is gemaakt op 23 december 2008, terwijl de EXIF-data aantonen dat de foto is gemaakt op 9 december.

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

4. een digitale vingerafdruk Digitale fototoestellen laten (onvoorzien) een VINGERAFDRUK achter in de gemaakte afbeeldingen. Hierdoor kunnen onderzoeker precies te weten komen met welk toestel de foto is gemaakt. Net zoals forensische onderzoekers van een kogel kunnen achterhalen met welk geweer het is afgevuurd. Deze vingerafdruk wordt niet geprogrammeerd of ingebouwd door de fabrikant maar ontstaat eerder toevallig. Onderzoekers van de Binghamton University o.l.v. professor Jessica Fridrich dat elke camera klein onvolkomenheden (ruis) in de afbeeldingen achterlaat. Elk toestel heeft een ander ruispatroon afhankelijk van de aanwezige sensor en minuscule onvolkomenheden in de onderdelen. De ruis is niet zichtbaar voor het menselijk oog. Het onderzoekstheam ontwikkelde algoritmes waarmee de ruis kan geanalyseerd worden en de individuele vingerafdruk kan worden gevonden. Een enkele afbeelding volstaat echter niet om absolute zekerheid (volgens Fridrich 99.9%) te geven. Meerdere afbeeldingen zijn nodig. De vingerafdruk is ook terug te vinden wanneer de afbeeldingen achteraf zijn gecomprimeerd. De techniek van Nasir Memon van de Polytechnic University in Brooklyn heeft slechts één foto nodig om de vingerafdruk met zekerheid vast te stellen. Memon garandeert een zekerheid van 90%. Zijn algoritme controleert niet de onvolkomenheden of ruis maar de interpolatietechniek die door de camera wordt gebruikt. Er bestaat tot nog toe gaan software die de digitale vingerafdruk van een camera kan verwijderen.

5. Een digitaal watermerk De eigenaar, fotograaf of maker kan zijn afbeeldingen voorzien van een digitaal watermerk. Sommige camera's beschikken over een digitale watermerk-technologie. Wanneer de afbeelding softwarematig wordt aangepast, wordt dit digitale watermerk vaak beschadigd.

6. Hexadecimaal speuren Wanneer u een afbeelding opent in een teksteditor (Kladblok, Scite, Smultron...) of in een Hex-editor krijgt u niet de afbeelding te zien, maar de hexadecimale code. In de beginregels kan u vaak lezen wanneer n met welke software de afbeelding is bewerkt.

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek Hexadecimaal speuren in Xnview.

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

Verberg het voor de robots Webmasters kunnen op hun website in een simpel tekstbestand aangeven welke bestanden en mappen niet door de zoekrobots mogen worden geïndexeerd. Anders dan u zou verwachten, moeten ze niet noteren wat wel mag gezien worden, maar wat niet mag gezien worden. Het teksbestand moet de naam robots.txt dragen en in de hoofdmap van de website bewaard worden. De structuur van het bestand is zeer eenvoudig: disallow: naam map Al snel maakten sommigen er een sport van om de robots-tekstbestanden van grote sites na te speuren op bestanden en mappen die niet mogen bekeken worden door de zoekrobots (en vaak ook niet door gewone bezoekers). Het bekendste voorbeeld was indertijd www.whitehouse.gov die een ellenlang robots.txtbestand op hun website plaatsten. Ondertussen is men ook daar slimmer geworden. het huidige robots.txt van whitehouse.gov

robots.txt van de website army.mil

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek robots.txt van microsoft.com

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

Beter zoeken in Google In Google kan je veel sneller resultaat bereiken door het correct gebruik van zoekoperatoren. Zoeken naar

Notatie

Voorbeeld

Een opsomming van zoektermen zoekterm1 zoekterm2 gescheiden door een spatie geeft alle pagina's waarin die zoektermen voorkomen.

vakantie hotel juli

Wenst u toch te zoeken naar zoekterm +symbool woorden die standaard door Google genegeerd worden, plaats er dan een + voor.

Star Wars +I (plaats geen spatie achter de + wel een voor)

Plaats OR of | tussen de zoektermen als het éne of het andere woord in de zoekresultaten moet voorkomen.

Griekenland OR Hellas Griekenland | Hellas

zoekterm1 OR zoekterm2 zoekterm1 | zoekterm2

Om ellenlange lijsten van ~zoekterm synoniemen gescheiden door OR te vermijden, kan u Google zelf laten zoeken naar synoniemen. Typ ~ gevolgd door het woord waarvoor u eveneens de synoniemen zoekt. Dit heeft weinig of geen effect bij woorden (synoniemen) in het Nederlands. De zoekterm 'school' zal ook 'institute' als resultaat geven.

~school

Wilt u vermijden dat bepaalde begrippen in de zoekresultaten sluipen, plaats dan een – gevolgd door het ongewenste begrip.

williams -robbie (plaats geen spatie achter de - wel een voor) geeft pagina's waarin de naam williams voorkomt, maar niet de naam robbie.

zoekterm1 -zoekterm2

Zoek tussen twee getallen of prijzen getal1..getal2

CD Pink Floyd €8..€20

Plaats uw zoektermen tussen “een zin met de zoektermen” aanhalingstekens als je een exacte weergave, naam of titel wil vinden. Google houdt dan wel rekening met de opgenomen stopwoorden, bijwoorden, voorzetsels en lidwoorden die anders genegeerd worden. Schrijvers maken hiervan gebruik om plagiaat op te sporen via Google!

“Volksverhalen uit Vlaams-Brabant”

Als u slechts een deel van een titel “blabla * blabla” of uitspraak kent, kan u het onbekende of ontbrekende deel vervangen door een * (Wildcard). Let op: u hoeft niet een * te plaatsen per ontbrekend woord, een * volstaat! Gebruik het in combinatie met aanhalingstekens.

“Gotische * Vlaanderen”

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek Indien u informatie in een zoekterm filetype:extensie welbepaald bestandstype zoekt, zal zoekterm ext:extensie uw zoekopdracht er als volgt uitzien:

romeinen filetype:doc romeinen ext:doc

Wilt u een bepaald bestandstype niet tussen de zoekresultaten,tik dan:

zoekterm -filetype:extensie zoekterm -ext:extensie

romeinen -filetype:ppt romeinen -ext:ppt

Zoek enkel binnen een bepaalde site:

zoekterm site:www.eensite.ext

webdesign site:www.ardeco.be

Op deze manier kan u ook nagaan welke bestanden Google van een bepaalde site heeft geïndexeerd.

site:www.eensite.ext

site:www.whitehouse.gov

U kan verhinderen dat u sites krijgt die niet bestemd zijn voor kinderogen

safesearch:zoekterm

safesearch:seks

Alle zoektermen moeten in de titel van de webpagina voorkomen.

allintitle:zoekterm1 zoekterm2

allintitle:tutorials photoshop webdesign

Zoek webpagina's die een bepaalde zoekterm1 intitle:zoekterm2 zoekterm bevatten en een bepaald woord in hun titel hebben.

springsteen intitle:lyrics

Alle zoektermen moeten in de url voorkomen.

allinurl:help windows

allinurl:zoekterm1 zoekterm2

Zoek webpagina's die een bepaalde zoekterm1 intitle:zoekterm2 zoekterm bevatten en een bepaald woord in hun url hebben.

windows crash intitle:help

Alle zoektermen moeten in de tekst allintext:zoekterm1 zoekterm2 van de webpagina voorkomen.

allintext:Romeins dagelijks leven

Zoek webpagina's die een bepaalde zoekterm1 intext:zoekterm2 zoekterm bevatten en waarvan de tekst een bepaald woord bevat.

bokrijk intext:openingsuren

Alle zoektermen moeten in de links op een pagina voorkomen.

allinanchor:dvd music winkelwagentje

allinanchor:zoekterm1 zoekterm2

Zoek webpagina's die een bepaalde zoekterm1 inanchor:zoekterm2 zoekterm bevatten en een bepaald woord in hun links hebben.

dvd inanchor:spearhead

Zoek een definitie of omschrijving van een begrip.

define begrip what is zoekterm what are zoekterm

define virus what is virus

Zoek webpagina's waarop een definitie of omschrijving voor een bepaald begrip voorkomt:

define:begrip

define:virus

Als u webmaster bent, wil je misschien wel eens weten welke websites een link leggen naar een van jouw sites.

link:www.mijnsite.ext

link:www.ardeco.be

Informatie zoeken over een boek.

book titel van het boek

book leeuw van Vlaanderen

Informatie zoeken over een film en filmbesprekingen.

movie:naam film

movie:“leeuw van vlaanderen”

Beursnieuws: beursgenoteerde

stocks:naam

stocks:belgacom

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek firma Weerberichten.

weather plaatsnaam weather postcode

Google bewaart de inhoud van elke cache:www.eensite.ext bezochte webpagina in zijn databank tot hij een nieuwe versie van die pagina opvraagt. Je kan de pagina's uit deze cache opvragen.

cache:www.nieuwsblad.be

Van elke door de Googlebot bezochte website bewaart de zoekmachine ook een korte omschrijving.

info:www.vanin.be

info:www.eensite.ext

U heeft een favoriete site of related:www.eensite.ext webpagina en u zoekt gelijkaardige pagina's.

related:www.linux.org

Interessante verzamelplaatsen website

omschrijving

nl.wikipedia.org/wiki/

Online encyclopedie

www.wikimedia.org

verzamelplaats met alle media (afbeeldingen...) van Wikipedia

www.gutenberg.org

volledige boeken waarvan de auteursrechten vervallen zijn

www.archive.org

Deze site probeert een paar keer per maand een backup te maken van het web. U vindt hier massa's films, audio, boeken, afbeeldingen... die onder een open licentie zijn vrijgegeven.

http://www.archive.org/web/web.php

De waybackmachine toont hoe websites er in het verleden uitzagen.

www.europeana.eu

Europese cultuur

www.portablefreeware.org

Collectie van gratis sofware

www.eol.org

Encyclopedia of Life

books.google.com

Zoekmachine voor boeken en teksten.

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

Inhoudstafel Het wereldwijde web als bron voor historisch onderzoek......................................................1 Hoe werkt het internet voor beginners...................................................................................1 1. het internet als netwerk..................................................................................................1 2. Het wereldwijde web......................................................................................................1 Teksdocumenten en webpagina's..........................................................................................3 1. Een belangrijk verschil...................................................................................................3 Tekstdocumenten en pagina's op uw computer............................................................3 Een website bestaat uit webpagina's............................................................................3 2. HTML is Hypertekst.......................................................................................................5 Voorbeelden van markeringen .................................................................................5 Webbrowsers renderen de HTML naar een leesbare weergave .................................6 Wat is hypertekst?.........................................................................................................6 Links en referenties ..................................................................................................6 Afbeeldingen ............................................................................................................6 3. Een webpagina in HTML ..............................................................................................7 Head en body ...............................................................................................................7 1. De "head" bevat ................................................................................................7 2. De "body" bevat .................................................................................................7 Hoe werkt het web?...............................................................................................................8 1. Een map op een server.................................................................................................8 2. Het web is geen archief.................................................................................................8 3. Bladeren op het web......................................................................................................9 Het web is een gesloten boek................................................................................................9 1. Een statische website....................................................................................................9 2. Een dynamische of databankgestuurde website.........................................................10 Voorbeeld: “Een digitale krant”................................................................................10 Hoe herken je een databankgestuurde website?........................................................11 Voorbeeld en analyse van een link op een databankgestuurde website:...............11 3. De informatie in databanken blijft verborgen...............................................................11 Wie zoekt, die vindt..............................................................................................................12 1. Zoekmachines zijn noodzakelijk..................................................................................12 2. Google indexeert het web............................................................................................12 3. Hoe Google uw vraag beantwoordt.............................................................................14 4. Vinden Zoekmachines wat u zoekt?............................................................................14 5. Google koloniseert verder...........................................................................................15 Domeinnamen en hun extensie...........................................................................................16 1. Domeinextensies en TLD's..........................................................................................16 2. Een domeinnaam.........................................................................................................18 3. Domeiruimte, hosting en forwarding............................................................................18 Voordelen van een forwarding.....................................................................................19 Wie zit erachter?..................................................................................................................20 1. De eigenaar van een domeinnaam opsporen.............................................................20 Belgische domeinnamen.........................................................................................20 Alle domeinen..........................................................................................................20 Op zoek naar de bron.............................................................................................21 2. De eigenaar zoeken op Facebook en Google.............................................................22 copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Internetbronnen doorgelicht – het wereldwijde web als bron voor historisch onderzoek

3. hosting in maten en gewichten (en vooral prijzen)......................................................22 Soorten hosting en servers.....................................................................................22 4. De locatie van de server vinden..................................................................................23 5. Controleren of een site of server nog bestaat met ping..............................................27 Webpagina's zijn vaak blokkendozen .................................................................................28 1. Frames.........................................................................................................................28 2. iframes.........................................................................................................................29 3. info inlezen met Javascript..........................................................................................30 4. ajax of informatie in stukjes.........................................................................................30 5. Flash............................................................................................................................30 Web 2: het web wordt sociaal..............................................................................................32 1. Sociale web..................................................................................................................32 2. Wikisystemen...............................................................................................................32 3. Waar staat wat?...........................................................................................................33 4. RSS – het nieuws komt tot bij u...................................................................................33 Hoe ziet een RSS-bestand eruit?................................................................................33 RSS-bestanden vinden...............................................................................................34 RSS-bestanden lezen..................................................................................................34 Zeer gestructureerd ....................................................................................................34 Praktische toepassingen van RSS..............................................................................35 RSS voor audio: PODCASTS.....................................................................................35 Wie heeft dit geschreven?...................................................................................................36 Rechten geschonden...........................................................................................................36 1. GPL..............................................................................................................................36 2. Creative Commons......................................................................................................38 3. Wikipedia-artikels gebruiken - Freedoc-licentie...........................................................39 Citaatrecht in GFDL................................................................................................39 Afbeeldingen op het internet................................................................................................40 1. Voordelen van JPEG...................................................................................................40 2. metadata in afbeeldingen............................................................................................40 3. verborgen informatie in afbeeldingen..........................................................................41 3. Metadata lezen, bewerken of verwijderen...................................................................43 4. een digitale vingerafdruk..............................................................................................45 5. Een digitaal watermerk................................................................................................45 6. Hexadecimaal speuren................................................................................................45 Verberg het voor de robots .................................................................................................47 Beter zoeken in Google.......................................................................................................49 Interessante verzamelplaatsen............................................................................................51

copyright - Kris Merckx – 2009 – www.ardeco.be – voor 'Storia' www.vanin.be


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.