Weblogs en het vluchtige internet
Het is 13 mei 2000 op een zaterdag in Enschede. Om drie uur ’s middags breekt er brand uit in de daar gelegen vuurwerkfabriek, gevolgd door explosies om half vier. Een Nederlandse blogger genaamd Spruijt begint al om kwart voor vier met zijn berichtgeving.1 Het Algemeen Nederlands Persbureau (ANP) volgt met een eerste bericht om half vijf en blogger Alt0169 volgt om half zes (inclusief verwijzingen naar het blog van Spruijt).2 Interessant aan deze berichtgeving van Alt0169 is dat hij onder andere in deze post (een bericht op een blog, afkomstig van het Engelse posting) verslag doet van een bronnenonderzoek naar wie allemaal reageren op het nieuws. Volgens Alt (online gepubliceerd om half tien) worden de online edities van het AD en De Telegraaf wel aangepast aan de eigen verslaggeving, maar die van Trouw en Het Parool verwijzen alleen (waarschijnlijk automatisch ververst) naar de berichtgeving van het ANP. De online editie van De Volkskrant verwijst op zaterdag tot kwart voor twaalf ‘s nachts uitsluitend naar het ANP.3 De bloggersgemeenschap houdt zich ondertussen echter wel druk bezig met de online verslaggeving en het nieuws verspreid zich razendsnel over de blogosfeer. Bloggers zoals Tonie (via Planet Internet) en ESC zouden volgens Frank Meeuwsen het op het web verspreide nieuws over de ramp bij elkaar hebben gebracht.4 De desbetreffende webpagina’s staan echter niet langer online en zijn helaas niet gearchiveerd.5
Kortom, nieuws en informatie op het internet en het wereldwijde web zijn vluchtig. Zelf kwam ik tot deze conclusie terwijl ik stage liep bij het webarchief van de Koninklijke Bibliotheek – Nationale Bibliotheek van Nederland (KB) voor mijn master Publieksgeschiedenis aan de Universiteit van Amsterdam. Als historica ben ik altijd geïnteresseerd in het vinden van primair bronmateriaal geproduceerd door het publiek, omdat die bronnen inzicht kunnen bieden in wat er speelt bij datzelfde publiek.6 Weblogs blijken hiervoor een uiterst geschikte bron. Het probleem is dat veel van de historische weblogs snel verdwijnen van het web. Een voorbeeld hiervan zijn bijvoorbeeld de bloggrondleggers die verzameld en geselecteerd zijn door de eerder geciteerde Frank Meeuwsen. Meeuwsen is zelf een blogger van het eerste uur (met de weblog Frank-ly) en was van 2003 tot 2008 voorzitter van de stichting Dutch Bloggies, die jaarlijks een prijsuitreiking organiseerde voor de beste Nederlandse weblogs.7 In zijn boek Bloghelden (2010) noemt hij vierentwintig bloggers, waaronder Tonie, Alt0169 en ESC, die volgens hem kunnen gelden als grondleggers van het genre in Nederland.8 Wie deze weblogs wil raadplegen, heeft echter een groot probleem. Van deze oudste weblogs is er slechts één nog online: die van L-rs. Een ander historisch weblog, genaamd Prolific, is tijdens het schrijven van dit artikel van het internet verdwenen. Het gevaar van het verdwijnen van historische weblogs is dat wanneer een website van een server wordt verwijderd, deze voor altijd weg is. Webpagina’s en websites zijn immers niet zoals archeologische voorwerpen of boeken die na jaren nog ergens gevonden kunnen worden in een hoekje van de bibliotheek of begraven in de grond. Áls makers hun oude website al hebben bewaard (op floppy disk, USB-stick, CD-rom of harde schrijf), dan is het bovendien moeilijk om websites te reconstrueren vanaf deze (soms verouderde) opslagmedia.9
Naast het verdwijnen van hele websites hebben webbronnen ook het probleem dat zij continue aangepast worden en veranderen. Een webpagina is gemiddeld slechts negentig dagen online. Dit geeft webarchivarissen een korte tijdspanne voor het archiveren van de pagina.10 Oude versies van een webpagina (en de code) gaan compleet verloren wanneer een webpagina wordt geüpdatet, zeker als een website niet regelmatig gearchiveerd wordt. Voor weblogs is dit probleem nog groter dan voor veel andere websites. Weblogs worden namelijk gewaardeerd vanwege hun snelle reacties op de actualiteit en zijn hierdoor een zeer dynamische en veranderlijke bron.11
Een ander voorbeeld waaruit blijkt hoe vluchtig het internet, en met name weblogs, zijn, is bijvoorbeeld het verdwijnen van het web-log.nl domein en het VKblog (van De Volkskrant) zo rond 2011 tot maart 2013. De platformdiensten web-log.nl en de VKblogs, die hun gebruikers blogmogelijkheden aanboden via hun platform, waren rond 2005 populair bij een breed publiek. In 2005 verwelkomde web-log.nl bijvoorbeeld al zijn honderdduizendste blog.12 Vanaf 2011 verdwenen deze bruisende bloggemeenschappen echter. Mediaconcern Sanoma, dat de web-logs beheerde, kreeg te maken met een groot migratieprobleem. Dit probleem ontstond (volgens Sanoma) doordat Say Media, destijds de eigenaar van blogsoftware TypePad, stopte met het aanbieden van zijn service waardoor web-log.nl moest overstappen naar WordPress blogsoftware en de content van de weblogs moest worden overgezet. Dit overzetten werd een debacle omdat 400.000 weblogs opeens offline gingen, inclusief de VKblogs die net waren overgenomen door Sanoma.13 Op 1 maart 2013 hield weblog.nl definitief op met bestaan. De gebruikers wiens weblogs nog online waren en die hun weblog wilden bewaren, moesten het handmatig exporteren.14 Incomplete resten van het VKblog en de web-logs zijn nog aanwezig in het Internet Archive.15 Daarnaast zijn ongetwijfeld delen van individuele weblogs nog bewaard door de makers.16 Het merendeel van de digitale vruchten van deze rijke bloggemeenschap zijn echter voor altijd verloren.
Het vluchtige van het web houdt niet alleen in dat veel websites en webpagina’s verdwijnen: ook is er een continue proces van vernieuwing en verandering gaande. Websites krijgen visueel steeds meer mogelijkheden, die echter ook de technische complexiteit doen toenemen. Dit is geweldig voor gebruikers, maar ook een uitdaging voor webarchivarissen die de sites proberen te bewaren voor het nageslacht. Het archiveringsproces moet namelijk steeds reageren op nieuwe ontwikkelingen op het terrein van software en andere fenomenen die plaatsvinden in de digitale wereld, zoals de opkomst en populariteit van social media platforms. Het is onmogelijk te voorspellen wat de volgende ontwikkeling van het internet gaat worden en hierdoor loopt het archief vaak achter de ontwikkelingen op het online web aan.17
In deze bijdrage wil ik dieper ingaan op de uitdagingen rondom de gearchiveerde weblog en het archiveren van weblogs. Tijdens mijn stage werkte ik aan het project ‘archivering van de NL-blogosfeer’ dat als doel had het netwerk van Nederlandse weblogs (de Nederlandse blogosfeer) in kaart te brengen, te categoriseren in een database, te beschrijven in een collectiebeschrijving, te voorzien van metadata en vervolgens te archiveren. Het eerder genoemde boek Bloghelden verschafte hierbij de benodigde kennis over de historische Nederlandse blogosfeer: de vele historische weblogs en haar ontwikkeling door de jaren heen. Daarnaast is voor deze bijdrage gebruik gemaakt van een groeiende hoeveelheid literatuur over het archiveren van het web, met als belangrijkste bijdrage het werk van Niels Brügger The Archived Web. Doing History in the Digital Age (2018).18 Dit werk biedt een uitstekend handvat voor het archiveren van websites in het algemeen en bleek ook relevant voor specifiek het archiveren van weblogs.
Van log van het web tot blog
De weblog vandaag de dag is voor de meeste gebruikers makkelijk te herkennen. Er zijn een aantal kernelementen die karakteristiek zijn voor de meeste weblogs. Ten eerste, de berichtgeving op de website is een reeks afzonderlijke berichten (posts) die in omgekeerde chronologische volgorde staan (het nieuwste bericht staat bovenaan). Deze berichten worden, ten tweede, regelmatig (dagelijks of wekelijks) op de website geplaatst door één of meerdere personen (amateurs of professionals). Ten derde, bezoekers kunnen doorgaans reageren op de posts. Ten vierde, de website bevat in de meeste (maar niet alle) gevallen een uitgebreid archief waarin alle bijdragen – al dan niet geïndexeerd – terug zijn te vinden.19 Deze archieven kunnen ingedeeld zijn op jaar, maand of zelfs op dag.
Een weblog kan qua onderwerp van alles bevatten: van zakelijke, milieu-gerelateerde of wetenschappelijke weblogs tot politieke, mode of lifestyle weblogs. De weblog staat echter voornamelijk bekend als een persoonlijk dagboek waarbij de blogger over zijn of haar leven blogt. Dit is echter niet altijd zo geweest. Eind jaren negentig, begin jaren 2000 stond de originele term ‘weblog’ simpelweg voor een ‘log’ van het web. Webloggers waren ‘websurfers’ die een logboek van hyperlinks bijhielden die zij vonden tijdens hun zwerftochten over het web. Tijdens de opkomst van het internet hielden deze pioniers zich dus bezig met het in kaart brengen van het internet voor nieuwe gebruikers: een soort vroege Google of telefoongids voor het internet. De webloggers wisten de laatste nieuwtjes en de leukste websites aan te wijzen. Pas later groeide de weblog uit tot een persoonlijk dagboek met teksten en foto’s. Vanaf 2004 volgden tenslotte Amerikaanse politici die weblogs gingen gebruiken om hun mening te verspreiden en stemmen te trekken. Vanaf dat moment veranderde de weblog als logboek van het internet of persoonlijk dagboek naar een multifunctioneel middel, onderhouden door amateurs en/of professionals, waarbij alle mogelijke onderwerpen aan bod konden komen.20 Doordat een weblog zo divers van inhoud kan zijn, is het tegenwoordig lastig om te definiëren wat een weblog precies is. Een weblog kan bijvoorbeeld een hele website beslaan of slechts een (klein) onderdeel van de website zijn. Bovendien kan een website zichzelf soms ook een magazine noemen terwijl het de vorm van een weblog aanneemt (zie bijvoorbeeld Afbeelding 1).
De Digitale Kunstkrant. De website noemt zichzelf geen weblog maar bevat wel de omgekeerde chronologisch (regelmatig) geposte berichten en het uitgebreide archief die zo typerend zijn voor een weblog. Is dit nu een weblog of niet? Bron: “Home”, Digitale Kunstkrant, bezocht op 7 januari 2019, https://www.digitalekunstkrant.nl/.
Screenshot van de op 10 mei 2000 gearchiveerde Prolific website in het Internet Archive. Bron: “Prolific 2000. In the port of Amsterdam”, Prolific.org, 10 mei 2000, bezocht op 7 januari 2019, https://web.archive.org/web/20000510033408/http:/www.prolific.org:80/.
Screenshot van de Prolific website vlak voordat deze offline ging. In plaats van berichten geplaatst via de website zelf, ziet de gebruiker vooral verwijzingen naar social media. Bron: “Home”, Prolific.org, bezocht op 7 januari 2019, http://prolific.org/ (website niet meer online ten tijde van publicatie van deze bijdrage).
Naast de ontwikkeling qua inhoud maakte de weblog ook een hele ontwikkeling door wat betreft vorm. In het begin waren weblogs uitsluitend tekst met ondersteunende afbeeldingen of een weblog met uitsluitend afbeeldingen (of uitsluitend tekst of hyperlinks). Vanaf 2004, toen de techniek het toeliet, ontstonden er ook weblogs met audiofragmenten of zelfs geheel in audiovorm: de podcast. Het jaar daarop volgde het ontstaan van YouTube waardoor het mogelijk werd om gemakkelijk videomateriaal toe te voegen aan weblogs of in plaats van tekst te gebruiken een blogpost helemaal te filmen (vlogs). In 2006 ontstond tenslotte de microblog in de vorm van Twitter en een jaar later Tumblr.21 De weblog zoals het vandaag de dag bestaat kan daardoor erg verschillen met het oorspronkelijke weblog.
De weblog is dus qua inhoud, uiterlijk en vorm sterk veranderd door de tijd heen. Deze ontwikkeling leent zich goed voor nader onderzoek. Maar wellicht de meest interessante elementen voor onderzoek met weblogs zijn de uitgebreide archieven, de vele verwijzingen naar externe websites en de reactiemogelijkheden. Deze kenmerken van de weblog compliceren het archiveerproces in Nederland, dat zich tot doel stelt de weblog te bewaren is voor toekomstig onderzoek. In Nederland is het namelijk extra moeilijk om het web te archiveren omdat al vanaf 1974 met een vrijwillig depot gewerkt wordt wat betreft publicaties.22 Nederlandse uitgevers zijn daardoor niet wettelijk verplicht om hun publicaties naar de nationale bibliotheek te sturen zoals dat in veel andere landen wel het geval is.23 Dit geldt ook voor Nederlandse websites. Nederlandse websites mogen niet zomaar gearchiveerd worden. Er moet namelijk toestemming gevraagd worden aan de eigenaar waardoor elke website apart ingevoerd moet worden voor archivering. Het archiveren van het Nederlandse web door officiële instanties is hierdoor een arbeidsintensief proces gericht op het archiveren van individuele websites. Het grootschalig archiveren van het hele Nederlandse web (een zogenoemde domain crawl) of bepaalde subnetwerken (zoals de blogosfeer) is op dit moment niet mogelijk. In landen met een depotplicht, zoals Denemarken en Groot-Brittannië, is dit wel mogelijk.24 In deze bijdrage, wanneer ik het webarchiveren behandel, ga ik uit van de Nederlandse situatie, die ervoor zorgt dat het archiveren van Nederlandse websites vooral gericht is op het bewaren van individuele websites.
Weblogs in archieven
Vanaf het moment dat een weblog gemaakt wordt, is hij continu onderhevig aan verandering: in inhoud (nieuwe posts, uitbreiding archief) maar ook in vorm en uiterlijk. Een weblog zag er in 2000 heel anders uit dan in 2018. Webloggers die ooit begonnen zijn met bijvoorbeeld Pivot software maken nu gebruik van WordPress of van een social media platform. Neem bijvoorbeeld de website van de Nederlandse bloggrondlegger www.prolific.org. Het weblog van Caroline van Oosten de Boer was van 1993 tot 2019 online. Haar website is tijdens deze periode vele malen van vorm en software context veranderd. Oorspronkelijk stonden de posts van Van Oosten de Boer op een eigengemaakte homepage. Vervolgens zette zij haar posts om via Blogger software tot de Prolific website. De Prolific website wisselde nog een aantal keer van weblogsoftware (zoals Movable Type en Pivot). De meest recente versie van de Prolific website was ingebed in het veelgebruikte WordPress en verwees voornamelijk naar haar social media berichtgeving.25 Van de originele programmeercode uit 1999 was vrij weinig meer over. Een groot deel van haar archief bestond toen nog wel, maar stond niet langer in de context van de oorspronkelijke of latere versies van de website.26 De software context van een weblog kan dus door de tijd heen radicaal veranderen en zelfs geheel verloren gaan.
Juist omdat het internet zo vluchtig is, is het dus van belang dat weblogs tijdig gearchiveerd worden. Een gearchiveerde weblog is echter niet hetzelfde als een weblog dat online staat. Dit is overigens niet alleen het geval voor weblogs maar voor alle internetarchiefstukken. Niels Brügger merkt terecht op dat ‘at first sight an archived web collection may look like a digitized collection or the online web, it is fundamentally different from both, and thus must be approached differently.’27 Dit geldt voor een weblog nog meer dan voor een normale website. Wanneer een weblog namelijk gearchiveerd wordt, ontstaat een heel ander object dan toen het gepubliceerd werd of de versie die nu nog online staat. Een online weblog is immers een zeer dynamische website: de blogposts die online komen, aangepast worden of zelfs weggehaald worden, reacties die geplaatst worden, aangepast worden of weggehaald worden, de reclamebanners aan de zijkanten en verwijzingen naar social media om maar eens een paar elementen te noemen. Een weblog verandert dus regelmatig en reageert continu op interne en externe factoren. Een gearchiveerd weblog is daarentegen statisch. De archiefversie geeft een momentopname weer van hoe de weblog er op een bepaald moment uitzag. Een gearchiveerd weblog toont de onderzoeker dus niet het dynamische van een weblog, zelfs niet wanneer er meerdere versies van een weblog in een archief zitten.
Wanneer een archiefversie wordt gemaakt van een weblog, dan gaat niet alleen het dynamische van de website verloren, maar ook het materiaal wat ingebed (embedded) is op de website. Het gaat hier dan om bijvoorbeeld een hyperlink die naar YouTube verwijst en door het proces van inbedden geen hyperlink toont aan de gebruiker, maar een YouTube filmpje. Een goed voorbeeld van dit soort embedded materiaal is bijvoorbeeld te zien op de website van het tijdschrift Tina (zie Afbeelding 4).28 De website van Tina staat vol met filmpjes van jonge enthousiaste vloggers in mooi vormgegeven pagina’s. Wanneer de website echter gearchiveerd wordt, blijft alleen de tekst en lay-out bewaard. De filmpjes worden niet meegenomen, omdat die op YouTube staan. Het archiveringsproces heeft met name grote gevolgen voor deze content wanneer een weblog via een web crawler wordt gearchiveerd. Het archiveren met een web crawler houdt in dat de achterliggende programmeercode van een geselecteerde website wordt gearchiveerd. Wanneer de weblog wordt gearchiveerd, verliest het door dat proces dus ingebedde verwijzingen naar externe bronnen zoals Twitter of Facebook. Dit deel van de weblog krijgt dan in het archief een foutmelding.
De website van Tina: mooi vormgegeven met als centraal element een verwijzing naar een filmpje op YouTube wat niet gearchiveerd kan worden. Bron: “Verkiezingen met de cast van Jonge Garde”, Tina, bezocht op 7 januari 2019, https://www.tina.nl/video/artiesten/verkiezingen-met-jonge-garde.
Een goed voorbeeld van deze problematiek van de gefragmenteerde webpagina is de archiefversie van een webpagina van twente.nl van 2 maart 2000 (zie Afbeelding 7).29 Op deze pagina is het volgende artikel te lezen:
Het gebruik van een web crawler is niet de enige manier om websites te archiveren. Een andere aanpak is via webrecording (met bijvoorbeeld de Webrecorder website) of het maken van screenshots.30 Het archiveren via webrecording (het maken van video-opnames van het web) of afbeeldingen maken van een website heeft als voordeel dat een website getoond wordt zoals hij mogelijk werd gezien door gebruikers. Webrecording toont bijvoorbeeld ook de social media updates.31 Dit is een voordeel voor het archiveren van websites zoals Prolific. De website was via een web crawler moeilijk te archiveren omdat hij vooral bestond uit verwijzingen naar social media. Via Webrecorder was het wel mogelijk bijvoorbeeld de Instragram verwijzingen te archiveren (zie Afbeelding 5).32 Echter: de programmeercode die achter de website draait wordt via deze methode niet gearchiveerd. Bovendien is webrecording sterk afhankelijk van de persoon die archiveert en het navigatiepad dat op de website wordt gevolgd. Verschillende navigatiepaden kunnen leiden tot verschillen in de selectie van gearchiveerde webpagina’s. Het is bovendien zeer arbeidsintensief om de hele website te archiveren, omdat alle pagina’s en links één voor één moeten worden aangeklikt. Voor weblogs is deze methode daardoor problematisch: denk maar eens aan het werk dat verricht moet worden wanneer de archieven teruglopen tot het jaar 1998, zoals bij Prolific het geval was, en de blogger dagelijks posts plaatst.
Een gearchiveerde Prolific.org webpagina. De website is gearchiveerd met behulp van de Webrecorder website. Het archiveren van de hoofdpagina, waarvan de archieven teruglopen tot 1998, duurt erg lang (zelfs met de autoscroll functie). Bron: “Prolific.org”, Webrecorder, 20 maart 2019, bezocht op 20 maart 2019, https://webrecorder.io/I_r_i_s/tmg-we-blog.
Een test die ik zelf heb uitgevoerd met de Prolific hoofdpagina en Webrecorder duurde tweeënhalf uur. In deze test archiveerde ik met behulp van de autoscroll functie 1826 bladzijden van de hoofdpagina en ruim een gigabyte aan data. Door het inschakelen van de autoscroll optie wordt automatisch naar beneden gescrold door het archiefprogramma waardoor de archivaris niet zelf continu hoeft te scrollen. Ondanks deze tijdbesparende functie moest toch nog vier keer handmatig worden ingegrepen. Niet alleen het archiveerproces is arbeidsintensief, maar ook de uiteindelijke gebruikers van het gearchiveerde materiaal moeten veel meer werk verzetten. Zoals Brügger terecht opmerkt: ‘files with individual web pages may be searched individually, but as for the rest, the only way of finding relevant material is to go through all the sources manually. In particular, screen movies may be challenging to navigate, since they follow the actions of the individual who did the filming.’33 Het zoeken in het archief van een gearchiveerd weblog wordt hierdoor erg tijdrovend.
Naast ingebedde hyperlinks leveren ook verwijzingen naar ander materiaal (documenten, audio- en videobestanden) dat niet op het eigen domein van de website staat problemen op voor archivering, met name bij het archiveren van vlogs of podcasts. Wanneer een weblog verwijst naar externe opslagruimtes zoals Dropbox, kan dit materiaal niet gearchiveerd worden als er met een web crawler gewerkt wordt. Daarnaast wordt dit materiaal ook niet gearchiveerd wanneer het tijdens het archiveren via webrecording (of afbeeldingen maken) niet geopend wordt en daardoor niet in beeld wordt gebracht.
Een ander element dat verloren gaat tijdens het archiveren, is de context van het informatienetwerk van een weblog: de linkwolk waarmee de weblog verbonden is. Deze context verandert regelmatig, net als de softwarecontext. Elke nieuwe post zorgt voor nieuwe hyperlink verwijzingen naar externe bronnen: medebloggers, kranten of andere websites. In beide gevallen gaat de informatie achter de hyperlinks (die verwijzen naar standaard websites) verloren wanneer de content achter de hyperlinkverwijzing niet gearchiveerd (of aangeklikt) wordt. Een voorbeeld van een weblog waarbij deze informatienetwerkcontext mist, is de online weblog van blogger L-rs en diens verslaggeving van de vuurwerkramp in Enschede. Al zijn verwijzingen naar het nieuws over Enschede van externe informatiebronnen werken niet langer.34 Daarmee is de informatienetwerkcontext waarin L-rs zijn posts plaatste, verloren gegaan. Dit zal, in de toekomst, ook het geval zijn voor gearchiveerde weblogs. De weblogs die gearchiveerd worden, lopen het gevaar los te komen staan van hun informatienetwerk. Het is maar afwachten hoeveel van die context bewaard kan worden of nog bestaat wanneer er onderzoek gedaan gaat worden naar de gearchiveerde websites.
Het probleem van de ontbrekende context wordt dus vooral veroorzaakt doordat externe verwijzingen niet gearchiveerd worden. De voor de hand liggende oplossing is simpelweg meer archiveren. Dit is echter makkelijker gezegd dan gedaan. Zoals eerder al benoemd is, moeten websites in Nederland één voor één gearchiveerd worden met goedkeuring van de eigenaar. De enige optie voor Nederlandse webarchieven om zoveel mogelijk context te bewaren is dus door alle hyperlinks binnen een weblog te extraheren, toestemming te vragen aan de eigenaars en deze websites of pagina’s individueel te archiveren: een tijd- en arbeidsintensief proces dat met de huidige grootte van het Nederlandse web onhaalbaar is. Wellicht haalbaarder voor Nederlandse archieven is per webcollectie een netwerkanalyse uit te voeren om te onderzoeken welke nog niet gearchiveerde websites een middelpunt zijn binnen het netwerk en waar dus veel naar verwezen wordt. Zij kunnen vervolgens een aantal van deze centraal gelegen websites opnemen in de desbetreffende collectie ten behoeve van de informatienetwerkcontext.
Door het archiveringsproces gaat een weblog dus statisch een archief in, kan het verwijzingen naar extern materiaal (documenten, filmpjes) missen en informatienetwerkcontext verliezen. Daarnaast kan het ook gebeuren dat een weblog interne elementen verliest. Wanneer een weblog niet frequent gearchiveerd wordt, kan het gebeuren dat posts alleen gearchiveerd worden wanneer zij al in het blogarchief (het archief van de weblog zelf) zijn beland. Dit heeft als gevolg dat bijgevoegde afbeeldingen kunnen verdwijnen omdat zij in het blogarchief niet of in een kleiner bestandstype worden opgeslagen. De afbeelding wordt dan bijvoorbeeld gecomprimeerd opgeslagen als thumbnail. Dit doen websitebeheerders om geheugenruimte te besparen. Het gebeurt ook dat bijvoorbeeld de hoofdpagina regelmatig gearchiveerd wordt, maar dat wanneer dieper in de website gezocht wordt, de pagina’s niet werken omdat zij niet gearchiveerd zijn. Dit zorgt niet alleen voor missende informatie, maar kan ook leiden tot een gefragmenteerde gearchiveerde website. Bij een gefragmenteerde website kan het zo zijn dat een subpagina een andere archiefdatum heeft dan de hoofdpagina omdat er geen versie beschikbaar is die op hetzelfde moment als de hoofdpagina is gearchiveerd.35 Wanneer er dan genavigeerd wordt van hoofdpagina naar een subpagina kan de datum opeens verschuiven. Neem bijvoorbeeld de in Afbeelding 6 weergegeven gearchiveerde Loglands website. Als de onderzoeker niet goed oplet kan zij opeens in een heel andere periode zitten dan zij aan het onderzoeken was. Dit kan bij uitgebreide en ingewikkelde websites zoals de weblog (met zijn uitgebreide archieven en specifieke chronologische opbouw) tot problemen leiden. In de volgende paragraaf wordt dieper ingegaan op deze problematiek.
Dit is de website van Loglands, één van de eerste weblogs in Nederland die bijgehouden werd met de mobiele telefoon (moblog), gearchiveerd door het Internet Archive. De hoofdpagina is voor het laatst gearchiveerd op 11 augustus 2007. Wanneer de onderzoeker naar de archiefpagina’s probeert te navigeren (oranje omcirkeld) krijgt zij echter archiefpagina’s van 27 februari 2006 te zien, de laatste datum waarop die pagina’s zijn gearchiveerd. Bron: “Words and Moblogs from da Lowlands”, Loglands, 11 augustus 2007, bezocht op 7 januari 2019, https://web.archive.org/web/20070811060058/http://www.loglands.nl:80/, “Words and Moblogs from da Lowlands”, Loglands, 27 februari 2006, bezocht op 7 januari 2019, https://web.archive.org/web/20060227215040/http://www.loglands.nl:80/archives/archive_2004-m08.php en “Words and Moblogs from da Lowlands”, Loglands, 27 februari 2006, bezocht op 7 januari 2019, https://web.archive.org/web/20060227215210/http://www.loglands.nl:80/archives/archive_2004-m09.php.
Het artikel over Enschede op de gearchiveerde website van twente.nl in het Internet Archive. Het artikel staat hier al, lijkt het, voordat de ramp heeft plaatsgevonden. Rechtsboven staat ook een afbeelding met daaronder ‘Enschede huilt’. Bron: “twente.nl”, Twente.nl, 2 maart 2000, bezocht op 24 november 2018, https://web.archive.org/web/20000302143536/http://www.twente.nl:80/.
Gefragmenteerde weblogs
Een van de lastigste problemen voor een onderzoeker is wanneer een weblog gefragmenteerd gearchiveerd wordt. Dit is bijvoorbeeld bij het Internet Archive een significant probleem. Het Internet Archive is een non-profit organisatie die digitaal materiaal (websites, boeken, audio, video, afbeeldingen en software) archiveert en dat materiaal via de WayBack Machine beschikbaar maakt voor onderzoekers en het brede publiek.36 De screenshots hierboven van Loglands en Prolific (Afbeelding 2 en 6) komen bijvoorbeeld uit de openbaar toegankelijke Wayback Machine van het Internet Archive. Het Internet Archive archiveert het internet door middel van een web crawler. De gereconstrueerde websites en webpagina’s in hun archief kunnen echter gefragmenteerd zijn. Een archiefstuk is dan een patchwork van stukjes en beetjes van de website die op verschillende momenten gearchiveerd worden. Op een webpagina van de Wayback Machine worden de verschillende deelelementen samengevoegd tot één pagina met één datum terwijl de verschillende deelelementen op andere momenten zijn gearchiveerd.
Akkoord plan van aanpak rampwijk Eerste gesprek van de Belangenvereniging Slachtoffers Vuurwerkramp met B&W; van Enschede leidt tot plan van aanpak voor de wederopbouw van verwoeste wijk. Akkoord bereikt over inspraak bewoners, herstel, herbouw en terugkeer naar eigen woningen.37
De vuurwerkramp in Enschede vond echter pas plaats op 13 mei 2000. Het artikel kan dus nooit gepubliceerd zijn op 2 maart 2000. Wanneer het element achter de pagina geïnspecteerd wordt, verschijnen er dan ook drie archiefmomenten: 2 maart 2000, 30 augustus 2000 en 15 oktober 2000 waardoor duidelijk wordt dat deze pagina op drie verschillende momenten is gearchiveerd en daarna is samengevoegd. Het gefragmenteerde archiefstuk geeft daarmee een gebrekkig beeld van hoe de webpagina er op 2 maart 2000 heeft uitgezien. Een ander voorbeeld van een gefragmenteerde gearchiveerde website uit het Internet Archive is het NL-menu uit juni 2002. Toen onderzoeker Digitale Duurzaamheid Johan van der Knijff onderzoek deed naar deze website ontdekte hij dat er een Bing zoekvenster op de website zat, terwijl Bing pas in 2009 is opgericht. Hij concludeerde dat de website in 2002 onvolledig was gearchiveerd en dat de missende elementen pas tien jaar later zijn binnengehaald waardoor de versie die nu in het Internet Archive circuleert geen goede representatie is van hoe de website er in 2002 uitzag.38
Voor een deel komt het probleem van het gefragmenteerde archiefstuk voort uit de gefragmenteerde natuur van een website. Op een webbrowser ziet de pagina eruit als een eenheid, terwijl hij eigenlijk bestaat uit allemaal aparte kleine stukjes code die soms ook nog eens content van verschillende plaatsen halen (zoals bijvoorbeeld embedded video’s afkomstig van YouTube).39 Wanneer deze stukjes code niet in één keer gearchiveerd worden, zorgt dit voor fragmentatie. Als een gearchiveerde website dan weer voor een gebruiker zichtbaar wordt gemaakt gebeurt er het volgende, volgens Brügger:
the Wayback Machine’s software retrieves the missing elements from a time as close as possible to the time of the web page. However, since this may be a question of days and in many cases weeks or months, the web page that the user sees, and that should be consistent with the time of the HTML file on the basis of which it is generated, is patched together from fragments from different points in time (…) What appears to be a temporally ‘flat’ and consistent web page with only one temporality (as it was online) may hold several invisible temporalities, stretching backward and forward in time, making it temporally inconsistent as a whole.40
Wanneer een gearchiveerde website wordt gereconstrueerd en weergegeven haalt de WayBack software niet alleen fragmenten van de website uit zijn eigen gearchiveerde collectie, maar kan het daarnaast ook actuele elementen van het online web halen wanneer er HTML code in de gearchiveerde website aanwezig is die hierom vraagt. Dit komt doordat de WayBack Machine van het Internet Archive verbonden is met het online web. Wanneer er in de gearchiveerde pagina een HTML code zit die contact moet maken met een online webserver, gebeurt dit ook.41 Een gearchiveerde website kan hierdoor bestaan uit historische fragmenten die uit het archief zijn gehaald en actuele onderdelen die rechtstreeks van het online web komen. Neem bijvoorbeeld een stuk programmeercode dat ervoor zorgt dat er automatisch informatie opgehaald wordt uit Twitter. Doordat deze content van het online web wordt gehaald, wordt er actuele informatie van Twitter zichtbaar in het archief. De inhoud van de verwijzing wordt alleen weergegeven zolang de online server of website bereikt kunnen worden. Zodra deze offline gaan, blijft dit onderdeel van de website leeg omdat de content niet gearchiveerd is. Kijk bijvoorbeeld naar Afbeelding 8 en 9 van Weblog Zwolle op het web en in het Internet Archive. De twitterberichten op beiden websites zijn hetzelfde terwijl de archiefversie van 4 juni 2018 is en de online versie is bekeken op 21 april 2019.42 Wanneer het weblog van het internet verdwijnt, blijft dit onderdeel in alle archiefversies van de website leeg. De informatie is immers niet gearchiveerd en daardoor niet langer te achterhalen.
Screenshot Weblog Zwolle op 21 april 2019. Let op de tweets aan de zijkant van de pagina. Bron: “Voorpagina”, Weblog Zwolle, bezocht op 21 april 2019, https://www.weblogzwolle.nl/.
Screenshot van een gearchiveerde pagina van Weblog Zwolle van 4 juni 2018 uit het Internet Archive. De tweets zijn hetzelfde als op 21 april 2019, de dag waarop ik de pagina heb gekeken. Bron: “Voorpagina”, Weblog Zwolle, 4 juni 2018, bezocht op 21 april 2019, https://web.archive.org/web/20180604034200/http://weblogzwolle.nl/.
Bij weblogs in het bijzonder is het van belang dat er een zo compleet mogelijke archivering wordt uitgevoerd omdat er veel blogarchieven op de websites staan. Wanneer deze weblogs incompleet gearchiveerd worden, missen links naar eerdere posts waarop voortgeborduurd wordt. Weblogs moeten daarom eigenlijk met een vaste regelmaat en op één moment zo compleet mogelijk gearchiveerd worden zodat de onderzoeker een goed beeld krijgt van hoe een weblog er op dat snapshot (één bepaald moment) heeft uitgezien.43 Dit geldt voor individuele pagina’s maar vooral voor de gehele website. Wanneer dit niet gebeurt, wordt een gewone website al een gefragmenteerde puzzel die geen goed beeld geeft van hoe een website er uitzag. Bij een weblog kan het helemaal desastreuze gevolgen hebben omdat een weblog een ingewikkeld web van pagina’s en posts is die naar elkaar verwijzen en in een unieke chronologische volgorde zijn opgebouwd. Zonder de juiste archiveringsprocedure kan er voor onderzoekers in de toekomst veel cruciale informatie, structuur en context verloren gaan.
Conclusie
Een veel gebruikt argument om internetwebsites en internetpagina’s niet te archiveren is dat het Internet Archive dit al doet. Het Internet Archive en de Wayback Machine zijn inderdaad een geweldige en zeer toegankelijke bron van informatie op het gebied van gearchiveerde websites. Maar het Internet Archive archiveert fragmentarisch, zoals hier werd aangetoond. Een archiefstuk wordt dan een patchwork van stukjes en beetjes van de website die op verschillende momenten gearchiveerd kunnen zijn en vervolgens weer samen worden gevoegd tot één pagina met één datum. Er kan zelfs actuele content afkomstig van het online web in het archief verschijnen. Bij een website zo ingewikkeld als een weblog is het van belang de hele website zo compleet mogelijk te archiveren op één moment. Wanneer dit niet gebeurt gaat er informatie, structuur en context verloren. Wanneer een weblog helemaal niet (op tijd) gearchiveerd wordt, verdwijnt de gehele inhoud en gaat het meestal verloren.
De KB heeft met haar nieuwe collectie NL-blogosfeer een begin gemaakt met het archiveren van de rijke Nederlandse blogosfeer. L-rs.org en tientallen andere weblogs zijn tot op heden naar aanleiding van het project gearchiveerd en zullen bewaard worden voor toekomstig onderzoek. Dit prachtige bronmateriaal biedt kansen op uiteenlopend onderzoek,. Het is ten eerste een uitermate geschikte bron voor close reading onderzoek. De weblogs kunnen gebruikt worden om een beeld te krijgen over hoe individuen reageerden op bepaalde ontwikkelingen en of er discussie plaatsvond door middel van bijvoorbeeld de archieven en reactiemogelijkheid van een weblog te onderzoeken. Naast close reading van (enkele) weblogs lenen weblogs zich ook voor distant reading technieken zoals netwerkanalyse of kwantitatief onderzoek naar hyperlinks. Weblogs staan immers vol verwijzingen naar externe websites. In de vroege periode van de Nederlandse blogosfeer hadden de meeste weblogs bijvoorbeeld een blogroll waar de blogger een lijst op bijhield van weblogs die hij of zij interessant vond. Via een netwerkanalyse van deze hyperlinks kan onderzocht worden welk weblog onder bloggers het populairst was. Tenslotte is het belangrijk om niet te vergeten dat een website niet alleen een gebruikerskant heeft, maar dat er ook programmeercodes draaien achter de grafische gebruikersomgeving die onderzocht kunnen worden. Er kan bijvoorbeeld onderzoek gedaan worden naar de broncode van een weblog. Zo onderzochten Anne Helmond en Esther Weltevrede via de broncode hoe de Nederlandse blogosfeer zich ontwikkelde op het gebied van verbondenheid tussen weblogs en de techniek en functies die zij bevatte.44
Een weblog kan op meerdere manieren in een archief terecht komen. In het geval van het crawlen van een weblog wordt de programmeercode bewaard, maar kan dit proces tot fragmentatie leiden vanwege de fragmentarische natuur van een website. Het is daarom goed om na te denken of het nodig is deze archiefmethode aan te vullen met screenshots of webrecording. Webrecording is een arbeidsintensief proces waarbij de programmeercode verloren gaat, maar het kan onderzoekers van de toekomst wel een indruk geven van het dynamische van het web en hoe het gebruik van de website ervaren werd. Bovendien kan webrecording een uitkomst bieden wanneer bijvoorbeeld weblogs met veel social media verwijzingen niet te archiveren zijn door de webcrawler van de KB of het Internet Archive. Het is daarnaast van belang dat archieven aandacht besteden aan de context waarin een weblog zich bevindt. De informatienetwerkcontext is bij een weblog een uiterst interessantste bron van informatie, maar verdwijnt wanneer een weblog een tijdje in een archief zit. Het is op dit moment in Nederland niet mogelijk om grootschalig het Nederlandse web te archiveren. Het is echter wel van belang om per webcollectie te onderzoeken welke websites nog niet gearchiveerd zijn, maar waar wel veel naar verwezen wordt. Deze websites zouden voor contextdoeleinden alsnog gearchiveerd moeten worden.
Onderzoekers dienen te beseffen dat de gearchiveerde weblog iets anders is dan een weblog op een online website. Zij moeten er rekening mee houden dat een gearchiveerd weblog statisch is en inhoud en context kan missen. Daarnaast moeten zij ook in het oog houden dat al veel van het internet verdwenen is, waar zij geen weet van hebben. Het boek Bloghelden van Meeuwsen schetst bijvoorbeeld hoeveel van de historische Nederlandse blogosfeer al verdwenen is. Aan onderzoekers dus de taak om een goede bronnenkritiek te ontwikkelen wanneer zij omgaan met gefragmenteerde bronnen in het Internet Archive, statische weblogs in het archief van de KB en de vluchtige aard van het internet. Wanneer zij dit doen, biedt de weblog een schat aan informatie en vele onderzoeksmogelijkheden. Van een casestudy van enkele websites tot netwerkanalyse en broncode onderzoek: weblogs zijn prachtig en veelzijdig primair bronmateriaal en zullen onderzoekers van de toekomst een kijkje bieden in de leefwereld van het individu, mits zij gearchiveerd worden natuurlijk.