Wiki Wars: de democratie van Wikipedia?

Wikipedia wordt vaak gezien als goed voorbeeld van ‘wisdom of the crowds.’ Het idee daarbij is dat Wikipedia een plek is voor ‘iedereen’ waar gezamenlijk gewerkt wordt aan de ultieme droom; een open, levende encyclopedie. Natuurlijk zijn er beren op de weg. Hoe gaat Wikipedia daar mee om?

Wie werkt er aan Wikipedia?

Het meest voor de hand liggende antwoord zou zijn dat Wikipedia gebouwd wordt op basis van wederzijdse consensus. Maar niet iedereen heeft de vaardigheden, tijd of zin om zich bezig te houden met de vraag of een bepaalde toevoeging aan Wikipedia nu gerechtvaardigd is of niet. Sterker nog; in een nog niet gepubliceerd paper claimen twee onderzoekers dat Wikipedia (met uitzondering van de Engelse versie) grotendeels wordt gevuld door bots; geautomatiseerde software die onder andere spelfouten verbeteren, links tussen wiki-pagina’s aanbrengen en zelf op basis van bijvoorbeeld het CIA World Factbook actief actuele content invoegen. Dit inzicht roept nieuwe vragen op over begrippen als ‘democratie’ en ‘auteurschap’ in relatie tot Wikipedia.

Door de loop der jaren is vaak geclaimed dat de geschiedenis door de winnaar van een oorlog bepaalt wordt. In dat oogpunt zou je kunnen verwachten dat de waarheid op Wikipedia bepaald wordt door een kleine groep topgebruikers die het merendeel van de edits uitvoeren en zo andere meningen ‘wegduwen.’

Onderzoek naar Wikipedia

Reden genoeg voor mij om eens wat dieper in Wikipedia te duiken. Ik heb de ‘edit history’ van tien Wikipedia artikelen opgevraagd en bestudeerd. Vijf van die artikelen kwamen uit de ‘top edits list’ van Wikipedia en vijf andere heb ik willekeurig verzamelt als controlegroep. De gegevens van beide sets bestaan uit:

  1. Grootte van elke unieke edit;
  2. De gebruikersnaam van diegene die de edit uitvoerde;
  3. De tijd waarop de edit toegevoegd werd aan Wikipedia;
  4. Per artikel de volledige ‘edit history’ van 2009.

Dit leverde 3653 unieke edits op voor dataset A en 1432 unieke edits voor dataset B. Anonieme gebruikers hebben een ip adressen als ‘gebruikersnaam’ en waren er snel uit te filteren. Bots identificeren zich door de simpele toevoeging van ‘bot’ aan de gebruikersnaam en zijn er op die manier uitgefilterd. Voor dataset A werden 4171 niet-unieke bijdragers gevonden, voor dataset B was dat 1460 niet-unieke bijdragers.

Omdat in beide sets meer dan 30% van de edits ‘anoniem’ gedaan zijn leek het mij interessant eens te kijken uit welke landen de bijdragers komen. Een hoog aantal edits uit niet-Engelstalige landen zou namelijk kunnen duiden op een politiek conflict dat over Wikipedia wordt uitgevochten. Via een database die ip adressen vertaalt naar locaties heb ik landen aan meer dan 90% van de edits kunnen hangen.

Bots spelen maar een kleine rol in het leveren van Wikipedia bijdragen.

Op artikelniveau zijn er uitzonderingen te vinden, maar over het geheel genomen spelen bots op de Engelstalige versie van Wikipedia maar een kleine rol in het actief invoegen of verbeteren van bijdragen. In dataset A werd minder dan 2% van de edits door bots uitgevoerd en waren anonieme gebruikers verantwoordelijk voor 30% van de edits:

wikipedia-datasetA-edits

In dataset B, die willekeurig verzamelt is, zie je zelf een nog hoger aantal van anonieme bijdragen. Dit is te verwachten omdat de ‘toplijst’ (dataset A) natuurlijk artikelen bevat die om welke reden dan ook velen aan het hart gaan. Dataset B laat met 47.47% anonieme edits een meer gebalanceerd beeld zien:

wikipedia-datasetB-edits

Wat je goed ziet in deze gegevens is dat er voldoende gegevens beschikbaar zijn om ‘geo-location study’ te doen naar de edits op een Wikipedia artikel. Voor dataset A heb ik 902 unieke ip adressen daarvoor gefilterd, in dataset B waren er 395 unieke te vinden.

Engelstalige landen voeren het merendeel van de anonieme edits uit.

De top 10 lijst van landen die de anonieme edits verrichten is relatief kort. Het blijkt dat 76% van de edits van de top vijf komt. Die blijkt vooral uit landen uit het Engelse taalgebied te bestaan. Bij dataset B bestaat de top drie uit de VS, Groot-Brittannië en Ierland. Bij dataset A was dit de VS, wederom Groot-Brittannië en Australië:

wikipedia-topcontributors-dataseta

Van de ip adressen hierboven kon slechts 5.5% niet aan een specifiek land toegewezen worden. Hoewel de VS voor 41.13% van de anonieme bijdragers zorgde moet je rekening houden met het enorme verschil qua oppervlakte met bijvoorbeeld Groot-Brittannië. Dan doet GB het nog niet slecht met 18.72% van de anonieme bijdragers terwijl het veel grotere Australië voor minder dan 8% van de bijdragers zorgde.

Per bijdrage worden gemiddeld 7 woorden gewijzigd.

Als je kijkt naar de grote van de individuele bijdragen dan merk je al snel dat de bewerkingen gemiddeld vrij klein zijn. Voor dataset B was de wijziging gemiddeld 36 bytes groot. Voor dataset A was dit 76 bytes:

wikipedia-editsize-datasetA

Als vuistregel kun je aannemen dat een woord in ‘platte tekst’ uit ongeveer 10 bytes bestaat. Dat betekend dus een gemiddelde wijziging van zeven woorden in dataset A en slechts drie woorden in dataset B. Kleine kanttekening is dat het verwacht kan worden dat de edit size afneemt naarmate het artikel meer ‘body’ krijgt. Gegeven dat de artikelen nogal uiteenlopend zijn kun je evengoed stellen dat wijzigingen niet groot zijn.

Topgebruikers zorgen voor minder dan 36% van de updates.

De topgebruikers bleken maar verantwoordelijk te zijn voor 35.88% van de edits in dataset A. Dit was vooral te danken aan de activiteit van ene Kshera die het artikel ‘Uxbridge,  Massachusetts’ bijzonder vaak update. Haal je hem er af dan veroorzaken topgebruikers nog maar 14.45% van de edits. Voor dataset B geld dat slechts 20.81% van de edits door topgebruiker werd gedaan.

Het merendeel van de updates wordt gedaan door gebruikers die slechts één keer een bijdrage leveren. Dat ondersteund de gangbare notie van Wikipedia als een ‘place for everybody’ om samen te werken aan een vrije encyclopedie.

Slotopmerkingen

Oorlog op Wikipedia? Dat lijkt op basis van deze onderzoeksgegevens best mee te vallen. Toch zijn er nog veel meer factoren om te onderzoeken. Bijvoorbeeld hoe conflicten op de discussie pagina’s van Wikipedia worden opgelost, waar inhoudelijk gesproken wordt over meningsverschillen over de ‘juiste’ zienswijze. Ook zou het interessant zijn deze analyse geautomatiseerd uit te voeren op een grotere set artikelen en over meerdere versies van Wikipedia. Ik weet niet precies hoe je dat zou aanpakken, dit is vooral handwerk geweest, maar het kan vast gedaan worden door een slimme programmeur!

Auteur:

Datum: 05-02-2010

Goed artikel? Abonneer je net als meer dan 300 vakgenoten op mijn updates!