Confirmation bias og sjusket journalistik

Nu er sikkerheden i et offentligt IT-system igen i vælten – denne gang er det til Tingbogen. Ekstra Bladet skrev Kæmpe dansk database lagt ud på nettet: Hemmelige adresser kan let søges frem, hvor de indleder artiklen med følgende:

Ukendte gerningsmænd har kopieret databasen over ejerne af ejendomme i Danmark – nu ligger alle oplysningerne frit og let søgbare på nettet

Tilsvarende havde Version2 en artikel Dansk tingbogs-database med hemmelige adresser frit tilgængelig fra server i USA. Denne artikel blev indledt med følgende:

Tingbogen er blevet kopieret over på en amerikansk server, hvor den ligger offentligt tilgængelig. Personer med hemmelig adresse kan findes ved blot at søge på navnet.

Budskabet er i begge artikler at databasen er blevet kopieret og at man kan fremsøge hemmelige adresser på det nye site.

Det lyder mildest talt problematisk, men kan det virkelig passe at der er så sløset omgang med data i Tingbogen at det er muligt for en eller flere personer at kopiere databasen med oplysninger om hemmelige adresser?

Det korte svar er nej.

Artiklerne bygger på en manglende forståelse af hvordan data er tilgængeligt og på gengivelse af uverificerede postulater omkring de hemmelige adresser. Disse postulater udspringer muligvis af en misforståelse af hvad hemmelige adresser egentligt er, og hvordan de fungerer.

For at starte med tilgængeligheden af data, så er der ikke tale om at der er nogen som har kopieret databasen fra Tingbogen. Istedet er der tale om nogen som har benyttet Tingbogens REST Api eller website til at hente alt offentligt tilgængeligt data, og samle det i sin egen database. Data i denne nye database vil kun være en delmængde af data i Tingbogens database (f.eks. fremgår personers CPR numre ikke af det offentlige Api). Denne nye database er blevet udstillet på en nyt site, men anderledes søgemuligheder end i Tingbogen (f.eks. søgning på navn).

Man kan diskutere hvorvidt det er en god idé at Tingbogen er udstillet via en offentligt tilgængelig Api, og ikke igennem f.eks. et Api som kræver en aftale at bruge, men dette er et valg man har truffet. Derudover tyder div. udtalelser på at der faktisk var tale om scraping igennem Tingbogens website, som man kan bruge til f.eks. at finde oplysninger om hvilke hæftelser der er på ens egen adresse. Hvis man afspærrede dette, ville det ødelægge et af de væsentlige gevinster ved den elektroniske tinglysning.

Selv om den nye database er skabt på baggrund af offentligt tilgængelige data, kan det godt være problematisk i forhold til Ophavsretten, og valget med at udstille data, kan være i strid med Persondataloven.

Mht. hemmelige adresser, så skal man huske på hvad det dækker over. Jf. Borger.dk medfører en adressebeskyttelse:

Når anmodningen er gået igennem, vil privatpersoner som udgangspunkt være afskåret fra at få udleveret dit navn og adresse fra CPR, og dit navn og adresse bliver heller ikke udleveret fra CPR til brug for private vejvisere.

Det er desuden en god idé at kontakte det lokale posthus og bede om beskyttelse hos Post Danmark og gøre det samme hos dit teleselskab.

Bemærk at adressebeskyttelse relaterer sig til CPR, og er noget man skal anmode om. De fleste offentlige databaser respekterer adressebeskyttelsen i CPR, med mindre anden lovgivning gør at det ikke er muligt1, og Tingbogen respekterer også adressebeskyttelser i udstilling af data.

Når der så er nogle personer som siger at den nye database indeholder adressebeskyttede personer, er der to oplagte muligheder:

  1. De pågældende personer er blevet adressebeskyttet efter data for de pågældende personer er hentet
  2. De har misforstået om de er adressebeskyttet, f.eks. ved at tro at det er det samme som at være adressebeskyttet i Post Danmark

Jf. denne artikel i Version2 tyder det på at der er omkring 500 for hvem det første gør sig gældende. Det kan i sagens natur ikke vides hvor mange det andet gør sig gældende for.

Så, for at opsummere, så var der ikke tale om kopiering af en database med hemmelige adresser, men istedet hentning af offentligt udstillet data hvori der indgik personer som senere har fået en hemmelig adresse.

Man kan diskutere det hensigtsmæssige i at dette kan ske, men det er ikke tale om et sikkerhedsbrud eller tilsvarende.

Så hvorfor var det så den vinkel som både Ekstra Bladet og Version2 valgte? Ud over at det naturligvis er en mere spændende historie, så er det nok også fordi det føder ind i deres forudtagede holdninger om at det offentlige ikke kan finde ud af det der med datasikkerhed.

De blev ramt af deres confirmation bias.

Confirmation bias, also called confirmatory bias or myside bias, is the tendency to search for, interpret, favor, and recall information in a way that confirms one’s beliefs or hypotheses, while giving disproportionately less consideration to alternative possibilities.[Note 1][1] It is a type of cognitive bias and a systematic error of inductive reasoning. People display this bias when they gather or remember information selectively, or when they interpret it in a biased way.

Ovenstående er definitionen fra Wikipedia.

I vores historie blev journalisterne ramt af at de hørte at der lå hemmelige adresser ude på det nye site. Da disse adresser oplagt ikke er tilgængelige via det normale site, måtte data være kopieret på anden vis. De overvejede ikke tidsfaktoren, og de prøvede ikke at verifcere at det faktisk var et generelt problem (kommentarsporene på adskillige artikler indeholder kommentarer fra folk som kunne afkræfte at alle hemmelige adresse var tilgængelige).

Måske noget vi alle kan lære af, og prøve at huske på når vi hører en historie som bekræfter vores fordomme.

Enden på historien er indtil videre at det nye site er taget ned og at senere artikler har modficeret sprogbruget omkring de hemmelige adresser, men desværre nok ikke at journalisterne (og de læsere som tog artiklerne for gode varer) overvejer deres fordomme og prøver at tage højde for dem i fremtiden.

 

1 Et eksempel på en offentlig database som ikke respekterer adressebeskyttelse i CPR er CVR databasen, som udstiller adresser for ejere og ledelsesmedlemmer i virksomheder. Dette skyldes at CVR er pålagt at udstille disse data via anden lovgivning, og derfor ikke må respektere adressebeskyttelsen.

1 comment for “Confirmation bias og sjusket journalistik

  1. Hej Kristjan

    Godt at se dækningen af Tingbogen-sagen blive taget op til debat. Personligt stod jeg for dækningen af sagen på Version2, så jeg håber at kunne bidrage med et perspektiv til dit indlæg, for du baserer det på et par forkerte antagelser.

    Jeg vil give dig ret i, at detaljerne omkring de hemmelige adresser i den første artikel senere viste sig at være forkerte. Det er mega ærgeligt, når vi forsøger at holde en høj standard på Version2.

    Vil prøve at give et indblik i forløbet, så vi kan blive lidt klogere på, hvad der er op og ned.

    Historien startede hos Radio 24Syv, hvilket vi bragte en citat-historie på med navnet “Dansk tingbogs-database med hemmelige adresser frit tilgængelig fra server i USA”. På det tidspunkt var der ingen andre medier, der havde dækket historien, ligesom adressen på kopi-sitet heller ikke var kendt (24Syv valgte at holde den hemmelig). Der var derfor på daværende tidspunkt ikke andre oplysninger at forholde sig til end dem, som Radio 24Syv gav. Værterne gav flere eksempler på, at personer med adressebeskyttelse kunne slås op i det nye register – og det videregav vi.

    Når du nævner, at det var tydeligt i kommentar-sporene, hvordan det rent faktisk hang sammen (kun ganske få kompromitterede adresser pga. tidsforskellen mellem scraping og aktuel version af Tingbogen), så antager du, at vi som journalister på daværende tidspunkt skulle være i stand til at komme frem til denne konklusion.

    Men det var først efter vi bragte første artikel, at læserne kom på sporet, og vi – takket være dem og ikke mindst Christian Panton – kunne komme nærmere sandheden.

    Er det så forkert at crowdsource vores research?

    Vi kunne naturligvis have brugt en dag på at komme frem til samme resultat udenom læserne og så først nævne historien på Version2, når sitet var lukket ned. Men det ville både snyde de trofaste V2-læsere for at komme på banen og samtidig give de mainstream medier som DR og EB frit løb til at skrive artikler der ikke tog stilling til de vigtige tekniske spørgsmål.

    Det ville ingen være bedre tjent med – jeg tror både debatten og sandhedsniveauet for den pågældende historie ville lide.

    Er det så perfekt, nej. Men det er den mindst ringe mulighed, sådan som medieverdenen ser ud i dag.

    Nu skriver jeg det ikke i artiklerne, men faktisk betød inputtet fra V2-læserne, at vi var foran selv Tinglysningsretten med, hvordan sagen hang sammen. Og det er dem, som er ansvarlig for Tingbogen vel at mærke. Ud fra Christian Pantons opgørelse af de 15.041 beskyttede adresser på kopi-sitet bad jeg Søren Sørup fra Tinglysningsretten om at opgøre, hvor mange beskyttede adresser der var i den nuværende udgave for at sammenligne de to. I begyndelsen antog Tinglysningsretten at der indgik kompromitterede adresser enten ulovligt kopieret eller sammenkørt fra andre registre, men da de så, at der med ca. 15.500 beskyttede adresser i den aktuelle version af Tingbogen er nogenlunde sammenfald, gav de faktisk os og læserne ret i vores konklusion: der er ikke tale om ulovligt kopierede adresser, men blot om en scrapet og dermed uaktuel udgave af databasen.

    Vi er ikke perfekte, men jeg synes generelt ikke, at vi lider af “konfirmationsbias” mod det offentlige – og det håber jeg du kan se, at pågældende historie er et eksempel på. Tinglysningsretten skal tværtimod have props for ikke at fare ud med bål og brand, da de kunne se, at der ikke var noget ulovligt kopieret.

    Til gengæld er det kritisabelt, at politiet snakker om “ulovlig anskaffelse af data” i deres henvendelse til ejeren af kopi-sitet. Det tyder på, at de ikke har sat sig ordentligt ind i sagens sammenhæng, før de farede ud med henvendelsen.

    Bedste hilsner,
    Elías Lundström
    journalist Version2

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *