Feb 8, 2013

Analytics - BigData II

Verktøy for webanalyse

En bør velge analyseverktøy i henhold til sitt spesifikke formål.
Tjenester som kan relateres til mere eller mindre sensitive tjenester bør nytte verktøy tjenesteyter selv har kontroll over - ikke minst av personvernmessige årsaker. Eksempelvis bør ikke offentlige myndigheter dele sine kunders (dvs. borgernes) data med Google eller tilsvarende aktører, ei heller om dataene ikke antas sensitive i seg selv.

Google Analytics gir langt mere data om brukeren til Google, enn hva verktøyet gir til den som nytter tjenesten.

For myndigheter ville jeg valgt et eget analyseverktøy som kunne gitt nyttig informasjon relatert driften og bruken av offentlige nettsteder - og på tvers av disse. Denne muligheten mister en ved å nytte eksempelvis Google Analytics.


Kontroversielt

Det har vært noe debatt i media, relatert Datatilsynets skeptisk til Google Analytics.
Datatilsynet påpekte at alle studenter må via Lånekassen.no, og alle borgere må via Skatteetatens tilsvarende nettsider. Dermed sendes alle borgerne via Google, uten muligheter til egne valg.
Et lite utdrag fra Lånekassens nettsider (tilsvarende er for Skatteetaten):
"....Google vil ikke sammenstille din IP adresse med andre opplysninger Google måtte ha i sin besittelse .... for å yte andre tjenester i tilknytning til aktiviteten på nettstedet og bruken av internett.... Ved å bruke nettstedet godtar du at Google behandler opplysninger om deg ...
Mottatte opplysninger er underlagt Google sine retningslinjer for personvern..."

Waterhouse/(IKT Norge) peker til en "anonymisering" av IP-adresse i Google Analytics, og mener at derved er saken løst hva personvernet angår.
Han legger riktignok til at hans interesse i denne saken er relatert at det sannsynligvis påvirker også andre tjenester. (Kilde)

"Bruk av Google Analytics bør være forbudt" ifølge Lervik (cXense), og han gir Datatilsynet full støtte

Datatilsynet har også lagt ut informasjon vedrørende bruk av (Google) Analytics.

Innen EU er Googles mangelfulle personvern en pågående, ikke avsluttet, sak.
Samtlige land er sammen om dette, og siste oppdatering fra16.oktober 2012 ligger på nettet:  Google's new privacy policy : incomplete information and uncontrolled combination of data across services



Adware og Spyware

Kort oppsummert nytter (bl.a.) Google Analytics programkode som er innebygget (embedded) i nettsider bruker leser.
Denne programkoden har tre hovedmål:
  • Identifisere brukeren og alt hva denne foretar seg på tvers av internet
  • Lese alt som er mulig å få aksess til (via http og nettlesers , fra brukerens PC
  • Sende disse dataene "hjem" (til Google) for akkumulering og analyse. 
Adware og spyware er to sider av samme sak.


Cookies

De fleste brukerne har hørt om cookies. Mange nettsteder (som har en side om sitt personvern) skriver gjerne noe om at brukeren kan endre innstillingene i nettleser for å sperre at cookies lagres.  Dette høres betryggende ut, men realiteten en helt annen, samt at der finnes mange varianter av "cookies" som ikke kan styres fra en nettleser.

Cookies er bare et strå i denne sammenhengen - og det er forsåvidt IP-adresse også. Av ulike årsaker:
Cookies gir begrenset informasjon - og brukeren kan "slå av" disse.
IP-adresser kan være dynamiske og/eller lovmessig regulert. IP-adresse gir heller ikke mere finmasket informasjon da mange brukere kan (tilsynelatende) ha samme IP-adresse.
Derfor nyttes andre, langt mere sofistikerte metoder for å tracke brukeren. Metodene som nyttes er verdt en egen artikkel, og ligger utenfor hva en vanlig brukers kan styre via nettleser.

Det er derfor villedende å fokusere kun på cookies og/eller IP-adresser.
De som akkumulerer persondata har gjort seg uavhengig både av http-cookies og IP-adresser.


Anonymisering av IP-adresse

Debatten har blitt sentrert rundt IP-adresser, som tjener både Google og "andre tjenester" (som såvidt ble nevnt ovenfor).

IKT Norge v/Waterhouse sier følgende: "Etter anonymiseringsprosessen ender vi opp med data som ikke kan identifisere hvem som har har vært inne på nettstedet". 
Jeg betviler ikke at dette kan sies i god tro og uten bedre vitende, men dette er dog ikke riktig.

Anonymiseringsprosessen det henvises til er IP Anonymization in Google Analytics
hvor funksjonen _anonymizeIp() "Tells Google Analytics to anonymize the information sent by the tracker objects by removing the last octet of the IP address prior to its storage."
Som Google selv skriver "This feature is designed to help site owners comply with their own privacy policies or, in some countries, recommendations from local data protection authorities, which may prevent the storage of full IP address information."
 

Brukeren anonymiseres ikke

Å fjerne siste del av IP-adresse anonymiserer ikke brukeren og er heller ikke hinder for tracking av brukeren på tvers av internet.

Google akkumulerer data fra - bl.a.  :
Ad Views
Browser Information
Cookie Data
Date/Time
Demographic Data
Hardware/Software Type
Interaction Data
Page Views
Serving Domains
IP Address
Search History
Location Based Data
Device ID
Phone Number
...  m.m.  (legg gjerne til at Google er eier av Doubleclink)

Geografisk lokasjon, mobil eller PC's ID, telefonnummer, osv. - er alle data som hver for seg kan identifiserer brukeren, indirekte, direkte eller samlet.
Informasjon fra nettleser kan også være tilstrekkelig for unik identifisering.
Mens informasjon om nettleser høres tilforlatelig ut, er dette i realiteten brukerens tilnærmet unike fingeravtrykk.

Som illustrasjon; I skrivende stund tester jeg nettleseren jeg bruker:

Your browser fingerprint appears to be unique among the 2,733,849 tested so far.
(Detaljert informasjon om dette her og test deg selv her)

Om ikke alt dette er nok i seg selv, så nytter en flere typer data, som eventuelt ved hjelp av sofistikerte algoritmer, tilsammen identifiserer brukeren (ikke så ulikt triangulering i trådløse nett).

Hvorvidt en så (i tillegg) lagrer IP-nummer helt eller bare delvis, er uvesentlig.

Begrepet "anonym" har en annen betydning for en computer enn hvordan ordet gjerne nyttes i den fysiske verdenen vi beveger oss i.



Fotoet under er fra Google Analytics, som viser at Datatilsynet har lest et bestemt blogginnlegg her på et gitt tidspunkt. Uten at IP-adresse er registrert kommer det frem at dette er Datatilsynet. (Klikk på fotoet for større bilde.) 



EU's e-privacy direktiv

Dette direktivet tar (bl.a.) høyde for at det skal informeres og innhentes eksplisitt tillatelse fra brukeren innen sporing og akkumulering av brukerens data kan foregå.
Deadline for implementasjonen var senest 25. mai 2011.

De som eksepsjonelt aktivt forsøker å svekke, utvanne eller helst fjerne personvernlovgivningen - er blant annet disse "andre tjenester" som Waterhouse/IKT Norge nevnte (se ovenfor "interesse i denne saken er relatert at det sannsynligvis påvirker også andre tjenester").



Du er ikke anonym for BigData Analytic

Det sier seg selv at du ikke er anonym når data akkumuleres om deg. Alternativt ville det ikke være mulig å akkumulere data om deg.
Og heller ikke mulig for Google Analytics å fortelle hvor mange "unike" brukere som har besøkt et nettstedet.

Hva Google (og andre, som TNS) gjør, er å gi deg et pseudonym. Et pseudonym er det samme som en unik ID.
Et pseudonym er ikke ekvivalent med å være anonym.
Det er ikke noe i veien for at din reelle identitet kan knyttes mot pseudonymet. Dette trengs kun å gjøres én eneste gang i løpet av ens livstid - og vil identifisere samtlige akkumulerte data, såvel retroaktivt som inn i fremtiden.


Kanskje ble du identifisert da du tastet inn mobilnummeret ditt, eller da du brukte mobilen for å logge inn på en tjeneste, eller da du registrerte en ny programvareoppdatering med navnet ditt - eller nær sagt hva som helst du ikke er bevisst.
Det kan også være så enkle at du mottok reklame som brevpost:
Jeg har fått flere av disse via postverket levert til min bostedsadresse, påtrykket mitt navn og et tilfeldig nummer.
Om jeg skulle bruke dem, vil jeg umiddelbart få min identitet og postadresse knyttet mot akkumulert pseudonym data.

Google eier flere patenter relatert å knytte bruker mot data. De tekniske mulighetene går langt lengre enn de fleste kan strekke sin fantasi.


Det er begrenset hvor mange ganger personvernet kan "mistes" da ens ID mistet kun én gang.


Det er mange aspekter som den lovgivende forsamling må ta inn over seg. 
Nå! 


No comments:

Post a Comment