Showing posts with label tracking. Show all posts
Showing posts with label tracking. Show all posts

Feb 8, 2013

Analytics - BigData II

Verktøy for webanalyse

En bør velge analyseverktøy i henhold til sitt spesifikke formål.
Tjenester som kan relateres til mere eller mindre sensitive tjenester bør nytte verktøy tjenesteyter selv har kontroll over - ikke minst av personvernmessige årsaker. Eksempelvis bør ikke offentlige myndigheter dele sine kunders (dvs. borgernes) data med Google eller tilsvarende aktører, ei heller om dataene ikke antas sensitive i seg selv.

Google Analytics gir langt mere data om brukeren til Google, enn hva verktøyet gir til den som nytter tjenesten.

For myndigheter ville jeg valgt et eget analyseverktøy som kunne gitt nyttig informasjon relatert driften og bruken av offentlige nettsteder - og på tvers av disse. Denne muligheten mister en ved å nytte eksempelvis Google Analytics.


Kontroversielt

Det har vært noe debatt i media, relatert Datatilsynets skeptisk til Google Analytics.
Datatilsynet påpekte at alle studenter må via Lånekassen.no, og alle borgere må via Skatteetatens tilsvarende nettsider. Dermed sendes alle borgerne via Google, uten muligheter til egne valg.
Et lite utdrag fra Lånekassens nettsider (tilsvarende er for Skatteetaten):
"....Google vil ikke sammenstille din IP adresse med andre opplysninger Google måtte ha i sin besittelse .... for å yte andre tjenester i tilknytning til aktiviteten på nettstedet og bruken av internett.... Ved å bruke nettstedet godtar du at Google behandler opplysninger om deg ...
Mottatte opplysninger er underlagt Google sine retningslinjer for personvern..."

Waterhouse/(IKT Norge) peker til en "anonymisering" av IP-adresse i Google Analytics, og mener at derved er saken løst hva personvernet angår.
Han legger riktignok til at hans interesse i denne saken er relatert at det sannsynligvis påvirker også andre tjenester. (Kilde)

"Bruk av Google Analytics bør være forbudt" ifølge Lervik (cXense), og han gir Datatilsynet full støtte

Datatilsynet har også lagt ut informasjon vedrørende bruk av (Google) Analytics.

Innen EU er Googles mangelfulle personvern en pågående, ikke avsluttet, sak.
Samtlige land er sammen om dette, og siste oppdatering fra16.oktober 2012 ligger på nettet:  Google's new privacy policy : incomplete information and uncontrolled combination of data across services



Adware og Spyware

Kort oppsummert nytter (bl.a.) Google Analytics programkode som er innebygget (embedded) i nettsider bruker leser.
Denne programkoden har tre hovedmål:
  • Identifisere brukeren og alt hva denne foretar seg på tvers av internet
  • Lese alt som er mulig å få aksess til (via http og nettlesers , fra brukerens PC
  • Sende disse dataene "hjem" (til Google) for akkumulering og analyse. 
Adware og spyware er to sider av samme sak.


Cookies

De fleste brukerne har hørt om cookies. Mange nettsteder (som har en side om sitt personvern) skriver gjerne noe om at brukeren kan endre innstillingene i nettleser for å sperre at cookies lagres.  Dette høres betryggende ut, men realiteten en helt annen, samt at der finnes mange varianter av "cookies" som ikke kan styres fra en nettleser.

Cookies er bare et strå i denne sammenhengen - og det er forsåvidt IP-adresse også. Av ulike årsaker:
Cookies gir begrenset informasjon - og brukeren kan "slå av" disse.
IP-adresser kan være dynamiske og/eller lovmessig regulert. IP-adresse gir heller ikke mere finmasket informasjon da mange brukere kan (tilsynelatende) ha samme IP-adresse.
Derfor nyttes andre, langt mere sofistikerte metoder for å tracke brukeren. Metodene som nyttes er verdt en egen artikkel, og ligger utenfor hva en vanlig brukers kan styre via nettleser.

Det er derfor villedende å fokusere kun på cookies og/eller IP-adresser.
De som akkumulerer persondata har gjort seg uavhengig både av http-cookies og IP-adresser.


Anonymisering av IP-adresse

Debatten har blitt sentrert rundt IP-adresser, som tjener både Google og "andre tjenester" (som såvidt ble nevnt ovenfor).

IKT Norge v/Waterhouse sier følgende: "Etter anonymiseringsprosessen ender vi opp med data som ikke kan identifisere hvem som har har vært inne på nettstedet". 
Jeg betviler ikke at dette kan sies i god tro og uten bedre vitende, men dette er dog ikke riktig.

Anonymiseringsprosessen det henvises til er IP Anonymization in Google Analytics
hvor funksjonen _anonymizeIp() "Tells Google Analytics to anonymize the information sent by the tracker objects by removing the last octet of the IP address prior to its storage."
Som Google selv skriver "This feature is designed to help site owners comply with their own privacy policies or, in some countries, recommendations from local data protection authorities, which may prevent the storage of full IP address information."
 

Brukeren anonymiseres ikke

Å fjerne siste del av IP-adresse anonymiserer ikke brukeren og er heller ikke hinder for tracking av brukeren på tvers av internet.

Google akkumulerer data fra - bl.a.  :
Ad Views
Browser Information
Cookie Data
Date/Time
Demographic Data
Hardware/Software Type
Interaction Data
Page Views
Serving Domains
IP Address
Search History
Location Based Data
Device ID
Phone Number
...  m.m.  (legg gjerne til at Google er eier av Doubleclink)

Geografisk lokasjon, mobil eller PC's ID, telefonnummer, osv. - er alle data som hver for seg kan identifiserer brukeren, indirekte, direkte eller samlet.
Informasjon fra nettleser kan også være tilstrekkelig for unik identifisering.
Mens informasjon om nettleser høres tilforlatelig ut, er dette i realiteten brukerens tilnærmet unike fingeravtrykk.

Som illustrasjon; I skrivende stund tester jeg nettleseren jeg bruker:

Your browser fingerprint appears to be unique among the 2,733,849 tested so far.
(Detaljert informasjon om dette her og test deg selv her)

Om ikke alt dette er nok i seg selv, så nytter en flere typer data, som eventuelt ved hjelp av sofistikerte algoritmer, tilsammen identifiserer brukeren (ikke så ulikt triangulering i trådløse nett).

Hvorvidt en så (i tillegg) lagrer IP-nummer helt eller bare delvis, er uvesentlig.

Begrepet "anonym" har en annen betydning for en computer enn hvordan ordet gjerne nyttes i den fysiske verdenen vi beveger oss i.



Fotoet under er fra Google Analytics, som viser at Datatilsynet har lest et bestemt blogginnlegg her på et gitt tidspunkt. Uten at IP-adresse er registrert kommer det frem at dette er Datatilsynet. (Klikk på fotoet for større bilde.) 



EU's e-privacy direktiv

Dette direktivet tar (bl.a.) høyde for at det skal informeres og innhentes eksplisitt tillatelse fra brukeren innen sporing og akkumulering av brukerens data kan foregå.
Deadline for implementasjonen var senest 25. mai 2011.

De som eksepsjonelt aktivt forsøker å svekke, utvanne eller helst fjerne personvernlovgivningen - er blant annet disse "andre tjenester" som Waterhouse/IKT Norge nevnte (se ovenfor "interesse i denne saken er relatert at det sannsynligvis påvirker også andre tjenester").



Du er ikke anonym for BigData Analytic

Det sier seg selv at du ikke er anonym når data akkumuleres om deg. Alternativt ville det ikke være mulig å akkumulere data om deg.
Og heller ikke mulig for Google Analytics å fortelle hvor mange "unike" brukere som har besøkt et nettstedet.

Hva Google (og andre, som TNS) gjør, er å gi deg et pseudonym. Et pseudonym er det samme som en unik ID.
Et pseudonym er ikke ekvivalent med å være anonym.
Det er ikke noe i veien for at din reelle identitet kan knyttes mot pseudonymet. Dette trengs kun å gjøres én eneste gang i løpet av ens livstid - og vil identifisere samtlige akkumulerte data, såvel retroaktivt som inn i fremtiden.


Kanskje ble du identifisert da du tastet inn mobilnummeret ditt, eller da du brukte mobilen for å logge inn på en tjeneste, eller da du registrerte en ny programvareoppdatering med navnet ditt - eller nær sagt hva som helst du ikke er bevisst.
Det kan også være så enkle at du mottok reklame som brevpost:
Jeg har fått flere av disse via postverket levert til min bostedsadresse, påtrykket mitt navn og et tilfeldig nummer.
Om jeg skulle bruke dem, vil jeg umiddelbart få min identitet og postadresse knyttet mot akkumulert pseudonym data.

Google eier flere patenter relatert å knytte bruker mot data. De tekniske mulighetene går langt lengre enn de fleste kan strekke sin fantasi.


Det er begrenset hvor mange ganger personvernet kan "mistes" da ens ID mistet kun én gang.


Det er mange aspekter som den lovgivende forsamling må ta inn over seg. 
Nå! 


Feb 1, 2013

Adware og Spyware - BigData I


Spyware

I prinsippet er det to hovedmetoder for implementering av spyware: "serverside" og "clientside". 
Den siste gruppen (clientside) installeres oftest på PC'en via eksempelvis ondsinnet virus, trojaner, osv. men er ikke tema her.

"Serverside" spyware er i prinsippet programkode innebygget (embedded) i nettsider brukeren besøker/leser. Denne programkoden har tre hovedmål:
  • Identifisere brukeren og hva denne foretar seg (på tvers av internet).
  • Lese alt som er mulig å få aksess til (via http og plugins) fra brukerens PC.
  • Sende dataene "hjem" for akkumulering og analyse. 
Dette skjer uten at brukeren blir informert om dette og uten brukerens aksept.


Adware

Adware og spyware er gjerne to sider av samme sak (i denne konteksten).
Analyse av akkumulerte persondata og "profiling" nyttes bl.a. for å rette reklame dedikert en spesiell bruker/brukergruppe ("targeted marketing") og/eller for å rette maksimalt antall (forskjellig) reklame mot en bruker ("internet marketing").

Spissformulert kan en si at du vil du få rosa innhold om du er hunkjønn og blått innhold om du er hankjønn, men algoritmene er langt mere sofistikerte enn kjønnsstereotyper når det leveres "personalized" innhold.
Det er, mildt sagt, en høyst uheldig og udemokratisk utvikling ved at innhold filtreres, og denne korte videoen fra TED Talk illustrer "det personligjorte innholdet" - filterbobblen:



EU's ePrivacy direktiv kan forhindre dette ved at brukeren gis kontroll over egne data.
Men lobbyvirksomheten for å forhindre implementeringen av direktivet er så enormt at det overgår alt tidligere erfart.


WaporWare

I 2010 publiserte Samferdselsdep. Høring om endring i lov om elektronisk kommunikasjon med forskrifter med blant annet følgende forslag til endring i eKomforskriften
FORSLAG: § 7-3 Opplysninger i brukers kommunikasjonsutstyr
Lagring av opplysninger i brukers kommunikasjonsutstyr eller å skaffe seg adgang til slike opplysninger er ikke tillatt. Slik lagring eller adgang kan likevel skje dersom bruker har blitt informert av den behandlingsansvarlige i henhold til personopplysningsloven og har gitt sitt samtykke. Første punktum er likevel ikke til hinder for teknisk lagring eller adgang til opplysninger:
1. utelukkende for det formål å overføre eller lette overføringen av kommunikasjonen i et elektronisk kommunikasjonsnett
2. som er nødvendig for å levere en informasjonssamfunnstjeneste etter brukerens uutrykkelige forespørsel


Denne paragrafen resulterte i en del snodige artikler i media. Interesseorganisasjonen for interaktiv markedsføring (INMA) påsto
Ny norsk lov kan lamme internett En ny forskrift fra regjeringen truer livsgrunnlaget til norske nettmedier. - Hvis dette blir vedtatt, vil det sende internett tilbake til steinalderen, sier ekspert.
Jeg tror ikke de har tenkt på det, men hvis dette blir vedtatt, vil det sende internett tilbake til steinalderen, sier Inma-sjefen til E24.
Han tror manglende kunnskap om informasjonskapsler er årsaken til forslaget, som han mener vil slå bena under inntjeningen til norske nettmedier.
- Problemet er at de som har laget dette ikke vet nok om hvordan internett fungerer, sier Willstedt (24.01.2011).

Og i 25.05.2011 publiserte han at EU-forbud knebler norske nettbedrifter hvor han forteller at:
.....25. mai, deadline for de europeiske landene å implementere EU sitt upopulære ePrivacy-direktiv .... Lovforslaget regulerer «lesing og lagring i brukers kommunikasjonsutstyr» som er en av hovedpilarene i måten internett er bygget opp på. Uten slik lesing og lagring vil mange av tjenestene vi tar for gitt i dag ikke fungere, som nettbanker, selvangivelse på internett, e-handel, webmail og Facebook
.....
Den internasjonale standarden som definerer hvordan nettet skal fungere gjør det heller ikke mulig for en nettaktør å samle inn samtykke fra en annen, noe som gjør at den britiske tolkningen skaper et internett med fattigere tjenester og irriterte brukere.
Teknologien og standarden bak internett er utviklet med brukernes sikkerhet i fokus, og reguleringsivrerne i EU burde....
Men internet (med dets tusener standarder) fungerer ikke slik eller er "bygget opp" slik INMAs representant skriver.

Høringsbrevet deres (Høringsbrevet fra IMNA og Mediebedriftenes Landsforening) henviser riktignok til en (eksplisitt) standard for implementerting av cookie ("Http State Management") hvor de skriver at "cookies må ikke sammenblandes med spyware".
Dette er riktig. Det er de metoder som nyttes (av bl.a. INMA) som utgjør spyware (og ikke cookies i seg selv).



Loven er heller ikke ny men er å finne i den eldre ekonforskriftene.
(Jeg har forlengst merket med at (heller ikke) INMA overholder eksisterende lov.)
eKomloven fra 2004 (lovdata) "§ 7-3. Behandling av informasjonskapsler mv.
Elektronisk kommunikasjonsnett kan ikke benyttes til lagring av opplysninger i brukers kommunikasjonsutstyr eller for å skaffe seg adgang til slike, uten at bruker er gitt informasjon av den behandlingsansvarlige i henhold til personopplysningsloven, herunder om behandlingsformålet og er gitt anledning til å motsette seg behandlingen. Dette er likevel ikke til hinder for teknisk lagring eller adgang til opplysninger:
1.utelukkende for det formål å overføre eller lette overføringen av kommunikasjon i et elektronisk kommunikasjonsnett

2.som er nødvendig for å levere en informasjonssamfunnstjeneste etter brukerens uttrykkelige forespørsel...... "

Forskjellen er at nytt lovforslag presiserer at brukeren skal både informeres av databehandlingsansvarlige og gi eksplisitt tillatelse på forhånd.

Høringsbrevet  bruker TNS Gallup som eksempel for å illustrere hvordan hver bruker tildeles en unik ID (via cookie), for å spore brukerne på tvers av internet. Dette er nettopp hva ePrivacy direktiver skal hindre at skjer uten brukers eksplisitte samtykke. (se  Analytics - BigData II om unik ID)
(En kan takke bl.a. TNS og imrwordwide.com for at blokkeringsprogrammer for spyware og adware ble tidlig kommersialisert).


LobbyWare
 
Ad-industrien gikk sammen om å utarbeide selvregulering for bruk av ”cookies”Med i arbeidsgruppen var også IKT Norge. Sammen skulle de lage "en god selvreguleringsordning".


Denne skulle også "verne brukeren" mot at brukerens selvbestemmelse, og fremmes av følgende paradoks:
  1) Det er et dilemmaet at når brukeren selv får bestemme, vil under 10% akseptere å bli tracket.
  2) 9 av 10 brukere blir "frustrerte over at nettstedene ikke fungerte når de avviste cookies".

Hva en forteller her er at det ikke er cookies, men metodene en nytter, som denne industrien ønsker å hegne om. Om brukeren blir informert (slik de skal) angående hvordan deres persondata nyttes for å akkumulere detaljert intelligens om brukerens private sfære så vil brukeren si tvert NEI.

For å illustrere sitt latterlige paradoks om at ePrivacy direktivet skader brukerne har de laget et stykke LobbyWare som skal illustrere (for kunnskapsløse beslutningstagere) hvordan nettet vil ødelegges om brukerens selvbestemmelse og personvern blir tatt alvorlig.
Dette kalles gjerne FUD (Fear, uncertainty and doubt) og er velkjendt.


Industrien som lever av å stjele, dele og/eller selge andres persondata har også lobbyer aktivt W3C (World Wide Web Consortium, Tracking Protection Working Group -TPWG) i arbeidet med å utvikle robuste løsninger for at nettbrukeren skal ha bedre verktøy og selv regulere hvorvidt de tillater akkumulert sporing på tvers av hele verdens millioner av web-steder. (bl.a. omtalt her Ad Industry's Assault on "Do Not Track" Continues at the W3C).
 Ad-industrien lobbyer tilsvarende mot EU for å få vannet ned e-Privacy direktivet. Aldri har noen sak vært utsatt for sterkere lobbyvirksomhet rapporteres fra EU.
Dette er en industri som snylter på brukeren. Det koster brukeren også en del å holde borte dette svineriet som Spyware & Adware representerer. Tidkrevende vedlikehold av programmer, unødig oppgradering av datamaskinens hardware-kapasitet (for både CPUcycler og memory) og - ergrelser.  Det er også store sikkerhetsrisikoer relatert denne type piratvirksomhet som Ad-industrien representerer.


Du er ikke anonym for BigData Adware

Det sier seg selv at du ikke er anonym når data akkumuleres om deg. Alternativt ville det ikke være mulig å akkumulere data om nettopp deg.
Og heller ikke mulig for eksempelvis TNS å fortelle hvor mange "unike" brukere som har besøkt et gitt nettstedet.


Personvernet 

Det er begrenset hvor mange ganger personvernet kan "mistes" da ens ID mistet kun én gang.

Bør vi reformulere loven slik at ePrivacy direktivet sammenfaller med åndsverkbeskyttet ©MineData?

 Det er mange aspekter som den lovgivende forsamling må ta inn over seg. Nå!

Links:

Adware og Spyware - BigData II

Nov 21, 2012

Digitalt innhold presentert som papirløsning.... med innebygget tracking?


Eksempelet jeg bruker her er fra Twitter 20.november:



Denne "tweet'en" er generert via den integrerte grafikken som en nettavis nytter for å dele/publisere linker til innhold via sosiale media.














Vi ser at denne nettavisen (og ikke Twitter) legger til en kode etter linken:
http://www.aftenposten.no/kultur/Rune-Slagstad-sier-opp-i-protest-7049868.html#.UKy2Tj8DKp4.twitter


Twitter

Twitter koder alle linker.
I dette tilfellet er linken ovenfor representert ved http://t.co/KHtuDAEp. Dette betyr at den som klikker på lenken i tweet'en vil bli sent til domenet t.co som eies av Twitter.
Der vil lenken bli de-kodet ("pakket ut") og videresendt til den linken vi ser når vi leser tweeten.
(i dette tilfellet http://www.aftenposten.no/kultur/.....).
På denne måten kan Twitter akkumulere informasjon om hvem som leser hva...

For teknisk interesserte: Dette kan en verifisere ved å lese koden fra tweet'en ovenfor:
<a href="http://t.co/KHtuDAEp" class="twitter-timeline-link" target="_blank" data-expanded-url="http://www.aftenposten.no/kultur/Rune-Slagstad-sier-opp-i-protest-7049868.html#.UKun2WItVYM.twitter" title="http://www.aftenposten.no/kultur/Rune-Slagstad-sier-opp-i-protest-7049868.html#.UKun2WItVYM.twitter" dir="ltr"><span class="invisible">http://www.</span><span class="js-display-url">aftenposten.no/kultur/Rune-Sl</span><span class="invisible">agstad-sier-opp-i-protest-7049868.html#.UKun2WItVYM.twitter</span><span class="tco-ellipsis"><span class="invisible">&nbsp;</span>…</span></a>



Hva skjer med den "kodede" linken

Twitter sender deretter bruker til nettavisen (altså fra t.co/... til http://www.aftenposten.no/kultur/Rune-Slagstad-sier-opp-i-protest-7049868.html#.UKy2Tj8DKp4.twitter)
Her blir (bl.a.) linken "behandlet", og brukeren vil se dette:


Denne linken er ikke reell, og om en forsøker å "reloade" siden vil en få feilmelding.
Tilsvarende om en "bookmark'er" nettsiden for senere bruk:

En kan altså ikke bookmark'e (for senere gjenbruk) en slik link...


Tilsiktet?

Uvisst om dette er en liten "bug" (programmeringsfeil) eller om en virkelig forsøker å gjenskape papirlignende løsninger pre '90-tallet.
Selger Papir-på-nett?  Proprietært, lukket nett, hyperlinker som ikke fungerer?

Imidlertid, en får logget hvem leserne er og hva de leser når og hvordan - på tvers av forskjellige media ...


Tracking av lesere

Media (samtlige nettaviser) akkumulerer data om brukerne. Det er kun tilgjengelighet som  begrenser...
Men en kan gjøre litt for å beskytte seg mot noe av dette - uten at det trengs spesiell teknisk kunnskap. En rekke tools (programvare) er tilgjengelig for å blokkere uønsket tracking.

Eksempler som blokkerer tracking: (Klikk på bildet for større utgave)
Begge eksemplene er for den aktuelle linken som er brukt i dette eksempelet.
(Det er ikke rent lite hva en enkelt nettside har utrustet seg med for å akkumulere data om leseren...)

 

Do Not Track Plus kan en lese om her , og Ghostery er her.
Begge disse er nyttige for å hindre at for eksempel Facebook følger med i alt en leser (også om en ikke har Facebook-konto eller er pålogget. Eller at Google... osv.

En annen, svært nyttig tool, er Adblock Plus. Denne er tilgjengelig for de fleste nettlesere og anbefales på det sterkeste.


Mere om tracking av brukere og medias bruk av BigData følger senere...