## What is location privacy worth? Experimental study of Google Location History ###### tags: `revealed preferences` `privacy` `location data` ## :memo: Zarys badania ### Co chcę zbadać? - Jaką wartość stanowią dla użytkowników smartphone'ów dane lokalizacyjne? (wartość pieniężna) - Od czego zależy wartość tych danych? (odwiedzane miejsca, zmienne demograficzne i wartość Privacy Concern Index) - Związek między deklarowaną troską o ochronę prywatności w sieci a realnymi działaniami. Wyniki Privacy Concern Index vs udostępnienie danych lokalizacyjnych w badaniu (stated vs revealed preferences) - Czy użytkownicy uważają zanonimizowane dane za wrażliwe? Jak powiązanie danych lokalizacyjnych z danymi osobowymi zmienia ich wycenę? - Świadomość wrażliwości danych lokalizacyjnych. Jaki wpływ na ocenę wrażliwości ma praktyczne przedstawienie informacji jakie można uzyskać z przetworzenia danych lokalizacyjnych? Praktyczne wnioski dla regulatorów (np. wymóg przedstawiania przykładowych zastosowań zbieranych danych) ### Jak chcę to zbadać? - Badanie eksperymentalne plus badanie ankietowe - Kupuję od uczestników pliki z historią lokalizacji w Google Maps - do ustalenia: metoda aukcji - Reverse Second Price Auction, GSP, VCG auction, czy BDM? Ostatnie dwie trudne do zrozumienia przez uczestników - Google Location History - proste do eksportu, kilka kliknięć w apce - dostaje się ją na maila (html i json) - w pliku html nazwa konta Google użytkownika (adres email), dzięki czemu można zweryfikować, czy zgadza się z podanym przez respondenta (automatyczna weryfikacja skryptem w Pythonie) - dane o odwiedzanych miejscach, plus ich kategorie do wyciągnięcia text miningowo, np. "szpital", "kościół" - Kwalifikacja do badania: codzienne korzystanie ze smartphone'a (dowolnie Android lub iOS) oraz korzystanie z aplikacji Google Maps - Uczestnicy pytani są, czy udostępnienią swoje dane lokalizacyjne firmie marketingowej (?), która chce stworzyć profile konsumenckie. Zastrzeżenie: firma nie będzie się kontaktować z respondentami (==Deception, często stosowane w tego typu badanich zob. np. Valuing Personal Data with Privacy Consideration==). Zmylenie respondentów potrzebne, żeby stworzyć bardziej naturalny kontekst oraz żeby uniknąć efektu altruistycznego dzielenia się danymi do celów naukowych. Na koniec badania nastąpi odkłamanie celu eksperymentu - informujemy o prawach uczestników do wycofania zgody, oraz usunięcia danych (RODO) - TREATMENT - informujemy respondentów jakie dane zbiera aplikacja na trzy sposoby (losowe przypisanie do grup): 1. informacja jakie dane zbiera aplikacja i jak mogą być przykładowo wykorzystane (profilowanie, tworzenie mapy często odwiedzanych miejsc) 2. informacja jakie dane zbiera aplikacja, jak mogą być wykorzystane plus wizualizacja przetworzonych danych lokalizacyjnych 3. tylko informacja o rodzajach zbieranych danych - status quo ![](https://i.imgur.com/3QlXtjl.jpg) - dzięki treatmentowi możemy zbadać efekt "privacy nudging". W literaturze powszechne jest przekonanie, że samo informowanie użytkowników o zakresie przetwarzania danych i dawanie im narzędzi kontroli nad danymi to za mało, żeby uchronić ich przed "over sharingiem". - literatura o privacy nudges jest bardzo obszerna. Wiele prac dot. "presentation nudges" ale są to raczej prace dot. wpływu rodzaju czcionki czy sformułowania informacji niż poglądowemu przedstawieniu co można uzyskać z przetworzenia danych użytkownika. - Warunkiem wzięcia udziału w aukcji jest przesłanie pliku html od Google'a potwierdzającego eksport danych - Służy to do potwierdzenia, że badany ma włączone śledzenie lokalizacji i że dane pochodzą z jego telefonu (automatyczne porównanie adresu mailowego podanego w pytaniu kwalifikacyjnym z tym z pliku html) - Z pliku można oszacować jak dużo danych lokalizacyjnych znajduje się w pliku json (pytanie czy to wykorzystać przy pytaniu o wycenę?) ![](https://i.imgur.com/dm83lQg.png) - dalsze postępowanie ujęte na schemacie badania ### Schemat badania ![](https://i.imgur.com/LZfAfFM.png) :::info :warning: Respondenci losowo przypisani do scenariusza (anonimowe przekazanie danych lokalizacyjnych lub powiązanie danych lokalizacyjnych z danymi osobowymi) ::: ### Analiza wyników - Probit - czy badany udostępni dane lokalizacyjne? - czy badany udostępni dane osobowe? - Analiza cen (jaki model wybrać?) i ich determinantów - analiza grupowa: dla badanych, którzy udostępnią dane mogę sprawdzić jak dużo podróżują ### Luki badawcze - Mało badań wykorzystujących preferencje ujawnione do wyceny danych - ok. 10 badań, w tym 2 badające wycenę danych lokalizacyjnych (Carrascal et al. 2013, Staiano et al 2014) - Nie znalazłem badań wyceniających Google Location History - Są badania dotyczące wykorzystania Google Location History np. do badań nad mobilnością (Ruktanonchai et al. 2018). Kontaktowałem się z autorami: płacili 5GBP za dostęp do danych, badanie w UK ### Jak to się wpisuje w mój doktorat? - w poprzednim badaniu wykorzystywałem metodę opartą na analizie preferencji deklarowanych, często krytykowaną za oderwanie od faktycznych transakcji - miała ona swoje uzasadnienie - badanie dotyczyło nieistniejącej usługi - uzupełniam to spojrzenie o analizę preferencji ujawnionych ## Notatki - pytanie, czy masz inne konta Google (potencjalnie zmniejsza wycenę) - In studies that use GLH data, users can download their associated data and provide it to researchers during surveys that include an appropriate informed consent process. - the passively-collected nature of GLH data avoids many known biases from compliance issues in studies that use GPS trackers, and avoids recall bias found in self-reported travel history data. - GSP wykorzystywane przez Google w adsach - GSP: The person with the lowest bid is paid an amount equal to the second lowest bid, the person with the second lowest bid is paid an amount equal to the third lowest bid, and so on. This continues until the budget of the auctioneer/buyer for acquiring data runs out. In this way, all data can be acquired in a single auction.