“Hello World” by Hannah Fry

CITIZENFOUR_Jacob Appelbaum：「我發現一個很有趣的現象，民眾從前稱之為自由的東西，現在被叫做隱私。同時我們說，隱私已死。對於我們這代人，尤其是當我們說，沒什麼事能讓我們驚訝的了，我真的感到非常擔憂。我們應該想想，當我們失去隱私，因為不能再自由表達自己的看法，我們將失去通訊、失去自由，有對於過去監控機器的說法，但什麼是監控呢？是控制嗎？美國國安局這種做法是被動的，這完全是胡說八道。我們看到的是，他們侵犯的歐洲人、美國人，只要利益當前，他們會去侵犯所有人」 # "Hello World" by Hannah Fry [TOC] ## POWER * Garry Kasparov是無人匹敵的棋手 * IBM的Deep Blue擊敗了Garry，象徵著演算法的新時代，其能力已經遠遠超過單純的計算能力 >> That symbolic victory, of machine over man, which in many ways marked the start of the algorithmic age, was down to far more than sheer raw computing power. * 機器延遲幾秒或偶爾停止運算，好像機器真的懂得Garry的思考 * 在第二場對弈中，Deep Blue察覺到Garry設置的陷阱並成功突圍 * Garry認輸，人類無法戰勝內心和無法不犯錯 >> In an interview a few days after the match he described Deep Blue as having "suddenly play like a god for one moment". * 第二場Garry最終棄權，第三、四、五場和局，第六場3½比2½敗北 * Garry說明機器的棋法十分影響他的情緒 * 預期很重要。了解我們的缺陷和弱點，這是保持控制的關鍵 * 本書會依序介紹演算法如何悄悄進入現代生活的各個層面 >> Along the way, we have somehow managed to be simultaneously dismissive of them, intimidated by them and in awe of their capabilities. The end result is that we have no idea quite how much power we’re ceding, or if we’ve let things go too far. ### Back to basics * 演算法的定義：藉由電腦一步一步按照程序來解決問題或取得結果 >> algorithm (noun): A step-by-step procedure for solving a problem or accomplishing some end especially by a computer. * 演算法是一系列邏輯操作，以任何的操作步驟來達成特定的、或被定義的目的，都可以稱為是演算法 * 演算法更常被利用在數學(方程式、運算、代數、邏輯、微積分、機率)當中，輸入真實世界的資料，確立目的並設定處理工作已達成目標，使電腦科學真的成為科學。 * 雖然有各式各樣不同的演算法，每個都有他的目標、特質和缺陷，所以沒有一個共識來區分，但以下分成四類還是很有用處的： - **Prioritization: making an ordered list(優先：製作一個有序清單)** - Google search, Netflix recommendation, Deep Blue... - **Classification: picking a category(分類：挑一個類別做分類)** - Facebook分類個人資料、Youtube自動分類或移除不適內容、標示你的節慶照片、掃描你的手稿及字型辨識 - **Association: finding links(關聯：找到連結)** - 在每個東西間找到關聯並標示關聯，約會app如OKCupid找到會員間的關聯、Amazon的推薦系統依照你的興趣找到與過去客戶的關聯 - **Filtering: isolating what's important(過濾：隔離出重要的內容)** - 語音識別在解譯內容之前，會先從環境噪音中篩出人聲、Facebook和Twitter過濾出你有興趣的故事來設計你的個人化feed * 絕大多數的演算法會將上述四類功能合併 >> Take **UberPool**, for instance, which matches prospective passengers with others heading in the same direction. Given your start point and end point, it has to **filter** through the possible routes that could get you home, **look for connections** with other users headed in the same direction, and **pick one group** to assign you to - all while **prioritizing routes with the fewest turns** for the driver, to make the ride as efficient as possiable. * 雖然可能性幾乎是無窮無盡的，但永遠會找到有一種方法可以提煉，這些演算法主要可以畫分成以下兩個關鍵範式(paradigm)： - **Rule-based algorithms(依照規則的演算法)** - 操作方式由人類所建構，直接而明確，這個範式足以建立強大的程式 - **Machine-learning algorithms(機器學習的演算法)** - 靈感來自於生物學習的方式。打個比方，想像訓練一條狗跟妳high five，你不會寫下一個清單並與毛小孩溝通，而是確立毛小孩high five的這個目的以及回饋牠的方式。強化好的行為、忽略壞的行為、並給牠自己足夠的練習。 >>> which comes under the broader umbrella of artificial intelligence or AI. You give the machine data, a goal and feedback when it’s on the right track – and leave it to work out the best way of achieving the end. * Rule-based algorithms由人寫成，所以優點是比較好理解，但缺點是只適用於那些懂的寫程式的人 * Machine-learning algorithms優點是達成過去依照操作方式難以達成的功能，例如在照片中辨識物體，了解我們說的字或是翻譯語言，但缺點是讓一台機器自己找出解決方案，那對於人類觀察者來說如何達到目的就沒有太大意義，如此一來就可能招致危險，即使對於最頂尖的程式高手，都難以理解內部的謎 * 演算法看待世界的方式有時很像人類，人類在看圖片有時會辨認錯誤，而電腦也會 * 有一些人認為，這會是一場災難，我們如何能控制我們不理解的東西 * 近期AI有飛躍的進步，雖然這樣說一點都不性感，但以目前來說，現在比較像計算統計的革命，而非智慧的革命 * 作者認為目前談論AI的邪惡面就如同談論未來火星會太擠一樣言之過早，我們目前連刺蝟等級的人工智慧都還創造不出來，甚至到目前為止，連[線蟲](http://openworm.org/)也還在創造中而已 * 建議先忘掉那個可能在未來無所不能的AI，看見目前有哪些演算法已經能夠進行自由決策，例如，決定刑期、給癌症病患的療程、車禍發生的判斷等等，他們已經可以代表我們做出改變生活的選擇，但問題是，他們是否值得讓我們信任到足以讓我們交出我們的權利？ ### Blind faith * Robert Jones發現再7哩車子就要沒油了，所幸GPS似乎找到一條捷徑 * TomTom衛星導航將Robert導引到更陡而且更窄的泥土路，看起來不像是給車子行駛的路，但此時Robert想的卻是"沒有理由不相信TomTom衛星導航" * 直到後來，Robert的BMW撞破了一個木柵欄，車子前端從懸崖邊露出，命弦一線 * 年末Robert因為遭指控魯莽駕駛而出庭，他承認他當時完全沒有想要否決機器的指令 * 這裡面隱藏一些道德問題，如同Garry的例子，我們很有可能在毫無意識下犯了錯而不自知 * 2015年有科學家想要研究人們對於Google的搜尋結果是否抱持著健康的態度去相信，還是我們是開心的跨越懸崖，面對危險而不自知？因為如同Google的search engine是有能力改變我們對世界的觀點的 * 這個實驗是設計一個特製的search engine叫做"Kadoodle"，在即將到來的印度大選，找來2,150位尚未決定候選人的中間選民，讓他們再決定投給誰之前先更了解候選人 * 受測者不知情，並將受測者分為好幾組群體，每組的search engine上方的連結都指向某一個不同的參選人 * 實驗過程中，幾乎沒有人去看第二頁的搜尋結果，但頁面的排序影響程度仍然很大，受測者僅僅看了幾分鐘，投給該特定候選人的百分比成長了12％ * 心理學家Epstein解釋，我們都預期search engine會做有智慧的決定，更不妙的是，我們可能因此被偷換想法而不自知 >> When people are unaware they are being manipulated, they tend to believe they have adopted their new thinking voluntarily. * 實驗證明我們常常認為搜尋引擎的結果是對的，但這想法是不具意義的。我們要終結相信他們有超然的判斷力，直到我們不再帶有這個偏見 * 演算法提供了非常便利的權威來源，也能夠用很便利的方式委派責任，方便到我們取用時連想都不用想。 * 但其中有個很重要的分別，信任一個你可以信賴的演算法是一件事，信任一個無人知曉的演算法又是另一件事 ### Artificial intelligence meets natural stupidity * 2012年，Idaho州一群失能人士的醫療補助被刪減，非政治盤算，而是藉由一套新的軟體計算的結果，得出誰該得到多少補助 * 但顯然這個工具不合常理，有人領到的錢比以前還多，有人則少了數萬美元，需要接受機構援助 * 人權律師Ritchie Eppink著手協助，需要整整四年時間，四千名原告和集體訴訟才釐清整件事情[(blog)](https://www.aclu.org/blog/privacy-technology/pitfalls-artificial-intelligence-decisionmaking-highlighted-idaho-aclu-case) * Ritchie的團隊詢問演算法的細節，被以“商業機密”為由遭到拒絕，所幸法官判定必須公開，揭露後發現不是什麼AI，不是什麼複雜的數學模型，而是一份Excel spreadsheet * ACLU team在拆解等式時，發現公式本身存在統計法則的錯誤，而且產生隨機的結果給如此多的民眾，最後法庭宣判違憲 * 這裡有兩個人為錯誤，第一，有人寫了很爛的spread sheet，第二，其他人很自然地相信。這個“演算法”充其量只是品質低劣的程式碼，為什麼能夠引來這麼多人為其辯護？ >> Here are Eppink's thought on this matter: It's just this bias we all have for computerized results - we don't question them. When a computer generates something - when you have a statistician who looks at some data, and come up with a formula - we just trust that formula, without asking "hey wait second, how is this actually working?" * 人類比較傾向輕信演算法，而非去理解背後的運作 * 要判斷演算法是否值得相信，就必須從頭到尾看它如何運作 >> At first they appear to be nothing short of actual wizardry, but as soon as you know how the trick is done, the mystery evaporates. Often there’s something laughably simple (or worryingly reckless) hiding behind the facade. * 但即使是數學迷，偶爾還是會盲目的信仰(take a leap of faith)演算法，可能是Skyscanner或Google search讓你難以覆核，可能是又被人說是“商業機密”，又或是一些machine-learning的技巧，本來就難以依循邏輯過程 * 如何權衡(weigh up)我們的判斷和機器運算的結果，是很重要的課題 ### When to over-rule * Stanislav Petrov負責核能預警系統，在電腦回傳美國攻擊的訊號時，立即通知上級 * 在冷戰最嚴重的某晚，Stanislav接收到電腦核警報，但只有偵測到五枚導彈，這讓他遲疑了 * Stanislav這時僵住了，因為回報的話等於就開啟了核戰，或是等等，先忽略協議，減少國家領導人發動報復性打擊的時間 * Stanislav選擇了後者，後來也證實演算法發生錯誤 * 很重要的一課是，在關鍵的過程中，還是要有人為的判斷，作出決定前，要有人掌握演算法對策的否決權來避免錯誤 * 只有人才能感覺責任，機器不行 * 但問題是人常常也是不可信賴的，甚至很多直覺應該被忽略 * 因為就有一起在英國最大主題遊樂園Alton Towers發生的雲霄飛車(the Smiler)事故，就源自於人為判斷失誤 * 回到2015年6月，兩名工程師在修復飛車的故障原因後，不知任何原因，將備用飛車遺留在軌道中央 * 後來，工作人員開始引導乘客上車，填滿車廂後送走 >> Once they got the all-clear from the control room, they started loading up the carriages with cheerful passengers, strapping them in and sending the first car off around the track. * 幸好'the Smiler'的設計師當初有設想這個情況，設計了演算法，在第一個爬坡，就將飛車停了下來，沒想到工程師此時還堅信已經修好了飛車，響起的警報系統應該是故障了 * 要否決演算法並不容易，需要同時按下兩個按鈕重啟飛車，按下之後，也造成一起多人嚴重受傷的事故 * 這兩個例子都是含有更深困境的戲劇性例證，但誰該擁有最終的話語權？ ### Power struggle * 1954年，Paul Meehl教授發表了"Clinical versus Statistical Prediction"，對其堅定的表態 * Paul認為機制、方法的預測表現，比人好很多 >> mechanical (i.e., formal, algorithmic, "actuarial") methods of data combination would outperform clinical (i.e., subjective, informal) methods to predict behavior. * 半世紀以來，已經有數不清的研究證實Paul的論述，演算法不是完美的，但往往有人否決演算法，卻製造更多錯誤 * 這不讓人意外，最好的飛行團隊有一說是：飛行員、電腦和一條狗，電腦負責飛行，飛行員餵狗，狗咬飛行員假如他想碰電腦的話 * 但有一個演算法悖論，也就是演算法趨避(algorithm aversion)，人們明明知道演算法會犯錯，但對其容忍度較低，容易過度反應 * 但常常自己犯的錯更大，可能自己也有這種感覺，所以也會更依賴演算法 * 衍生出一種非黑即白的觀點，這演算法不是一堆垃圾就是無所不能(omnipotent)。如果我們要更能充分運用(get the most out of)科技，就要找出一個更客觀的方法 * 但是說的總比做的容易，縱使它是這麼直接的影響我們，但我們深究它 * 對於數據(data)更是如此，它已經變成最現代化的商品，在錯位的信任，權力和影響力的完美風暴中，有可能造成從根本上改變我們社會的後果。 ## DATA >>> BACK IN 2004, soon after college student Mark Zuckerberg created Facebook, he had an instant messenger exchange with a friend: ZUCK: Yeah so if you ever need info about anyone at Harvard ZUCK: Just ask. ZUCK: I have over 4,000 emails, pictures, addresses … [REDACTED FRIEND’S NAME]: What? How’d you manage that one? ZUCK: People just submitted it. ZUCK: I don’t know why. ZUCK: They ‘trust me’ ZUCK: Dumbs fucks * 人們對Facebook交出資料視為一種交換，以運作演算法的方式自由的連結家人與朋友，將私人的人際網絡放在網路上。作者過去一度認為這是公平的交換 * 在這個邏輯上有一個問題：我們並不總是能夠察覺這個交換的長期影響。我們不了解這些資料可以做什麼，什麼時候被餵進演算法，以及產生什麼影響，但我們被買的相當便宜 ### Every little helps * 超市(Tesco)是最先認知到個人資料的重要性，並爭取客人的注意力 * 會員使用會員卡集點換取優惠，超市收集銷售紀錄和個人資料 * 在最初的會員卡試行中，Dunn and Humby已經從適當獲取客戶資料當中，獲得許多有價值的觀點 * 針對顧客的消費習慣寄發折價券，有將近7成的折價券被使用，每人多消費了4% * 22/11/1994，Clive Humby向董事會報告顧客回應率、客戶滿意度及銷售成長資料，董事長對結果非常驚訝，這三個月理解客戶的深度已經超過去30年了 * Tesco也變成英國最大的超市，隨著時間的推移，收集的資料也更細節，更容易瞄準客戶偏好 * 網路購物剛開始時，Tesco在網頁推出了"我的最愛"，顧客一登入，看見自己想買的商品折價越多，客戶越開心 * 但也不全是這樣，某次有位婦人來電客訴，"我的最愛"清單裡有保險套是錯的，她的丈夫不曾用過，Tesco查證後發現資料並沒有錯，但為了避免客戶婚姻裂痕(marital rift)，決定為錯誤資料道歉，並移除該資料 * 後來也變成一項公司非正式政策，如果太過暴露客戶資料，公司選擇道歉並刪除資料 >>> It’s a stance that’s echoed by Eric Schmidt, who, while serving as the executive chairman of Google, said he tries to think of things in terms of an imaginary creepy line. ‘The Google policy is to get right up to the creepy line but not cross it. * 潛藏在數據深處的見解，可以變成公司的優勢 ### Target market * 時間回到2002年，Target也開始在數據中尋找不尋常的模式，將信用卡號碼和意見調查與客戶連接起來，分析客戶買的商品 * 這故事讓Target有些身名狼藉。Target發現女性顧客在註冊baby-shower前，購買無香料乳液的次數會激增，隨著女性進入孕中期並開始擔心妊娠紋，她們購買保濕霜以保持皮膚水嫩，留下了未來的暗示。可能是維他命、保養品或大容量的包包啊 * 準媽媽是零售商的夢想，在懷孕初期就要鎖住忠誠度，直到小孩出生 * 到這裡都還很單純，Target用演算法算出女性客戶懷孕的機率，當抵達某個門檻(tipped threshold)，便會送出一系列相關折價券 * 有一天，一名青少女的父親氣沖沖的跑到Target理論，女兒怎會收到懷孕禮券後，店家非常有誠意的道歉。後來，根據New York Times的報導，父親為自己做了道歉 >>> "I had a talk with my daughter," he told the manager. "It turns out there's been some activities in my house I haven’t been completely aware of. She's due in August." * 對作者而言，女兒懷孕先通知父母，這件事已經逾越了某些界線，但這件事似乎還未迫使Target做出改變 >>>A Target executive explained: "We found out that as long as a pregnant woman thinks she hasn't been spied on, she'll use the coupons. She just assumes that everyone else on her block got the same mailer for diapers and cribs. As long as we don’t spook her, it works." * 直到現在，Target的估計懷孕演算法仍在運作，大多數的零售商也如此，唯一不同的是，會在禮券旁增加大眾商品，顧客才不會發現被鎖定了 * 一位保險公司的chief data officer說明，他們存取了所有超市忠誠客戶的消費習慣，經過研究，在家常做飯的人比較少索取保費，更有利可圖，他們對常有社交的人交集較少。那他們怎麼知道哪個消費者是常在家做飯的那個人呢？答案是菜籃裡有茴香(fennel)的人 * 假如你可以在真實世界推斷人們的消費習慣，想像假如你有更多資料時你會推斷什麼，想像你會知道多少人們在網路上的紀錄 ### The Wild West * Palantir在2003由Peter Thiel所創立，目前與Twitter的估值一樣，你可能沒聽過它，但相信我，它肯定聽過你 * Palantir將我們的資料當成生意，將我們的資料買來或收集，再賣回或分享以獲取利益，Acxiom, Corelogic, Datalogix, eBureau等公司都在持續監控和分析我們的行爲 * 每次你網購、申請一份報紙、註冊一個新網站、查詢一輛新車、填了保證卡、買新房子、登記投票，每次你提供的任何資料，都會被收集再賣給資料掮客，甚至你瀏覽器的瀏覽紀錄都會被打包賣出 * 資料掮客的工作就是合併並交叉比對他們獲得的資料，然後為每個人建一個專屬檔案，在某個伺服器裡放著專屬我們的檔案 >>> In the most literal sense, within some of these brokers’ databases, you could open up a digital file with your ID number on it (an ID you’ll never be told) that contains traces of everything you’ve ever done. Your name, your date of birth, your religious affiliation, your vacation habits, your credit-card usage, your net worth, your weight, your height, your political affiliation, your gambling habits, your disabilities, the medication you use, whether you’ve had an abortion, whether your parents are divorced, whether you’re easily addictable, whether you are a rape victim, your opinions on gun control, your projected sexual orientation, your real sexual orientation, and your gullibility. * 一直以來(all along the way)，掮客用聰明簡單的演算法來豐富他們的資料，這其實與超市無異，但規模更為龐大 * 當然，其中還是有不少好處，資料掮客可以運用他們所知，預防冒充不知情的消費者的詐欺犯，技術越發達，越可以精準針對消費者，廣告費用就越便宜，有好產品的小公司就越好生存 * 下面先介紹當你在網路點擊時，廣告商是如何接近你的，還有資料掮客在過程中扮演什麼角色？ * 假設我有一家旅遊公司叫做Fry's，第一，這些年來，有些人們在我的網站註冊，留下了他們的興趣和e-mail，如果我想知道更多的話(例如他們對何種度假方式更有興趣)，把我的e-mail清單提供給資料掮客，就可以得到更多資料，假設知道了你有熱帶島嶼的偏好，下次你在逛Fry's時，就會提供你Hawaii getaway * 第二，假如我的網站還有空間，我可能會想賣給廣告商，這時，我一樣聯絡資料掮客，把我的客戶名單給他，他會幫我找廣告商，假設是防曬乳業者有興趣，那掮客可以撮合紅頭髮的客人之類的，若防曬乳業者也願意給名單，那還可以交叉撮合，掮客和Fry's都可以得到費用 * 第三，是比較讓人不舒服的，這次，Fry's想找一些新客戶，條件是大於65歲喜歡熱帶島嶼且有可支配所得，想要推薦Caribbean Cruises的行程。於是掮客開始去尋找匹配的結果 * 假如你就是匹配的結果，掮客不會直接分享你的名字給Fry's，但會在你常逛的網站著墨，可能是社群媒體、新聞網站等等，當你信任地登入喜愛的網站時，掮客會得到你正在那的訊號，同時，掮客就會在你的電腦增加cookie，這個cookie的行爲就像傳遞訊號給所有網站你應該被投放Fry's的Caribbean Cruises的廣告，無論你走到哪，廣告就跟到哪 >> Adverts aren’t the only reason for cookies. They’re also used by websites to see if you’re logged in or not (to know if it’s safe to send through any sensitive information) and to see if you’re a returning visitor to a page (to trigger a price hike on an airline website, for instance, or email you a discount code on an online clothing store). * 被Caribbean Cruises圖片轟炸可能是有一點不方便，但下述這個人被其他廣告帶來更大的影響 * 例如Heidi Waterhouse流產了，她傷心之餘，取消所有以前有關於小寶寶的訂閱，但懷孕的廣告卻無止盡地提醒她、打擾她，她認為設計這個模式的人沒有想到這個後果 * 這個系統是有可能剝削(exploit)他人的，貸款公司可以針對信用評價低的人，重機玩家被貼上危險嗜好的標籤，吃無糖甜食被貼上糖尿病的標籤等等，你的名字好不好都有可能影響google的結果 * 這些資料掮客的運作方式跟Google、Facebook、Instagram、Twitter巨頭差異不大，不跟擁有的使用者收取費用，商業模型是建立在巨大的搜尋引擎中，精準的廣告投放，廣大的使用者活躍在所有網站中，點擊廣告主的文章、相片、影片，然後你的秘密和隱私就被當作商品，在暗地裡被交易 * 然而，法律也不會保障你，FCC於2016年訂定資料掮客不能在未經同意之前販賣個人資料的法案，也在2017年[參議院的投票中](https://arstechnica.com/tech-policy/2017/03/senate-votes-to-let-isps-sell-your-web-browsing-history-to-advertisers/)胎死腹中 * 對於你的隱私有什麼意涵呢？下面就透過德國記者Svea Eckert和資料科學家Andreas Dewes的調查，提供我們更清楚的認知 >>> Svea Eckert and Andreas Dewes, [Dark data](https://www.youtube.com/watch?v=1nvYGi7-Lxo), DEFCON Conference 25, 20 Oct. 2017 * Eckert和她的團隊偽裝成資料掮客買了300萬筆德國人的匿名瀏覽資料(拿到網路歷史資料並不困難，有很多公司有這類資料來賣給英、美客戶，唯一的挑戰是只要針對德國人的資料)，資料透過使用者下載的Google Chorme plugin(The Web of Trust)被收集，完全不會察覺整個過程被監控了 * 總而言之，它記錄了使用者在網路上每一次點擊的URL，並將它販賣 * 一開始對於Eckert來說，這些資料雖然被賣，但至少是匿名的，還可以遮羞，但在2017年在DEFCON的展示，說明解除匿名是非常容易的。 * 這是他們運作的方式： - 直接線索：@Xing.com(德國人的LinkedIn)，當你在Xing.com點擊人物頭像，你可能會到類似這個頁面 @www.xing.com/profile/Hannah_Fry?sc_omxb_p，名字後面的文字顯示使用者本人正登入並看著自己的頭像，Twitter的Analytics也是這個道理 - 任何有貼過連結在網路上的人，基本上，已經不經意地揭開自己的面紗了，團隊用一個簡單的演算法進行現實和網路身份的交叉比對，在資料集過濾出在那個時間點po那個URL的人，於是就得到那個人所有的瀏覽紀錄了 * 三百萬人中也包含一些備受矚目(high-profile)的人物，一名政治家在搜尋醫學網站、一名警官將敏感資料貼到Google翻譯，一名法官在色情網站上瀏覽，但他也很規律的搜尋寶寶姓名、童車、婦產科，由此可以推斷小孩要出生了 * 法官沒有做錯任何事，不過這些資料可以讓有心人士發黑函或騷擾他的家人了 * 這就是開始讓我們偏離的地方，當你的隱私、敏感的資料在你不知情的狀況下被搜集，而反過來被操縱，而這正是Cambridge Analytica發生的事 ### Cambridge Analytica * 自1980年代以來，心理學家將每個個體區分成五個特質(five-factor model, FFM)，你可以在下列五個特點得到分數，他們提供標準和方法來描述你是哪一種人： - openness to experience(經驗開放性)：傾向於較能欣賞藝術、情感、冒險、不尋常的想法，具好奇心、喜愛各種各樣的生活體驗。 - conscientiousness(自覺性)：傾向於做事有計劃且可靠；表現出自律、主動做事、以成就為目標、喜歡計劃而不是即興；生活不散慢。 - extraversion(外向性)：傾向於有活力、多正面的情緒、反應快、自信、熱情、愛社交、愛和他人一起尋求刺激、健談。 - agreeableness(親和性)：和別人相處時，傾向於對人性有著樂觀的看法、同情或信任而不是懷疑、合作或妥協而不是對立、體貼善良且樂於助人。 - neuroticism(情緒不穩定性)：傾向於低情緒穩定性，容易有憤怒、焦慮、憂鬱、和脆弱等多種不愉快情緒。 * 時間回到2012，也是在Combridge Analytica眾人皆知的前一年，一群來自劍橋大學和史丹佛大學的科學家開始研究“FFM”和“在臉書專頁按讚的人”的連結，他們在臉書上設計了心理測驗，期望找出人們真實性格和網路性格的關聯。下載的人們知道他們交了兩份資料，“在臉書按讚的歷史紀錄”和“FFM真實性格的分數” * 隔年該團隊發表了[文章](https://www.pnas.org/content/110/15/5802)，例如，經驗開放性分數比較高的人按了Salvador Dali, meditation或TED talks讚，外向性分數高的人傾向按Jersey Shore讚，關聯建立之後，團隊建了一個演算法，光是依據你按的讚就可以推斷你的人格特質 * 2014年他們產出了第二份[報告](https://www.pnas.org/content/112/4/1036)，研究團隊聲稱，只要在某人主頁收集超過300個讚，演算法判斷該人的人格特質會比他的配偶來的準確 * 後來，這個在劍橋的學術團隊，也把預測人格特質的演算法延伸到了Twitter，可以在他們公開的網站測試自己的性格 >> Since my Twitter profile is open to the public anyway, I thought I’d try out the researchers’ predictions myself, so uploaded my Twitter history and filled out a traditional questionnaire-based personality study to compare. The algorithm managed to assess me accurately on three of the five traits. Although, as it turns out, according to the traditional personality study I am much more extraverted and neurotic than my Twitter profile makes it seem. * 然而，如何在廣告中使用才是背後的動機，2017年時，這個團隊開始實驗為個體的人格特質量身定做送出的廣告，團隊聲稱經過量身定做的廣告增加了40%的點擊率和50%的購買率，這讓廣告主印象深刻 >> Using the Facebook platform, the team served up adverts for a beauty product to extraverts using the slogan ‘Dance like no one’s watching (but they totally are)’, while introverts saw an image of a girl smiling and standing in front of the mirror with the phrase ‘Beauty doesn’t have to shout’ * 在學術團隊公開成果的同時，也有其他單位在實行這個方法，據稱，其中Cambridge Analytica就曾受僱於川普競選陣營 * 他們的方法就是直接鎖定腦波比較弱的人做廣告的精準投放，進而成功左右他們的決定 >> As an example they discovered that there was a large degree of overlap between people who bought good, American-made Ford motor cars and people who were registered as Republican party supporters. So they then set about finding people who had a preference for Ford, but weren’t known Republican voters, to see if they could sway their opinions using all-American adverts that tapped into that patriotic emotion. * 據Channel Four News報導指出，Cambridge Analytica曾依照人格特質投放挑起情緒的政治議題，舉例來說，對情緒不穩定性分數很高而且又是離異的母親投放她們在家中可能遭受攻擊的廣告，散播恐懼藉此讓她們支持擁槍政策(pro-gun-lobby)，當然，商業廣告也可以用這種手法，而且也不排除其他政黨也使用這些方法 * Cambridge Analytica被指控違法利用8700萬臉書用戶資料推動目標式廣告，企圖於美國總統大選中影響選民的政治立場，根據舉報人對Guardian的證詞，在選舉期間最具影響力的標題是"10 inconvenient truths about the Clinton Foundation"，更有一名舉報人認為Cambridge Analytica所下的標題常常都是可以論證的謊言(demonstrable falsehood) * 為了進行論證，先假設上述所言屬實，那依據個人人格特質，Cambridge Analytica在臉書投放假新聞，這個做法是否有成效？ * Cambridge Analytica在2018年宣告破產，美國聯邦貿易委員會(FTC)在近日對臉書開罰50億美元 ### Micro-manipulation * 在看待目標式政治廣告時，我們想像自己是獨立思考而且對於這種操控是免疫的，但比較少想到他們針對的人也有很容易輕易相信的人，現實狀況就是如此 * 我們常常認為我們可以免疫於情緒性的操縱，但事實可能並不是如此 * 像是在"Power"一章提到，搜尋引擎結果的排序，就能夠改變一個人對候選人的觀點，或是像Cambridge Analytica改變原本演算法的用途(repurposed)，針對人格特質的廣告就極具效果 * 如此說來，就可以端看廣告主如何花錢來對選民產生巨大的影響，但在決定之前，有一些東西需要知道 * 上述是真實的，但實際的影響其實很小，依照Facebook所做的實驗，假若用戶被屏蔽掉負面新聞，確實更有可能po正面訊息，但差異不到0.1% * 還有，化妝品在目標式廣告中，針對個性內向(introverts)的人也更成功，但差異仍很微小(minuscule)，一般廣告的點擊/展出比是31/1000，目標式廣告的點擊/展出比是35/1000 * 這些方式有效沒錯，但廣告商並不是直接將訊息植入到被動聽眾的腦袋中，我們不是坐以待斃(sitting ducks)，我們更傾向忽略廣告或是推測這廣告背後是誰受益(put my spin on)，最後，會真正被影響的是一小撮人，然而在選舉中，那一小撮人一點點的影響力，就足以擺脫平衡 >> In a population of tens or hundreds of millions, those one-in-a-thousand switches can quickly add up. And when you remember that, as Jamie Bartlett pointed out in a piece for the Spectator, Trump won Pennsylvania by 44,000 votes out of six million cast, Wisconsin by 22,000, and Michigan by 11,000, perhaps margins of less than 1 percent might be all you need. * 事實上已經不可能去證實這對美國選舉到底造成多少影響，就算掌握所有的事實，也很難回到過去梳理網路的影響，查明(pinpoint)每個人投票的理由 >> What has gone has gone. What matters now is where we go in the future. ### Rate me * 網路的好處和壞處是由大家一起建構出來的，一個工具所呈現的一體兩面 * 最重要的是要在第一時間，很清楚的認知資料被搜集所帶來的危害，導致的後果可能甚至比隱私議題和民主被潛在破壞更為嚴重，這個反烏托邦的行為已經有了實例，一個被中國政府使用的人民信用評分機制，芝麻信用(Sesame Credit) * 想像一下你的信評紀錄、電話號碼、住址、你的每日表現、在社群媒體的資料、叫車系統(ride-hailing)的資料全部用一個總積分來評價你，被列入350~950的分數比較之中 * 芝麻信用所屬的阿里巴巴集團，並沒有揭露評分機制的演算法細節，但芝麻信用技術總監李英雲在接受財新傳媒的訪談中指出，「如果有人一天打10小時的電動，會被視為無所事事的人；經常買尿布被視為是父母，這群顧客被視為更有責任感。」 * 在中國，被打幾分很重要，超過600分，你可以申請更高級的信用卡，超過666分，可以提高信用卡額度，超過650分可以不用訂金雇用車輛、可以在北京機場使用VIP專用道，超過750分的可以申請去歐洲的快速通道簽證(fast-tracked visa)，意指可以迅速申請令人垂涎的泛歐簽證 * 在2020年後中國將正式實施這個社會信用制度，分數較低的人將會感受到生活的各個層面受到直接的限制和影響 >> "I think the best way to understand the system is as a sort of bastard love child of a loyalty scheme," says Creemers. * 有部分資料科學社群開始剝削人們的資料來從中獲取極大的利益，這些後續都還會產生很劇烈的餘波(dramatic repercussion) * GDPR(General Data Protection Regulation) - 若沒有明確目的，資料掮客不能儲存你的個人資料 - 在未經同意下，不能推論關於你的資訊 - 不能在某個理由下取得的資料權限，將資料秘密使用在另一個地方 * 目前已經有很多國家開始制定類似 EU 的 GDPR 法規 * 但我們仍然要記得天下沒有白吃的午餐，在法規跟上腳步以及公司利益與社會利益的衝突之時，我們要避免對隱私的錯誤認知，在使用演算法時，尤其是免費的，要問問自己，為什麼這個 app 所有東西都是免費的？這個演算法是在做什麼？我對這個交易感到信任嗎？如果沒有它會更好嗎？ * 資料和演算法不只是有能力預測你的購物偏好，還有能力剝奪了你的自由，這是非常重要的一課 ## Justice * 在南倫敦的 Brixton 有很迷人的夜生活，而在某天夜晚在當地政府機構周遭演變成聚眾鬥毆，當地警方無法立即控制場面，導致騷亂擴散到市中心，好幾百名年輕人加入騷亂 * 那是在 2011 年 8 月，起初是一場和平示威，針對員警執法過當導致年輕黑人 Mark Duggan 致死案件，到了第二晚，示威遊行演變成騷亂，破壞社會秩序並打劫商家 * 在騷亂發生時，一名 23 歲的電子工程系學生 Nicholas Robinson 經過 Brixton 街區，看見熟悉的街區整個變了樣，轎車被翻倒，玻璃被敲碎，並有些地方開始起火，整排的商家都遭受到破壞，當地警方在當下無法控制住場面 * 在當下商家一間一間的被示威者洗劫一空， Nicholas Robinson 也恰巧經過一間超市，感到口渴便拿了一瓶 £3.50 的瓶裝水，正要離開時遇到了一名警察，便將水丟下，拔腿就跑 * 類似事件是另一名 18 歲的 Richard Johnson 到電玩店偷走了一疊電腦遊戲，全被監視錄影器記錄下來 * 以上兩名均在犯案後被逮補，並皆坦承犯下竊盜罪，這是兩者的相似之處 * 但 Nicholas Robinso 在案發後一週開庭，儘管他只偷了低價的瓶裝水、未曾有犯罪紀錄、全職學生、並對自己的所做所為感到羞愧，但最終被法官判處六個月監禁 * Johnson 的案子則是到了 2012 年 1 月才判定，雖然他犯案時戴上面具偽裝自己的身份，但 Johnson 並沒有被判處監禁，而是緩刑及 200 小時義務勞動 ### The consistency conundurm_一致性的困難之處 * 審判和量刑並不是絕對的科學，所以很難去定義準確性，所以才會有 reasonable doubt (合理懷疑) 和 substantial grounds (充分理由) 等等的法律用語，司法系統認同絕對的準確是無法達到的 * 但上述這兩個案子在很多人看來是不公平的，因為認為兩案的相似程度太高 * 在 1970 年代，就有學者研究這個問題，他們創造一系列假想的案子並個別詢問 47 個維吉尼亞洲的法庭如何審判 * 假想案件：一名 18 歲女性被告，因為持有大麻而被羈押，與男友和另外 7 名友人連同被捕，有充足的證據包括抽過和未使用過的大麻，但在少女身上並未搜出大麻，其過去沒有犯罪紀錄，來自於中產階級的好學生，被捕時既不抗拒 (rebellious) 也不表達歉意 (apologetic) * 在 47 間法庭中的審判結果，29 間宣判無罪，18 間則被宣判有罪，在選擇有罪判決(verdict)之中， 8 個緩刑 (probation)、 4 個罰鍰、 3 個緩刑及罰鍰、其餘 3 個則判處需要入監 * 所以在相同的參數中，你可能僥倖逃過或者直接入獄，要端看你的運氣 * 這對希望判決一致性的人來說無疑是失望的，更糟的是，判決也會傾向相互矛盾 *