第九章
問題與挑戰
大數據時代為我們展現了一幅廣闊而美好的圖景,也為政府全麵升級公共管理與公共服務提供了一種有效路徑。正如舍恩伯格所言:大數據對社會的好處將是無窮無盡的,它在一定程度上將解決迫在眉睫的全球問題,如處理氣候變化、根除疾病以及促進善政和經濟發展。然而,世界上並不存在一個全知全能的辦法,任何事物尤其是新興事物都存在一定的局限性。大數據在帶來大知識、大發展、大價值的同時,也潛藏著巨大的社會風險。
2013年5月9日,美國《外交政策》雜誌網站上發表了微軟研究院首席研究員、麻省理工學院客座教授凱特·克勞福德的一篇文章《對大數據的再思考》,從5個方麵對大數據理論提出質疑。他認為,數據集是人類設計的產物,因此存在無法擺脫的曲解、偏見和盲區;數據生成和采集的過程不一定是平等的,某些民眾和社區可能被忽略或未得到充分代表;大數據能夠對群體行為做出論斷乃至預測,使部分人遭受價格、司法等各方麵的歧視;利用大數據能追查出大量的個人隱私,高度個人化的大數據集很容易成為黑客或泄露者攻擊的目標;大數據在解釋人類社會生活方麵存在一定的不足,科學的大數據研究需要與小數據研究和社會科學的方法相結合。
大數據時代來臨得如此之快,與其他變革相比,其中的不確定性也大大增加。政府和公共部門應當對大數據的局限性保有清醒的認識,通過係統的製度創新,迎接大數據帶來的問題與挑戰。
數據質量:清醒認識數據的缺陷
大數據的倡導者認為:“有了足夠的數據,數字就可以自己說話。”其實,數據遠遠沒有我們所想的那麼可靠,過分依賴數據可能產生一係列的風險。例如,數據質量可能很差,數據指標可能根本達不到量化它的目的,數據分析可能是錯誤的或者具有誤導性,信息可視化圖表可能偏離了實際情況,更糟糕的是,現實中還存在大量的數據造假行為。傳統數據的質量問題在大數據時代依然存在,並且由於大數據具有一些新的特性,也產生了新的問題。
數據造假:威脅數據質量的生命線
有3種謊言:謊言、糟糕透頂的謊言和統計資料。
—本傑明·迪斯雷利,英國政治家
真實準確是數據的生命。政府如果沒有能力獲得反映真實情況的數據,數據規模再大、數據分析技術再先進都是徒勞。特別是在當前中國經濟增速放緩、形勢嚴峻複雜的特殊背景下,更要堅決維護統計數據的真實準確,這樣才能服務好宏觀決策,才能有效保證中國經濟社會的平穩發展。
國內生產總值是數據虛高的重災區之一。自20世紀末以來,各省經濟規模加總超過全國數是一種常態。以2013年上半年為例,截至7月28日,全國30個省市區已公布上半年的經濟統計數據,各省市區的國內生產總值增速均高於國家統計局公布的7.6%的全國水平, 國內生產總值總量達到279 639.46億元,遠遠超出全國國內生產總值初步核算數248 009億元。地方數據與國家數據嚴重不一致,固然有重複計算、統計口徑差異等原因,但主要是錯誤政績觀下行政幹預的結果。
在國家統計局曝光的一起工業企業統計數據造假案件中,我們可以看到虛假數據產生的灰色鏈條。2012年,廣東省中山市橫欄鎮年報工業總產值85.1億元,經核查實際數據應為22.2億元,虛報62.9億元,是實際的3倍。鄉鎮統計員大部分是專職的數據造假員。為了把企業的底賬做到位,他們經常需要模仿企業的簽名,甚至印章。2012年,國家統計局實行“四大工程”聯網直報製度,要求所有的規模以上企業直接上報經營數據,消除以往中間環節被地方政府造假的可能。但是調查發現,橫欄鎮企業填報的數據也是由當地政府一手包辦的。企業多報就有多繳稅的風險,所以企業會要求鄉鎮寫保證書,保證上報數據和應繳納的稅收之間無關。鄉鎮有兩套表,一套表專門應對經濟統計,另一套表則是企業真實的納稅情況。一家會計師事務所的工作人員在接受《第一財經日報》采訪時透露,工業總產值、工業增加值等項目,企業都是亂填的,“企業的財務人員一般都不清楚這些概念,更別說算出準確的工業總產值了”,企業不會填,就請會計師事務所幫忙,而會計師事務所通常嫌麻煩,有時也不會細算,就亂填。除了上報失實,數據挪用現象也普遍存在,比如,預算內收入不好看,就把預算外收入的一部分通過某種操作方式變為預算內收入:某一季度情況不太好,沒有達到預定的目標,就把其他季度的數據挪過來一點兒。
在房地產市場方麵,經常出現發展改革、統計、住房建設、房屋管理、國土資源等部門在房價漲幅數據上“掐架”的現象。業內人士指出,差距如此之大不僅在於統計方法和計算方式不同,更與部門利益密切相關,各個部門都希望自己提供的統計數據成為決策的參照,以引導有利於自己的政策出台。
除了經濟數據,其他領域也存在造假情況。有媒體報道稱,公安係統的破案率、刑事犯罪率等都可能造假,比如,某市公安局要求今年刑事案件立案數不能超過某個數字,一些刑事案件就會被人為“洗白”。隨著生態文明建設力度的加強,環境監測數據摻水也成為業內的潛規則。有些地方政府在采購PM2.5等大氣環境質量監測設備時,明確說希望數據能測低一些,在確定監測點位時也刻意選擇那些空氣質量較好的地點,因此,很多環境質量監測數據與公眾的真實感受偏差較大。
數據造假現象的廣泛存在,反映了中國基層統計基礎薄弱的現實。而要遏製數據造假衝動,一方麵要改進統計方法,改革統計製度,完善幹部考核機製,加強監督檢查,嚴懲統計違法違紀行為;另一方麵應充分利用大數據思維反擊。例如,推廣數據聯網直報係統,將傳感器生成的原始數據通過互聯網直接報送全國統一的數據中心,實現各級統計機構在線同步接收、審核和共享;在不涉密的情況下,開放原始數據,並通過移動通信客戶端、信息可視化的方式及時發布數據,接受公眾監督,讓統計造假陷入“人民戰爭”中不戰自潰;培育社會化的第三方監測機構,使其參與數據信息的運行管理和質量控製。
大數據還為審核數據真實性提供了有效的手段。比如,可以給數據指標之間設定某種關聯,互相印證檢驗。例如,橫欄鎮的工業產值虛報了3倍左右,而它的用電量和能耗並沒有達到相應的規模,這種嚴重的數據異常就應該被自動識別出來。有關部門再根據警報對數據進行複核,就能更有針對性地打擊造假。事實上,相比國內生產總值,李克強總理更願意用耗電量、鐵路運輸與銀行貸款數據跟蹤中國經濟的真實情況,這3個指標也因此被稱為“李克強指數”。
不合格的數據比沒有數據更可怕。在曆史上,我們就曾因為數據浮誇和攀比使國家建設遭受了重大失誤。改革開放後,重新樹立實事求是的工作作風,才奠定了當下中國經濟與社會繁榮的基礎。可以說,真實性既是數據的生命線,也是一條不可逾越的紅線。當大數據被運用到公共管理的方方麵麵,政府的數據能力也將接受空前的考驗。
錯誤發現:數據呈現與解讀的謬誤
如果想要在龐大的數據“幹草垛”中找到一根有意義的“針”,那麼將麵臨的問題就是“許多稻草看起來就像是針一樣”。
—特來沃爾·哈斯迪,斯坦福大學統計學教授
大數據在一定程度上可以使公共管理和服務變得更加智能和高效,但大數據的集合和高密度的測量將令錯誤發現的風險增加。有時候是因為用來分析的數據質量不佳;但在大多數情況下,是因為誤用了數據分析結果。以下是數據錯誤推論的幾種常見情況,對於正確辨別和利用數據有所裨益。
第一種情況是濫用相關關係或者把相關關係與因果關係混為一談。1954年出版的《統計陷阱》一書已認識到了這樣一個現象:“在我們這個時代的任何一對數據,例如大學生的人數、心理研究機構同房間的病人數、香煙的消費量、心髒病的發病率、X光的使用次數、假牙的生產量、加利福尼亞學校老師的薪水、內華達州賭博的利潤等,都很容易顯示出正相關關係。把上麵的一個事物說成是另一個事物的成果是十分可笑的。但每天都有類似的事情發生。”大數據時代更強調數據混搭與聯想,也更容易出現荒唐的結論。
此外,把相關關係誤認為因果關係也是危險的。在穀歌上搜索了流感的症狀,不代表這個人就是流感患者,應該被隔離起來;一個地區某種疾病案例的增多,很可能是因為檢測手段更加先進,不能等同於發病率提高。然而,普通民眾很容易受誤導,從而引發不必要的社會恐慌。
第二種情況是數據隻反映了片麵的事實或者被偷換了概念。舉一個簡單的例子,美國的軍費開支是6 090億美元—相當龐大的數字,位居世界第一。但是從軍費開支占國內生產總值的比重衡量,美國就一下落到了第8位。從軍隊人數看,中國當之無愧要數第一,可是如果和人口基數相比,中國隻能排到第124位了。因此,我們需要將數據聯係起來進行對比,才能看到整個圖景,改變我們的視角,繼而改變我們的行為。
政府有關部門在報告居民生活水平時往往公布的是人均可支配收入,公眾看到這樣的數據時紛紛調侃自己“被平均”、“被增長”了,“拖了後腿”。之所以產生這樣的認識差異,原因之一是平均收入掩蓋了貧富差距,少數高收入群體把均值拉高到了一個大多數人根本達不到的水平。政府部門經常使用的另一個指標是在崗職工平均工資,它沒有把個體工商戶、進城務工人員統計在內,因而也不能反映真正的社會平均工資。此外,民眾對收入水平的感知還與消費物價有關。隻談收入,不提物價,也會使數據反映的情況失準、失衡。
第三種情況是展示數據的圖表失實,使數據結論具有誤導性。在信息可視化圖形中,設計師常常用一個錢袋或一堆硬幣表示成千上萬的錢,用一片豬肉表示豬肉的供應量。這些形象化的圖形十分吸引人,是一種有效的傳播工具,但同時它也能搖身一變蒙蔽人們的感知。
20世紀中葉,美國《新聞周刊》曾經刊登了一幅圖來表達“美國人長壽了”。圖中有兩個人,其中一個人的身高是另一個人的2倍。前者代表現代人的平均預期壽命68.2歲,後者代表1879~1889年人們的平均預期壽命34歲。這兩個人的身高之比是2∶1,其實所占據的紙張麵積之比是4∶1,體積或重量之比給人的感覺是8∶1。
即便是最簡單的折線圖,也能由於坐標軸刻度的設置,展示出截然不同的漲跌幅度;而柱狀圖在代表一種事物時,柱體的長度和寬度也可能被隨意地改動。大數據的信息可視化圖形和視頻往往比這些複雜得多,每個環節的設置都有可能導致失真,這些都對信息可視化技術提出了非常嚴格的要求,也考驗著我們辨別數據信息的能力。
第四種情況是簡單量化的方式可能掩蓋對實際意義的考量。1979年,退休的美國將軍道格拉斯·金納德寫了《戰爭管理者》。這是一部關於將軍們對越戰看法的裏程碑式的調查報告,它揭露了量化的困境。用殲敵人數評判戰爭進度、衡量戰爭成果是軍方慣常的做法,然而,隻有2%的美國將軍們認為這樣做是有意義的,2/3的人認為大部分情況下數據被一層一層地誇大了。
錯誤的前提會導致錯誤的結論。前提是否正確,這常常是一個道德與價值層麵的問題,數據不一定能給出答案。
數據盲點:關注信息時代的缺席者
盡管大數據搜集的是全體數據,不存在抽樣偏差的問題,但是數據在生成或采集的過程中並不都是平等的,大數據集存在信號問題,即數據的代表性可能存在局限,某些民眾和社區被忽略或未得到充分代表。
那些感受到大數據益處的人可能把大數據運用於不適用的領域,過分膨脹對大數據分析結果的信賴。例如,社交媒體是大數據技術催生的一個新的重要信息源。有研究表明,推特網的數據顯示人們離家越遠越快樂,而且在周四晚上最為沮喪,這個結論是非常值得推敲的。根據皮尤研究中心的調查,美國網民中隻有16%的成年人使用推特網,因而他們絕對不是一個具有代表性的樣本—與整體人口相比,他們中年輕人和城市人的比例偏高。此外,許多推特賬號是被稱作“機器人”程序的自動程序、虛假賬號或是“半機器人”係統。有估計顯示,推特上的虛假賬號可能多達2 000萬個。因此,在利用社交媒體數據時,我們得先問一下這些數據究竟是來自真人,還是來自自動化算法係統。
如果城市開始依靠僅來自智能手機用戶的信息,也將麵臨同樣的問題。能夠發布信息的市民隻是一個自我選擇樣本—它必然導致擁有較少智能手機用戶的人群的數據缺失,這樣的人群通常包括了年老和不那麼富有的市民。最終得到的不均衡數據會進一步加劇已有的社會不公,產生強者越強、弱者越弱的馬太效應。例如,波士頓的StreetBump應用程序從開車經過路麵坑窪處的駕駛員的智能手機上搜集數據,這固然是一個以低成本搜集信息的途徑,但是,這樣搜集的信息是存在偏差的,一些貧窮社區、老年社區的道路很可能會因為報告較少而得不到及時維護。
在科技迅猛發展的今天,還有很大一部分的農民和城市底層居民,他們因為各種原因而成為信息時代的缺席者,無法在網絡世界表達意見和訴求。盡管他們的意願也會由一些網民代為表達,但畢竟隻是“被代表”。社會中的弱勢群體在信息占有與表達上也處於弱勢,城鄉差異、地域差異(方言差異)、年齡差異、教育程度差異、收入差異、職業差異等,無時無刻不在製造數據鴻溝。
此外,中國不同地區使用數字技術的程度也不同:東部沿海城市數字化程度相對來說比較高,而中西部地區數字化程度較低。無論是網絡人口還是信息化設施,東部地區都大大領先於中西部地區。經濟社會發展的不均衡與數據話語權的不平等相互作用,可能會使中西部地區追趕的進程更為艱難。
在中國,數字鴻溝造成的差別正在成為繼城鄉差別、工農差別、腦體差別這三大差別之後的第四大差別,其本身已不僅僅是技術問題,而正在成為社會問題。隻有確保人們能夠平等地享用現代通信和網絡基礎設施,擁有大體平等的教育機會,才能使這些問題得到解決。
總之,要運用好大數據,首先要保證數據的真實性,要對數據進行科學的解讀;其次要縮小數字鴻溝,主動關注那些被數據遺忘的地區和人群;最後,政府官員必須對數據及其局限性有充分了解。凱特·克勞福德在《對大數據的再思考》中有這樣一段深刻的表述:“數字無法自己說話。不論其規模有多大,數據集歸根到底是人類設計的產物,而大數據並不能使人們擺脫曲解、隔閡和錯誤的成見。當大數據試圖反映人類所生活的社會化世界時,認清這些因素就尤為重要。偏見和盲區存在於大數據中,從大數據得出的結論並不比人為的意見更客觀。”
信息安全:個人隱私與國家安全的威脅
英國《金融時報》分析,大數據時代剛拉開序幕,它有很多讓人驚歎的地方,但要愛上它,還需要時日,因為它呈現給人類未來的是一幅既美麗又可怕的圖景。
在大數據時代,無論公民個人,還是一個國家,都時刻暴露在“第三隻眼”之下,個人隱私與國家安全都麵臨著前所未有的威脅。與此同時,大數據的分析與使用,顯然無論對個人(如跟蹤健康狀況防範疾病)、對企業(如了解市場偏好以有效處理庫存),還是對國家(如防範疫病或防止恐怖襲擊)都有難以被取代的好處,因此,如何在激發大數據創新性利用的同時,兼顧安全與自由、國家利益與個人隱私,成為高難度的爭議性問題。
“棱鏡門”事件:山姆大叔在窺探你
2013年6月5日,英國《衛報》發表文章稱,美國國家安全局有一項代號為“棱鏡”的秘密項目,要求電信巨頭威瑞森公司必須每天上交數百萬用戶的通話記錄。一天之後,美國《華盛頓郵報》披露,在過去6年間,美國國家安全局和聯邦調查局通過進入微軟、穀歌、蘋果、雅虎等9大網絡巨頭的服務器,監控美國公民的電子郵件、聊天記錄、視頻及照片等秘密資料。6月7日,正在加州聖何塞市視察的美國總統奧巴馬公開承認該項目的存在。由此,這項由美國國家安全局自2007年起開始實施的絕密電子監聽計劃浮出水麵。“棱鏡門”事件強烈地觸動了全球民眾的神經,引發民眾對於政府侵犯個人隱私、個人自由的極大擔憂。就在“棱鏡門”被曝光後的幾天內,英國作家喬治·奧威爾寫於1949年的反極權小說《1984》銷量一路飆升,在暢銷書排行榜上高居不下。
“棱鏡門”的揭露者是美國中央情報局前職員愛德華·斯諾登。他就像《皇帝的新衣》裏的那個小孩子,揭開了大家心知肚明的網絡監控秘密。隻不過,隨著“棱鏡門”的公開,大家驚訝地發現,美國的網絡監控在大數據盛行的今天已經走得那麼遠、那麼快。
美國的網絡監控已經具備了大數據時代的顯著特征,主要搜集的不是電話或郵件內容,而是把通話或通信的時間、地點、設備、參與者等元數據作為監控對象。舉例來講,如果恐怖分子用電子郵件相互聯係,那麼元數據就是指他們之間的發信時間、地點、設備、頻率等基本信息。以往,這樣的信息往往被認為沒有多少價值,情報部門會把精力放在搜集信件內容上,但是,現在具備海量數據存儲與分析能力之後,這些龐雜的信息經過超級計算機的快速運算,會顯露出不易察覺的規律,從而提供有效的情報信息。
美國猶他州南部的鹽湖城是美國國家安全局一處數據中心的所在地。美國《星島日報》稱,在這個占地約10萬平方米的建築群裏,安放著棱鏡項目的主服務器。這裏的計算機能夠儲存至少50億千兆字節的數據,單是冷卻服務器消耗的能源每年就要耗資4 000萬美元,而整個棱鏡項目耗資約20億美元。
“棱鏡門”事件不僅在美國國內愈演愈烈,在歐洲也引發不小震動。歐盟官員表示,美國此舉可能侵害歐洲公民的基本權利,並影響未來美歐合作。奧巴馬辯解,情報機構的工作是“為了更好地認識世界”,對盟國進行監控在國際關係領域“並沒有什麼不尋常”;美國國務卿克裏則稱,監控是出於國家利益考慮,“各種各樣的情報對維護國家安全都有好處”;白宮新聞發言人也表示,備受爭議的監控舉措“是讓國家免受恐怖威脅的重要手段”。
然而,正如斯諾登在接受《衛報》采訪時所言:“你什麼錯都沒有,但你卻可能成為被懷疑的對象,也許隻是因為一次撥錯了的電話。他們就可以用這個項目仔細調查你的過去,審查所有跟你交談過的朋友。一旦你連上網絡,就能驗證你的機器。無論采用什麼樣的措施,你都不可能安全。”斯諾登說:“我願意犧牲一切的原因是,良心上無法允許美國政府侵犯全球民眾隱私、互聯網自由……我的唯一動機是告知公眾(政府)以保護他們的名義所做的事以及針對他們所做的事情。”
隱私保護:尋找新的製衡機製
在大數據時代之前,民眾能以保密的方式保護隱私,但今天,采集個人數據的工具就隱藏在我們日常生活所必備的工具當中,我們的每一個行為都透露了一定的個人信息。
信用營銷分析專家張川講述了這樣一則既有趣又可怕的經曆:他的一位朋友的父母要去美國探望他,國內親戚兩個月前把老兩口的航班信息發到這位朋友的Gmail(穀歌的郵箱服務)裏。原定航班到達的當天,Google Now(穀歌應用程序,可全麵分析用戶的習慣和動作,並為用戶提供相關信息)居然自動搜尋出這個航班因故取消,一大早給他朋友發提醒信息。接到提醒信息的人不用白跑一次機場去接機,但也突然發現原來自己的一舉一動都被網絡巨頭監控。
即便是最無害的數據,隻要數據搜集器采集到足夠的量,也會暴露出個人身份與行為。例如,在美國和歐洲部署的一些智能電表每6秒采集一個實時讀數,這樣一天所得到的數據比過去傳統電表搜集到的所有數據還要多。而每個電子設備通電時都會有自己獨特的“負荷特征”,比如熱水器不同於計算機,而它們與大麻生長燈又不一樣,所以能源使用情況就能暴露如一個人的日常習慣、醫療條件和非法行為等個人信息。
即便所有能揭示個人情況的信息都不出現在數據集裏,比如名字、生日、住址和信用卡號,隨著數據量和種類的增多,就能通過對數據內容的交叉檢驗做出精準的推測。在這一點上,我們是沒有差別的,世界上最富有的1%的人的個人信息和普通人的信息一樣,非常容易被公開。
告知與許可曾經是世界各地執行隱私政策的共識性基礎,它強調數據搜集者必須告知個人,他們搜集了哪些數據、做何用途,也必須在搜集工作開始之前征得個人同意。但是在大數據時代,這種傳統的隱私保護策略已經失效了。因為很多數據在搜集時並無意用於他處,而最終卻產生了很多創新性的用途。大數據所提取的一些個人信息可能連本人都不完全熟知,比如個人的行為特征、語言風格和社交網絡。所以,公司無法告知個人信息將被用於何處,而個人亦無法同意。如果要求穀歌在使用檢索詞預測流感之前征得數億用戶的同意,那簡直是不可能完成的任務。
在大數據時代,隱私保護問題已經突破傳統的法律界限。我們需要設立一個不一樣的隱私保護模式,這個模式應該著重於數據使用者為其行為承擔責任,而非取得個人許可。政府不應假定消費者在使用企業的通信工具等產品時主動透露了自己的隱私,就意味著他們授權企業使用,而是應當要求保存和管理信息的企業承擔更大的責任。使用數據的公司要基於其將對個人產生的影響,對涉及個人數據再利用的行為進行正規評測,規避或者減輕潛在傷害。敷衍了事的評測和不達標準的保護措施將使企業承擔法律責任。
政府也應當對自身的數據監控行為采取更透明的態度。在國際、國內輿論的強大壓力下,2013年8月,奧巴馬在白宮召開媒體見麵會,提出若幹整改措施以增加美國國家安全局及其他情報機構監視項目的透明度。他表示,美國國家安全局將指定一位隱私和民權官員,以保護公民的隱私和自由;包括美國國家安全局、中央情報局在內的美國情報機構將建立一個新網站,提供有關這些機構活動的更多信息;白宮正在組建一個獨立的顧問團體,由外部專家組成,這些人將被授權檢查政府的監視活動,定期發布公開報告;白宮還將與國會合作改革涉外情報調查法院,這一秘密法庭的裁決需要交由聽證會審議。上述這些承諾如何兌現還有待觀察,但新的製衡機製已經呼之欲出。在更加開放的社會環境中,重塑保護個人信息的法律規範與行業道德,引入更多的監督和約束,提高透明度,是個人隱私保護的必由之路。
你肯賣自己的數據嗎
在大數據時代,我們每個上網的人都逃不開隱私數據被搜集的問題。
“與其讓那些大公司販賣我的數據賺錢,倒不如我自己把自己給賣了。”近日,紐約一位軟件開發者費德裏科·詹尼爾在眾籌平台Kickstarter上發起了一個名為“A Bite of Me”的項目,在網上出售自己的私人數據,起價1美元。
關於商品說明,他這樣寫道:“去年廣告產業賺了300億美元,他們在用我的數據賺錢,我卻一毛錢都沒拿到。如果大家都像我這樣做的話,那些商家就會直接向我們購買私人數據了。”
從2013年2月起,詹尼爾開始搜集自己所有的數字軌跡,在短短3個月內,就積攢了超過7GB的隱私數據。購買者花一點兒錢,就可以得到一個數據包,裏麵包含了詹尼爾最少相當於一天分量的數字軌跡。例如,花2美元,你可以得到70個網站記錄、500張屏幕截圖、500張視頻截圖、一份GPS數據、一份應用程序使用記錄,外加所有的鼠標運動軌跡。
截至2013年5月,已經有85人購買了詹尼爾的私人數據,銷售額共1 069美元,換算下來,每GB數據價值接近1 000元人民幣。
數據獨裁:呼喚政府對公民權的救濟
大數據如果應用得當,會是合理決策的有力武器;倘若運用不當或者出現數據分析錯誤,就可能變成數據獨裁的武器,輕則傷害某個群體的利益,重則損害公民的人身安全。
群體歧視:無法抗爭的社會標簽
大數據的倡導者認為,大數據對不同的社會群體不會厚此薄彼,其理由是,對原始數據的分析是在大規模水平上進行的,因而避免了基於群體的歧視。但克勞福德認為,實際情況並非如此。由於大數據能夠做出有關群體不同行為方式的論斷,而且其主要目的是把不同個體歸入不同的群體中,因此,大數據不僅不會避免群體歧視,還可能加劇這一趨勢。
穀歌和臉譜網的核心理念是,人就是社會關係、網上互動和內容搜索的加和。所以,隻要得到關於這個人的這些數據,就能對他的各項特征做出判定。
最近,英國劍橋大學的米哈爾·科辛斯基等研究人員開發了一個數學模型,可以根據5.8萬位美國臉譜網用戶的“讚”記錄推測用戶極其敏感的個人信息,如性取向、種族、宗教和政治觀點、性格特征、智力水平、快樂與否、年齡及性別等。記者湯姆·福爾姆斯基這樣評價該研究:“此類容易獲得的高度敏感信息可能被雇主、房東、政府部門、教育機構及私營組織用來對個人實施歧視和懲罰,而人們沒有任何抗爭的手段。”凱業必達招聘網站的調查數據表明,約有37%的公司會在做出最終錄用決定之前,通過網絡社交媒體進一步審核備選者。
群體歧視現象在金融保險、安全檢查、醫療記錄等經濟社會的各個領域都普遍存在。例如,保險精算表上指出,超過50歲的男性更容易患前列腺癌,所以如果你不幸正好處於這個年齡段,就需要支付更多的保險費,即使你根本沒有得過這種病。沒有高中文憑的人更容易償還不起債務,所以如果你沒有高中文憑,就可能貸不到款或者必須支付更高的保險費。有些人在通過安檢時可能需要進行額外檢查,僅僅因為他帶有某種特定的特征。美國馬薩諸塞州參議員特德·肯尼迪就曾因為與美國禁飛名單中的某個人名字相同而被逮捕、拘留並接受調查。
當然,我們也能通過大數據獲取更加詳盡的個人信息,以印證預測結果,規避將群體特征直接強加於個人的風險。例如,一個用現金購買頭等艙單程票的阿拉伯人,隻要其他數據表明他基本沒有恐怖主義傾向,就不會再被認為是恐怖分子而接受額外檢查。但是,這樣做的結果是進一步擴大了歧視的維度,誘使我們想盡辦法把數據采集得更多、存儲得更久、利用得更徹底。而一旦在隱私和預測方麵對大數據管理不當,後果將不堪設想。
基於數據的群體歧視,是對公民基本人權和社會公平正義的侵犯,可能會造成非常嚴重的後果。舍恩伯格在《大數據時代》中曾指出,20世紀,我們見證了太多由於數據利用不合理所導致的慘劇。比如1943年,美國人口調查局遞交了地址數據來幫助美國政府拘留日裔美國人(當時它沒有提交街道名字和具體街號,居然幻想著這樣能保護隱私);荷蘭著名的綜合民事記錄數據則被納粹分子用來搜捕猶太人;納粹集中營裏罪犯的前臂上刺青的5位數號碼與IBM的霍瑞斯穿孔卡片上的號碼是一致的,這一切都表明,數據處理幫助實現了大屠殺。
行為預測:未來罪責判定的隱憂
大數據有利於我們預見未來的風險,從而在損害發生之前采取相應的措施。美國30多個州的假釋委員會正在使用數據分析決定是釋放還是繼續監禁某人。越來越多的美國城市都采用了“預測警務”,即通過大數據分析決定哪些街道、群體、個人需要更嚴密的監控。這些做法幫助司法、執法部門更好地分配其有限的資源,但是也造成了差別化執法。正如美國某位警察局局長撰文指出的,盡管預測性警事登記係統不考慮種族和性別等因素,但是如果缺乏對差別化影響的考慮,使用這種係統的實際結果可能“會導致警方與社區關係惡化,讓公眾產生司法程序缺失的感覺,引發種族歧視指控,並使警方的合法性受到威脅”。
通過預測來預防犯罪,最終要精準到誰會犯罪這個級別,這是大數據的新用途。美國國土安全部正在研發一套名為“未來行為檢測科技”的安全係統,通過監控個人的生命體征、肢體語言和其他生理模式,發現潛在的恐怖分子。美國國土安全部聲稱,在研究測試中,係統檢測的準確度可以達到70%。盡管這些研究還處於早期階段,執法者和監管部門還是給予高度重視。用大數據預防犯罪很可能導致對未來罪犯的懲罰,因為如果隻是阻止了犯罪行為而不采取懲罰措施的話,他就可能因為沒有損失而再次犯罪;如果我們因為他未實施的犯罪行為而懲罰他的話,可能就會威懾他。