彼得森國際經濟研究所丨強推數據共享,打破互聯網壟斷
2019年05月17日12:17

原標題:彼得森國際經濟研究所丨強推數據共享,打破互聯網壟斷

【編者按】

本文第一作者克勞迪婭•比安科蒂(Claudia Biancotti)自2002年起供職於意大利中央銀行,現任該行國際經濟與國際關係部高級經濟學家,並自2008年10月起擔任美國彼得森國際經濟研究所訪問學者。主要關注技術公司監管,側重競爭政策對人工智能發展的影響。

本文認為,數據集中對集體安全、消費者權利和競爭構成負面影響,而推行強製性的數據共享,即要求市場領袖企業與其他公司和學術界共享用戶數據將對競爭帶來正面影響。但另一方面,數據共享可能加劇已有的消費者隱私風險和集體安全風險,推動強製性數據共享的決策者應權衡利弊得失。

本文原題“Opening Internet Monopolies to Competition with Data Sharing Mandates”,是彼得森國際經濟研究所2019年4月發佈的一份政策簡報(Policy Brief 19-3)。

彼得森國際經濟研究所(Peterson Institute for International Economics,PIIE)是一家美國的私立、非營利智庫,1981年創辦,位於美國首都華盛頓。據美國賓夕法尼亞大學“智庫與公民社會項目”(TTCSP)2019年1月發佈的《全球智庫報告2018》(2018 Global Go To Think Tank Index Report),彼得森國際經濟研究所在“全球頂級智庫(美國和非美國)”分類排名中列第12位。

以下是對該文主要觀點的摘譯,具體技術細節請參考原文。文中觀點只代表作者個人,請讀者明察。

體量空前的數據為何重要

2009年,來自普林斯頓大學的一個計算機科學家小組發佈了ImageNet,這是一個最初包含320萬張數碼圖片、代表大約5000個真實物體的數據庫。機器終於能用足夠的數據去理解不同物體的外觀,這標誌著計算機視覺技術的轉折點。到2015年,計算機在對象識別任務中的表現超過了人類。

ImageNet拉開了機器學習飛速發展的序幕,這是一種基於算法的人工智能,它通過觀察樣本推導出決策規則。機器學習模型需要大量數據,儘管早在20世紀50年代其數學基礎就已奠定,但數十年來,數據的缺乏阻礙了模型應用。互聯網和經濟數字化的發展使得越來越多的數據可供研究人員和公司使用,機器學習變得司空見慣。

隨著時間的推移,人工智能已從諸如區分靜態物體這樣的簡單任務逐步發展至更為複雜的應用,這進一步增加了數據之於技術、社會和經濟進步的重要性。

經濟合作與發展組織(OECD)已將數據驅動型創新定義為“21世紀經濟增長的關鍵支柱”。

相較其競爭對手而言,GAFAM(指Google、Apple、Facebook、Amazon、Microsoft五大科技巨頭——譯註)享有顯著的數據優勢。儘管這些公司之間在所收集數據的具體變量集方面存在差異,但它們大多掌握用戶的以下信息:個人識別信息,包括身體特徵、社交聯繫、地理位置、職業;信仰、觀點和偏好;線上行為,可能包括瀏覽過的網頁、購買的產品、花費的金額、點擊的鏈接、看過的視頻,以及進行的搜索。將例如實體店信用卡使用記錄這樣的線下活動,與線上行為打通結合的數據收集越來越普遍。

數據集中的風險

與數據集中相關的首要風險涉及集體安全。

所有計算機系統都註定存在技術漏洞,而一心要利用漏洞發動網絡攻擊去獲取利益或實現戰略目標的敵對行動方數量龐大。因它們擁有的數據價值連城,以及為其他經濟活動提供服務,GAFAM成為網絡攻擊的頭號目標。

GAFAM擁有的數據若遭大規模泄露,破壞力將遠超過人們所理解的侵犯隱私。

涉及針對商業破壞的黑客攻擊時,損害也會遠超直接受害者所承受的損失。網絡攻擊的負外部性是明顯的。

在這方面,GAFAM和社會上其他公司的利益是一致的:它們都希望避免遭遇攻擊。

涉及數據和集體安全之間的另一種關聯時,即敵對行動者可以利用GAFAM幾乎無所不在的觸角以及它們基於機器學習的洞見去操縱公眾輿論,情況就更複雜了。

到目前為止,整個行業主要依靠自律。特別是在美國,立法者一直在發出含混的信號:他們從聽證會和公眾討論中聽到了對GAFAM的指控,即這些巨頭給信息操縱提供了便利,甚至在這一過程中為達到自身目的而扮演了積極角色,但他們沒有做出任何政策回應。

問題很難解決,這尤其是因為,在線上平台的語境下,說服他人(包括在政治活動中)的合法企圖和惡意歪曲信息之間的界限,很難以具有法律意義的方式劃出。此外,旨在管控發佈內容的法律往往會引發審查方面的顧慮。

越來越多的證據表明存在數據驅動的誤導信息,在這種情形下,無論對GAFAM自身還是對社會來講,不作為的代價都是高昂的。公眾對網絡平台的信任崩塌,出現這樣一個轉折點是可能的。懷疑會蔓延到其他數字環境,致使人們放棄一些新技術,進而對生產力和經濟增長造成損害。

與數據集中相關的第二個風險涉及消費者權利。

企業獲取和使用由個人提供及與個人相關的數據時產生的部分問題由消費者保護法處理。在這種情況下,企業規模不是問題:無論擁有多少消費者,所有數據收集者都需要遵循相關法律。然而,在仍然存在的很多灰色地帶,由於GAFAM的決定影響著數十億人,它們毫無疑問是標準的製定者。

隱私作為已經達成了一些共識的一個領域,被定義為個人通過限製誰可以獲取特定信息來區分私人和公共領域的能力。大多數OECD國家已經就隱私問題製訂了法律,或正在進行立法。相關的立法基於如下理念:公司收集的個人數據在使用、共享和出售時須徵求該人同意。在美國,儘管對這一做法的有效性存在重大疑問,聯邦層面也依舊沒有隱私法,但一些進程正在推進當中。

另一方面,提供數據的個人和從數據中挖掘收益的公司之間在力量和信息方面的不對稱問題尚未得到廣泛解決。GAFAM的普遍做法是免費提供數字服務以換取用戶數據,但經濟學家們質疑這樣的條件是否公平地反映了信息的價值。

數據驅動的歧視是另一個值得關注的問題。

監管機構難以查明形式更微妙的算法偏見,在這種偏見作用下,族群、性別、年齡和宗教等變量都可能被不恰當地當作決策因素,而且找到證據非常困難,因為在黑箱模型中,這些變量會與其他變量混淆。

最後,數據集中會給公平競爭帶來風險。

數據賦予GAFAM競爭優勢的最明顯渠道,是可以運用機器學習算法得出更準確預測。這將影響到:(1)旗艦產品市場,和(2)其他產品市場。

GAFAM的競爭優勢會延伸到技術發展方面,這一事實通常沒有被注意到,但從長遠看意義更為重大。機器學習是狹義人工智能(narrow artificial intelligence, NAI)或者說能力局限於完成專門任務的人工智能的一個範例。下一步有待實現的,是像人類一樣具備創造力和靈活性的機器推理[即通用人工智能(artificial general intelligence, AGI),也稱強人工智能(strong AI)]。就通用人工智能未來可以走多遠,以及狹義人工智能如何逐步向通用人工智能發展,計算機科學家的意見並不統一。

但無論如何,更多數據可能有助於GAFAM比其他競爭對手更快開發通用人工智能。此外,它們與頂尖研究機構一樣更能吸引到數據之外的必要補充資源——科學人才。

經濟學理論假定,無論是在產品市場還是研究中,競爭優勢的存在本身都不是負面的。在一段時間內擁有市場支配力並獲得利潤的前景,是激勵企業創新的一種動力。但當占主導地位的公司排斥潛在競爭對手時,問題就出現了。

牢固的市場支配地位可能導致消費者面臨永久獨占性定價(supracompetitive prices)和/或質量下降。也可能導致創新減少,因為占主導地位的公司不必投資就可以享受租金,但這一論點是否適用於GAFAM,目前仍無清晰證據。

強製性數據共享

2018年8月,德國社會民主黨領袖安德莉亞•納勒斯(Andrea Nahles)提出的立法倡議要求,超過一定規模的數字公司與公眾共享其擁有的部分代表性用戶數據。她認為,數據共享將為規模更小的公司開闢新的機會,減少不平等並促進經濟增長。

此前幾個月,《經濟學人》雜誌也曾提出過一個略有不同的方案,建議技術市場的領袖企業有償向競爭對手提供部分用戶數據。

在一篇刊登於《外交事務》雜誌的文章中,牛津大學互聯網治理專家維克托•邁爾-舍恩伯格(Viktor Mayer- Schönberger)和科技新聞記者托馬斯•拉姆什(Thomas Ramge)提出了更為激進的版本:“……系統收集和分析數據的每一家一定規模以上公司,都必須允許擁有同樣市場準入的其他公司獲取其數據的子集。某家公司的市場份額越大,其允許其他公司看到的數據就應該越多。”

呼籲實行強製性數據共享(data sharing mandates, DSMs)以一種新穎且更全面的方式反映了,在競爭政策製訂過程中,人們對個別公司壟斷關鍵資源長期存在的擔憂。

2008年,美國司法部批準了金融數據提供商加拿大湯姆森公司(Thomson Corporation)和英國路透集團(Reuters Group)的合併,條件是湯姆森集團將其三個專有數據庫的副本和相關知識產權出售和授權給會在與合併後的實體展開競爭時運用這些數據提供產品和服務的某一家或者幾家公司。司法部認為,一家公司獨享數據庫“可能導致價格上漲和創新減少”。歐盟委員會對該併購案也給出了類似的結論。

在湯姆森路透合併案中,數據的競爭相關性是簡單直接的,因為合併雙方都屬於銷售數據的商業領域。競爭監管當局飽受研究文獻的批評,研究者們指責,它們在ImageNet取得突破後的最初幾年間,在一些案例中未能權衡數據集中的潛在反競爭效應:這些案例中的公司沒有出售數據,而是將數據作為投入資源,生產出其他產品。

如今,在歐盟和美國的合併審查中,這一側面已成為例行考慮。2019年初,在一起涉及互聯網巨頭的反壟斷裁決中,“將數據作為投入資源,生產出其他產品”首次成為一個關鍵因素,當時,德國競爭監管機構禁止臉書(Facebook)在未得到用戶同意的情況下關聯不同服務之間的數據,並明確將此舉定義為濫用市場支配地位行為。

強製性數據共享要求公司對競爭對手銷售數據,而不是免費給予,這也可被視為是關鍵設施原則(essential facilities doctrine)的一種應用。該原則認為,假如一家公司獨家控製一項關鍵設施,而該設施對能在下遊市場與之形成有效競爭的其他公司不可或缺,那麼該公司就有義務以合理價格交換這項設施的準入許可。儘管在法律學者中該原則頗受爭議,但在美國和歐盟的反壟斷法庭上,它依舊是諸多決策因素之一。

在應對數據集中負面影響的眾多可能措施中,強製性數據共享顯得特別有意義,因其目標是壯大可以從信息中獲取價值的經濟參與者的隊伍,同時不會過分約束現有企業。

在所有競爭問題上,政策製定者都必須力求取得微妙的平衡。他們必須打擊濫用支配地位的行為,防止市場中的領袖企業自滿,確保公平條件下的市場準入是可能的,以及必須持續創新以保持優勢。同時,他們必須避免採取那種被認為粗暴隨意的利益再分配措施,因為這可能打擊市場領袖企業和新興企業的投資。

對GAFAM而言,尋求這種平衡尤為重要。鑒於這些公司具備創新能力,並在數字經濟中扮演著準基礎設施(quasi-infrastructure)的角色,錯誤的激勵組合可能嚴重削弱技術進步的整體速度,最終損害經濟增長。此外,基於互聯網的服務市場正在逐步全球化,但在一些司法管轄區向外國供應商開放市場準入的同時,也有地區實施了限製。美國和歐盟製定的任何旨在遏製GAFAM支配地位帶來的負面效應的政策干預或執法策略,都應考慮到平等競爭環境的缺失。當下市場準入的不對稱性不應有利於那些源自封閉市場的玩家。

政策權衡

如果僅依據潛在的競爭優勢進行評估,強製性數據共享本質上是不錯的,儘管在應用範圍上受到一定程度的限製。相關要求將使得更多企業有可能在依靠分析人類行為的廣泛領域中收穫基於機器學習的見解,或是改進已有的見解。

設計、生產和營銷選擇都將得到提升,整體經濟表現也將得到提升。

然而在競爭事宜之外,強製性數據共享並不是一個明確的積極解決方案。一個關鍵問題是隱私保護。在包括歐盟和加州在內的多個管轄區內,未經數據主體同意,企業向第三方共享其收集的個人數據是違法的,而共享匿名數據是合法的。

假設立法者並不介意為推動數據共享而放棄通行的數據保護法規,那麼任何強製性數據共享舉措都必定需要獲得數據主體同意才能共享可識別信息,或是只能共享匿名數據。

依賴用戶同意是極成問題的。個人對隱私的偏好差異很大,難以衡量,有時甚至是矛盾的。

鑒於更小型公司的保護標準與大公司相比通常更弱,增加能接觸到個人信息的實體的數量一樣會增加歧視的機會和黑客攻擊的風險。進而,即使共享的所有參與方都遵守數據保護法規,這樣的共享仍威脅到用戶隱私和集體安全。

此外,共享個人身份識別符(personal identifier)的要求,使得強製性數據共享對GAFAM來說成本太過高昂。

假設機器學習算法的目標是要預測某個人喜歡什麼樣的新音樂,那麼它不必知道該人的姓名,有關人口統計、位置和聆聽習慣的匿名信息已經足夠。但如果廣告商希望向特定的個人推廣唱片,他們就必須獲取他/她的個人信息。

強製共享不含身份信息的數據,令新興企業得以運用機器學習,由此可以促進競爭,但不會立即破壞GAFAM獨占的市場影響力。出於這些原因,強製性數據共享理當要求相關企業在共享數據之前對那些數據進行匿名處理。但需要注意的是,這個方案仍遠不能消除風險。

離群值移除或有限數據屏蔽(data obfuscation),在傳統統計學調查中已被證明是進行匿名化處理的成功方法,但在數據庫巨大、複雜且高粒度的新環境下,這一類方法表現並不好。利用多種技術,這些數據庫特別容易重新識別出數據主體。(粒度,是指數據庫的數據單位中保存數據的細化或綜合程度的級別——譯註)

就如何更好地防範這一可能並生成保護隱私的人工合成數據,相關研究正取得進展。相應地,因企業在機器學習方面已有嚐試,這可以減少企業對大量用戶數據的依賴,進而在一定程度上推動所謂機器學習的“民主化”。(民主化,意指減少準入障礙,對更大社區開放——譯註)

然而,未來仍有很長一段距離要走。

任何基於匿名化處理的強製性數據共享都意味著要在隱私保護與信息的經濟價值之間進行權衡。而經刪除和處理的信息,其經濟價值會減少,因此這一權衡需要仔細評估。如何確認哪些信息在經濟上最有價值,當前的知識經驗仍非常有限,有待拓展。

在設計政策糾正數字經濟中的力量不平衡問題時,競爭與隱私之間的權衡並非唯一考量。培育數據市場,讓信息回報在這樣的市場中在消費者和企業之間進行更公平的分配,從理論上講是有價值的目標。這一目標,或許可以通過實施恰當的強製化數據共享規範或不同的舉措來實現。

另一方面,安全風險可能浮現。如果個人能夠通過出售自己的數據獲益,那麼遭泄露信息的數量可能增加,能夠獲取信息的參與方也可能增加。在一個開放的數據市場上,GAFAM不會是唯一的可能買家:任何使用機器學習或希望拓展其業務的企業都會表現出購買興趣。為防止敵對行動者冒充合法企業並批量購買個人數據,保護措施是必要的。

(本文由鄭永妍摘譯 )

關注我們Facebook專頁
    相關新聞
      更多瀏覽