除了被「偷聽」 聲音還可以「出賣」你更多
2019年03月30日07:39

  相關新聞:

  "偷聽"無需太高技術門檻 網友:為何阿里系App最懂我?

  隔屏有耳 記者耗時3個月測試:美團餓了麼是否在偷聽

  來源:IT時報

  來源:The Verge

  原作者:Angela Chen

  編譯:李蘊坤

  此前,《IT時報》進行了一系列關於餓了麼、美團等App可能存在“偷聽”現象的報導。對於電商類、資訊類、音樂類等App來說,“監聽”得來的隱私信息或許更有助於實現為用戶精準推送。不同於上述的“隔屏有耳”,語音分析的研究重點並不在於一個人說了什麼,而在於他們是怎麼說的:語調、語速、重音和停頓。其中的訣竅就是機器學習。

  Angela Chen的這篇報導告訴我們,聲音是高度私密的信息,難以造假,裡面潛藏著關於人類心理健康和行為的奧秘。

  以下為編譯全文:

  又到還款日了,這個月的銀行貸款不會拖吧?

  這裏還有更貴的產品,他會買嗎?

  招聘結束了,這個面試者是不是最佳人選呢?

  不用你絞盡腦汁,Voicesense都會告訴你答案。這家來自以色列的預測分析方案供應商對客戶作出了一個有趣的承諾:如果將一個人的聲音交給我們,我們就能預測出他將會做什麼。而他們判定個人行為的方法就是對通話進行實時語音分析。

  然而,這並不是唯一一家正在借助語音“解剖”用戶的公司。最近幾年,研究人士和初創企業都在積極挖掘可以從聲音里提煉的秘密。譬如亞馬遜的高人氣家庭語音助手Alexa,消費者都感到對話越來越輕鬆。英國調研機構IdTechEx的報告指出,至2029年,語音技術有望開拓出155億美元的巨大市場。

  “每個人都會說話,並且有的是設備來捕捉你說過的話,無論是通過你的手機,還是Alexa與Google Home這樣的智能家居設備。”麻省理工學院(MIT)麥戈文人腦研究院首席研究科學家Satrajit Ghosh表示,他本人還對語音分析在心理健康上的應用很感興趣,“聲音無所不在,像一道水流橫跨生活。”

  但是,只是“無所不在”而已嗎?

  聲音是高度私密的信息,而且難以造假。用戶在使用語音日誌App(如Maslo)的過程中,並不會避諱關於自己的隱私話題。現在,雖然許多人已經意識到推特和Instagram上的推文將會受到監控,但很少有人覺察到聲音也是另一種形式的隱私數據,會將他們“出賣”。

  (場景)

  小白:“這首歌叫什麼名字?”

  小黑:“愛的供養,再問自殺。”

  單憑這種對話方式,就知道所謂的自殺不過是一句調侃。倘若真的有類似的蛛絲馬跡,恐怕只有算法能加以準確地“畫像”。

  打個比方,選取兩組人群作為樣本,分別劃作“焦慮”人群和“非焦慮”人群,再由算法來對他們的語音數據進行分析。算法能夠抓取到言談之間的微妙信號,進而指出這個人是來自“焦慮”組還是“非焦慮”組。即使將來換成其他類型的樣本,算法也能依樣畫葫蘆地作出分類。

  當然,不排除有些時候,算法得出的分析結果可能是“反直覺”的,卡耐基梅隆大學計算機科學家Louis-Philippe Morency如是說,他本人發起的SimSensei的項目就有靠聲音來探測抑鬱症的功效。譬如在一些早期研究中,Morency的團隊就致力於探索語音特徵與二次自殺傾向的關聯性。他們發現恰恰是那些說話更輕柔,聲音像呼吸一樣微弱的人,比緊張、憤怒的人更有可能嚐試二次自殺。不過,這還只是初級階段的研究,往後的關聯性會更加複雜。

  研究員已經建立了用聲音來甄別帕金森綜合徵(PD)與創傷後壓力心理障礙症(PTSD,又名重大打擊後遺症)的算法。對大多數人來說,語音分析技術最大的前景就在於和心理健康之間的交集,並且有希望幫助到那些有“故態複萌”之險的人。

  在醫院里,存在心理問題的病人一般會活在密切的監視之下,但Digital Behavioral Health(數字行為健康)項目的發起人David Ahern指出:“許多和心理問題有關的病症都是在日常生活中爆發的。”因為離開監控後,日常生活給人帶來的折磨更緩慢且微妙。Ahern認為,有過抑鬱史的人們回到日常環境後,通常意識不到自己有再度抑鬱的可能。

  “等病人被送進急救室,那程度就不亞於小馬衝出馬廄了。”Ahern評價道,“從概念上講,(語音分析)相當於在口袋里裝上傳感器,能夠監測與病症相關的人類行為,可以看作一種早期預警系統。”

  此外,Ahern還是心理健康監測系統CompanionMx臨床試驗的首席調查員,病人可在其App上錄製語音日記。項目將結合呼叫記錄與位置等元數據對日記進行分析,再根據4項因素為病人打分——低落感、缺乏興趣感、迴避感和疲憊感。這些信息會在受到聯邦隱私法HIPAA保護的前提下被分享給病人,同時也呈現在醫生的管理控製台中,作為關注病人行為之用。

  距今七年來,CompanionMx已經在超過1500位病人身上測試過上述產品,其首席執行官Sub Datta表示。項目試點期間,95%的病人每週至少使用過一次語音日記。醫生則至少每天登錄一次管理控製台。這些都是非常有前景的數據,儘管Ahern仍在質疑哪些部分的數據可以提供最大的幫助。是App本身?病患反饋?醫生建議?還是兩者綜合考量?

  語音分析的“夢想島”:銀行、保險、投資、HR

  “我們能提供健康行為、工作行為和娛樂行為的預測。”跳出醫療圈,Voicesense在商業場景上也有遠大理想。大多數情況下,大家對語音分析的商用聯想還停留在改善呼叫中心代替客服工作的階段,“如今我們能夠生產更完整的個人檔案,”CEO Yoav Degani表示,他可不止將技術寄希望於討好那些難搞定的顧客——貸款違約預測、保險理賠預測、投資風格預測、求職者評分體系、員工離職預測。

  “我們的判斷並非100%精準,但是在大部分情況下,得出的結果都是正確的。”Degani表示,“我們能提供健康行為、工作行為、娛樂行為等等方面的預測。”

  舉個例子,在Voicesense與一家大型歐洲銀行的測試案例中,銀行提供了上千位債務人的語音樣本(註:銀行已知曉其中哪些人有違約記錄)。Voicesense針對這些樣本運行了自己的算法,並將債務人劃歸為低、中、高風險三類。根據某次分析得出的結果,低風險人群中的逾期比例僅占6%,而高風險人群的違約人數則高達27%。同理,當Voicesense為該銀行預測員工的離職意願時,算法判定的低風險人群中有13%選擇了離職,對比之下,高風險人群的離職率顯示為39%。

  如果算法“打臉”了,會怎麼樣?

  然而,在麻省理工學院科學家Ghosh眼中,以上案例不過是“看似合理”罷了,“語音特徵可能表現出很大的變化,除非你採集了足夠多的樣本,所以我們拒絕下結論。”

  每秒鍾測試超過200個參數,並可應用於多門語言的精確分析,包括富有音調變化的普通話,這就是Degani對自家語音處理算法滿懷信心的理由。雖然項目本身仍處於試點階段,但Voicesense正在與多家大型銀行以及投資者進行洽談,Degani說道:“人人都為語音分析的潛力著迷。”

  可惜,這項技術潛力似乎很難說服犯罪學領域的專家。德雷塞爾大學犯罪學教授Robert D'Ovidio認為,客服是一回事,他本人比較關心技術被濫用的問題。試想一下,假如抵押貸款公司利用聲音來判斷用戶是否有罹患心臟病的風險,如果有,那就意味著這些人可能不久於人世,應該被歸為高危客戶。

  D'Ovidio補充道:“如果有機構抱著以上目的收集語音信息,我們就需要相關的立法來保護用戶。”

  事實上,美國的部分州已經出台了類似的保護法規,華盛頓大學法學院教授Ryan Calo指出。因為聲音被視作一項生物計量指標,包括伊利諾斯州在內一些地區可通過法律保障生物計量的安全性。至於機器學習技術是被用作語音分析,還是看看個人履曆,期間是否會有失偏頗,引發一些敏感問題,如種族歧視、性別歧視等,這些仍然需要因地製宜地去考量,Calo表示。

  但人們對於機器學習在人臉識別和聲音識別上的應用顯然是感到不滿的,一方面是因為那些內容過於隱私。況且由於反歧視法的存在,圍繞語音分析的許多話題都會被放大,發展到這些信息能否被取用,甚至會怎樣產生歧視這樣的程度。然而就目前的社會而言,人們還不足以與這些問題抗衡。

  “希望將來隨著技術的進步,人們可以意識到這些只是數據,不管它們是什麼樣的形式,其實都和表格里的數字或採集來的聲紋沒什麼兩樣。” D'Ovidio認為,當人們的語音信息被使用時,至少本人應該有被告知的權利。“要是算法出錯了,又會帶來什麼後果呢?”

關注我們Facebook專頁
    相關新聞
      更多瀏覽