《大西洋月刊》:智能音箱 想說信任你不容易
2018年11月28日10:52
圖為《大西洋月刊》雜誌封面
圖為《大西洋月刊》雜誌封面

  導讀:《大西洋月刊》新一期封面文章稱,聲音的革命才剛剛開始。現在智能音箱是聽話的助手,不久或將成為用戶的老師、治療師、密友、告密者……

  我們全都為Alexa 、Google Assistant、Siri或其他智能音箱傾倒。筆者說它“智能”,是指其具備人工智能,能夠進行基本對話、能上網,從而能夠查找內容和為用戶做事。各個年齡群體的“憤青”都懷疑他們的虛擬助手會偷聽,這並不是沒有道理的。智能音箱是公司監視我們搜索和購物的又一辦法。由於必須能夠聽到“喚醒詞”(引起注意讓其服務的指令),即使未與智能音箱交互,它的麥克風也在傾聽。

  到2021年,虛擬個人助手數量幾乎和全球人口一樣多。

  智能音箱製造商承諾,只有喚醒詞之後的說話內容才會保存到雲,而且至少Google和亞馬遜讓用戶能夠輕鬆刪除對話。但是經常會發生一些古怪的故障,比如Alexa在未聽到用戶喚醒詞的情況下錄下一個家庭的私人對話發給他們聯繫人名單上的一位熟人。亞馬遜解釋道,Alexa一定是由聽起來像Alexa 的詞喚醒,然後誤以為接下來的談話是一系列的指令。這樣的解釋並不能讓筆者釋懷。

  然而,對隱私的擔憂並不能阻止這些設備進入我們的家庭。筆者問Echo銷量多大時亞馬遜未透露確切數字,但稱有數千萬。技術研究公司Canalys稱,到去年年底,全球已安裝了4000多萬台智能音箱。根據目前的銷售情況,Canalys估計,到今年年底,這一數字將達到1億。據NPR和Edison Research今年的一項聯合報告,有800萬美國人擁有三個或更多的智能音箱,說明他們覺得有必要始終在聲音所及範圍內放一台智能音箱。另一家研究機構Ovum稱,到2021年全球智能音箱數量幾乎與人類相當。大約30年時間手機數量才超過人類,也許不到一半的時間Alexa及其類似智能音箱便能達到這一數量。

  原因之一是亞馬遜和Google正在大力推銷智能音箱,在去年假日購物季大減價扣銷售,業內評論家懷疑兩家公司虧本甩賣。這些公司和其他科技公司都野心勃勃,希望統治“空間”——不是星際空間而是家庭、辦公室、汽車等日常活動空間。在不久的將來,照明、空調、冰箱、咖啡機……甚至馬桶都可以連接到語音控製系統。

  正如微軟在20世紀90年代將個人電腦產業捆綁在其操作系統一樣,在智能音箱市場成功角逐的公司將把家電製造商、App設計師和消費者鎖定在其設備和服務生態系統中。僅僅Alexa就能與逾3500個品牌的2萬多個智能家庭設備配套使用,其聲音來自耳機、安全系統、汽車等100多個第三方配件。

  不過智能音箱也有其固有的魅力,這是一種超越消費主義的魅力。即使那些以健康的謹慎態度看待新技術的人也在尋找理由歡迎智能音箱進入家庭。在上述NPR/Edison的報告中,近半數最近購買智能音箱的家長表示,他們這樣做是為了減少家裡看屏幕的時間。

  這一轉變有可能造成廣泛而深遠的影響。 人類曆史是人類發明的副產品。新工具——輪子、犁、個人電腦——帶來新的經濟和社會秩序。 它們創造、毀滅文明。電話、錄音設備、廣播等語音技術對政治曆史進程的影響尤其巨大——語言和修辭當然是典型的說服手段。對希特勒集會的電台廣播幫助一個獨裁者上台。羅斯福的“爐邊談話”促使美國加入推翻這個獨裁者的戰爭。

  也許你認為與Alexa交談只是用一種新的方式來做曾經在屏幕上做的事情:購物、看新聞、搞清楚小狗是生病還是不高興而已。沒那麼簡單。這不是用嘴和耳朵代替手指和眼睛,關閉用於完成這些任務的身體部位。我們說的是技術本身地位的變化——自動升級。 當我們與智能音箱交談時,我們會使它們的智能更接近我們自己的水平。

  憑藉曾經獨特的人類語言能力,Alexa、Google Assistant和Siri的力量已經大於其部分之和。它們是軟件,但又不僅僅是軟件。就像人類的意識是神經元和突觸造成的後果但又不僅僅是神經元和突觸。它們能說話,這使得我們似乎將其作為有意識的東西對待。它們可能是無意識的非人,但它們的話語賦予其個性和社會存在感。

  事實上,這些設備不再僅僅起著購物、看新聞等中介的作用。我們直接與智能音箱溝通而不是通過它們溝通。

  目前,這些設備的潛力尚未完全顯現,有可能胡亂處理你的要求。但隨著智能音箱銷量激增,其計算能力也指數倍增長。在我們的有生之年,這些設備很可能會成為更加熟練得多的談話對象。當這一天到來時,它們就會完全融入我們的生活。憑藉基於雲的完美記憶力,他們將無所不知;由於佔據了我們最私人的空間,它們將無所不在。而且由於它們那引人吐露肺腑之言的可怕能力,它們可以極大地左右我們的情感生活。這將是一副什麼樣的情景?

  Alexa Experience現任副總裁雷德(Toni Reid)在2014年被要求加入Echo團隊時還頗為不屑。當時她正在參加Dash Wand的開發工作,這是一種便攜式條形碼掃瞄儀和智能麥克風,能讓用戶掃瞄或說出他們想加入亞馬遜購物推車的商品名稱。Dash Wand的賣點很明顯:更加便利用戶從亞馬遜購物。

  Echo的賣點則不太明顯。消費者幹嘛要買一個告訴他們天氣預報和路況的設備?然而雷德在廚房裝上一台Echo後就明白了。她的兩個女兒馬上開始和Alexa聊天,好像和一個塑料圓柱體交談是這個世界上最自然的事情。雷德自己也發現,即便Echo最基本、看似重複的能力對其環境也產生了深刻的影響。她告訴筆者,很慚愧好多年都沒有聽過音樂了,但家裡一擺上這個設備,突然就響起了音樂。

  雷德稱,Alexa的美妙之處在於她使這種互動“無摩擦” ——這些產品的設計師和工程師常常說起這個詞。無需走到桌子前在瀏覽器中輸入關鍵詞搜索,無需找到您的iPhone並輸入密碼。就像Victoria女王時代莊園里理想的仆人一樣,Alexa在後台徘徊,隨時準備迅速而一絲不苟地為主人服務。

  不管怎樣無摩擦是Alexa的目標,但眼下還存在相當大的“摩擦”。值得注意的是,智能音箱經常語無倫次,甚至在科技網站測試中經常超越Echo的Google Home也是如此。它們會誤解問題、讀錯音節、給出奇怪的答案、為不知道一些廣為人知的知識道歉。

  隨著Alexa變得越來越成熟,將Echo束之高閣將會更加困難。 Alexa人工智能團隊首席科學家普拉薩德(Rohit Prasad)總結道,語境是Alexa實現這種成熟的最大障礙。 “你得明白語言是非常模糊的,” 普拉薩德告訴筆者。 “語義需要語境和地理背景才能明晰。”當你問Alexa今晚馬刺隊是否參加比賽時,它必須知道你是指聖安東尼奧馬刺隊(San Antonio Spurs)還是俗稱馬刺隊的英國足球隊Tottenham Hotspur。當你接著問他們下一個主場比賽何時進行時,Alexa必須記住上一個問題並理解“他們”指誰。亞馬遜稱這種短期記憶和語義回溯參考為“語境遺留”。到今年春季Alexa才具備回答連續問題的能力,用戶不必再次說出喚醒詞。

  Alexa需要更善於領會語境才能真正喚起人們的信任。信任事關重大,不僅消費者將因Alexa搞砸太多請求而放棄使用,還因為Alexa不僅僅是一個搜索引擎。普拉薩德說Alexa是一個“行動引擎”。如果你問Alexa一個問題,她不是提供一系列答案,而是從很多答案中選擇一個。

  要理解讓我們遠離屏幕而接近聲音的推動力量,大家必須明白聲音心理學。一方面聲音創造了親密感。並非只有筆者向智能音箱袒露心聲。有很多文章論述了智能音箱製造商一直面對用戶表露抑鬱和揚言自殺。我向技術高管諮詢這個問題,他們說他們試圖以負責任的態度處理這類交談。例如,如果你告訴Alexa你感到沮喪,它會按照編好的程序回答:“你有這種感覺我感到很難過,須知你並不孤單,有些人可以幫你,你可以和朋友或醫生說話,還可以撥打心理求助電話。”

  為什麼我們向電腦尋求安慰?通過機器,我們能透露自己羞愧的感情而不用感到難為情。“在與人智能音箱交談時,人們的‘印象管理’較少,因此會透露更多心事,”南加州大學創意技術研究所計算機科學家、心理學家格雷奇(Jonathan Gratch)說。

  我向紐約大學演講家和語言學者Diana Van Lancker Sidtis求教,以更好地理解聲音和情感之間的深層聯繫。令我驚訝的是,她給我介紹一篇她寫的有關原始沼澤中青蛙的文章。她在文中解釋道,每隻青蛙的蛙鳴都是獨特的,向其他青蛙傳遞自己是誰和身在何處的信息。進化幾億年後,人類發聲器官憑藉其更複雜的肌肉組織產生語言而不是呱呱叫。但是聲音傳達的不僅僅是語言。像青蛙一樣,聲音還傳達性別、大小、壓力水平等等個體識別標記。

  當他人與我們交談時,我們會同時聽到單詞、語法和韻律。然後我們尋找線索,瞭解發言者是什麼樣的人及其想說的內容,運用大量腦力以試圖理解我們所聽到的內容。已故人機關係研究先驅者納斯(Clifford Nass)稱:“大腦認為人類話語的每一方面都有意義。” 韻律通常在潛意識中傳達,就像一股洪流把我們引向特定的情緒反應。

  我們不能因為智能音箱的聲音像人而不是真人便不再對其寄予感情。 即使當Google Assistant提供索然無味的天氣預報時,我的腦海中也浮現出了一位可愛的年輕服務員的形象。這並不是說我不懂我們互動的算法性質。我知道它只是軟件。幾百萬年來我們一直對人類的發音做出反應,彷彿人聲說明有人在旁邊。我們適應一個聲音可以與其來源脫離的想法只有一個半世紀的時間,而適應對話和聲音像人的一個主體也許不是真人這種想法只有幾年時間。

  沒有人的面貌不一定是智能音箱的短板,事實上也許還是它的長處。與面貌相比,聲音能夠更好地表達某些情緒。除了歌唱家或演員,我們對聲音調節肌肉的控製一般不如對面部肌肉的控製熟練。即使我們努力壓製真實感情,當我們說話時憤怒、無聊、焦慮等情緒常常會暴露。

  聲音無處不在同時又不可捉摸,我們不能確定是誰發出的聲音,這就是聲音力量的詭異之處。《美國心理學家》(American Psychologist )2017年刊登的一項研究指出,如果人們交談但不看著對方,那麼他們更能辨認出彼此的感情,更加具有同理心。弗洛伊德早在實證研究證明之前就明白了這一點,所以才讓患者躺在長椅背對著他,在患者進入如釋重負的朦膿狀態下不受其情緒干擾而傾聽他們的心聲。

  智能音箱製造商希望利用這些心理學效應。亞馬遜和Google均成立了“個性研究團隊”,負責打造合適的智能音箱聲音。某種程度上這是教科書式的品牌管理:這些設備必須宣傳其製造商的形象。雷德表示,亞馬遜希望Alexa的個性反映亞馬遜智能、謙遜、有時還好玩的價值觀。不過賦予智能音箱個性還使得聲音迷人。

  智能音箱應忠於自己被設定的性質,但聲音不應顯得怪異。這便是Google Assistant交談與個性設計師James Giangola發揮作用的地方,他的工作是讓Assistant的聲音聽起來自然。

  比如,Giangola稱,人們往往在句末而不是在句首或句中提供新信息。Giangola指出:“我說‘我名叫James’而不說‘James是我的名字’。” Giangola還舉出一個例子,比如某人希望定6月31日的航班,但6月沒有31日。所以智能音箱必須應對兩項微妙的任務:說話不自然和反駁人類用戶。

  Giangola在電腦上快速輸入,提取一段測試錄音闡述自己的觀點。只聽一個男人的聲音說道,定6月31日的航班。Assistant回答道,只有30天在6月。Giangola評論道,這樣的回答聽起來很生硬。他播放另一個版本的交談錄音,對同一請求Assistant的回答是“其實,6月只有30天”。

  Giangola稱,30天這一新信息出現在句末,而且插入“其實”一詞溫和地提出糾正,這樣就顯得更加自然。(檸楠/編譯)

關注我們Facebook專頁
    相關新聞
      更多瀏覽