GAITC專題論壇丨張俊林:AI時代下大規模機器學習的應用
2020年07月27日20:17

  原標題:GAITC專題論壇丨張俊林:AI時代下大規模機器學習的應用

  7月26日,由中國人工智能學會主辦、新浪新聞聯合浙江大學承辦的2020全球人工智能技術大會(2020GAITC)“AI時代下的新媒體與社交娛樂”專題論壇拉開帷幕,新浪集團首席信息官、新浪AI媒體研究院院長王巍,浙江大學特聘教授、雪梨科技大學教授、百度研究院訪問教授楊易共同擔任論壇主席。

  新浪微博機器學習團隊AI Lab負責人張俊林本次專題論壇上,與來自業界、學術界的嘉賓們分享了《機器學習在微博的應用》。

圖註:新浪微博機器學習團隊AI Lab負責人張俊林作主題演講。
圖註:新浪微博機器學習團隊AI Lab負責人張俊林作主題演講。

  張俊林提到,在新聞場景中,或者微博場景中,實時模型的在線學習非常重要。用戶興趣可能會非常快速的發展變化,尤其是在視頻的場景下。作為機器學習模型,如何更快捕獲到用戶行為、興趣的變化?如果把興趣點體現到模型中,並實時更新,那麼再做下一刷的時候,新興趣可能就體現出來,這就是所謂的實時模型。

  他認為,在當前日益激烈的競爭環境下,以大數據+深度模型的新技術對於推動用戶進一步增長非常重要。

  以下為張俊林演講實錄,內容經編輯略有刪減:

  尊敬的各位嘉賓,網上的朋友大家好,首先我個人非常感謝論壇主席能夠提供這麼好的機會讓我來給大家分享一下人工智能在微博中的應用。

  大家都知道,新浪新聞和新浪微博,應該說是我們公司在AI時代下大環境的變遷情況下兩個典型的個性化的應用。在這種個性化的推薦場景下,怎麼去應用AI技術,哪些是它最需要的技術點,包括我們做了一些什麼,今天我主要分享這些。

  我主要從下面三個方面來給大家彙報和介紹一下,首先簡單說一下所謂人工智能的發展趨勢,我主要是從技術的角度講,王巍總剛才高屋建瓴的把新媒體講的非常清晰,接下來我將從技術的角度來闡述一下,然後我們會介紹一下AI在微博中主要的應用場景。最關鍵的可能是在第三部分,我們到底在哪些場景,或者採用哪些技術這是一個關鍵點。

  從技術發展趨勢來說,由於媒體的新時代是人工智能廣泛應用的時代,後面會介紹幾個技術發展趨勢,而造成這種趨勢的根本原因是什麼?首先我覺得最根本的可能是在新時代下,媒體的發展類型由原來的PC端的大眾傳播到現在的手機成為我們每個人必備的一個工具,到未來的IOT,萬事萬物都會產生新的數據。這意味著每個人可以隨時隨地把所見、所想、所聽傳播出去,每個人都是一個信息製造者和傳播者。

  另外一點,我們擁有世界最領先的5G技術,這代表了我們網絡帶寬速度更快了,成本更低了,這可能是最根本的一點,導致了一個新的數據形態,代表了每個人都可以隨時隨地發信息,信息極度爆炸,另外一點,因為手機現在拍照片,拍視頻都非常的簡單,非常的方便,所以就產生了很多媒介類型。

  我們用微博來說,微博上媒介類型的變遷是非常明顯的,目前微博app上70%的微博是包含圖片的,30%的微博是包含視頻的,我們可以看出它的發展趨勢。這一點,從技術的角度上看,是上述這些原因導致了技術的發展。下面簡單介紹下幾個技術發展趨勢:

  首先第一個圖像理解,剛才我們講了圖像占微博70%,如果你想更好的理解用戶,更好的理解內容,能夠看懂一個圖像在講什麼,理解它是非常關鍵的。還有兩個具體的例子,人臉和物體的識別,我個人覺得圖像理解非常的重要,但是從目前的成熟度來說,任重道遠。

  對於機器來說,什麼是真正理解一個圖像,理論上來說我拍一張照片,里麵包含的任何實體都能夠精準的識別,比如一瓶水,一個講桌,甚至是水的品牌我應該都能識別。但是現在達到這一點,我個人覺得可能有困難,這是由於目前的技術成熟度,還不夠導致的。但是這個大方向,毫無疑問是很重要的一個方向。

  然後相關聯的是視頻理解,我們剛才講的視頻現在占了互聯網流量的相當大的一個比例,你如何理解一段視頻在講什麼,是什麼場景,發生了什麼,對於你正確的理解用戶,理解一個內容是非常關鍵的。同樣的,剛才楊教授也講到了,真實生活場景裡面的視頻,你會發現非常的複雜,各種場景都會有。你怎麼定義它,怎麼識別它,實際上是非常困難的事情。

  剛才各位老師也說過了,多模態的事情,目前來看是非常重要的。比如拿微博來說,你發一條微博時就包含了4到5種模態信息,包括發的文本內容,圖片內容,視頻內容,包括發佈者的信息,包括社交關係,這都是不同的媒介類型。我們能夠怎麼集成所有的不同媒介的類型,更好的理解一個內容,更好的理解用戶,這是非常關鍵的一個點。

  另外,無監督學習也是發展趨勢。無監督的學習,實際上最近從2018年下半年開始熱起來,根本的一個促進它熱起來的一個點,就是Google提的Bert,是典型的利用無監督來促進技術發展的一個飛躍性的技術。

  為什麼我們要無監督學習?因為機器學習實際上模型是一方面,更關鍵的一方面是訓練數據,因為你要教機器去學習知識,那麼你得告訴它,先給它一些樣例,讓它從樣例裡面去學知識。但是你做大量的訓練數據,就要花費很大的人工成本,這就是過去限製機器學習一個非常重要的因素。

  那麼無監督就是緩解這個問題,意思就是說,我們能不能讓機器從大量的自然語言文本裡面自動學到很多的知識,無監督做這個事情,這應該是引領性的一個模型。

  另外一個趨勢,實時模型,學術上一般叫做在線學習,這在我們新聞場景,或者微博場景是非常重要的。我們要捕獲一個用戶的興趣,用戶的興趣可能會非常快速的發展變化,尤其是在視頻的場景下。那麼你作為機器學習模型,怎麼能夠更快的捕獲到用戶行為的變化,或者興趣的變化。實時模型就是幹這個事情的,比如說我們用戶在刷微博,隨著一刷一刷,看我過去10分鍾新點過什麼東西,可能新點的東西就代表了你新的興趣。我們希望你能夠盡快的把興趣點體現到模型裡面去,更新這個模型。那麼在再做下一刷的時候,新興趣可能就體現出來,這就是所謂的實時模型,對於目前,尤其是對於短視頻的場景,在線學習是非常重要的一個點。

  最後一點,超大規模算力,這個應該是對互聯網公司來說,是非常關鍵的一個事情。因為我們知道,對於互聯網公司來說,用戶量非常大,日活、月活都是以億計的,那麼當大量的用戶來使用這個產品的時候,快速的進行相應 推送 ,是非常關鍵的。大家看到的每個人上去刷,不太容易直觀感受到這一點,但是如果你考慮到每時每刻有數億的用戶同時在刷一個東西的話,後面實際是有幾千台甚至是上萬台機器來支撐這件事情的。所以大規模的算法對於機器學習非常重要。

  上面介紹幾點技術發展趨勢,我剛才介紹這些是為了引出第三部分,因為我們做技術佈局也是圍繞技術發展趨勢來做的,只有這樣的話,我們才能事半功倍來做這個事情。

  第二板塊介紹一下涉及到的應用場景,這是我們整體的一個基礎架構圖,最底層應該是機器學習的架構,比如說對於微博場景,我們有成億的數據和用戶,那麼對於這麼大的數據怎麼能夠快速收集、存儲、簡單的處理。你需要訓練一個機器學習模型,我們現在是一線的互聯網公司,訓練一個機器學習模型,規模是非常恐怖的。基本上規模達到了百億級的特徵,訓練數據是千億級。

  剛才我們還要支持實時模型,你能不能盡快的推動大量的機器,把這些模型訓練出來,底下的機器學習架構實際上幹這個事情,中間是算法層,是圍繞應用場景來佈局的,我覺得如果對於我們的應用場景來說,可以歸納為一個中心,兩個基本點。

  一個中心是個性化推薦,怎麼能夠更精準的推信息,這個是中心。你為了能夠做好更好的推薦,兩個基本點。第一點,你要理解內容在講什麼。第二點你要理解用戶對什麼感興趣,只有這兩個基本點做好了,我才能做好推薦這個事情。可以說所有的都是圍繞這個事情佈局的,所以你看算法,推薦還是比較核心的一個點。包括你想要理解微博或者新聞在講什麼,你要理解文本,自然語言處理,你要理解圖片、視頻、計算機視覺,甚至是語音,這個是圍繞這個事情來佈局的。最上層就是我們要支持的各方面、各種應用。

  這是目前我們機器學習支持的核心業務,打出了一個時間軸,從這兒我們可以看出來,機器學習在微博也好,新聞也好,個性化推薦也好,起了越來越重要的作用。從早期的支持個別業務,到目前支持大大小小10多個業務。

  在這些應用場景裡面採取了哪些技術,第三部分主要來跟大家分享一下這部分的內容。如果歸納一下微博的內容生態的話這個圖展示了三個環節,首先內容生產,應該都是用戶內容,但是你從技術的角度來講,我們希望能夠讓用戶成本更低,更便捷的生產一個微博。

  實際上我們目前的技術核心,投入比較多的是後面兩個環節,首先是內容理解,你怎麼理解一個微博在講什麼,你怎麼理解一個用戶對什麼感興趣。其次是內容消費。我剛才講的推薦部分提到了怎麼能夠提高 分發效率,讓更多的用戶,更快的獲得到你感興趣的內容,這樣就形成了一個完整的閉環。後面我介紹一些具體的技術點,內容消費分發就是我剛剛講推薦那部分的應用。核心包括兩側和一個橋樑,兩側中的第一側我們首先要理解內容在講什麼東西,因為微博的內容類型非常多,比如說微博、視頻、圖片、文章、話題很多,第二,我們要理解每個用戶對什麼感興趣,中間這個橋樑就是推薦系統。根據用戶對什麼感興趣,我從裡面篩出海量你可能感興趣的,推送給你幾十條,因為每個人的消費時間是有限的。

  下面我們歸納一下推薦技術的進化邏輯,這個圖展示了推薦技術的進化方向,應該說不僅僅是微博,或者說我們新浪體系,業界所有的做個推的公司,基本上都是按照這些曆程去做的,最早的就是LR,大規模的LR模型,到FM模型,再到在線FM模型,到目前的深度學習排序,目前我們新浪體系也是走在深度學習這一側。

  我們除了把最新的推薦技術落地之外,也積極的推出了一些新的技術。包括我們落地對外提供了一些知識的分享,我們去年在推薦領域最好的一個國際會議發表了一個新模型Fibinet,這個應該是目前效果最好的深度模型之一,據我所知,有一些互聯網公司開始應用這個模型去做個性化推薦。

  剛才講的是推薦,還有兩個比較關鍵的中心點,理解內容,理解用戶,從理解用戶來說。精準的用戶畫像是做好推薦的一個基礎工作。在我們微博內部,對每一個用戶在後台都對他的個人興趣做了一些挖掘,挖掘的屬性實際上有很多,從很多種維度來進行挖掘,包括個人的興趣愛好,能力,包括你的自然屬性,性別年齡這些都有很多。

  後面我們介紹一些內容理解,比如說圖片理解,這是一個在微博環境中非常有價值的一個信息,明星可以說在微博上是占有一定流量的,現實中面臨一個問題,你要理解一個圖片,比如說這個圖片出現了一些明星,你能不能正確的識別出這個明星是誰。目前我們能夠支持大約600多個明星的識別。

  另外一個圖片理解的應用場景,看上去很簡單,但是效果產生的影響非常大。我們說的智能裁剪,我們現在都是用手機來瀏覽信息,但是往往我們每個微博會有4圖、5圖、9圖,當9個圖時你是不可能把每一個圖完整的展現出來,只能展現一個小窗口。那麼一個圖展現窗口,展現哪一部分,對於用戶是否會點擊它,影響非常大。

  舉個例子,比如說這張圖片里的楊冪,你可能發現最關鍵的臉部信息被減掉了,體現給用戶的體驗不太好。此時我們就可以用智能裁剪,對圖片裡面最顯著的部分檢測出來,然後展現小窗口的時候展現顯著部位,就像圖裡面展示的一樣,這就對流量產生了非常大的推動作用。

  另外一點,這個主要是圍繞多模態的角度講的,我們需要對文本進行理解,需要對圖片進行理解,文本理解的話,微博主要是從幾個維度來做,包括內容類別,分為體育的、娛樂等,我們目前有三級體系。包括微博是否有吸引力,時效性如何,質量如何,垃圾廣告等 各種維度的分析甚至圖片也有各種的分析,然後集成到一起,通過模型來更好的理解一個微博在講什麼。

  視頻我們講現在有30%的微博帶視頻,如何更好的理解視頻,非常的重要,我這列了一下我們目前做的一些工作,包括對視頻來源的識別,對場景的識別,我要知道視頻講的是體育的,還是娛樂的,如果包含明星,是哪些明星,只有這樣識別,我們在做推薦的時候才能更精準的推薦。

  這給了一個多模態的例子,多模態確實越來越重要,我們在一線做這個事情會體會的特別的深。舉個例子,多模態是怎麼發揮作用的,單純從文本來說,一個用戶發了微博說這幾個蘋果哪一個好,我們知道蘋果是多意詞,可能是吃的蘋果,也可能是手機,還有可能是電影電視劇。你如果單純的分析文本,很難知道用戶到底在講什麼,但是帶著圖片,通過圖片的分析我們知道實際上講的是手機,就可以更精準的理解用戶的興趣,這個是比較直觀的例子來說明多模態的重要性。

  最後我說一下內容生產,生產主要是為了輔助用戶能夠更低成本的產生一些內容,也包括保護一些用戶隱私的保護。具體舉例,比如做語義分割,把用戶的背景照片替換掉,你可能不太願意把你真實的背景展現出來。我們可以根據需要替換掉變成你想要的背景

  這是我今天的分享,感謝大家。

關注我們Facebook專頁
    相關新聞
      更多瀏覽