阿里收購德國開源數據公司 押注實時流處理框架Flink
2019年01月14日00:05

  本報記者 張涵 北京報導

  導讀

  “與阿里的合作可以讓我們上升一個新的維度,我們將有機會開拓新的領域,將公司成為更有價值的實時數據處理系統。” Data Artisan合夥人Kostas Tzoumas在新聞稿中表示。

  在微軟宣佈GitHub免費開放私有代碼庫的同一天,阿里巴巴確認收購德國初創企業Data Artisan。後者創建的 Apache Flink是全球頂級的開源流處理框架,它不但是雙十一大規模數據實時處理的秘密武器,更是荷蘭國際集團、Netflix和Uber在內的國際巨頭不可或缺的工具。

  Data Artisans 由開源流處理框架 Apache Flink 的創建者 Kostas Tzoumas 等人於 2014 年創建。作為大數據流處理方面為數不多的前沿技術,Flink為企業部署大規模的數據處理解決方案,以便他們能夠即時響應數據,並做出更好更快的業務決策。

  遠在此項投資公佈的三年多前,阿里巴巴已經成為Apache Flink框架的用戶。目前,阿里基於Flink開發的內部平台Blink已經廣泛服務於阿里集團內外、包括廣告、搜索等大量核心實時業務,並多次為雙十一的極端運算要求賦能。

  當地時間1月8日,德國媒體率先爆料後,阿里和Data Artisan紛紛發佈新聞稿確認了雙方合作的消息。

  “我們相信這一戰略合作將進一步加強Flink社區的發展,加速數據處理技術並為全球開發人員提供協作和建設性的開放環境。”阿里巴巴集團副總裁周靖人在新聞稿中表示。

  從微軟收購Github到IBM巨資334億美元收購開源軟件巨頭紅帽,收購具有獨特技術和資源的開源企業,無疑是巨頭們在 2018年最重要的併購趨勢之一。而本次阿里的收購,代表了全球第三大雲廠商對這一前沿領域的技術佈局。

  根據德國媒體報導,該項收購金額在9000萬歐元,但雙方官方均未確認金額。該公司曾在2016年獲得英特爾旗下投資基金及Btov、Tengelmann Ventures共650萬歐元的A輪融資,以及一輪未公開的B輪融資。

  根據Market Insights Reports的數據,預計到2025年全球流媒體分析市場規模將達到477.5億美元,從2017年到2025年將增長34.98%。

  火爆流框架

  城市車流快速移動、工廠流水線不等人、醫院在排號、叫的外賣在快跑,打車、點餐、網購等等,人們無法忍受長時間等待,等待意味著訂單流失。所以,毫秒級、亞秒級大數據分析就凸顯極大價值。

  隨著大數據、人工智能的興起及5G技術發展,即時性成為了各個領域的剛需。上述場景還可以延展至高速公路監測、ADAS 高級輔助駕駛、廣告推薦、電商搜索推薦、股票交易市場、金融實時智能反欺詐等產業端。

  據悉,Data Artisans所掌握的大數據流處理技術Flink可以在很大程度上解決越來越迫切的數據迅速處理問題。Flink核心是一個流式的數據流執行引擎,其針對數據流的分佈式計算提供了數據分佈、數據通信以及容錯機製等功能。

  根據其官網顯示,2014 年 Flink 作為主攻流計算的大數據引擎開始在開源大數據行業內嶄露頭角。經過4年的快速發展,Apache Flink社區已經培養出了42名Committer和19名PMC Member。

  以核心用戶Netflix為例,大型視頻內容服務的處理需求之大幾乎是不可想像的。 每天有超過1.09億的消費者,通過在線用戶服務享受1.25億小時的電視和電影內容。這對公司的數據提取管道和流處理引擎提出了很高的要求,這些引擎必須處理涉及12 PB數據和3萬億日常事件。

  Netflix流處理管理員Steve Wu表示,Flink for Netflix的關鍵元素是它能夠定位有狀態標註的應用程式,包括支援事件的時間戳,例如回滾和重放視頻等。

  經過幾年的發展,中國的互聯網巨頭也開始了流計算的廣泛應用,騰訊、華為、滴滴、美團、字節跳動等公司也將 Flink 作為首選的流處理引擎。

  阿里Blink野心

  儘管鮮有人聽說,但Flink技術距離我們並不遙遠。每年雙十一阿里總部大屏幕的實時成交數字,就是通過巨大的網絡流量,彙總各地方的報表、數據庫,在毫秒級別時間進行計算,並彙總為單一視圖的方式。

  根據阿里巴巴Flink平台開發負責人之一、高級技術專家王紹翾曾在接受InfoQ採訪中表示,2015 年起,阿里巴巴就開始調研新一代流計算引擎。“我們當時的目標就是要設計一款低延遲、exactly once(一次就準確)、流(運算)和批(處理)統一的,能夠支撐足夠大體量的複雜計算的引擎。”

  最終,Flink以高吞吐、低延遲的計算引擎、同時支援批處理和流運算等特性獲得了阿里巴巴的青睞。

  阿里巴巴計算平台事業部資深技術專家莫問曾在2018雲棲大會的演講中表示,阿里一直在尋找一種方式來開發一套統一的大數據引擎。“解決通用大數據計算需求,批流融合的計算引擎,才是大數據技術的發展方向,並且最終我們選擇了Flink。”

  基於 Flink,阿里巴巴搭建的平台於 2016 年正式上線,並從阿里巴巴的搜索和推薦這兩大場景開始實現。

  “彼時的 Flink 不管是規模還是穩定性尚未經曆實踐,成熟度有待商榷。”阿里巴巴實時計算團隊在一篇文章中寫道。團隊決定在阿里內部建立一個 Flink 分支 Blink,並對 Flink 進行大量的修改和完善,讓其適應阿里巴巴這種超大規模的業務場景。

  在這個過程當中,該團隊不僅對 Flink 在性能和穩定性上做出了很多改進和優化,同時在核心架構和功能上也進行了大量創新和改進 。

  關於Flink在阿里巴巴的大規模應用,莫問披露,Flink最初上線阿里巴巴只有數百台服務器,目前規模已達上萬台,此等規模在全球範圍內也是屈指可數的;基於Flink,阿里內部積累起來的狀態數據已經是PB級別規模;如今每天在阿里Flink的計算平台上,處理的數據已經超過萬億條;在峰值期間可以承擔每秒超過4.72億次的訪問,最典型的應用場景是阿里巴巴雙11大屏。

  2018年4月,以Blink 為基礎的阿里雲實時計算正式商業化,使用用戶已經超過2000家。在已有的用戶中,實時計算主要應用於實時互聯網數據分析、實時數據大屏、實時金融風控、電商實時推薦等諸多領域。

  阿里集團內淘寶、天貓、天弘基金、菜鳥、工業大腦等諸多業務均大量應用了實時計算技術,在集團外,也有包括眾安保險、全民TV、新華智雲、貴州茅台等諸多公司的應用案例。

  巨頭+開源

  從微軟到IBM,再到此時的阿里, 對以大數據、人工智能、雲計算為核心的企業服務領域,開源的價值極其顯著。與此同時,開源項目也需要足夠多資金、項目和運營不斷髮展出更多的應能用領域。

  華為雲高級技術專家時金魁近日撰文認為,開源項目後面的商業公司若不在,項目本身必然走向滅亡,純粹靠分散的發燒友的力量無法支撐一個成功的開源項目。

  同樣是在流計算領域,Flink儘管有一定技術優勢,但仍然是競爭者眾。 根據Newstack.com網站顯示,流數據處理開源框架很多,如Google 的Beam,Intel 的Gearpump, IBM 的Edgent,這三家巨頭都提前對流計算做出了佈局。同時,Storm、LinkedIn的Samza也憑藉獨特的優勢各領風騷。

  業界認為,阿里對Data Artisans的收購無疑可以進一步整合Flink的整個生態資源,作出更有利於Flink發展的規劃。“與阿里的合作可以讓我們上升一個新的維度,我們將有機會開拓新的領域,使公司具有為更有價值的實時數據處理系統。” Data Artisan合夥人Kostas Tzoumas在新聞稿中表示。

  根據阿里最新發佈的消息,在本月之內,阿里也將把內部軟件Blink開源給整個社區,這一凝結兩年多阿里開發人員心血、助力阿里各項核心業務的軟件即將被更多的企業和開發者使用。此外,阿里巴巴還將致力於推動 Flink 在生態上得到更多語言的支援,不僅僅是 Java、Scala 語言,甚至是機器學習下用的 Python、Go 語言。

  業內人士分析,在雲端、AI混戰中,全球廠商都在尋找關鍵技術來提升自己的競爭優勢。此次收購後,Flink必將轉化為阿里雲的核心競爭力之一。但在流分析服務方面,亞馬遜和微軟早已經實現託管的高速實時流分析服務,阿里雲還需進一步完善。

關注我們Facebook專頁
    相關新聞
      更多瀏覽