數據標註工廠
2018年07月25日06:06

原標題:數據標註工廠

7月12日,北京市北五環外西二旗一家數據標註工廠里,一群年齡大多不到20歲的新標註員正聽資深員工講解工作中容易出現的問題。她們標註的數據將被用於人工智能算法的訓練。

北京一家數據標註工廠,標註員們在電腦前工作。

22歲的郭萬軍從業已經兩年。

24歲卻已有7年工齡的安麗平在工位上午休。

測試手機的面部識別系統。

晚餐時間,孫崇洋和在同一家數碼標註工廠的女友於春麗一起下館子。

晚上,幾名年輕的標註員在宿舍玩手機遊戲。

晚7點,西二旗地鐵站,張崳森和同在數據標註工廠的女友林雪準備回宿舍。

7月12日,趴在辦公桌上午休了半小時後,18歲的山東女孩李華婷睜開了眼睛,繼續從電腦里的生活照、風景照或街拍照片中按客戶需求框出汽車、動物、樂器等物品,交給機器學習識別。她是一名人工智能數據標註員,在北京市北五環外西二旗的這家數據標註工廠,這樣的動作她每天要重複數千次。

所有人工智能(AI)都離不開深度學習系統,這個系統的技術提升依賴大量人工完成的標籤化數據。數據在人工完成篩選標註後,交由機器自我學習,標註數據的人被稱為標註員。這些數據將被用於人臉識別、安防、無人車駕駛等,這是整個AI產業的基礎,是機器感知現實世界的原點。

這家數據標註工廠目前有300多名員工,大多是年輕人甚至00後。這裏的標註員大都畢業於大中專院校,月收入5000多元,工廠在5站地鐵外為員工們提供了免費宿舍。

21歲的張崳森畢業於山東一所勞動技術服務學校,同期畢業的同學有的去了114查號台,有的去了聯通、移動等電信公司做客服。他的室友阿寬今年17歲,剛剛入職不久。阿寬說,雖然每天坐在辦公室里,但通過來自世界各地的照片可以認識外面的世界。這也是張崳森認為自己比其他同學幸運的地方,“這是一份有趣的工作”。

張崳森的女友林雪在工廠中負責質檢,一天要檢查2000多張處理好的圖片,需要時刻保持緊張的工作狀態。林雪的客戶會在500張做好標註的圖里進行抽查,做錯一張圖,那500張就不會按照原價付款了。遇到人臉標註的照片時則需要抽查10%,如果錯誤率超過1%,客戶就會要求更換標註員和標註賬號。

除去容錯率,另一個最重要的規則就是信息保密。每一台計算機都禁用USB口,標註員在封閉並且被監控的情況下處理數據。數據被交付給標註員前會先做碎片化的“脫敏處理”:一份表格被打散,再分發給終端節點作業員,每個標註員手中拿到的只是表格中的一部分。

38歲的杜榮霞負責管理清一色還在實習的年輕面孔。他們在經過1到3個月的培訓後,基本可以掌握處理數據的規則。有的實習生會在電腦鍵盤上插一個小圓鏡,通過反射看到從身後經過的人,這是在學校用來觀察老師行蹤的辦法。杜榮霞說:“他們比我的女兒大不了多少,有時候覺得就像帶著一群孩子一樣。”

這家公司的創始人杜霖是個80後。從事過圖像識別相關的工作,他看到人工智能行業對數據的爆髮式需求,於是決定創業。他介紹,國內人工智能的數據市場已經達到數十億元人民幣的規模,但標註行業的團隊水平參差不齊。一些團隊以很低的價格接標註任務,卻因為沒有技術積累,標註質量、交付日期經常會出問題。

除了全職員工,這個行業里還有不少兼職人員。“寶媽”(全職母親)掌握了相關規則後,在家就可以完成工作。杜霖還希望將一些基礎工作交付給行動不便或是有聽力障礙的殘疾人。在杜霖看來,他們找工作不容易,但大多認真專注,非常適合標註員的崗位。

不久前,美國特斯拉公司的自動駕駛汽車發生事故,就是因為系統誤將前方車輛的藍色車身識別為藍天白雲。“如果一輛自動駕駛汽車在行駛中出了事故,原因可能就是標註沒有做好。”林雪說。這些年輕的標註員相信,自己所處理的每一個數據都將和最前沿科技的人工智能聯繫起來,這讓他們很有成就感。

中國青年報・中青在線記者 李雋輝攝影報導 來源:中國青年報

2018年07月25日 08 版

關注我們Facebook專頁
    相關新聞
      更多瀏覽