AI數據也要緊跟MLOps,那個把標注精度提高到99.99%的公司再出手
最新解決方案來了
夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI
當IT行業改變整個世界的時候,DevOps理念從大量產業實踐中誕生。
如今AI也進入產業化新時代,繼承者MLOps或者叫AI工程化也越發火熱。
Gartner咨詢公司將AI工程化列為2022年十二大戰略性技術趨勢,IDC則預測到2024年60%的企業將MLOps用于機器學習工作流。
△圖源:ml-ops.org
這一波浪潮之中,算法的工程化一如既往的跑在前面,模型的自動部署、持續訓練甚至AutoML都有較大進展。
與之相對的是,數據的工程化稍顯落后。
對此,一直呼吁建設“以數據為中心AI”的吳恩達,今年初在接受IEEE Spectrum采訪時也喊出新的口號:
AI要從大數據轉向高質量的小數據。
吳恩達認為,對于數據中存在的噪聲,通常做法是只要量足夠大就可以讓算法對其做平均處理。
但這樣做不僅限制了算法的能力,有些場景如工業質檢、罕見病等更是根本湊不出一個大型數據集,精心標注的高質量數據就成了關鍵。
實際上,除了碎片場景之外,如何高效構建高質量數據集也是全行業共同面對的問題。
AI工程化的大背景下,新一代數據標注與管理方法也從實踐中逐漸誕生。
最新解決方案來了
云測數據,一家以“將數據標注的最高準確率提升到99.99%”而聞名的AI數據服務公司,率先推出「面向AI工程化的新一代數據解決方案」。
方案不僅包括標注數據、管理數據所需的平臺工具,還涉及管理體系以及數據安全,總共三個方面。
平臺工具方面,除了基礎的標注工具、API集成能力,還有數據流轉產線工作臺和數據產能管理體系。
管理體系方面,分為人員管理和項目管理兩部分。
數據安全方面,則從硬件安全、網絡安全、物理安全和人員安全管理4個角度提供保障。
為什么是這三個方面?云測數據總經理賈宇航從AI工程化時代的不同特征進行了分析。
算法進入持續優化期,此時數據也要從瀑布式流轉過渡到持續流轉。
在算法預研期只需要基礎數據集就能滿足需求,針對實際業務場景的算法研發期則需要數據采集、清洗、標注等一系列定制化服務。
算法進入持續優化期,情況再次發生變化。
生產環境的回流數據需要持續標注用于迭代,使算法越用越智能;標注數據需要流轉至仿真平臺用于算法評測,提高重復利用價值;自動化流程中又需要輔以人工檢查糾正,降本增效。
云測數據新一代解決方案中基于這些需求打造了數據處理工作臺,支持持續任務處理、人機協作,同時以標準API接口與各類系統對接,將AI數據訓練過程中的綜合效率提升200%。
算法落地到實際場景中,而高質量的場景數據需要標注人員有領域專業知識。
舉例來說,前一陣谷歌的文本情感數據集GoEmotion就被一位機器學習工程師Edwin Chen指出有30%標注錯誤,他分析問題出在谷歌請的印度員工不了解美國本土互聯網文化。
像這樣的問題,在知識門檻頗高的金融、自動駕駛等領域場景中也有可能發生。
對此,云測數據推出數據服務體系。其中人員管理體系涵蓋招聘、業務培訓,以及自動駕駛、智慧金融、AIOT等重點行業的領域知識培訓。項目管理體系則以標準化的流程把控數據質量,將數據標注最高精度提升至99.99%。
最后,算法深入到實際業務中,數據安全需要得到保障。
云測數據推出安全交付體系,全方位保障數據安全和風險治理,同時滿足ISO27001和ISO27701標準。
新一代數據解決方案,如何煉成?
云測數據是AI數據服務領域的領先者,憑借在產品、服務、技術研發等方面的綜合實踐,已連續三年被評為行業第一,具備豐富的研發及產業化服務經驗。
技術能力方面,去年云測數據先后發布云測數據標注平臺、AI數據集管理系統等技術成果,率先形成AI訓練數據的“采、標、管、存”一站式服務,實現從“數據原料”到最后的“數據成品”全鏈條打通,輸出完整的數據價值,其中更是將數據標注的最高準確率提升到了99.99%。
又經過一年的打磨完善后,云測數據標注平臺&數據集管理系統在工具豐富性與易用性得到升級,并且與各種類型企業系統對接的能力得到增強,整合到最新解決方案里。
行業經驗方面,云測數據提供多維度、場景化的數據服務與策略,多年來服務于汽車、安防、手機、家居、金融、教育、新零售、地產等行業,滿足AI應用在數據質量、數據豐富度、數據時效性等方面的需求。
另外正如MLOps繼承自軟件行業的DevOps,Testin云測結合自身優勢,將軟件測試業務上10多年ToB服務經驗也遷移沉淀至云測數據的AI數據服務中,提質增效的作用十分顯著。
到如今,隨著智能化轉型的逐漸深入,云測數據的服務對象已擴展至各行各業,正是在大量實踐與不斷探索中,AI數據服務所需的方方面面被云測數據掌握、整合,最終沉淀成新一代數據解決方案集中發布亮相。
而隨著新一代數據解決方案的發布及云測數據背后更多動作布局,給AI數據服務行業本身也帶來一些改變。
云測數據,帶來什么改變?
先看云測數據給服務對象帶來的改變。
以自動駕駛行業為例,首先是一站式解決自動駕駛領域多場景的數據采集的需求,包括智能駕駛主流應用場景。通過云測數據的DMS與ADAS場景搭建采集能力,來減少數據采集周期、提升數據質量。
接下來,通過數據標注平臺來解決包括2D標注、3D點云標注、2D/3D融合標注、語義分割、目標跟蹤等等數據標注需求,同時標注&管理平臺支持與企業完成訓練、仿真等系統集成。
數據不必再按批次來回傳輸,實時處理的同時節省大量時間和成本。數據不出企業內網就能完成流轉,同時也支持專業標注員駐場作業,在保證數據安全的基礎上,有效降低信息傳遞損耗,同時兼顧標注作業效率和質量的提升。
據賈宇航透露,以某自動駕駛相關企業為例,原來要花一周時間的AI數據工作,對接新一代數據解決方案后效能至少提升2倍以上。
憑借這樣的能力,云測數據與行業內包括自主、合資車企,大型Tier1、Tier2,以及無人出租車等眾多自動駕駛企業建立了持久良好的合作關系。
效率的提升同樣體現在零售貨檢行業,通過云測數據標注平臺將貨柜檢測數據持續回流,基于算法預標注結果進行可視化審查并修改,與純人工標注效率提升3倍。
而在金融領域,通過云測數據標注平臺及集成算法API可進行金融票據標注,通過離岸的安全房進行標注,在保證質量和效率的基礎上確保數據隱私安全。
另外還有建筑行業也可以通過云測數據標注平臺對生成建筑CAD圖紙進行審查校驗。
云測數據深度合作伙伴覆蓋了汽車、手機、工業、家居、金融、安防、教育、新零售、地產、生態系統等行業。這其中包含眾多世界500強企業、高校科研機構、政府機構,頭部AI企業和大型互聯網企業覆蓋率超90% ,涵蓋了計算機視覺、語音識別、自然語言處理、知識圖譜等AI主流技術領域。
與此同時,云測數據對AI數據服務行業自身的探索也在持續進行。
比如作為人工智能數據服務領域代表廠商,參與信通院牽頭的全球首個MLOps模型開發管理標準,以數據標準化助推AI落地。
最新能透露的一條進展是, 云測數據正與云服務廠商合作,探討延展數據服務的邊界。
參考資料:
[1]https://spectrum.ieee.org/andrew-ng-data-centric-ai
[2]https://www.surgehq.ai/blog/30-percent-of-googles-reddit-emotions-dataset-is-mislabeled
- 英偉達自毀CUDA門檻!15行Python寫GPU內核,性能匹敵200行C++2025-12-08
- GPT-5-Thinking新訓練方法公開:讓AI學會懺悔2025-12-04
- GPT5.5代號“蒜你狠”曝光!OpenAI拉響紅色警報加班趕制新模型,最快下周就發2025-12-03
- 華爾街尬捧TPU學術界懵了:何愷明5年前就是TPU編程高手,多新鮮2025-11-30



