99.99%準確率!AI數(shù)據(jù)訓(xùn)練工具No.1來自中國
讓AI行業(yè)真正實現(xiàn)數(shù)據(jù)驅(qū)動
蕭簫 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
這年頭,真是什么樣的數(shù)據(jù)集都有了。
IBM的5億行代碼(bug)數(shù)據(jù)集、清華&阿里的460萬少樣本NER數(shù)據(jù)集、還有假貨數(shù)據(jù)集、“黑話”數(shù)據(jù)集、小黃圖數(shù)據(jù)集……咳咳。
沒錯,相比遭遇瓶頸的算法,數(shù)據(jù)現(xiàn)在成了AI行業(yè)的“香餑餑”——
他們發(fā)現(xiàn),當年一個ImageNet走天下,微調(diào)AI模型參數(shù)就能取得SOTA的時代已經(jīng)過去。
來自谷歌AI的最新研究表明,要想在細分領(lǐng)域取得更好的模型效果,精準優(yōu)質(zhì)的數(shù)據(jù)十分重要,它在極大程度上決定了AI模型的性能。

例如,谷歌曾經(jīng)做過一款流感趨勢預(yù)測模型,但由于數(shù)據(jù)質(zhì)量太差,預(yù)測結(jié)果甚至偏離了流感峰值的140%。
連斯坦福大學副教授、Coursera聯(lián)合創(chuàng)始人吳恩達,也強調(diào)數(shù)據(jù)質(zhì)量對于AI的重要性:
80%的數(shù)據(jù)+20%的模型=更好的AI。
真正“有用”的AI模型,離不開數(shù)據(jù)
一直以來,數(shù)據(jù)質(zhì)量對于AI模型的影響程度都在被低估。
隨著大模型如BERT、Alphafold2、GPT-3、DALL·E逐漸成為人工智能產(chǎn)業(yè)的潮流,更多的數(shù)據(jù)也在被“投喂”進各種AI模型中。
數(shù)據(jù)質(zhì)量的問題,也因此更加突出。
來自谷歌、蘋果、斯坦福、哈佛等七家頂級機構(gòu)的一項研究表明,越大的語言模型,隱私泄露風險就越高。
他們用OpenAI的GPT-3模型做了實驗,發(fā)現(xiàn)只需要一串“暗號”,就能讓它報出某個人的姓名、電話、住址等隱私信息。
由于AI模型不能完全“消化”數(shù)據(jù),只會把訓(xùn)練數(shù)據(jù)中的一部分原樣展示出來,導(dǎo)致模型越大,對數(shù)據(jù)的記憶能力就越強,泄露隱私、輸出虛假信息片段的可能性就越高。
不少大型AI公司,已經(jīng)開始從根本上解決數(shù)據(jù)質(zhì)量問題。
谷歌就已經(jīng)開始研發(fā)數(shù)據(jù)處理算法,其中的TEKGEN模型,能將數(shù)據(jù)質(zhì)量靠譜的知識圖譜轉(zhuǎn)換成文本數(shù)據(jù)庫,再用于AI模型的訓(xùn)練。

而IBM、清華大學、阿里達摩院等國內(nèi)外研究機構(gòu),也開始建立類似代碼bug、假貨、少樣本NER一樣的細分領(lǐng)域數(shù)據(jù)集。
但這些做法都需要足夠的人力和精力,相比之下,外包/眾包可能是更多AI企業(yè)的選擇。然而在這種情況下,又可能獲得不合要求、甚至良莠不齊的數(shù)據(jù),質(zhì)量難以保障。
現(xiàn)在,AI訓(xùn)練數(shù)據(jù)處理行業(yè)中迸現(xiàn)出一匹黑馬——
一家對AI算法落地有所研究的AI訓(xùn)練數(shù)據(jù)服務(wù)商,自主研發(fā)了一個名為「云測數(shù)據(jù)標注平臺4.0」的數(shù)據(jù)處理平臺,直接將數(shù)據(jù)標注的最高準確率提升到了99.99%。
據(jù)云測數(shù)據(jù)表示,這一平臺使得企業(yè)服務(wù)成本平均降低了60%以上,至于研發(fā)AI項目的效率,則提升了2倍不止。
這樣的標注效率,并非有口無據(jù)。在4.0正式版上線前,「云測數(shù)據(jù)標注平臺」一直是云測數(shù)據(jù)內(nèi)部自用的AI訓(xùn)練數(shù)據(jù)處理平臺。
正是憑借著這一平臺,結(jié)合其高精準數(shù)據(jù)標注能力和場景化訓(xùn)練數(shù)據(jù)方案等實力,云測數(shù)據(jù)連續(xù)兩年在數(shù)據(jù)標注公司排行榜上奪得TOP 1的位置。

他們的平臺,憑什么拿下行業(yè)TOP 1?
憑的是三大技術(shù)特點:穩(wěn)、全、快。
首先,對于目前成熟的標注場景,保證AI輔助標注穩(wěn)定不出錯。
對于智能數(shù)據(jù)標注技術(shù)來說,目前比較成熟的場景包括OCR(光學字符識別)、語音切割等任務(wù)。
以O(shè)CR為例,識別準確率是基本要求,更重要的是文字識別的效率:
至于ASR(語音識別)也是基本操作:
當然,如果需要的是TTS(智能轉(zhuǎn)寫)方面的數(shù)據(jù),將一段話迅速轉(zhuǎn)成拼音也非常easy:
其次,平臺的效率不僅體現(xiàn)在識別速度和準確率上。
「云測數(shù)據(jù)標注平臺4.0」另一個重要的特性,體現(xiàn)在它的場景全面性上——既能做2D邊界框這種最簡單的標注,也能做業(yè)內(nèi)公認非常難的多端數(shù)據(jù)融合。
從圖像、文本、語音、音視頻……只有你想不到,沒有平臺做不到的數(shù)據(jù)類型。
先以進階一點的NLP實體抽取為例。
這項技術(shù)的難點在于,必須迅速找出一段長文本中最有用的關(guān)鍵信息,過程中不僅涉及大量學術(shù)名詞,而且分類的合理性也必須考慮。
在這種情況下,「云測數(shù)據(jù)標注平臺4.0」對于醫(yī)療專業(yè)的學術(shù)名詞也能輕松處理,且能準確地按照數(shù)據(jù)要求進行分類:
更重要的是,這一平臺也能做行業(yè)公認較難的一項技術(shù)——多端數(shù)據(jù)融合。
這項技術(shù)包括多模態(tài)融合和多傳感器融合兩種類型,每種類型對于融合算法的要求都非常高。
以這項技術(shù)目前應(yīng)用最廣泛的自動駕駛領(lǐng)域來看,多傳感器融合不僅要將多個傳感器如激光雷達的數(shù)據(jù)進行融合,使得系統(tǒng)獲取比單一傳感器數(shù)據(jù)更多的信息,還得確保這一過程的準確率。
例如,一個簡單的框就能將車輛的3D激光點云數(shù)據(jù)自動識別出來,更重要的是還能做智能貼合:
除此之外,在這些數(shù)據(jù)中,還涉及語音、圖像、文本等多種模態(tài)信息的融合,即使只是圖像信息,也涉及2D和3D數(shù)據(jù)的融合。
而在實現(xiàn)了傳感器和多模態(tài)融合后,也還需要面臨由于傳感器硬件更迭,導(dǎo)致數(shù)據(jù)類型更新的問題,因此在工程實現(xiàn)時,可擴展性也是考慮因素之一。
最后,也是最重要的,就是對數(shù)據(jù)標注效率的提升了。
不同的AI模型,所用的數(shù)據(jù)類型并不一樣,因此在獲取AI訓(xùn)練數(shù)據(jù)時,也必須相應(yīng)地調(diào)整標注方式,然而有些方法由于標注效率很低,從而導(dǎo)致成本的提升。

以圖像分割為例,這項技術(shù)目前主流的標注方法有兩種:多邊形分割、像素級標注。
其中,多邊形分割是一個成本巨大的標注方式,操作者必須像用PS里的“鋼筆”一樣,一點點地描出目標物體的邊緣形狀,將它與背景分割開來。
如果采用智能多邊形分割的話,往往會出現(xiàn)細節(jié)卻需要反復(fù)調(diào)整的情況,甚至比人工描邊還慢(以某開源平臺的智能標注效果為例):
相比之下,目前比較先進的標注方法像素級標注,以2D邊界框的簡單操作就能迅速標注出物體的形狀,準確率比多邊形分割要高得多:
然而,并非所有AI圖像分割模型都采用像素級標注的數(shù)據(jù)訓(xùn)練。
這就導(dǎo)致在AI模型要求多邊形分割數(shù)據(jù)時,會出現(xiàn)標注成本極高的情況。
為此,「云測數(shù)據(jù)標注平臺4.0」背后的程序員們,對多邊形分割進行了優(yōu)化:以像素級標注的簡單操作,也能標注出多邊形分割的效果,極大地加快了不同類型數(shù)據(jù)標注的效率。
或許有的人還對數(shù)據(jù)標注行業(yè)有所誤讀。但「云測數(shù)據(jù)標注平臺」已經(jīng)用實力證明,做出精準高質(zhì)量的數(shù)據(jù),同樣是一個技術(shù)活。
現(xiàn)在,這一平臺的4.0正式版,已經(jīng)對外商業(yè)化使用。
云測數(shù)據(jù),行業(yè)中的“數(shù)據(jù)科學家”
自人工智能爆發(fā)以來,「云測數(shù)據(jù)標注平臺」已有近5年的沉淀。
2017年,正值A(chǔ)I技術(shù)爆發(fā)一年有余,各行業(yè)對于數(shù)據(jù)處理的需求只增不減,隨著AI模型變得越來越多樣化,更多元的數(shù)據(jù)需求也在被提出。
云測數(shù)據(jù)能走到如今行業(yè)數(shù)據(jù)質(zhì)量TOP 1的位置,客戶涉及智能駕駛、智慧金融、智慧城市到智能家居等多個行業(yè),涵蓋計算機視覺、語音識別、自然語言處理、知識圖譜等AI主流技術(shù)領(lǐng)域,所做的遠不止把控AI訓(xùn)練數(shù)據(jù)的準確率。

數(shù)據(jù)標注,只是控制AI訓(xùn)練數(shù)據(jù)質(zhì)量中的一環(huán)。
事實上,從AI企業(yè)提出對應(yīng)需求的那一刻起,云測數(shù)據(jù)就開始對質(zhì)量進行把控了。
接到需求后,云測數(shù)據(jù)采集團隊需要根據(jù)客戶所用的AI算法模型,對所采集的數(shù)據(jù)進行評估梳理,確定貼合模型訓(xùn)練的數(shù)據(jù)采集需求,通過行業(yè)首創(chuàng)的數(shù)據(jù)場景實驗室進行相應(yīng)的采集。
同時,在數(shù)據(jù)采集階段,云測數(shù)據(jù)團隊就會先對采集的數(shù)據(jù)進行審核清洗。
這一步非常關(guān)鍵,許多未經(jīng)審核清洗就用作標注的數(shù)據(jù),可能包含有不適合用作模型訓(xùn)練的隱私數(shù)據(jù)、或低質(zhì)量數(shù)據(jù)。
對于隱私數(shù)據(jù),需要適當對數(shù)據(jù)進行脫敏化處理;至于低質(zhì)量數(shù)據(jù),則需要對數(shù)據(jù)進行清洗,確保這批數(shù)據(jù)適合標注。
至于數(shù)據(jù)標注和質(zhì)檢的過程也堪稱嚴苛,云測數(shù)據(jù)設(shè)計了從創(chuàng)建任務(wù)、分配任務(wù)、標注流轉(zhuǎn)、到質(zhì)檢/抽檢環(huán)節(jié)和最后的驗收等更完善的管理流程,每個環(huán)節(jié)有相應(yīng)專業(yè)人員來把控數(shù)據(jù)標注的質(zhì)量和時間節(jié)點,得以在保證質(zhì)量的前提現(xiàn)下可以真正提高效率。

這意味著,即使AI企業(yè)只提供一個模糊需求,云測數(shù)據(jù)也能通過從采集到標注的一整套流程,將能夠直接使用的AI訓(xùn)練數(shù)據(jù)呈現(xiàn)給企業(yè)。
因此,要想從根本上控制數(shù)據(jù)質(zhì)量,即使是數(shù)據(jù)行業(yè)也得掌握AI算法工程師的技術(shù):
只有理解AI算法的原理,才能明確最適合模型的數(shù)據(jù)條件和類型,最終交付合適的AI訓(xùn)練數(shù)據(jù)。
這幾年時間里,云測數(shù)據(jù)其實遇見過不少以“一篇AI論文”為需求的數(shù)據(jù)處理客戶。
尤其是在AI技術(shù)爆發(fā)初期,許多企業(yè)對AI算法有一定了解,但并不清楚應(yīng)該怎么處理數(shù)據(jù),也沒有任何可以用于AI模型訓(xùn)練的數(shù)據(jù)資源。
而且隨著自動駕駛、金融、醫(yī)療等專業(yè)領(lǐng)域開始用上更復(fù)雜的AI算法,數(shù)據(jù)質(zhì)量開始成為“重點關(guān)注對象”,任何一個錯誤的數(shù)據(jù),都可能降低模型的準確率。
日新月異的AI算法、和更加復(fù)雜的場景,讓一路走過來的云測數(shù)據(jù),磨煉出了如今的「云測數(shù)據(jù)標注平臺4.0」,不僅數(shù)據(jù)類型全面,而且數(shù)據(jù)質(zhì)量高。
接下來,他們還希望能將這個平臺進一步智能化,以迎接接下來的行業(yè)挑戰(zhàn)。
云測數(shù)據(jù)總經(jīng)理賈宇航表示,這或許最終會演變成一場“質(zhì)量與效率上的博弈”:
最近,自動駕駛行業(yè)很火,我們需要處理的數(shù)據(jù)也呈現(xiàn)出一個數(shù)量級的增長。例如,去年一家企業(yè)只需要采集10輛RoboTaxi的數(shù)據(jù),今年就增加到了百千輛RoboTaxi。
但我們希望,在保證數(shù)據(jù)質(zhì)量不變的情況下,數(shù)據(jù)處理成本不會呈線性增長,而是利用智能化平臺,讓數(shù)據(jù)處理的成本更合理、效率更高。
云測數(shù)據(jù)的真實身份,其實是AI訓(xùn)練數(shù)據(jù)行業(yè)中的“數(shù)據(jù)科學家”:
他們的目標,是讓AI行業(yè)能真正實現(xiàn)數(shù)據(jù)驅(qū)動。
- 首個GPT-4驅(qū)動的人形機器人!無需編程+零樣本學習,還可根據(jù)口頭反饋調(diào)整行為2023-12-13
- IDC霍錦潔:AI PC將顛覆性變革PC產(chǎn)業(yè)2023-12-08
- AI視覺字謎爆火!夢露轉(zhuǎn)180°秒變愛因斯坦,英偉達高級AI科學家:近期最酷的擴散模型2023-12-03
- 蘋果大模型最大動作:開源M芯專用ML框架,能跑70億大模型2023-12-07



