科研團隊如何探索商業(yè)化落地?這家語音AI公司用十年科學試驗打了樣
科研團隊跟風既無趣也無前途
白交 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
現(xiàn)在,大家都在談硬科技創(chuàng)新、產(chǎn)學研轉(zhuǎn)化。
AI作為最引人注目的賽道之一,通常有兩種發(fā)展模式:
- 互聯(lián)網(wǎng)及傳統(tǒng)行業(yè)巨頭,利用自身業(yè)務與資源優(yōu)勢,通過AI降本增效、拓展新應用。
- 科學家創(chuàng)業(yè),從零探索實驗室技術(shù)的商業(yè)化路徑,打造全新的產(chǎn)品、方案及商業(yè)模式。
AI雖然前景廣闊,但技術(shù)和市場卻是一個逐漸發(fā)展成熟的過程。
不可否認的是,在深度學習驅(qū)動的第三輪AI浪潮之初,有一些科研人員從實驗室冒險出走,先后成立了曠視、云知聲、商湯、云從、地平線、寒武紀等,陸續(xù)發(fā)展成為AI獨角獸,當中有企業(yè)已成功上市……
科學家創(chuàng)業(yè),有著他們獨特的技術(shù)優(yōu)勢,也面臨著特有的商業(yè)化挑戰(zhàn)。
具備扎實的技術(shù)功底只是必要的基礎(chǔ)條件,商業(yè)化洞察和執(zhí)行力很關(guān)鍵,某種程度上決定了企業(yè)發(fā)展的大方向。
以語音賽道為例,這當中也有這樣一家公司案例值得關(guān)注。
云知聲,十年時間,在智能語音賽道上發(fā)展為估值近百億的AI獨角獸,如今商業(yè)模式比較清晰,聚焦于智慧物聯(lián)與智慧醫(yī)療兩大業(yè)務。
創(chuàng)業(yè)之初,團隊80%均為中科大、中科院的AI博士,他們抱負很高,打算用自己所學,推動整個產(chǎn)業(yè)發(fā)展。
甚至于,直接將這種理想抱負體現(xiàn)在公司名稱上——
云知聲,從語音技術(shù)切入,在云端構(gòu)建感知和認知智能,推動產(chǎn)業(yè)升級。
如今站在云知聲十年發(fā)展節(jié)點上,以它為樣本,聊聊科研團隊如何以科學態(tài)度探索到AI技術(shù)商業(yè)化落地發(fā)展之路。
云知聲,理工男的文藝構(gòu)想
十年前,深度學習在視覺評測中初露鋒芒,在語音識別技術(shù)上也剛剛?cè)〉猛黄疲谌蜛I產(chǎn)業(yè)浪潮開始悄然滋長。
少部分科研人員看到了當中技術(shù)的商業(yè)價值決定創(chuàng)業(yè)。
中科院出身梁家恩博士就是其中之一。
當時他在語音技術(shù)的研究積累已經(jīng)超過十年,在產(chǎn)業(yè)應用上也有五年以上的實戰(zhàn)經(jīng)驗。與他同行的,基本上都是中科大、中科院AI專業(yè)的博士。
或許正是因為團隊深厚的科研和理工背景,“云知聲”這樣略有詩意的公司名,直接讓大眾摸不著頭腦。
如今回想起來,梁家恩博士笑了笑說,當時有人覺得很奇怪,有人覺得這個詞有些文藝范。
但其實這個生造的詞,蘊含著他們創(chuàng)始團隊由點及面對技術(shù)及產(chǎn)業(yè)的思考和洞察。
云,未來智能一定在云端上實現(xiàn)集大成;知,代表了從感知到認知的智能體系;聲,則是以這個團隊最擅長的語音技術(shù)作為切入點。
這些論斷放在現(xiàn)在看似平常,但放在當時這種思考也未免太大膽了些。
不由讓外界懷疑他們構(gòu)想的局是否太宏大了,但也有資本市場看到當中的決心和勇氣,磐谷創(chuàng)投成為了他們的天使投資人。
很快,他們一系列實際舉措打消了外界的疑慮。
2012年9月底,創(chuàng)辦不到3個月,梁家恩團隊就搭建了個開放語音云平臺,并開始支持搜狗語音助手發(fā)布。
2012年12月底,經(jīng)過3個月的攻關(guān),云知聲深度學習語音識別技術(shù)上線,加上線上數(shù)據(jù)迭代,直接將識別率從80%出頭提升至90%以上,放在當時已經(jīng)屬于國內(nèi)一流水平,成為國內(nèi)最早的深度學習商業(yè)化應用之一。
值得一提的是,背后的算力,是靠兩張游戲顯卡支撐。
梁家恩透露,當時雖然沒有上百臺服務器的資源實力,就靠淘寶上購買兩張英偉達顯卡,攢出了云知聲第一臺超算。
云知聲的這條深度學習升級之路,正是其核心技術(shù)團隊追求卓越的實戰(zhàn)精神體現(xiàn)。
隨后,在2013年初,云知聲發(fā)布了一個微信語音輸入插件,一周即登頂APP Store免費工具排行榜首位。日激活量接近4萬,使用該插件的用戶很快接近100萬規(guī)模。
與此同時,在錘子發(fā)布會和LeTV超級電視上的亮相,引發(fā)業(yè)內(nèi)和各方資本關(guān)注。
創(chuàng)業(yè)不到一年,云知聲就獲得了啟明創(chuàng)投領(lǐng)投的億元級A輪融資。
這時,云知聲在業(yè)內(nèi)已經(jīng)小有名氣。但在梁家恩博士看來,他們只是打了個技術(shù)基礎(chǔ)。
簡言之,就是AI三駕馬車基本成型:云平臺積累海量真實數(shù)據(jù),基于GPU的超算能力,還有深度學習技術(shù)。
而與行業(yè)伙伴合作、推出微信語音輸入插件,則屬于是完成技術(shù)應用的初步驗證。
但要想實現(xiàn)創(chuàng)業(yè)初心——推動語音產(chǎn)業(yè)的發(fā)展,光打好技術(shù)基礎(chǔ)還不夠。
按照科學思維,還需要商業(yè)化求證和舉一反三。
這時候,云知聲已經(jīng)想好了下一步的路。
云端芯:全棧AI能力的構(gòu)建
云端芯。
2014年年初,云知聲官宣了這一戰(zhàn)略。
三個字拆解來看,云端智能解決業(yè)務深層問題;終端應對各類應用場景的差異化需求;物聯(lián)網(wǎng)專用芯片,則支持規(guī)模化應用。
如今已被公認為行業(yè)熱詞,但放在當時,卻屬于業(yè)內(nèi)首次。
而啟發(fā)云知聲提出這一前瞻性戰(zhàn)略的,正是基于開放云平臺的應用數(shù)據(jù)和用戶反饋的綜合分析。
一方面,開放云平臺運行期間,有開發(fā)者反饋能否用語音解決車載導航、病歷錄入、英語學習等場景。
另一方面,實際應用中也發(fā)現(xiàn),LeTV超級電視語音助手與搜狗智能手機語音助手之間的活躍度有十倍以上的差異。
以手機語音助手為例,如果沒有充足的資源去宣傳和推廣,那么大概就只有2%的活躍度。但如果在智能電視,不需要任何推廣,全年基本上保持接近40%的活躍度。
對于梁家恩團隊來說,這是一個關(guān)鍵的發(fā)現(xiàn):
智慧物聯(lián)也許是個更剛需的智能交互應用場景。
但物聯(lián)網(wǎng)并不是一個新鮮的概念,1999年就提出來了;行業(yè)巨頭IBM,在2008年又提出了智慧地球,但也始終停留在概念階段,可見挑戰(zhàn)之大。
對云知聲而言,既是機遇也是挑戰(zhàn)。頂層構(gòu)想有了,在具體實踐上又該如何破局呢?
云端芯,簡單來說,就是構(gòu)建軟硬件一體的全棧技術(shù)與服務能力。
全棧?這時候質(zhì)疑聲音又來了:大公司巨頭都不一定能完成的能力,卻成為他們正在實踐的目標。
面對質(zhì)疑,梁家恩用他們在A輪融資發(fā)布會上引述道德經(jīng)的名言 “圖難于其易,為大于其細”做了回應——從解決實際問題出發(fā),各個擊破。
最先發(fā)力的技術(shù),就是遠場降噪與識別技術(shù),這是智慧家居中一個關(guān)鍵技術(shù)問題。
通過聲學結(jié)構(gòu)設計和麥克風陣列降噪技術(shù),解決3-5米范圍內(nèi)的目標語音提取和背景噪聲消除問題,實現(xiàn)真實場景下的語音交互,從而使得感知技術(shù)能力得到更大范圍拓展,在更多真實應用場景下達到實用效果。
與此同時,為更好支持對話式交互的體驗,云知聲還發(fā)布了語用計算平臺。
簡單來說,就是能結(jié)合上下文語境去做語義理解,跟用戶進行可快速配置的多輪對話,從而更順暢完成復雜場景的人機交互任務。加上后續(xù)拓展的知識圖譜技術(shù),實現(xiàn)了從感知到認知的技術(shù)能力跨越,能解決更加復雜的業(yè)務深層問題。
接著就是硬件能力。
他們遇到了史上最大的挑戰(zhàn)之一,智能芯片。
一則團隊內(nèi)部沒有相應的硬件人才,二則芯片研發(fā)成本高昂,一旦失敗對創(chuàng)業(yè)公司來說無異于釜底抽薪。
這時候云知聲嚴謹求證的科研作風再一次凸顯,經(jīng)過討論他們決定不要一上來就做芯片。
而是先以通用芯片模組切入,驗證他的商業(yè)應用價值和技術(shù)可行性。
經(jīng)過兩年打磨,以通用ARM芯片為基礎(chǔ),支持遠場降噪和識別的語音交互模組在格力高端空調(diào)上出貨。
當時在業(yè)內(nèi)取得積極反響,也獲得了2016年的智能家居AWE“艾普蘭核心獎”。梁家恩回憶稱,客戶非常滿意,但通用模組“價格貴”,成為了智能語音交互模組走向主流機型的主要障礙,芯片自研也就成為題中之義。
2016年,云知聲就正式啟動了芯片的研發(fā)。
2018年4月,中興事件爆發(fā)一個月后,云知聲一次流片成功,發(fā)布了第一款AI語音芯片——雨燕,讓業(yè)界眼前一亮,該芯片后來獲得了“吳文俊人工智能科技進步獎”,當時很多公司才開始意識到 AI 邊緣計算芯片的重要性。
除了“云端芯”全棧技術(shù)能力拓展,云知聲還實現(xiàn)了底層超算平臺的全面升級。
在啟動芯片研發(fā)同一年(2016),當時還有個行業(yè)大事件:AlphaGo擊敗李世石震驚全球,也將深度學習和AI技術(shù)推到了全民關(guān)注的風口浪尖。
這件事被梁家恩看在眼里,不只是因為深度增強學習算法的精妙只是其一,但當時最讓他好奇的點,是它如何通過調(diào)度上千塊GPU去做如此高復雜度的深度增強學習計算的?
放在國內(nèi),當時沒有任何系統(tǒng)可以干成這件事。
為了尋找答案,梁家恩二話不說就買機票前往硅谷調(diào)研。
在硅谷巨頭超算專家的啟發(fā)和支持下,經(jīng)過近一年的研發(fā)和優(yōu)化,實現(xiàn)了支持上千塊GPU同時調(diào)度的大規(guī)模機器學習的超算平臺,稱為Atlas(希臘神話中的大力神)。
云知聲以Atlas超算平臺為共享基礎(chǔ)支撐,加速了云知聲AI技術(shù)體系的演進速度,迅速拓展端到端語音合成、人臉識別、機器翻譯等技術(shù)能力,并取得語音合成BC2020評測第一、機器翻譯WMT2018評測前三等行業(yè)前列成績。
直到2018年,BERT、GPT-3等大規(guī)模預訓練語言模型的出現(xiàn),超算平臺的價值才得到行業(yè)的充分認識。而云知聲則依托Atlas超算平臺和“云端芯”戰(zhàn)略,形成了全棧AI技術(shù)及產(chǎn)品化能力,內(nèi)部有著更為形象的表述:AI六邊形能力:
一是算法方面,確保對主流技術(shù)架構(gòu)的密切跟進,通過全棧AI技術(shù)打造整體智能解決方案,并通過工程優(yōu)化降低部署和交付成本;
二是數(shù)據(jù)方面,以大規(guī)模訓練為基礎(chǔ),解決小樣本的快速遷移問題,并建立高效真實數(shù)據(jù)迭代閉環(huán),提升模型精準度及應用適配能力。
以全棧AI技術(shù)及產(chǎn)品化能力為依托,云知聲能高效調(diào)度研發(fā)資源,在更多場景中快速探索和驗證行業(yè)應用,包括車載、醫(yī)療、教育等領(lǐng)域。
云端芯從戰(zhàn)略到現(xiàn)實,不光意味著他們對技術(shù)產(chǎn)業(yè)的預判再次成功,也更為云知聲下一步深入行業(yè)、迭代發(fā)展奠定了基礎(chǔ)。
U+X:約縱連橫,深耕兩大業(yè)務
在全棧AI能力構(gòu)建和應用驗證后,在云知聲內(nèi)部已經(jīng)達成新的共識:
要真正深入行業(yè)了解業(yè)務Know-how,少不了與行業(yè)玩家聯(lián)合互補,跟他們共同打造出真正解決問題、創(chuàng)造價值的整體智能解決方案。
這時候,也就來到了云知聲新的戰(zhàn)略階段:U+X。
U,云知聲(Unisound);X,即為行業(yè)。
他們將諸多前期應用場景探索的成果,整合為兩大商業(yè)化路徑——智慧物聯(lián)和智慧醫(yī)療。
智慧物聯(lián)方面,實現(xiàn)從單品智能(通過芯片模組升級)到整體智能的演進,并采取與房地產(chǎn)、交通、養(yǎng)老、酒店等行業(yè)合作,提供軟硬一體的整體智能體驗。
智慧醫(yī)療方面,從最初的語音電子病歷、語音導醫(yī)分診等效率工具,到以醫(yī)療知識圖譜為基礎(chǔ),提供病歷質(zhì)控、醫(yī)保控費及診療決策支持等醫(yī)療整體解決方案。
2019年推出的智能病歷質(zhì)控系統(tǒng),還榮獲當時北京科技突破一等獎。
如今回過頭來看,一個是互聯(lián)網(wǎng)大廠、家電、房地產(chǎn)商等多領(lǐng)域公司爭相競逐的賽道。
另一個則是正快速發(fā)展、并始終被外界看好的賽道,巨頭如微軟,仍在去年花197億美元買下AI醫(yī)療的門票——完成對語音巨頭Nuance的收購。
但對于云知聲來說,并非偶然的選擇,也并非跟隨行業(yè)熱門。
反倒是根據(jù)自身實踐和推演順其自然的選擇,被后來的市場所驗證。
梁家恩博士向量子位解釋,云知聲對智慧物聯(lián)和智慧醫(yī)療業(yè)務的布局,剛好代表著語音產(chǎn)業(yè)兩大發(fā)展方向,也充分檢驗底層技術(shù)的能力和實用性:
廣度和深度。
廣度方面如智慧物聯(lián),觸及盡可能多的真實用戶和應用場景,在多場景、多用戶中,拓展感知技術(shù)和智能交互的應用邊界。
深度方面如智慧醫(yī)療,則是以行業(yè)知識圖譜為核心,挑選最具挑戰(zhàn)性、知識體系最強大的應用場景,深入解決醫(yī)療質(zhì)量和效率提升的問題,同時拓展認知技術(shù)能力的應用邊界。
一橫一縱,不同路徑發(fā)展方式,但目的只有一個,解決真實應用問題,推動產(chǎn)業(yè)發(fā)展,同時,也拓展和檢驗云知聲從感知到認知的底層智能技術(shù)能力。
技術(shù)創(chuàng)新公司,從產(chǎn)學研技術(shù)創(chuàng)新開始,到商業(yè)模式實現(xiàn)、成熟。
云知聲給出的周期時間是十年。
而在未來,橫縱融合,除了技術(shù)產(chǎn)品本身的持續(xù)迭代和完善外,也將激發(fā)出更多服務與生態(tài)出來。
梁家恩提到了未來新方向的一些設想。
比如在服務方面,智慧物聯(lián)與智慧醫(yī)療的交叉——智慧養(yǎng)老服務;
還有像生態(tài)方面,以云芯一體化平臺為基礎(chǔ),將拓展出更多智能應用生態(tài),如:音視頻分析、輔助決策、輔助創(chuàng)作等;依靠自身在智慧物聯(lián)、智慧醫(yī)療上的行業(yè)實戰(zhàn)經(jīng)驗,與行業(yè)合作伙伴互補拓展,也存在很大的空間。
十年的云知聲,提供了一個樣本
從公司起名和大膽構(gòu)想,到務實嚴謹?shù)纳虡I(yè)探索和快速迭代驗證,聚焦行業(yè)真實應用問題解決,而非盲目刷榜、炫技以吸引資本眼球。
從前期客戶沉淀積累,到敏銳的嗅覺確認方向——智慧物聯(lián)。
云知聲的每一步似乎都踩在點子上,但又比行業(yè)風向快了那么一步:
比如AI三駕馬車、云端芯戰(zhàn)略、智能芯片,到如今巨頭相爭的智慧醫(yī)療和智慧物聯(lián)。
梁家恩表示,科研團隊跟風既無趣也無前途,可能正是基于團隊謀定而后動,在實踐中不斷思考,超越算法能力邊界,構(gòu)建軟硬一體和全棧AI能力,認準的事情即使再困難也堅決去做,才造就了今天云知聲全棧AI技術(shù)及產(chǎn)品化能力以及縱橫兩大商業(yè)化路徑。
無疑,這是一次獨特的科技商業(yè)化探索的試驗。
而像云知聲這樣的案例,并非孤例。
隨著硬科技創(chuàng)新、產(chǎn)學研轉(zhuǎn)化越來越響亮,更多的科研團隊投身于商業(yè)價值轉(zhuǎn)化,但不論方向如何、技術(shù)落地情況如何,面對的一些難題卻是共通的。
比如,實驗室技術(shù)該如何轉(zhuǎn)化成規(guī)模化、普及化的實用技術(shù)?企業(yè)又該如何助力產(chǎn)業(yè)升級,走一條更長更遠的路?
十年的云知聲,只是提供了一個樣本。
- 空間智能卡脖子難題被杭州攻克!難倒GPT-5后,六小龍企業(yè)出手了2025-08-28
- 陳丹琦有了個公司郵箱,北大翁荔同款2025-08-28
- 英偉達最新芯片B30A曝光2025-08-20
- AI應用如何落地政企?首先不要卷通用大模型2025-08-12




