科研團隊如何探索商業化落地?這家語音AI公司用十年科學試驗打了樣
科研團隊跟風既無趣也無前途
白交 發自 凹非寺
量子位 | 公眾號 QbitAI
現在,大家都在談硬科技創新、產學研轉化。
AI作為最引人注目的賽道之一,通常有兩種發展模式:
- 互聯網及傳統行業巨頭,利用自身業務與資源優勢,通過AI降本增效、拓展新應用。
- 科學家創業,從零探索實驗室技術的商業化路徑,打造全新的產品、方案及商業模式。
AI雖然前景廣闊,但技術和市場卻是一個逐漸發展成熟的過程。
不可否認的是,在深度學習驅動的第三輪AI浪潮之初,有一些科研人員從實驗室冒險出走,先后成立了曠視、云知聲、商湯、云從、地平線、寒武紀等,陸續發展成為AI獨角獸,當中有企業已成功上市……
科學家創業,有著他們獨特的技術優勢,也面臨著特有的商業化挑戰。
具備扎實的技術功底只是必要的基礎條件,商業化洞察和執行力很關鍵,某種程度上決定了企業發展的大方向。
以語音賽道為例,這當中也有這樣一家公司案例值得關注。
云知聲,十年時間,在智能語音賽道上發展為估值近百億的AI獨角獸,如今商業模式比較清晰,聚焦于智慧物聯與智慧醫療兩大業務。
創業之初,團隊80%均為中科大、中科院的AI博士,他們抱負很高,打算用自己所學,推動整個產業發展。
甚至于,直接將這種理想抱負體現在公司名稱上——
云知聲,從語音技術切入,在云端構建感知和認知智能,推動產業升級。
如今站在云知聲十年發展節點上,以它為樣本,聊聊科研團隊如何以科學態度探索到AI技術商業化落地發展之路。
云知聲,理工男的文藝構想
十年前,深度學習在視覺評測中初露鋒芒,在語音識別技術上也剛剛取得突破,第三次AI產業浪潮開始悄然滋長。
少部分科研人員看到了當中技術的商業價值決定創業。
中科院出身梁家恩博士就是其中之一。
當時他在語音技術的研究積累已經超過十年,在產業應用上也有五年以上的實戰經驗。與他同行的,基本上都是中科大、中科院AI專業的博士。
或許正是因為團隊深厚的科研和理工背景,“云知聲”這樣略有詩意的公司名,直接讓大眾摸不著頭腦。
如今回想起來,梁家恩博士笑了笑說,當時有人覺得很奇怪,有人覺得這個詞有些文藝范。
但其實這個生造的詞,蘊含著他們創始團隊由點及面對技術及產業的思考和洞察。
云,未來智能一定在云端上實現集大成;知,代表了從感知到認知的智能體系;聲,則是以這個團隊最擅長的語音技術作為切入點。
這些論斷放在現在看似平常,但放在當時這種思考也未免太大膽了些。
不由讓外界懷疑他們構想的局是否太宏大了,但也有資本市場看到當中的決心和勇氣,磐谷創投成為了他們的天使投資人。
很快,他們一系列實際舉措打消了外界的疑慮。
2012年9月底,創辦不到3個月,梁家恩團隊就搭建了個開放語音云平臺,并開始支持搜狗語音助手發布。
2012年12月底,經過3個月的攻關,云知聲深度學習語音識別技術上線,加上線上數據迭代,直接將識別率從80%出頭提升至90%以上,放在當時已經屬于國內一流水平,成為國內最早的深度學習商業化應用之一。
值得一提的是,背后的算力,是靠兩張游戲顯卡支撐。
梁家恩透露,當時雖然沒有上百臺服務器的資源實力,就靠淘寶上購買兩張英偉達顯卡,攢出了云知聲第一臺超算。
云知聲的這條深度學習升級之路,正是其核心技術團隊追求卓越的實戰精神體現。
隨后,在2013年初,云知聲發布了一個微信語音輸入插件,一周即登頂APP Store免費工具排行榜首位。日激活量接近4萬,使用該插件的用戶很快接近100萬規模。
與此同時,在錘子發布會和LeTV超級電視上的亮相,引發業內和各方資本關注。
創業不到一年,云知聲就獲得了啟明創投領投的億元級A輪融資。
這時,云知聲在業內已經小有名氣。但在梁家恩博士看來,他們只是打了個技術基礎。
簡言之,就是AI三駕馬車基本成型:云平臺積累海量真實數據,基于GPU的超算能力,還有深度學習技術。
而與行業伙伴合作、推出微信語音輸入插件,則屬于是完成技術應用的初步驗證。
但要想實現創業初心——推動語音產業的發展,光打好技術基礎還不夠。
按照科學思維,還需要商業化求證和舉一反三。
這時候,云知聲已經想好了下一步的路。
云端芯:全棧AI能力的構建
云端芯。
2014年年初,云知聲官宣了這一戰略。
三個字拆解來看,云端智能解決業務深層問題;終端應對各類應用場景的差異化需求;物聯網專用芯片,則支持規模化應用。
如今已被公認為行業熱詞,但放在當時,卻屬于業內首次。
而啟發云知聲提出這一前瞻性戰略的,正是基于開放云平臺的應用數據和用戶反饋的綜合分析。
一方面,開放云平臺運行期間,有開發者反饋能否用語音解決車載導航、病歷錄入、英語學習等場景。
另一方面,實際應用中也發現,LeTV超級電視語音助手與搜狗智能手機語音助手之間的活躍度有十倍以上的差異。
以手機語音助手為例,如果沒有充足的資源去宣傳和推廣,那么大概就只有2%的活躍度。但如果在智能電視,不需要任何推廣,全年基本上保持接近40%的活躍度。
對于梁家恩團隊來說,這是一個關鍵的發現:
智慧物聯也許是個更剛需的智能交互應用場景。
但物聯網并不是一個新鮮的概念,1999年就提出來了;行業巨頭IBM,在2008年又提出了智慧地球,但也始終停留在概念階段,可見挑戰之大。
對云知聲而言,既是機遇也是挑戰。頂層構想有了,在具體實踐上又該如何破局呢?
云端芯,簡單來說,就是構建軟硬件一體的全棧技術與服務能力。
全棧?這時候質疑聲音又來了:大公司巨頭都不一定能完成的能力,卻成為他們正在實踐的目標。
面對質疑,梁家恩用他們在A輪融資發布會上引述道德經的名言 “圖難于其易,為大于其細”做了回應——從解決實際問題出發,各個擊破。
最先發力的技術,就是遠場降噪與識別技術,這是智慧家居中一個關鍵技術問題。
通過聲學結構設計和麥克風陣列降噪技術,解決3-5米范圍內的目標語音提取和背景噪聲消除問題,實現真實場景下的語音交互,從而使得感知技術能力得到更大范圍拓展,在更多真實應用場景下達到實用效果。
與此同時,為更好支持對話式交互的體驗,云知聲還發布了語用計算平臺。
簡單來說,就是能結合上下文語境去做語義理解,跟用戶進行可快速配置的多輪對話,從而更順暢完成復雜場景的人機交互任務。加上后續拓展的知識圖譜技術,實現了從感知到認知的技術能力跨越,能解決更加復雜的業務深層問題。
接著就是硬件能力。
他們遇到了史上最大的挑戰之一,智能芯片。
一則團隊內部沒有相應的硬件人才,二則芯片研發成本高昂,一旦失敗對創業公司來說無異于釜底抽薪。
這時候云知聲嚴謹求證的科研作風再一次凸顯,經過討論他們決定不要一上來就做芯片。
而是先以通用芯片模組切入,驗證他的商業應用價值和技術可行性。
經過兩年打磨,以通用ARM芯片為基礎,支持遠場降噪和識別的語音交互模組在格力高端空調上出貨。
當時在業內取得積極反響,也獲得了2016年的智能家居AWE“艾普蘭核心獎”。梁家恩回憶稱,客戶非常滿意,但通用模組“價格貴”,成為了智能語音交互模組走向主流機型的主要障礙,芯片自研也就成為題中之義。
2016年,云知聲就正式啟動了芯片的研發。
2018年4月,中興事件爆發一個月后,云知聲一次流片成功,發布了第一款AI語音芯片——雨燕,讓業界眼前一亮,該芯片后來獲得了“吳文俊人工智能科技進步獎”,當時很多公司才開始意識到 AI 邊緣計算芯片的重要性。
除了“云端芯”全棧技術能力拓展,云知聲還實現了底層超算平臺的全面升級。
在啟動芯片研發同一年(2016),當時還有個行業大事件:AlphaGo擊敗李世石震驚全球,也將深度學習和AI技術推到了全民關注的風口浪尖。
這件事被梁家恩看在眼里,不只是因為深度增強學習算法的精妙只是其一,但當時最讓他好奇的點,是它如何通過調度上千塊GPU去做如此高復雜度的深度增強學習計算的?
放在國內,當時沒有任何系統可以干成這件事。
為了尋找答案,梁家恩二話不說就買機票前往硅谷調研。
在硅谷巨頭超算專家的啟發和支持下,經過近一年的研發和優化,實現了支持上千塊GPU同時調度的大規模機器學習的超算平臺,稱為Atlas(希臘神話中的大力神)。
云知聲以Atlas超算平臺為共享基礎支撐,加速了云知聲AI技術體系的演進速度,迅速拓展端到端語音合成、人臉識別、機器翻譯等技術能力,并取得語音合成BC2020評測第一、機器翻譯WMT2018評測前三等行業前列成績。
直到2018年,BERT、GPT-3等大規模預訓練語言模型的出現,超算平臺的價值才得到行業的充分認識。而云知聲則依托Atlas超算平臺和“云端芯”戰略,形成了全棧AI技術及產品化能力,內部有著更為形象的表述:AI六邊形能力:
一是算法方面,確保對主流技術架構的密切跟進,通過全棧AI技術打造整體智能解決方案,并通過工程優化降低部署和交付成本;
二是數據方面,以大規模訓練為基礎,解決小樣本的快速遷移問題,并建立高效真實數據迭代閉環,提升模型精準度及應用適配能力。
以全棧AI技術及產品化能力為依托,云知聲能高效調度研發資源,在更多場景中快速探索和驗證行業應用,包括車載、醫療、教育等領域。
云端芯從戰略到現實,不光意味著他們對技術產業的預判再次成功,也更為云知聲下一步深入行業、迭代發展奠定了基礎。
U+X:約縱連橫,深耕兩大業務
在全棧AI能力構建和應用驗證后,在云知聲內部已經達成新的共識:
要真正深入行業了解業務Know-how,少不了與行業玩家聯合互補,跟他們共同打造出真正解決問題、創造價值的整體智能解決方案。
這時候,也就來到了云知聲新的戰略階段:U+X。
U,云知聲(Unisound);X,即為行業。
他們將諸多前期應用場景探索的成果,整合為兩大商業化路徑——智慧物聯和智慧醫療。
智慧物聯方面,實現從單品智能(通過芯片模組升級)到整體智能的演進,并采取與房地產、交通、養老、酒店等行業合作,提供軟硬一體的整體智能體驗。
智慧醫療方面,從最初的語音電子病歷、語音導醫分診等效率工具,到以醫療知識圖譜為基礎,提供病歷質控、醫保控費及診療決策支持等醫療整體解決方案。
2019年推出的智能病歷質控系統,還榮獲當時北京科技突破一等獎。
如今回過頭來看,一個是互聯網大廠、家電、房地產商等多領域公司爭相競逐的賽道。
另一個則是正快速發展、并始終被外界看好的賽道,巨頭如微軟,仍在去年花197億美元買下AI醫療的門票——完成對語音巨頭Nuance的收購。
但對于云知聲來說,并非偶然的選擇,也并非跟隨行業熱門。
反倒是根據自身實踐和推演順其自然的選擇,被后來的市場所驗證。
梁家恩博士向量子位解釋,云知聲對智慧物聯和智慧醫療業務的布局,剛好代表著語音產業兩大發展方向,也充分檢驗底層技術的能力和實用性:
廣度和深度。
廣度方面如智慧物聯,觸及盡可能多的真實用戶和應用場景,在多場景、多用戶中,拓展感知技術和智能交互的應用邊界。
深度方面如智慧醫療,則是以行業知識圖譜為核心,挑選最具挑戰性、知識體系最強大的應用場景,深入解決醫療質量和效率提升的問題,同時拓展認知技術能力的應用邊界。
一橫一縱,不同路徑發展方式,但目的只有一個,解決真實應用問題,推動產業發展,同時,也拓展和檢驗云知聲從感知到認知的底層智能技術能力。
技術創新公司,從產學研技術創新開始,到商業模式實現、成熟。
云知聲給出的周期時間是十年。
而在未來,橫縱融合,除了技術產品本身的持續迭代和完善外,也將激發出更多服務與生態出來。
梁家恩提到了未來新方向的一些設想。
比如在服務方面,智慧物聯與智慧醫療的交叉——智慧養老服務;
還有像生態方面,以云芯一體化平臺為基礎,將拓展出更多智能應用生態,如:音視頻分析、輔助決策、輔助創作等;依靠自身在智慧物聯、智慧醫療上的行業實戰經驗,與行業合作伙伴互補拓展,也存在很大的空間。
十年的云知聲,提供了一個樣本
從公司起名和大膽構想,到務實嚴謹的商業探索和快速迭代驗證,聚焦行業真實應用問題解決,而非盲目刷榜、炫技以吸引資本眼球。
從前期客戶沉淀積累,到敏銳的嗅覺確認方向——智慧物聯。
云知聲的每一步似乎都踩在點子上,但又比行業風向快了那么一步:
比如AI三駕馬車、云端芯戰略、智能芯片,到如今巨頭相爭的智慧醫療和智慧物聯。
梁家恩表示,科研團隊跟風既無趣也無前途,可能正是基于團隊謀定而后動,在實踐中不斷思考,超越算法能力邊界,構建軟硬一體和全棧AI能力,認準的事情即使再困難也堅決去做,才造就了今天云知聲全棧AI技術及產品化能力以及縱橫兩大商業化路徑。
無疑,這是一次獨特的科技商業化探索的試驗。
而像云知聲這樣的案例,并非孤例。
隨著硬科技創新、產學研轉化越來越響亮,更多的科研團隊投身于商業價值轉化,但不論方向如何、技術落地情況如何,面對的一些難題卻是共通的。
比如,實驗室技術該如何轉化成規模化、普及化的實用技術?企業又該如何助力產業升級,走一條更長更遠的路?
十年的云知聲,只是提供了一個樣本。
- 空間智能卡脖子難題被杭州攻克!難倒GPT-5后,六小龍企業出手了2025-08-28
- 陳丹琦有了個公司郵箱,北大翁荔同款2025-08-28
- 英偉達最新芯片B30A曝光2025-08-20
- AI應用如何落地政企?首先不要卷通用大模型2025-08-12




