2024國際基礎科學大會“計算機之夜”活動圓滿舉行
共同探討最新的科研成果和技術(shù)應用
7月17日晚,國際基礎科學大會的“計算機之夜”活動成功舉辦。
該活動吸引了眾多計算機科學領域的專家學者,共同探討最新的科研成果和技術(shù)應用。
致辭環(huán)節(jié)
丘成桐先生作為大會主席首先致辭。

丘先生強調(diào),科學的發(fā)展需要大量的數(shù)據(jù)處理和深刻的科學見解,而這些都離不開計算機的支持。
他指出,計算機科學和人工智能的發(fā)展為基礎科學研究提供了新的工具和方法,能夠解決許多復雜的問題。
丘先生還提到,物理學的許多重要進展為計算機產(chǎn)業(yè)的發(fā)展奠定了基礎,尤其是在量子計算機領域,盡管這一技術(shù)可能還需要10到20年的發(fā)展時間,但基礎物理學在其中起到了重要作用。
此外,他認為,人工智能和計算機科學的發(fā)展依賴于數(shù)學的深入研究,并且很多重要的數(shù)學思想在這些領域中反復應用。他對此表示樂觀,認為中國科學家在這一領域能夠做出重要貢獻。
最后,丘成桐先生呼吁大家打破學科界限,互相學習,共同促進科學的發(fā)展,不僅為中國,也為全球科學進步做出貢獻。
接著,ICBS基礎科學終身成就獎、圖靈獎得主Leslie Valiant教授也發(fā)表了講話。

Leslie Valiant教授表示,對于計算機科學與其他學科如數(shù)學和物理學的密切關(guān)系,他一直深感興趣,并強調(diào)這些學科的交叉和融合對于推動整體科學發(fā)展具有重要意義。
Valiant教授提到,與數(shù)學和其他自然科學相比,計算機科學的歷史較為短暫,但其所面臨的問題同樣深遠而復雜。
他特別提到了計算機科學領域中的一些基本問題,如P與NP問題,至今尚未解決。
Leslie Valiant教授進一步指出,計算機科學正處于發(fā)展的早期階段,許多基本問題仍需解答。尤其是量子計算的興起,帶來了許多新的問題和研究方向,使得計算機科學家們需要不斷應對新技術(shù)的挑戰(zhàn)。
與此同時,認知科學與人工智能領域的快速發(fā)展,為計算機科學的應用與研究提供了廣闊的前景和無限的可能性。
最后,Valiant教授鼓勵年輕人和資深研究者繼續(xù)投身計算機科學領域,他堅信這個領域在未來將會有更多重大的突破和發(fā)展機遇。
主題演講
在主旨演講環(huán)節(jié),騰訊杰出科學家、國際電氣與電子工程師學會會士以及國際模式識別協(xié)會會士劉威博士,首先圍繞騰訊混元大模型的進展發(fā)表了主旨演講,詳細闡述了騰訊在多模態(tài)生成模型領域的最新研究進展。

劉威博士主要介紹了三種生成模型:視頻生成模型、圖像生成模型和文本生成模型,并分享了這些模型在多個領域的突破和實際應用。
劉威博士特別提到了騰訊混元大模型名稱的由來,表示“混元”在古代漢語中意味著從無序到有序、從混亂到規(guī)律的過程,這也正是生成模型的使命。
劉威博士首先從視頻生成模型開始講起。
他介紹了混元大模型的基礎技術(shù),即“擴散模型”(Diffusion Model)。
擴散模型是一種概率模型,通過逐步將噪聲添加到數(shù)據(jù)中,最終逆轉(zhuǎn)這個過程以生成新的數(shù)據(jù)。
訓練完成后,可以從純噪聲開始,通過逆向模型逐步去噪,生成新的數(shù)據(jù)樣本。
劉威博士進一步講解了DiT架構(gòu)和ST-DiT模型等技術(shù)創(chuàng)新。
劉威博士展示了ST-DiT模型在視頻生成方面的獨特優(yōu)勢,該模型將視頻數(shù)據(jù)轉(zhuǎn)化為時空潛在代碼,并通過變換器架構(gòu)進行處理,從而實現(xiàn)高質(zhì)量的視頻生成。
劉威博士強調(diào),ST-DiT模型在語義理解等方面表現(xiàn)出色,能夠生成長度達一分鐘的高質(zhì)量視頻片段。他介紹了混元文本到視頻(T2V)模型的效果表現(xiàn)和多種應用,包括視頻風格化、“運動筆刷”(Motion Brush)、姿勢引導視頻生成、視頻重繪等。
劉威博士接下來詳細介紹了混元大模型在三維生成領域的創(chuàng)新。
該模型通過五個主要組件進行三維網(wǎng)格生成,從文本或圖像描述到高精度三維資產(chǎn)生成,整個過程包括多級擴散和變換步驟。
首先,輸入可以是文本描述或單張圖像,經(jīng)過多視角擴散和3D Transformer,并通過3D超分辨技術(shù),最終生成高質(zhì)量的三維資產(chǎn)。
劉威博士指出,通過混元大模型,僅需半分鐘便可生成一個高質(zhì)量的三維模型,大大提升了生產(chǎn)效率。
劉威博士特別展示了一些具體應用案例,包括物品的三維建模和復雜的卡通角色生成,展示了這一技術(shù)在電子商務、游戲設計和動畫制作等領域具有廣泛的應用前景。
劉威博士還探討了混元大模型在圖像生成方面的進展。
劉威博士介紹的圖像生成的任務之一是根據(jù)輸入的文本提示詞生成對應的圖像,劉威博士提到了騰訊開源的擁有15億參數(shù)的基礎版本模型,并詳細講解了其內(nèi)部部件和運行流程,其中第一個組件是一個多模態(tài)語言大模型(Multi-modal LLM),第二個組件是一個圖像DiT或空間DiT,而第三個組件負責超分辨處理,可以實現(xiàn)4k甚至8k的超清圖像生成。整個模型具有語義理解、高質(zhì)量結(jié)果、支持中式場景和支持多輪對話等亮點。
劉威博士介紹的另一個圖像生成任務是由圖像生成新圖像,并保留原圖像的特征。劉威博士通過例子展示了如何從一張圖生成多張相關(guān)圖片,以及將圖像物體遷移到新場景。模型在語義精準理解與對齊、亞洲人人像生成和中式元素生成方面表現(xiàn)出了極佳效果。
在演講的最后,劉威博士深刻總結(jié)了當前AI生成模型的兩大范式LLM/GPT與Diffusion的對比差異,并深刻地指出LLM/GPT是“世界推理器”,而Diffusion是“世界模擬器”。
劉威博士還鮮明并深刻地指出LLM/GPT的骨干網(wǎng)絡是方向性變換器(Directional Transformer)而Diffusion則為方向性變換器(Bidirectional Transformer);LLM/GPT的學習目標是預測下一個標記(token)而Diffusion則為預測噪聲;LLM/GPT的學習理論是壓縮世界知識而Diffusion則是遷移概率分布。
劉威博士對LLM/GPT和Diffusion的分析為與會者提供了印象深刻的見解和啟發(fā)。
京東集團副總裁、國際電氣與電子工程師學會會士何曉冬博士發(fā)表了題為《生成式AI:前沿技術(shù)進展及產(chǎn)業(yè)實踐》的主旨演講。

何曉冬博士指出,AI生成內(nèi)容技術(shù)已經(jīng)達到一個新的高度,他提到,自2022年以來,AI生成的內(nèi)容與專業(yè)內(nèi)容之間的差距不斷縮小,這表明AI生成的內(nèi)容在質(zhì)量上已接近或達到專業(yè)水平,具備了實際應用的價值。
何曉冬博士詳細闡述了生成式AI技術(shù)的發(fā)展歷程。
他講到,十年前開始使用的神經(jīng)網(wǎng)絡模型和語言模型成為了大規(guī)模模型的起點。特別是2017年谷歌學者團隊發(fā)表的Transformer模型,使得AI在處理和理解文本信息方面的能力得到了極大的提升。
基于此,GPT-3模型應運而生,首次將參數(shù)量提升到了1750億個,展示了令人印象深刻的生成效果,能夠生成長篇且合理的文本內(nèi)容。
在圖像生成領域,何曉冬博士提到,從2014年開始的生成對抗網(wǎng)絡(GAN)技術(shù),以及后來加入注意力機制的Attention GAN,使得圖像生成質(zhì)量顯著提高。
最新的擴散模型、擴散變換器(Diffusion Transformer, DiT)進一步提升了圖像生成的質(zhì)量。他還指出,多模態(tài)智能的進展,使得AI不僅能處理單一模態(tài)的內(nèi)容,還能結(jié)合文本和圖像等多種模態(tài)信息,進行復雜的推理和生成。
何曉冬博士接著談到了多模態(tài)智能的具體實現(xiàn)。
他指出,多模態(tài)智能的關(guān)鍵在于對不同模態(tài)信息的對齊和處理能力。
例如,在文本與圖像的對齊方面,2018年京東發(fā)布的論文提出了一種自下而上和自上而下的注意力機制,這種方法模仿人類對圖像中物體的關(guān)注方式,顯著提升了文本與圖像語義內(nèi)容的對齊精度。
他進一步介紹了在視頻理解領域的最新進展,何博士指出,由于需要對每一幀進行標注,訓練視頻模型的成本非常高,為了減少視頻標注的工作量,京東提出了關(guān)鍵幀標注的方法,這種方法只需對視頻中的關(guān)鍵幀進行標注,大大降低了標注成本。
在此基礎上,他們還提出了一種基于多實例學習的兩階段框架,通過單幀監(jiān)督和覆蓋學習,有效提升了模型在視頻理解任務中的表現(xiàn)。
隨后,何曉冬博士展示了生成式AI在實際應用中的一些案例。
他介紹了一個生成數(shù)字人的項目,這個項目旨在生成高質(zhì)量的虛擬人類形象,用于各種商業(yè)應用場景。
通過編碼圖像、視頻、文本、音頻和三維動作信息,他們能夠生成與真實人類高度相似的虛擬形象。何曉冬博士特別指出,這些虛擬形象在動作、表情和細節(jié)處理上都非常自然,幾乎無法被普通用戶分辨出是AI生成的內(nèi)容。
他展示了一個具體案例:京東創(chuàng)始人劉強東的數(shù)字人形象。
這個數(shù)字人不僅在外貌上高度還原了劉強東,還精確模擬了他的行為習慣和面部表情,在一個小時的直播銷售活動中表現(xiàn)出色,獲得了用戶的高度評價和信任。
在具身智能方面,何曉冬博士強調(diào),將大模型的智能能力應用到機器人等物理設備中,將會帶來巨大的潛力。
例如,京東在物流領域使用的機械臂已經(jīng)展示了初步的智能化能力,未來希望通過進一步增強這些設備的智能性,使其能夠執(zhí)行更復雜的任務。通過具身智能技術(shù),機器人將能夠在實際場景中完成更多復雜的操作,顯著提升生產(chǎn)效率和服務質(zhì)量。
最后,何曉冬博士展望了生成式AI的未來發(fā)展。
他認為,隨著技術(shù)的不斷進步,生成式AI將在更廣泛的領域內(nèi)實現(xiàn)突破,包括語言處理、圖像生成、多模態(tài)智能和具身智能等方面。
他指出,生成式AI不僅在技術(shù)上已經(jīng)取得了顯著進展,在實際應用中也展示了巨大的商業(yè)價值和潛力。通過不斷探索和創(chuàng)新,生成式AI將為各行各業(yè)帶來更多可能性,推動社會進步和經(jīng)濟發(fā)展。
圓桌討論
在圓桌論壇環(huán)節(jié),清華大學教授劉云浩主持了此次高規(guī)格的討論會。

與會嘉賓包括菲爾茲獎得主丘成桐、圖靈獎得主Leslie Valiant、騰訊杰出科學家劉威、京東集團副總裁何曉冬、谷歌杰出研究科學家Moti Yung以及微軟杰出首席科學家劉鐵巖。在討論中,劉云浩教授提出了人工智能對社會的正面與負面影響這一廣泛話題,并邀請每位嘉賓分享他們對這一問題的看法。

谷歌杰出研究科學家Moti Yung在發(fā)言中指出,盡管人工智能在許多領域取得了顯著進展,尤其在視頻和圖像生成領域表現(xiàn)出色,但他對人工智能技術(shù)的潛在濫用表達了擔憂。

他強調(diào),歷史上每一項計算機科學技術(shù)都可能被不法分子濫用,人工智能也不例外。
Yung提到,隨著生成技術(shù)的進步,虛假信息將變得更加逼真,這可能帶來嚴重后果。
他還指出,不法分子可能會因經(jīng)濟利益驅(qū)動而利用這些技術(shù),對社會造成負面影響。盡管人工智能在提高生產(chǎn)力和解決復雜問題方面具有巨大潛力,但其背后的不透明性和缺乏解釋性機制仍然是一個重要的挑戰(zhàn)。
微軟杰出首席科學家劉鐵巖在發(fā)言中指出,人工智能正在對多個行業(yè)產(chǎn)生深遠的變革影響,他強調(diào),人工智能不再是實驗室里的玩具,而是能夠真正改變生活和工業(yè)的實用工具。

劉鐵巖博士還提出,當前的人工智能研究范式存在一些挑戰(zhàn)。
他認為,過度依賴大規(guī)模數(shù)據(jù)和計算資源的方法,可能使得傳統(tǒng)的科研智慧和靈感逐漸被忽視。這種趨勢可能對研究社區(qū)產(chǎn)生負面影響,因為擁有大量計算資源的團隊可能更容易引起關(guān)注,而那些沒有足夠資源的研究人員的創(chuàng)新成果可能被埋沒。
此外,劉鐵巖還對人工智能的環(huán)境可持續(xù)性問題表示擔憂。
他指出,訓練大規(guī)模模型所消耗的資源巨大,而人類通過簡單的學習過程就能達到類似的效果,這引發(fā)了對當前計算范式是否值得如此高昂成本的質(zhì)疑。
他強調(diào),未來的人工智能發(fā)展需要在技術(shù)進步和資源消耗之間找到平衡,以確保其長期可持續(xù)性。
圖靈獎得主Leslie Valiant教授在發(fā)言中表示,人工智能技術(shù)將深入到生活的各個方面,這種普及不僅帶來了巨大的機遇,也加劇了潛在的風險。

他指出,許多與人工智能相關(guān)的問題實際上并不新鮮。
例如,公平性的問題在人工智能時代變得更加突出,但這類問題在人類社會中早已存在。人工智能的出現(xiàn)使得人們必須更加嚴肅和謹慎地思考什么是公平,什么是不公平。
Valiant教授認為,盡管人工智能增強了人類的能力,也帶來了新的挑戰(zhàn),但這也驅(qū)使我們更深入地審視我們的行為和決策。在回應關(guān)于人工智能是否可能擁有意識的問題時,Valiant表示,目前對意識的定義尚不統(tǒng)一,他個人并不認為在討論人工智能時,意識是一個有用的概念。
他還強調(diào),即使未來的人工智能具備了一定程度的自主性,關(guān)鍵問題仍然是誰在控制這些技術(shù),以及如何保持對其的控制。
丘成桐教授在發(fā)言中表示,盡管人工智能在許多方面展現(xiàn)了巨大的潛力,但他對其當前的貢獻持謹慎態(tài)度。

他強調(diào),歷史上一些偉大的數(shù)學成就,如20世紀80年代的重大突破,主要依靠的是人類智慧而非計算機的輔助。
丘成桐指出,雖然計算機能夠幫助進行復雜的計算,但要達到這些偉大的科學成就,還需要進一步挖掘人工智能的潛力。
丘成桐教授還提到,雖然人工智能在計算和模擬方面有很大優(yōu)勢,但它們在創(chuàng)造全新概念上的能力仍然有限。
他舉例說明了復數(shù)概念在數(shù)學史上的發(fā)展,而這一歷程充滿了人類智慧和創(chuàng)造力。
他質(zhì)疑當前的人工智能是否具備類似的創(chuàng)新能力。
此外,丘成桐教授對人工智能對社會的潛在影響表達了關(guān)切。
他認為,過度依賴人工智能可能導致人類思維能力的退化,尤其是年輕一代。
他呼吁人們在使用人工智能時保持平衡,強調(diào)人工智能應當作為促進人類思維的工具,而非替代人類思維的手段。
京東集團副總裁何曉冬在發(fā)言中指出,盡管人工智能在許多領域取得了顯著進展,但當前的AI仍然缺乏基本的原則。

他認為,現(xiàn)階段的AI更依賴于經(jīng)驗性的方法,而對其背后的原理尚未完全理解。
他提到,盡管現(xiàn)有的神經(jīng)網(wǎng)絡非常強大且具有廣泛的應用前景,但對其底層原理的認識仍然有限。
何曉冬博士認為,未來的研究需要在積累大量實驗結(jié)果的基礎上,進一步探索和發(fā)現(xiàn)AI背后的基本原理。
他還強調(diào),盡管人工智能尚未完全成熟,但其在實際應用中已經(jīng)展現(xiàn)出巨大的價值。以京東的客戶服務為例,AI技術(shù)已經(jīng)顯著提升了服務效率,特別是在處理大量重復性工作方面,AI表現(xiàn)出了極高的效率。
最后,何曉冬博士指出,盡管人工智能技術(shù)尚不完善,但他對其未來的發(fā)展持積極態(tài)度。他相信,隨著研究的深入,AI的基本原理終將被發(fā)現(xiàn),從而使AI在各個領域發(fā)揮更大的作用。
騰訊杰出科學家劉威在發(fā)言中指出,人工智能是人類創(chuàng)新的重要成果。

他認為當前的生成模型并非完全的新發(fā)明,而是對人類知識和觀察的重組與再生產(chǎn)。
劉威強調(diào),生成模型在為用戶提供個性化內(nèi)容和服務方面展現(xiàn)了強大能力,但這也帶來了一些負面影響。
他指出,互聯(lián)網(wǎng)上的虛假信息和數(shù)字內(nèi)容顯著增加,某些公司甚至可能利用生成模型進行虛假發(fā)現(xiàn)和檢測。
劉威還提到,基礎模型在不斷改進過程中,存在數(shù)據(jù)濫用和隱私安全問題,這引發(fā)了對用戶數(shù)據(jù)安全的擔憂。
劉威博士呼吁,必須有組織和規(guī)章來控制生成模型的發(fā)展與濫用,以保障用戶隱私和安全。他認為,盡管生成模型在某些方面具備創(chuàng)新能力,但其對社會的負面影響不容忽視。
劉威博士強調(diào),合理使用生成模型,可以在提高生產(chǎn)力和創(chuàng)造力方面發(fā)揮積極作用,但必須同時警惕其可能帶來的潛在風險。
圓桌討論中,嘉賓們圍繞人工智能技術(shù)的前景和挑戰(zhàn)展開的深刻探討,為與會者提供了一個深入思考和交流的平臺,促使人們更全面地認識和理解人工智能的潛力與風險。
展示環(huán)節(jié)
在展示環(huán)節(jié),來自全球知名高校和科研機構(gòu)的專家們展示了多項前沿技術(shù)成果。
首先,國際計算機學會會士、加利福尼亞大學圣迭戈分校計算機學院教授Ravi Ramamoorthi演示了其團隊提出的利用少量不規(guī)則采樣圖像生成沉浸式場景的新方法。

Ramamoorthi教授詳細介紹了該方法如何通過結(jié)合渲染和光流技術(shù),有效減少采樣數(shù)量,并在移動設備上實現(xiàn)高質(zhì)量圖像重建。
他展示了在不同復雜場景下的應用效果,證明了技術(shù)的穩(wěn)健性和廣泛適用性。
接下來,浙江大學 – 之江實驗室平臺百人計劃研究員裘捷中分享了他在圖對比編碼(GCC)方面的研究成果。

他介紹了這一創(chuàng)新方法如何在大規(guī)模、復雜的社交、商業(yè)和信息網(wǎng)絡中實現(xiàn)圖結(jié)構(gòu)的向量空間轉(zhuǎn)換,從而使深度學習模型能夠發(fā)現(xiàn)有價值的模式。裘捷中研究員詳細說明了圖對比編碼如何通過隨機游走對圖進行采樣,確保圖神經(jīng)網(wǎng)絡實例能夠區(qū)分相似和不相似的子圖對。
他提出了GCC的兩種微調(diào)策略:全微調(diào)(Full fine-tuning)和凍結(jié)微調(diào)(Freezing fine-tuning)。
實驗結(jié)果表明,凍結(jié)微調(diào)在與從頭訓練的監(jiān)督模型競爭時表現(xiàn)良好,而全微調(diào)則進一步提升了性能,實驗展示了圖對比編碼在各種圖學習任務中的巨大潛力。
隨后,來自亞利桑那大學的David Brady教授展示了其在多尺度千兆像素攝影方面的研究成果。
Brady教授強調(diào)了現(xiàn)實世界數(shù)據(jù)在構(gòu)建模型時的必要性,傳統(tǒng)相機通常只能捕捉人眼可見的圖像,而機器學習需要更大規(guī)模的數(shù)據(jù)。
為此,他們構(gòu)建了并行超級相機,通過安裝在球面透鏡后的數(shù)百個微型攝像頭,能夠在極高分辨率下捕捉圖像和視頻。
Brady教授展示了這一相機系統(tǒng)在美國橄欖球比賽中的應用,能夠?qū)崟r凍結(jié)和回放任何場景,提供前所未有的細節(jié)觀察。
他還展示了該技術(shù)在天空監(jiān)測中的應用,通過超級相機捕捉到肉眼無法識別的遙遠物體。
最后,清華大學計算機系計算機圖形學實驗室的博士生李曉磊展示了他與合作者在復雜場景生成中的研究成果,李曉磊提出了“對象解耦和交互建?!钡姆椒ǎ敿毥榻B了他們的系統(tǒng)如何對多物體及其關(guān)系進行三維場景解耦和建模,解決了工業(yè)級場景生成中的諸多挑戰(zhàn)。
他們提出了復雜關(guān)系生成的明確定義,并從二維擴散模型中汲取知識應用于實際場景。
李曉磊開發(fā)了新方法,通過可學習的結(jié)構(gòu)和圖形表示實現(xiàn)復雜場景的生成,并提出了一種新的對象感知記憶優(yōu)化方法,實現(xiàn)了背景和對象之間清晰、銳利的邊界。
他展示的可視化結(jié)果顯示了物體解耦和生成在各種復雜場景中的應用潛力,強調(diào)了其方法在工業(yè)三維生產(chǎn)管線中直接應用的前景。

在熱烈的討論和互動中,2024國際基礎科學大會“計算機之夜”活動圓滿落下帷幕。
本次活動不僅展示了計算機科學前沿的最新成果,也促進了國際學術(shù)界與產(chǎn)業(yè)界的深度交流。
期待未來,在全球科研人員的共同努力下,計算機科學將繼續(xù)引領科技前沿,推動各行各業(yè)的持續(xù)進步與創(chuàng)新。
- IDC MarketScape: 容聯(lián)云位居“中國AI賦能的聯(lián)絡中心”領導者類別2025-12-11
- 九章云極獨攬量子位三項大獎:以“一度算力”重構(gòu)AI基礎設施云格局2025-12-10
- 視頻理解霸榜!快手Keye-VL旗艦模型重磅開源,多模態(tài)視頻感知領頭羊2025-11-28
- 中國唯一!阿里千問斬獲全球AI頂會最佳論文2025-11-28




