色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

目前還只是Preview版,還并沒有上線。

允中 發自 凹非寺

量子位 | 公眾號 QbitAI

豆包代碼大模型,不小心給曝光了!

在字節開源的代碼大模型評估基準FullStack Bench里面,出現了此前字節未披露過的Doubao-Coder。

不過目前還只是Preview版,還并沒有上線。

它在多種編程語言上的性能表現如下,可以看到在閉源模型中排名第五。

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

今年6月,字節還發布了AI編程助手豆包MarsCode。據傳即由Doubao-Coder模型支撐。

目前,豆包MarsCode每月為用戶貢獻百萬量級代碼。

而回到這個評估基準,據介紹FullStack Bench是目前最全面的代碼評估數據集。

團隊還同步開源了可隨時測評代碼大模型的沙盒執行環境SandBox Fusion,單服務器即可部署,也可直接在線體驗。

全新代碼大模型評估基準FullStack Bench

既然如此,那就先來了解一下這個最新評估基準。

有一說一,現在代碼大模型越來越卷,評估AI編程水平的“考卷”也被迫升級~

代碼評估基準可以幫助代碼大模型不斷優化。不過,當前的主流基準越來越難以反映代碼大模型的真實水平了。

主要體現在題目類型相對單調,覆蓋的應用領域和編程語言少,模型即便在考試中拿了高分,現實中可能還是難以應對復雜的編程問題。

為了更真實地評估AI編程水平,字節豆包大模型團隊聯合M-A-P社區,開源了全新代碼大模型評估基準FullStack Bench。

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

這是一個專注于全棧編程和多語言編程的代碼評估數據集,它首次囊括了編程全棧技術中超過11類真實場景,覆蓋16種編程語言,包含3374個問題。

FullStack Bench的應用領域抽取自全球最大的程序員技術問答社區Stack Overflow,相比HumanEval等基準覆蓋的編程領域擴大了一倍以上。

此前業界基準難以反映真實世界代碼開發的多樣性和復雜性。

例如,HumanEval和MBPP中近80%數據只聚焦于基礎編程和高級編程問題;DS-1000中超過95%數據集中于數據分析和機器學習,且僅對Python語言進行評測;xCodeEval雖覆蓋多項任務,但基本局限于高級編程和數學領域;McEval和MDEval擴展了支持的編程語言,但應用領域仍局限于基礎編程和高級編程,未涉及更廣泛的場景。

為模擬全棧開發的實際應用場景,字節豆包大模型和M-A-P研究團隊分析了全球最大的程序員技術問答社區Stack Overflow上的問題分布,從中提煉出常見的真實編程應用領域。

團隊從Stack Overflow上隨機抽取了50萬個問題,并使用大模型為每個問題標注應用領域類型。

研究團隊篩選出占總問題數前88.1%的主要應用領域,其余領域歸類為“其他”。再通過對領域分布做適當調整來保證魯棒性,最終形成了FullStack Bench關注的超過11種應用場景及分布比例。

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

FullStack Bench包含3374個問題(中文及英文問題各占一半),每個問題均包括題目描述、參考解決方案、單元測試用例及標簽,總計15168個單元測試。

為保證評估準確性,每個問題內容均由相關領域的編程專家設計,并經AI和人工驗證進行質量復核。例如,數據分析相關問題,由數據工程專家提出并把關配套內容。

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

在初始數據集構建后,團隊根據主流代碼大模型測試結果,按問題難度、模糊性和可解性對數據質量進行了交叉評估和進一步完善。

FullStack Bench數據構成情況如下圖所示。

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

為方便開發者對大模型代碼能力進行系統性測試,豆包大模型團隊還開源了一款高效的代碼沙盒執行工具——SandboxFusion,用于評估來自不同語言的不同編程任務。

除了FullStack Bench,SandboxFusion還兼容超過10種廣泛使用的代碼評估數據集,支持23種編程語言。開發者在單服務器上即可輕松部署SandboxFusion,也可直接在GitHub上進行體驗。

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

評測結果:解決難題,閉源模型仍優于開源模型

發布評測基準及沙盒的同時,研究團隊也基于FullStack Bench測評了全球20余款代碼大模型及語言大模型的編程表現。

模型包括Qwen2.5-Coder、DeepSeek-Coder-v2、CodeLlama等開源模型,以及GPT-4o、OpenAI-o1、Doubao-Coder-Preview等閉源模型。對于開源模型,根據模型大小,分為五個組別:1B+、6B+、13B+、20B+和70B+。

跨領域表現:數學編程領域差異最大

得益于強大的推理能力,OpenAI o1-preview不出所料地領先。

不過,一些開源模型也有不錯的表現。如DeepSeekCoderv2-Instruct,在AP(高級編程)、OS(操作系統)和其他類別中得到高分,拉開了與其他開源模型的差距。

OpenCoder-1.5B-Instruct、Qwen2.5-Coder-7B-Instruct、Qwen2.5-Coder-14B-Instruct在其各自開源組別中拔得頭籌,并超越了一些更高參數級別的模型。

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

為了全面評估現有大語言模型在不同場景下的表現,研究團隊可視化了模型在FullStack Bench各領域的表現。

在BP(基礎編程)、AP(高級編程)、MA(數學編程)、ML(機器學習)和MM(多媒體)等領域中,模型表現差異顯著,其中以MA領域的差距最大。

MA最佳表現者為OpenAI o1-preview(得分80.42),而最差的是CodeLlama-34B-Instruct(得分14.34)。數學編程要求模型同時具備數學和編程能力,那些在高度專業化代碼語料庫上訓練的模型,在MA領域往往表現較差。

這一結果進一步證明,FullStack Bench能夠更全面地評估模型的綜合編程能力。

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

跨語言表現:C++、C和Ruby上存較大差異

研究團隊對不同模型在多種編程語言上的性能表現進行了分析。

大多數模型在Bash編程任務中表現良好。然而,在C++、C和Ruby的表現上存在較大差異,這表明模型設計者可能在訓練語料庫中對這些語言進行了選擇性采樣。部分1B+的小型模型在D、R和Scala語言上的表現較差,其通過率低于10%,這表明它們的多語言處理能力都較弱。

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

由于SandboxFusion提供了來自編譯器的反饋,研究人員評估了模型在部分編程語言上的編譯通過率。實驗結果表明,編譯通過率與測試通過率之間存在正相關關系,但編譯通過并不意味著測試一定通過。同時,研究還探討了中英文表達對模型性能的影響。

解決難題,閉源模型普遍優于開源模型

不同模型在不同難度問題上的表現存在明顯差異??傮w而言,1B+模型和CodeLlama系列在所有難度級別上的表現均不盡如人意。其余模型在解決簡單問題時表現相似,但在中等難度問題上存在一定差距。對于難度較大的問題,閉源模型普遍優于開源模型。

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

使用SandboxFusion,可提升模型表現

研究人員對比了“反思策略(Reflection)”和“N次推斷策略(BoN)”兩種策略。在Reflection策略中,通過利用SandboxFusion的反饋上下文對答案進行N次精煉,復現了自我精煉策略 [Madaan et al., 2024]。而在BoN策略中,僅進行N次推斷以獲得結果。

結果如圖所示,“Reflection”策略明顯優于“BoN”,這表明SandboxFusion提供的反饋上下文具有較高的有效性。

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

了解這篇研究的詳情,可見文內Arxiv鏈接,或關注「豆包大模型團隊」公眾號,查閱更詳細解讀。

參考鏈接:
[1]論文鏈接:https://arxiv.org/pdf/2412.00535v2
[2]數據集開源地址:https://huggingface.co/datasets/ByteDance/FullStackBench
[3]沙盒開源地址:https://github.com/bytedance/SandboxFusion
[4]沙盒體驗入口:https://bytedance.github.io/SandboxFusion/playground/datasets

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
亚洲aaa激情| 99久re热视频这里只有精品6| 国产精品高潮粉嫩av| 精品无人区一区二区三区| 荫蒂被男人添免费视频| 亚洲精品午夜国产va久久成人| 日本欧美一区二区在线观看| 国产一区二区在线电影| 亚洲综合男人的天堂| 久久福利网址导航| 制服诱惑一区| 久草资源在线视频| 亚洲日本香蕉视频| 色综合色狠狠综合色| 欧美裸体男粗大视频在线观看| 国产一区二区三区无遮挡| 国产精品久久久毛片| 91久久国产视频| 综合久久一区二区三区| 亚洲区在线播放| av蓝导航精品导航| 国产精品300页| 国产一本一道久久香蕉| 欧美性猛交xxxx乱大交退制版| 国产欧美va欧美va香蕉在| 激情av中文字幕| 国产精品一卡二| 日韩电影中文字幕一区| 日本一道在线观看| 日韩av中文字幕在线| 黄频网站在线观看| 欧美日韩中文国产| ijzzijzzij亚洲大全| 国产夫绿帽单男3p精品视频| 久久新电视剧免费观看| 日韩亚洲在线观看| 99福利在线观看| 国产成人亚洲欧美| 中国一级免费毛片| 欧美精品久久久久久久久老牛影院| 日本一区免费看| 久久黄色小视频| 色女孩综合影院| 欧美性视频在线播放| 污污视频在线观看网站| 日韩欧美视频一区| 黄色录像特级片| 亚洲专区在线播放| 欧美中文字幕不卡| 日本在线视频一区| 国产真实夫妇交换视频| 欧美精品丝袜久久久中文字幕| 国产精品视频在线免费观看| 国产毛片毛片毛片毛片| 国产一区二区日韩精品欧美精品| 天堂а√在线中文在线| 国产按摩一区二区三区| 精品国产一区二区亚洲人成毛片| 天天操天天干天天做| 亚洲色图视频网站| 久久精品第九区免费观看| 一区二区国产欧美| 日本不卡123| 欧美色国产精品| 青青草av网站| 国产精品久久看| 国产精品国色综合久久| 国产成人毛毛毛片| 久久久免费av| 自拍偷拍18p| 色综合色综合网色综合| 亚洲欧美在线视频免费| 亚洲天堂av高清| 免费在线观看黄色小视频| 这里只有精品视频在线观看| 女同性αv亚洲女同志| 色婷婷av久久久久久久| 欧美一区二区三区影院| 中文字幕亚洲综合久久菠萝蜜| 亚洲精品乱码久久久久久蜜桃91 | 日韩大片免费在线观看| 伊人色综合久久天天| 激情五月宗合网| 亚洲免费在线看| 一区二区三区观看| 国产精品蜜臀av| 午夜激情福利在线| 亚洲免费在线电影| 国产精品涩涩涩视频网站| 91一区二区三区在线观看| 久久免费一级片| 一区二区在线观看免费| www.夜夜爽| 亚洲国产精品久久不卡毛片| 奇米视频7777| 欧美女孩性生活视频| 亚洲精品国产熟女久久久| 亚洲精品中文字幕av| 狠狠人妻久久久久久综合蜜桃| 欧美一区二区不卡视频| 国产性生活毛片| 欧美日韩国产综合一区二区三区| 欧美精品日韩在线| 日韩精品中文字幕视频在线| 青青青视频在线播放| 亚洲日本成人网| 天干夜夜爽爽日日日日| 成人97在线观看视频| 99在线精品视频免费观看20| 国产精品久久久久免费a∨大胸| 精品人妻无码一区二区| 国产一区香蕉久久| 99re在线精品| 亚洲熟女一区二区三区| 伊人伊成久久人综合网小说| 噜噜噜久久,亚洲精品国产品| 99久久精品免费看国产一区二区三区 | 国产成人在线观看网站| 91嫩草国产在线观看| 99久久精品国产导航| 高潮一区二区三区| 亚洲少妇中文在线| 国产一区二区三区中文字幕| 亚洲v日韩v欧美v综合| 欧美在线一区二区三区| 国产大片中文字幕| 国产综合欧美在线看| 欧美老女人在线| 亚洲男人天堂九九视频| 成人av综合在线| 国内精品视频一区| 中文字幕欧美专区| 国产精品香蕉av| 国产精品一二三在线观看| 青青草综合视频| 亚洲欧美自拍另类日韩| 久久免费在线观看视频| 女人被狂躁c到高潮| 欧美日韩亚洲国产成人| 99国精产品一二二线| 欧美精品久久一区二区| 69国产精品成人在线播放| 中文字幕成人网| 神马一区二区三区| 极品美女销魂一区二区三区| 麻豆精品新av中文字幕| 日本一区二区三区精品| 久久免费看少妇高潮v片特黄| 国产美女精品久久久| 国产精品高潮粉嫩av| 成人免费大片黄在线播放| 成人精品电影在线观看| 人妻精品一区一区三区蜜桃91| 美女尤物久久精品| 久久精品视频一区二区| 国产乱子轮精品视频| 日韩在线 中文字幕| 波多野结衣一区二区三区在线| 久久精品99国产精| 性活交片大全免费看| 亚洲午夜精品国产| 国产日韩一区欧美| 亚洲av无码一区二区三区网址| 国产女人高潮的av毛片| 亚洲欧美偷拍一区| 国产精品一二三四五区| 久久精品国产秦先生| 手机在线观看日韩av| 三上悠亚ssⅰn939无码播放 | 成人久久久久久| 少妇人妻互换不带套| 中文字幕在线观看欧美| 日本电影亚洲天堂一区| 91国产美女在线观看| 日韩欧美精品免费| 在线观看国产中文字幕| 国产永久免费网站| 99久久久无码国产精品衣服| 欧美成人三级在线观看| 一区二区久久精品66国产精品| 久久精品国产亚洲av香蕉| 第一区免费在线观看| 色噜噜噜噜噜噜| 国产精品12区| 国产精品全国免费观看高清 | 国产精品无码久久久久一区二区| 成人精品视频99在线观看免费| www.成人av.com| 日韩中文字幕av在线| 亚洲麻豆一区二区三区| 久久综合激情| 56国语精品自产拍在线观看| 蜜月aⅴ免费一区二区三区 | 国产精品国产精品| 全部免费毛片在线播放一个| 日韩少妇高潮抽搐| 国产成人精品亚洲| 99在线精品视频| 91精品在线一区二区| 精品国产乱码久久久久久108| 97在线观看免费视频| 精品成人免费视频| 成人激情校园春色| 久久久精品视频在线观看| 中文字幕在线观看91| 成人免费视频网站在线观看| 2019中文在线观看| 日本国产在线视频| 国产成人8x视频一区二区| 亚洲v精品v日韩v欧美v专区| 中文字幕在线精品| 久久一区免费| 日本高清一区二区视频| 波多野结衣午夜| 成人免费视频免费观看| 国产精品一区二区在线看| 中文字幕+乱码+中文字幕一区| 91高清视频免费观看| 美女伦理水蜜桃4| 日本中文字幕在线| 一区精品在线播放| 91精品国产一区| 久久人91精品久久久久久不卡| 日韩av电影免费观看| 日韩精品一区二区不卡| 国产蜜臀97一区二区三区 | 亚洲一区欧美一区| 欧美日韩aaa| 成人国产精品日本在线| 成年人视频在线免费| 手机看片国产日韩| 久青草视频在线观看| 日韩国产精品久久| 久久精品国产电影| 婷婷丁香激情网| 久久久久99精品成人片我成大片 | 国产精品-色哟哟| 青青草国产精品亚洲专区无| 91精品在线免费观看| 亚洲国产精品一区二区第一页 | 精品一区二区成人精品| 国产999精品久久久| 手机看片福利视频| 欧美日韩国产在线| 成人国产精品色哟哟| 人妻av一区二区| 伊人久久成人网| 色天使久久综合网天天| 国产精品xxxx| 永久av免费网站| 国产乱码一区二区三区| 欧美日韩精品欧美日韩精品一| 国产一区免费观看| av网页在线观看| 日本韩国欧美一区| 国产高清精品在线观看| 国产无遮挡aaa片爽爽| 亚洲视频在线观看一区| 国产中文字幕日韩| 九九视频在线观看| 亚洲影院一区二区三区| 日韩欧美一卡二卡| 奇米影视亚洲色图| 五月天婷婷在线播放| 国产精品欧美日韩一区二区| 人妻视频一区二区三区| 国产精品久久久久久久久久尿| 中文字幕av在线免费观看| 亚洲乱码av中文一区二区| www.xxx亚洲| 亚洲欧洲国产综合| 精品一区电影国产| 手机免费av片| 91亚洲男人天堂| 国产成人精品久久二区二区| 免费污网站在线观看| www.热久久| 色中色一区二区| 国产欧美在线看| 日本精品一二三区| 久久亚洲精选| 日韩日本欧美亚洲| 五月天免费网站| 日韩av有码在线| 神马一区二区影院| 日韩不卡在线观看日韩不卡视频| 性色av一区二区三区| 亚洲永久精品在线观看| 国产999精品久久久影片官网| 日韩av二区在线播放| av中文字幕av| 久久精品人人做人人爽人人| 中文字幕第17页| 欧美精品一卡二卡| 欧美日韩激情四射| 懂色av一区二区三区免费观看| 欧美亚洲日本黄色| 波多野结衣一区二区三区四区| 国产真实乱对白精彩久久| 亚洲精选一二三| 亚洲啪啪av| 亚洲国产精品suv| 欧美日韩一区中文字幕| 亚洲蜜桃av| 国产 欧美 自拍| 色老头一区二区三区在线观看| 九九久久久久久| 亚洲天堂2016| 日本999视频| 色婷婷综合久久久久中文 | 亚洲爱爱综合网| 欧美在线中文字幕| 午夜精品一区二区三| 自拍视频一区二区三区| 黄色一区二区在线| 色老头在线视频| 国产在线不卡精品| 久久久久久久9999| 日韩欧美亚洲国产另类| 99中文字幕在线| 亚洲一区二区三区国产| 成人在线免费高清视频| 久久新电视剧免费观看| 特级西西444| 国产精品天干天干在观线| 欧美极品日韩| 久久精品国产久精国产爱| 成人三级在线| 亚洲一区二区三区四区在线免费观看 | 丰满的少妇愉情hd高清果冻传媒| 久久精品免视看| 91精品人妻一区二区三区蜜桃欧美 | 国产精品久久久久久影视| 国产精品综合一区二区三区| ijzzijzzij亚洲大全| 亚洲黄色录像片| 国产又大又黄又粗又爽| 欧美一区二区三区白人| 国产人与禽zoz0性伦| 国产香蕉97碰碰久久人人| 国产精品黄色大片| 成人做爽爽免费视频| 超碰在线观看99| 日本一本a高清免费不卡| 一卡二卡三卡在线观看| 欧美亚洲另类视频| 国产激情久久久久久熟女老人av| 国产成人福利网站| 污视频软件在线观看| 中文字幕制服丝袜在线| 日韩一区二区三区四区五区六区| 日本一区二区欧美| 国产精品视频永久免费播放| 91欧美激情一区二区三区成人| 蜜桃精品成人影片| 韩国美女主播一区| 色婷婷av一区二区三区软件 | 五月婷婷中文字幕| 欧美一区观看| 综合中文字幕亚洲| 国产又粗又黄又猛| 久久免费视频观看| www.成人在线| 无码人妻精品一区二区中文| 欧美激情精品久久久久久| 国产99久久久久| 国产黄色网址在线观看| 亚洲第一福利网| 成人一级免费视频| 91九色蝌蚪嫩草| 国产欧美日韩在线视频| 巨乳女教师的诱惑| 亚洲精品视频在线观看视频| 国产伦精品一区二区三区免.费| 在线观看欧美一区| 亚洲精品中文字幕有码专区| 国产一区999| 大肉大捧一进一出好爽视频| 精品久久免费看| 极品少妇xxxx精品少妇| 狠狠97人人婷婷五月| 国产日韩av在线| 亚洲午夜av久久乱码| 亚洲超丰满肉感bbw| 狠狠色综合色综合网络| 91tv国产成人福利| 国产精品第七页| 黄色大片中文字幕| 国产精品美女www爽爽爽视频| 欧美性xxxxxxxxx| 在线观看亚洲天堂| 九一国产精品视频| 日韩精品视频在线观看网址| 9人人澡人人爽人人精品| 大黑人交xxx极品hd| 91精品国产99| 欧美亚洲一区三区| 天堂av2024| 欧美资源一区| 亚洲网站在线看| 99久久精品免费看国产| 亚洲AV无码成人精品区明星换面| 日本精品国语自产拍在线观看| 国产精品久久久久久久久久小说 | 亚洲片在线观看| 国产福利一区二区三区视频在线 | 91av视频在线播放| 日韩欧美成人激情| 91精品国产综合久久久久久久 | ...中文天堂在线一区|