色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

目前還只是Preview版,還并沒有上線。

允中 發自 凹非寺

量子位 | 公眾號 QbitAI

豆包代碼大模型,不小心給曝光了!

在字節開源的代碼大模型評估基準FullStack Bench里面,出現了此前字節未披露過的Doubao-Coder。

不過目前還只是Preview版,還并沒有上線。

它在多種編程語言上的性能表現如下,可以看到在閉源模型中排名第五。

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

今年6月,字節還發布了AI編程助手豆包MarsCode。據傳即由Doubao-Coder模型支撐。

目前,豆包MarsCode每月為用戶貢獻百萬量級代碼。

而回到這個評估基準,據介紹FullStack Bench是目前最全面的代碼評估數據集。

團隊還同步開源了可隨時測評代碼大模型的沙盒執行環境SandBox Fusion,單服務器即可部署,也可直接在線體驗

全新代碼大模型評估基準FullStack Bench

既然如此,那就先來了解一下這個最新評估基準。

有一說一,現在代碼大模型越來越卷,評估AI編程水平的“考卷”也被迫升級~

代碼評估基準可以幫助代碼大模型不斷優化。不過,當前的主流基準越來越難以反映代碼大模型的真實水平了。

主要體現在題目類型相對單調,覆蓋的應用領域和編程語言少,模型即便在考試中拿了高分,現實中可能還是難以應對復雜的編程問題。

為了更真實地評估AI編程水平,字節豆包大模型團隊聯合M-A-P社區,開源了全新代碼大模型評估基準FullStack Bench

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

這是一個專注于全棧編程和多語言編程的代碼評估數據集,它首次囊括了編程全棧技術中超過11類真實場景,覆蓋16種編程語言,包含3374個問題。

FullStack Bench的應用領域抽取自全球最大的程序員技術問答社區Stack Overflow,相比HumanEval等基準覆蓋的編程領域擴大了一倍以上。

此前業界基準難以反映真實世界代碼開發的多樣性和復雜性。

例如,HumanEval和MBPP中近80%數據只聚焦于基礎編程和高級編程問題;DS-1000中超過95%數據集中于數據分析和機器學習,且僅對Python語言進行評測;xCodeEval雖覆蓋多項任務,但基本局限于高級編程和數學領域;McEval和MDEval擴展了支持的編程語言,但應用領域仍局限于基礎編程和高級編程,未涉及更廣泛的場景。

為模擬全棧開發的實際應用場景,字節豆包大模型和M-A-P研究團隊分析了全球最大的程序員技術問答社區Stack Overflow上的問題分布,從中提煉出常見的真實編程應用領域。

團隊從Stack Overflow上隨機抽取了50萬個問題,并使用大模型為每個問題標注應用領域類型。

研究團隊篩選出占總問題數前88.1%的主要應用領域,其余領域歸類為“其他”。再通過對領域分布做適當調整來保證魯棒性,最終形成了FullStack Bench關注的超過11種應用場景及分布比例。

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

FullStack Bench包含3374個問題(中文及英文問題各占一半),每個問題均包括題目描述、參考解決方案、單元測試用例及標簽,總計15168個單元測試。

為保證評估準確性,每個問題內容均由相關領域的編程專家設計,并經AI和人工驗證進行質量復核。例如,數據分析相關問題,由數據工程專家提出并把關配套內容。

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

在初始數據集構建后,團隊根據主流代碼大模型測試結果,按問題難度、模糊性和可解性對數據質量進行了交叉評估和進一步完善。

FullStack Bench數據構成情況如下圖所示。

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

為方便開發者對大模型代碼能力進行系統性測試,豆包大模型團隊還開源了一款高效的代碼沙盒執行工具——SandboxFusion,用于評估來自不同語言的不同編程任務。

除了FullStack Bench,SandboxFusion還兼容超過10種廣泛使用的代碼評估數據集,支持23種編程語言。開發者在單服務器上即可輕松部署SandboxFusion,也可直接在GitHub上進行體驗。

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

評測結果:解決難題,閉源模型仍優于開源模型

發布評測基準及沙盒的同時,研究團隊也基于FullStack Bench測評了全球20余款代碼大模型及語言大模型的編程表現。

模型包括Qwen2.5-Coder、DeepSeek-Coder-v2、CodeLlama等開源模型,以及GPT-4o、OpenAI-o1、Doubao-Coder-Preview等閉源模型。對于開源模型,根據模型大小,分為五個組別:1B+、6B+、13B+、20B+和70B+。

跨領域表現:數學編程領域差異最大

得益于強大的推理能力,OpenAI o1-preview不出所料地領先。

不過,一些開源模型也有不錯的表現。如DeepSeekCoderv2-Instruct,在AP(高級編程)、OS(操作系統)和其他類別中得到高分,拉開了與其他開源模型的差距。

OpenCoder-1.5B-Instruct、Qwen2.5-Coder-7B-Instruct、Qwen2.5-Coder-14B-Instruct在其各自開源組別中拔得頭籌,并超越了一些更高參數級別的模型。

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

為了全面評估現有大語言模型在不同場景下的表現,研究團隊可視化了模型在FullStack Bench各領域的表現。

在BP(基礎編程)、AP(高級編程)、MA(數學編程)、ML(機器學習)和MM(多媒體)等領域中,模型表現差異顯著,其中以MA領域的差距最大

MA最佳表現者為OpenAI o1-preview(得分80.42),而最差的是CodeLlama-34B-Instruct(得分14.34)。數學編程要求模型同時具備數學和編程能力,那些在高度專業化代碼語料庫上訓練的模型,在MA領域往往表現較差。

這一結果進一步證明,FullStack Bench能夠更全面地評估模型的綜合編程能力。

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

跨語言表現:C++、C和Ruby上存較大差異

研究團隊對不同模型在多種編程語言上的性能表現進行了分析。

大多數模型在Bash編程任務中表現良好。然而,在C++、C和Ruby的表現上存在較大差異,這表明模型設計者可能在訓練語料庫中對這些語言進行了選擇性采樣。部分1B+的小型模型在D、R和Scala語言上的表現較差,其通過率低于10%,這表明它們的多語言處理能力都較弱。

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

由于SandboxFusion提供了來自編譯器的反饋,研究人員評估了模型在部分編程語言上的編譯通過率。實驗結果表明,編譯通過率與測試通過率之間存在正相關關系,但編譯通過并不意味著測試一定通過。同時,研究還探討了中英文表達對模型性能的影響。

解決難題,閉源模型普遍優于開源模型

不同模型在不同難度問題上的表現存在明顯差異。總體而言,1B+模型和CodeLlama系列在所有難度級別上的表現均不盡如人意。其余模型在解決簡單問題時表現相似,但在中等難度問題上存在一定差距。對于難度較大的問題,閉源模型普遍優于開源模型。

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

使用SandboxFusion,可提升模型表現

研究人員對比了“反思策略(Reflection)”和“N次推斷策略(BoN)”兩種策略。在Reflection策略中,通過利用SandboxFusion的反饋上下文對答案進行N次精煉,復現了自我精煉策略 [Madaan et al., 2024]。而在BoN策略中,僅進行N次推斷以獲得結果。

結果如圖所示,“Reflection”策略明顯優于“BoN”,這表明SandboxFusion提供的反饋上下文具有較高的有效性。

豆包代碼大模型曝光!在字節最新開源基準里,多種編程語言性能僅次于OpenAI/Claude

了解這篇研究的詳情,可見文內Arxiv鏈接,或關注「豆包大模型團隊」公眾號,查閱更詳細解讀。

參考鏈接:
[1]論文鏈接:https://arxiv.org/pdf/2412.00535v2
[2]數據集開源地址:https://huggingface.co/datasets/ByteDance/FullStackBench
[3]沙盒開源地址:https://github.com/bytedance/SandboxFusion
[4]沙盒體驗入口:https://bytedance.github.io/SandboxFusion/playground/datasets

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
日韩免费黄色av| 精品国产乱码久久久久| 欧美浪妇xxxx高跟鞋交| 日韩国产在线观看| 久久狠狠高潮亚洲精品| 国产第一页视频| 亚洲国产天堂久久综合网| 日韩成人网免费视频| 欧美日韩一二三| 亚洲午夜电影网| 亚洲图片激情小说| 中文字幕日韩久久| 视频国产一区二区| 日韩欧美激情视频| 亚洲一区二区三区影院| 国产做受69高潮| 情侣黄网站免费看| 日韩欧美黄色大片| 国产高清免费在线| 中文字幕一区二区三区乱码| 最新中文字幕久久| 久久成人在线视频| 在线观看亚洲a| 欧美黄色免费网站| 中文字幕精品久久| 国产69精品99久久久久久宅男| 中文 欧美 日韩| 国产男女猛烈无遮挡a片漫画 | 国产一区二区伦理片| 欧美日韩视频在线一区二区| 国产精品久久久久久久av大片| 成人h视频在线| 国产精品swag| 91麻豆国产精品| 成人久久久久久久| 中国成人亚色综合网站| 亚洲区一区二区| 精品国产第一区二区三区观看体验| 一区二区av在线| 日韩hd视频在线观看| 九九热精品视频| 久久久久久久电影| 日韩欧美的一区| eeuss一区二区三区| 久久久视频6r| 亚洲中国最大av网站| 国产精品永久在线| 亚洲午夜18毛片在线看| 久久精品人人爽人人爽| 精品区在线观看| 91成人在线免费| 久久一区二区三区四区五区| 亚洲欧美日韩久久| 经典三级在线一区| 在线亚洲高清视频| 亚洲熟妇av一区二区三区漫画| 国产一级免费av| 久久精品一区二区三区不卡牛牛| 不卡av中文字幕| 久久这里只有精品6| 欧美制服丝袜第一页| 免费欧美在线视频| 精品日韩av一区二区| 色一情一区二区三区四区| 精品国产一区在线| 高清不卡日本v二区在线| 精品亚洲视频在线| 久久久精品毛片| 中文字幕+乱码+中文字幕明步| 蜜桃视频久久一区免费观看入口| 成人黄色国产精品网站大全在线免费观看| 一级片中文字幕| 国产一二三区av| 男人的天堂av网站| 成人一区二区三区视频在线观看| 欧美激情在线有限公司| youjizz.com亚洲| 国产情侣在线视频| 亚洲 欧美 日韩在线| 99久久久无码国产精品免费| 国产精品二三区| 日韩欧美亚洲一区二区| 国产精品18久久久久久首页狼| 亚洲v国产v| 成人动漫在线视频| 日韩中字在线观看| 成人午夜精品在线| 亚洲欧美成人网| 日韩三级电影免费观看| jjzz黄色片| 国产一国产二国产三| 91色乱码一区二区三区| 国产专区欧美专区| 亚洲精品久久久久久久久久久久久久| 亚洲高清一二三区| 欧美12av| 亚洲综合欧美激情| 国产精品午夜福利| 欧美图区在线视频| 日韩免费在线看| 久久99久久99精品蜜柚传媒| 欧美美女性生活视频| 91成人在线免费观看| 欧美一区二区.| 免费无遮挡无码永久视频| 91香蕉国产视频| 午夜在线视频免费| 欧美成人精品xxx| 夜夜春很很躁夜夜躁| 色老头一区二区三区在线观看| 国产污视频在线看| 久久激情五月丁香伊人| 欧美bbbbb性bbbbb视频| 久久久久久久久蜜桃| 久久精品国产96久久久香蕉| 精品人妻伦一二三区久| 综合久久久久久| 欧美在线观看一区| 国产成人精品视频在线| 波多野结衣绝顶大高潮| 日韩av影视综合网| 我要看黄色一级片| 日韩欧美在线影院| 欧美一区二区大片| 超碰人人cao| 亚洲成人你懂的| 黄色成人在线免费观看| 99视频一区二区| 91久久精品国产91性色| av在线无限看| 国产激情视频一区二区三区欧美 | 麻豆成人在线视频| 欧美激情小视频| 日本少妇性生活| 欧美日韩国产综合视频在线观看| 99亚洲精品视频| 男人的天堂一区二区| 成人毛片老司机大片| 最近中文字幕免费mv| 图片区小说区国产精品视频| 希岛爱理中文字幕| 天堂va久久久噜噜噜久久va| 午夜视频一区在线观看| 佐佐木明希电影| 在线观看日韩高清av| 成人免费视频91| 亚洲女人天堂av| 北条麻妃在线观看视频| 亚洲视频在线观看视频| 日韩精品 欧美| 日本黄色网址大全| 日本美女一区二区三区视频| 欧美中文字幕不卡| 精品国产免费久久久久久尖叫 | 国产精品国产一区二区| av资源免费看| 久久99亚洲热视| 日韩欧美国产二区| 日韩精品五月天| 91精品国产精品| 日韩成人在线免费视频| 亚洲国产精品福利| av在线网站观看| 欧美色网一区二区| 日韩成人av免费| 亚洲午夜三级在线| 久久久久久久激情| 亚洲欧美中日韩| 日本免费a视频| 26uuu久久综合| 伊人久久大香线蕉成人综合网| 性感美女视频一二三| 国产ts人妖一区二区三区| 国产成人无码av| 欧美日韩高清区| 午夜一级黄色片| 欧美大片网站在线观看| 亚洲另类在线观看| 欧美国产日韩xxxxx| 国产又大又黄又粗| 色伦专区97中文字幕| 久久久久香蕉视频| 日韩亚洲欧美成人| 国产嫩bbwbbw高潮| 午夜精品理论片| 国产精品无码白浆高潮| 欧美激情视频三区| 国产精品无码在线播放| 国产精品久久久av| 欧美少妇bbw| 国产激情一区二区三区在线观看 | 天堂在线中文在线| 五月激情六月综合| 一级片免费在线观看视频| 一本大道久久a久久综合婷婷| 日韩成人精品视频在线观看| 在线视频观看一区| 色欲AV无码精品一区二区久久 | 国内自拍在线观看| 亚洲综合色区另类av| 国内自拍视频网| 91国偷自产一区二区开放时间| 成年人性生活视频| 日韩女优视频免费观看| 日韩欧美123区| 欧美大片免费看| 开心激情综合网| 久草一区二区| 中文字幕不卡的av| 一区二区三区 欧美| 欧美日韩成人一区| 朝桐光av在线| 久久青草福利网站| 久久中文在线| 在线观看免费91| 国产精品久久久久久久浪潮网站| 91人人澡人人爽人人精品| 欧美日韩国产大片| 国产一级久久久| 欧美最猛性xxxx| 极品少妇一区二区| 一区二区传媒有限公司| 色综合久久久久| 九九热最新地址| 奇米成人av国产一区二区三区| 理论电影国产精品| 国产原创中文在线观看| 欧美日本视频在线| 日韩三级小视频| 成人午夜在线影院| 久久久久久毛片| 国产成人精品综合久久久久99| 亚洲第一精品电影| 国产精品高潮呻吟av| 欧美精品v日韩精品v国产精品| 亚洲女女做受ⅹxx高潮| 9.1成人看片免费版| 久久亚洲精品一区| 久久精品99国产国产精| 久久精品网站视频| 日韩精品中文在线观看| 亚洲成熟女性毛茸茸| 永久免费精品视频网站| 日本电影亚洲天堂一区| 国产精品老女人| 国产一区免费在线| 欧美日韩国产精品一区| 国产精品第一页在线观看| 成人精品一区二区三区| 一区在线播放视频| 日韩精品一区二区三区在线视频| 国产精品久久久久久影视| 久久久精品综合| 婷婷色一区二区三区| 国产精品igao视频| 综合激情成人伊人| h色网站在线观看| av电影成人| 五月天精品一区二区三区| 日韩激情一区二区三区| 久久久综合亚洲91久久98| 欧美天天综合色影久久精品| 可以在线观看av的网站| 视频一区视频二区视频三区视频四区国产| 欧美怡红院视频| 国产强伦人妻毛片| 大陆极品少妇内射aaaaa| 色综合影院在线| 高清国产午夜精品久久久久久| 精品国产免费久久久久久婷婷| 91av中文字幕| 日韩毛片视频在线看| 国产超碰人人爽人人做人人爱| 五月天亚洲综合情| 亚洲精品456在线播放狼人| 蜜桃av一区二区三区| 亚洲高清无码久久| 91欧美激情另类亚洲| 一本色道久久综合亚洲aⅴ蜜桃| 一二三区中文字幕| 久久婷婷国产91天堂综合精品| 久久久久久国产精品| 亚洲视频免费在线观看| 三级视频在线观看| 黄色大片中文字幕| 欧美激情久久久久久| 亚洲视频图片小说| 一级片在线免费观看视频| 日韩在线第三页| 91av视频在线播放| 婷婷久久综合九色综合绿巨人| 91亚洲国产成人精品一区| 伊人影院综合在线| 成人在线观看视频网站| 91成人免费网站| 日本vs亚洲vs韩国一区三区| 中文字幕在线免费看线人| 精品视频免费观看| 亚洲视频第一页| 国产精品色呦呦| 中文字幕乱伦视频| 色18美女社区| 精品一区国产| 自拍偷拍亚洲在线| 一区二区免费在线| 农村少妇久久久久久久| 亚洲成人网在线播放| 亚洲人成人77777线观看| 在线播放国产一区二区三区| 国产精品久久久久影视| 国产女18毛片多18精品| 最新在线黄色网址| 亚洲精品国产系列| 性欧美激情精品| 欧美日韩精品免费观看视频 | 精品国产一区二区在线| xnxx国产精品| 97av免费视频| 无码h肉动漫在线观看| 在线国产伦理一区| 97超碰色婷婷| 欧美一区二区三区成人| 久久精品亚洲一区二区三区浴池| 中文字幕在线2018| 一区二区不卡免费视频| 日韩不卡一二区| 国产精品久久久久久亚洲调教| 亚洲白虎美女被爆操| 国产精品视频免费看| 男人天堂手机在线观看| 一二三四在线观看视频| 蜜臀久久99精品久久久酒店新书 | 色一情一交一乱一区二区三区| 国产又粗又长又爽视频| 国产精品三级久久久久久电影| 日韩不卡中文字幕| 亚洲成av人片在www色猫咪| 看国产成人h片视频| 亚洲欧美一二三区| 中字幕一区二区三区乱码| 日本中文字幕片| 日韩欧美亚洲在线| 国产精品精品国产| 最近2019年日本中文免费字幕| 91久久一区二区| 中文字幕永久在线不卡| 韩国成人福利片在线播放| 亚洲视频在线观看免费视频| 国产一二三四视频| www.成年人| 91精品国产91久久久久麻豆 主演| 成人在线观看av| 91高清免费视频| 亚洲图片欧洲图片av| 欧美亚洲禁片免费| 亚洲欧美一区二区三区久本道91| 国产乱码字幕精品高清av| 精品国产亚洲av麻豆| 日韩免费视频网站| 女人被狂躁c到高潮| 天堂在线资源视频| 97在线免费视频观看| 国新精品乱码一区二区三区18| 欧美在线视频免费播放| 日韩视频在线一区| 亚洲成人999| 欧美视频完全免费看| 一区二区三区在线观看视频| 久久先锋影音av鲁色资源网| 狠狠色丁香婷综合久久| 免费观看成年人视频| 中文字幕a级片| 国产欧美日韩另类| 极品颜值美女露脸啪啪| 色欲狠狠躁天天躁无码中文字幕| 日本黄色一级网站| 亚洲激情在线看| 日日噜噜夜夜狠狠| av观看免费在线| 免费看日本毛片| 天堂а√在线中文在线| 日产精品一线二线三线芒果| 国产精品99久久久久久久| 国产精品一区二区电影| 日韩免费av片在线观看| 久久久久久久久久久成人| 免费不卡欧美自拍视频| www.日韩免费| 久久视频中文字幕| 九九热精品视频| 久久久久久亚洲精品中文字幕| 欧美成人午夜影院| 欧美激情精品久久久| 欧美精品九九久久| 91精品国产乱码久久久久久蜜臀 | 国产伦精品一区二区三区妓女下载 | 在线看国产一区| 亚洲大片精品永久免费| 亚洲国产精品久久艾草纯爱| 亚洲成av人**亚洲成av**| 天天综合天天综合色| 精品久久久视频| 日本韩国欧美一区| 91麻豆精品国产91久久久使用方法| 欧美美女网站色| 精品国产乱码久久久久久图片| 日韩精品在线观看一区| 波霸ol色综合久久| 欧美裸体xxxx极品少妇| 日本成人在线视频网址|