色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

“大海撈針”out!“數(shù)星星”成測(cè)長文本能力更精準(zhǔn)方法,來自鵝廠

GPT-4和Kimi已接受測(cè)試

克雷西 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

大模型長文本能力測(cè)試,又有新方法了!

騰訊MLPD實(shí)驗(yàn)室,用全新開源的“數(shù)星星”方法替代了傳統(tǒng)的“大海撈針”測(cè)試。

相比之下,新方法更注重對(duì)模型處理長依賴關(guān)系能力的考察,對(duì)模型的評(píng)估更加全面精準(zhǔn)。

“大海撈針”out!“數(shù)星星”成測(cè)長文本能力更精準(zhǔn)方法,來自鵝廠

利用這種方法,研究人員對(duì)GPT-4和國內(nèi)知名的Kimi Chat進(jìn)行了“數(shù)星星”測(cè)試。

結(jié)果,在不同的實(shí)驗(yàn)條件下,兩款模型各有勝負(fù),但都體現(xiàn)出了很強(qiáng)的長文本能力。

“大海撈針”out!“數(shù)星星”成測(cè)長文本能力更精準(zhǔn)方法,來自鵝廠

△橫軸系以2為底的對(duì)數(shù)坐標(biāo)

那么,“數(shù)星星”究竟是怎樣的一種測(cè)試呢?

比“大海撈針”更加精準(zhǔn)

首先,研究人員選擇了一段長文本做為上下文,測(cè)試過程中長度逐漸遞增,最大為128k。

然后,根據(jù)不同的測(cè)試難度需求,整段文本會(huì)被劃分成N段,并向其中插入M個(gè)包含“星星”的句子

“大海撈針”out!“數(shù)星星”成測(cè)長文本能力更精準(zhǔn)方法,來自鵝廠

實(shí)驗(yàn)過程中,研究人員選擇了《紅樓夢(mèng)》作為上下文文本,向其中加入了“小企鵝數(shù)了x顆星星”這樣的句子,每個(gè)句子中的x都各不相同。

“大海撈針”out!“數(shù)星星”成測(cè)長文本能力更精準(zhǔn)方法,來自鵝廠

然后,模型會(huì)被要求找到所有這樣的句子,并以JSON格式輸出其中所有的數(shù)字,且只輸出數(shù)字。

“大海撈針”out!“數(shù)星星”成測(cè)長文本能力更精準(zhǔn)方法,來自鵝廠

得到模型的輸出之后,研究人員會(huì)將這些數(shù)字和Ground Truth進(jìn)行對(duì)比,最終計(jì)算出模型輸出的正確率。

相比于之前的“大海撈針”測(cè)試,這種“數(shù)星星”的方法更能體現(xiàn)出模型處理長依賴關(guān)系能力。

簡(jiǎn)而言之,“大海撈針”中插入多個(gè)“針”就是插入多個(gè)線索,然后讓大模型找到并串聯(lián)推理多個(gè)線索,并獲得最終答案。

但實(shí)際的“大海撈多針”測(cè)試中,模型并不需要找到所有“針”才能答對(duì)問題,甚至有時(shí)只需要找到最后一根就可以了。

“大海撈針”out!“數(shù)星星”成測(cè)長文本能力更精準(zhǔn)方法,來自鵝廠

但“數(shù)星星”則不同——因?yàn)槊烤湓捴小靶切恰钡臄?shù)量都不一樣,模型必須把所有星星都找到才能把問題答對(duì)

所以,雖然看似簡(jiǎn)單,但至少在多“針”任務(wù)上,“數(shù)星星”對(duì)模型長文本能力有著更為精準(zhǔn)的體現(xiàn)。

那么,有哪些大模型最先接受了“數(shù)星星”測(cè)試呢?

GPT-4與Kimi難分高下

參加這場(chǎng)測(cè)試的大模型分別是GPT-4和國內(nèi)以長文本能力而知名的大模型Kimi。

在“星星”數(shù)量和文本粒度均為32時(shí),GPT-4的準(zhǔn)確率達(dá)到了96.8%,Kimi則有86.4%。

“大海撈針”out!“數(shù)星星”成測(cè)長文本能力更精準(zhǔn)方法,來自鵝廠

但當(dāng)“星星”增加到64顆時(shí),Kimi則以93.1%的準(zhǔn)確率超過了準(zhǔn)確率為89.7%的GPT-4.

“大海撈針”out!“數(shù)星星”成測(cè)長文本能力更精準(zhǔn)方法,來自鵝廠

減少到16時(shí),也是Kimi的表現(xiàn)略勝于GPT-4。

“大海撈針”out!“數(shù)星星”成測(cè)長文本能力更精準(zhǔn)方法,來自鵝廠

而劃分的顆粒度也會(huì)對(duì)模型的表現(xiàn)造成一些影響,在“星星”同樣出現(xiàn)32次時(shí),顆粒度從32變?yōu)?6,GPT-4的成績(jī)有所上升,而Kimi則有所下降。

需要注意的是,在以上的測(cè)試中,“星星”的數(shù)量是依次遞增的,但研究人員很快發(fā)現(xiàn),這種情況下大模型很喜歡“偷懶”——

當(dāng)模型發(fā)現(xiàn)星星數(shù)量是遞增的的時(shí)候,即使區(qū)間內(nèi)的數(shù)字是隨機(jī)生成,也會(huì)引起大模型的敏感度增加。

例如:模型對(duì)3、9、10、24、1145、114514這樣的遞增序列會(huì)比24、10、3、1145、9、114514更加敏感

所以,研究人員又特意將數(shù)字的順序進(jìn)行了打亂,重新進(jìn)行了一次測(cè)試。

結(jié)果在打亂之后,GPT-4和Kimi的表現(xiàn)都出現(xiàn)了明顯下降,不過準(zhǔn)確率仍在60%以上,兩者相差8.6個(gè)百分點(diǎn)。

One More Thing

這個(gè)方法的準(zhǔn)確性可能還需要時(shí)間檢驗(yàn),但不得不說名字起得真的很有一手。

△英文系同名歌曲Counting Stars歌詞

網(wǎng)友也不禁感嘆,現(xiàn)在關(guān)于大模型的研究,真的是越來越魔幻了。

但魔幻的背后,也體現(xiàn)出人們對(duì)于大模型長語境處理能力和性能的了解還不夠充分。

就在前些天,先后有多家大模型廠商宣布推出能夠處理超長文本的模型(雖然不全是基于上下文窗口實(shí)現(xiàn)),最高可達(dá)上千萬,但實(shí)際表現(xiàn)還是未知數(shù)。

而Counting Stars的出現(xiàn),或許正好有助于我們了解這些模型的真實(shí)表現(xiàn)。

那么,你還想看看哪些模型的測(cè)試成績(jī)呢?

論文地址:
https://arxiv.org/abs/2403.11802
GitHub:
https://github.com/nick7nlp/Counting-Stars

版權(quán)所有,未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用,違者必究。
www.亚洲免费视频| 精品国产区一区二区三区在线观看| 日本一级黄视频| 午夜国产在线视频| 色诱视频网站一区| 91欧美一区二区三区| 欧美日韩色婷婷| 999热精品视频| 欧美精选在线播放| 给我看免费高清在线观看 | 一区二区日本伦理| 国产日韩精品久久久| 色香蕉在线观看| 亚洲麻豆国产自偷在线| 欧美女同在线观看| 91精品国产免费| 美女洗澡无遮挡| 中文字幕免费国产精品| 四虎成人在线观看| 蜜月aⅴ免费一区二区三区| 特级毛片www| 韩国日本不卡在线| 狠狠综合久久av一区二区| 国内精品小视频在线观看| www.色呦呦| 欧美精品一区三区在线观看| 国产精品18久久久久| 大地资源第二页在线观看高清版| 国产精品久久久久久久裸模| 18禁网站免费无遮挡无码中文| 亚洲免费看黄网站| www.男人天堂| 欧美高清视频在线| 视频一区视频二区在线观看| 欧美日韩一区二区三区在线视频 | 高h震动喷水双性1v1| 成人精品一二区| 99久久er热在这里只有精品66| 夜夜爽99久久国产综合精品女不卡 | 自拍偷拍亚洲欧美| 成人一区二区三区仙踪林| 欧美日韩1234| 日韩欧美一级大片| 欧美日韩喷水| 亚洲女同一区二区| 99精品中文字幕| 国产精品美女久久久久久免费| 欧美精品在线播放| 亚洲一二区在线观看| 亚洲福利在线看| 国产精品爽爽久久| 久久一区二区三区av| 欧美性色aⅴ视频一区日韩精品| 国产精品午夜一区二区| www.日本高清| 中文字幕在线观看成人| 日b视频免费观看| 热草久综合在线| 精品国产123| 国产自产高清不卡| 天天干视频在线观看| 奇米一区二区三区av| xnxx国产精品| 欧美日本在线一区| 日韩一级黄色av| 成人美女av在线直播| 庆余年2免费日韩剧观看大牛| 在线观看日韩国产| 国产精品美女久久久久久久久久久 | 日本一区二区在线视频| 在线观看日韩羞羞视频| 日韩精品久久一区二区| 亚洲欧洲日韩综合二区| 国产乱码精品一区二区三区日韩精品| 亚洲色图另类专区| 中文字幕国产精品一区二区| 国产一区欧美二区| 成人午夜视频一区二区播放| 精品国产无码AV| 日本成人一级片| 欧美日韩极品在线观看一区| 欧美三级xxx| 久久精品亚洲精品国产欧美| 午夜一区二区三区免费| 成人黄色片视频| 国产三级精品三级观看| 国产无色aaa| xxx国产在线观看| 久久久久久久久久一区| 国产精自产拍久久久久久| 国产欧美精品一区二区三区-老狼| 五十路熟女丰满大屁股| 欧美日韩一区小说| 性感美女视频一二三| 在线一区二区不卡| 国产精自产拍久久久久久蜜| 第一福利永久视频精品| www.黄色片| 国产三级精品三级在线| 91精品久久久久久久久不口人| 色综合夜色一区| 天堂在线观看视频| 国产chinese中国hdxxxx| 91九色在线观看| 日韩欧美国产三级电影视频| 国产老女人精品毛片久久| 99热这里只有精品4| 影音先锋欧美资源| 欧美精品制服第一页| 亚洲视频免费在线观看| 国产伦精品一区二区三区四区 | 亚洲精品久久久蜜桃| 伊人网中文字幕| aaa一级黄色片| 99www免费人成精品| 日韩免费在线观看| 成人黄色av电影| 五月天婷婷网站| 欧美一级黄色影院| 91麻豆国产语对白在线观看| 欧美一区二区成人| www.亚洲激情.com| 无码人妻丰满熟妇精品| 日韩av片专区| 成人av男人的天堂| 亚洲欧美在线免费| 亚洲美女屁股眼交| 午夜成人鲁丝片午夜精品| 法国空姐电影在线观看| 亚洲综合首页| 97在线视频免费观看| 欧美日韩美女一区二区| 懂色av一区二区夜夜嗨| 黄色片网站在线免费观看| 亚洲a级黄色片| 久久婷婷国产综合尤物精品| 深夜福利国产精品| 黄色一区二区在线观看| 久久99精品久久久久婷婷| 欧美成人一二三区| 欧美私人情侣网站| 91在线精品视频| 亚洲欧美色婷婷| 中文字幕在线观看一区| 欧美自拍偷拍第一页| 极品美妇后花庭翘臀娇吟小说| 精品少妇在线视频| 91精品国产综合久久男男| 亚洲欧美日韩一区在线| 天涯成人国产亚洲精品一区av| 国内精品自线一区二区三区视频| 国产又黄又猛又粗又爽| 欧美熟妇精品一区二区蜜桃视频| 中文字幕一区二区三区精彩视频| 日韩免费不卡av| 欧美成人一区二区| 亚洲情趣在线观看| 国产一区二区三区免费观看| 在线免费一区二区| 免费黄色片网站| 日韩欧美视频网站| 精品国产乱码久久久久久蜜柚| 欧美不卡视频一区发布| 欧美日韩黄视频| 国产精品美女久久福利网站| 日韩高清中文字幕一区| 欧美性猛交bbbbb精品| 中文字幕日韩三级片| 欧美一区二区中文字幕| 国产精品免费一区二区三区在线观看| 欧美成人高清视频| 日韩欧美亚洲一区二区| 亚洲自拍欧美精品| 粉嫩在线一区二区三区视频| 超碰在线观看99| 私库av在线播放| 中文字幕一区二区三区人妻在线视频 | 欧美午夜片欧美片在线观看| 91原创在线视频| 丝袜亚洲另类欧美综合| 国产又粗又猛又黄视频| 潮喷失禁大喷水aⅴ无码| 在线观看免费成人av| 中文字幕剧情在线观看一区| 91av免费看| 欧美一区二区三区四区在线| 亚洲欧洲午夜一线一品| 欧美性受xxxx黑人xyx| 亚洲色图欧美激情| 久久―日本道色综合久久| 日本不卡不码高清免费观看| 91精品视频免费在线观看| 欧美日韩亚洲国产另类| 欧美性xxxx图片| 17c国产在线| 国产日产欧美视频| 青青草原国产免费| 精品国产一区二区三区四区精华| 国产成人综合精品| 欧美成人激情图片网| 亚洲精品视频中文字幕| 欧美性xxxxxx| 中文字幕亚洲区| 国产成人在线看| 性欧美18一19性猛交| 超碰在线观看91| 欧美成人黄色网| 中文字幕免费高清| 无码精品一区二区三区在线播放| 成人一区二区三| 女人天堂av手机在线| 欧美黑人在线观看| 一本二本三本亚洲码| 日韩av不卡播放| 久久久综合香蕉尹人综合网| 亚洲永久免费观看| 91精品国产综合久久久久久蜜臀| 欧美亚洲第一页| 孩xxxx性bbbb欧美| 欧美激情视频网站| 九九热精品视频| 久久婷婷国产麻豆91天堂| 中文字幕欧美国内| 在线视频欧美日韩精品| 亚洲欧美日韩另类| 精品蜜桃在线看| 欧美成人一区二区三区片免费 | 色噜噜狠狠色综合网| 国产99视频精品免费视频36| 91在线精品视频| 亚洲aa中文字幕| 91嫩草免费看| 国产日韩在线精品av| 国产免费一区二区三区香蕉精| 国产精品久久久久av| 国产精品久久久久久中文字| 国产精品激情av电影在线观看| 日韩美女视频中文字幕| 国产精品精品久久久久久| 奇米影视亚洲狠狠色| 国产成人精品一区二区三区| 欧美性受xxxx白人性爽| 国产精品成人免费电影| 国产精品日韩精品| 成人在线观看视频网站| 亚洲一区二区三区在线免费观看| 91香蕉视频在线下载| 国内视频一区二区| 日产国产精品精品a∨| 一本一生久久a久久精品综合蜜 | 国内外成人免费激情在线视频网站 | 午夜免费福利小电影| 国产中文字幕二区| 亚洲日本在线看| 欧美福利视频网站| 亚洲国产日韩欧美在线观看| 美女视频一区免费观看| 欧美一区二区黄色| 日本黄色播放器| 日韩欧美三级在线观看| 国产美女18xxxx免费视频| 捷克做爰xxxⅹ性视频| 午夜视频在线观看国产| 日韩一级片在线免费观看| 九九热视频精品| 成人a v视频| 亚洲欧美激情国产综合久久久| 日韩电影网1区2区| 成人免费黄色在线| 国产精品午夜在线| 欧美日韩亚洲国产一区| 制服丝袜一区二区三区| 亚洲免费小视频| 欧美极品少妇xxxxx| 国产精品扒开腿做爽爽爽的视频| 99re在线观看| 中文字幕一区综合| 国产福利视频在线播放| 伊人影院在线观看视频| www.99re6| 午夜精品免费观看| 久久综合狠狠| 久久综合色综合88| 亚洲风情在线资源站| 欧美精品久久天天躁| 国产一区二区激情| 国产福利成人在线| 精品免费视频123区| 女人帮男人橹视频播放| 亚洲天堂网2018| av最新在线观看| 国产精品-色哟哟| 激情综合色综合久久| 国产精品久久三| 欧美高清dvd| 久久夜色精品亚洲噜噜国产mv| 国产精品香蕉av| 一区二区在线高清视频| 高潮一区二区三区| 中国一级片在线观看| 国产视频www| 国产福利一区二区三区视频在线 | 国产精品专区h在线观看| 国产一区在线免费| 丰满少妇大力进入| aa片在线观看视频在线播放| 欧美不卡视频在线观看| 色哟哟国产精品色哟哟| 2023国产精品自拍| 在线看国产一区| 爱福利视频一区| 99re6在线| 美女日批免费视频| 30一40一50老女人毛片| 天天干天天插天天射| 麻豆91在线观看| 一区二区三区不卡视频在线观看| 日韩一区二区三区视频在线观看| 久久99精品久久久久久琪琪| 精品视频一区在线| 亚洲xxxx2d动漫1| 国产精品九九九九九九| 日韩永久免费视频| 亚洲欧洲精品天堂一级| 精品国产污污免费网站入口 | 国产精品成人观看视频国产奇米| 亚洲精品日韩在线观看| 国产精品嫩草69影院| 亚洲性猛交富婆| 成人91在线观看| 欧美日韩视频专区在线播放| 欧美大秀在线观看| 午夜欧美性电影| 欧美深性狂猛ⅹxxx深喉| 亚洲一区二区影视| 久久影院午夜片一区| 日韩欧美卡一卡二| 国产精品视频成人| 亚洲乱码中文字幕久久孕妇黑人| 国产日韩精品中文字无码| 欧美一区二区三区成人片在线| 国产精品久久久久久久久久免费看| 欧美不卡激情三级在线观看| 国产欧美日韩中文字幕在线| 欧美日韩在线不卡视频| 国产在线拍揄自揄拍无码视频| 久久99热99| 欧美日韩国产小视频在线观看| 欧美亚洲视频在线观看| 真人抽搐一进一出视频| 一区二区在线观看免费视频| 国产一区二区三区免费观看| 欧美最猛性xxxxx直播| 91chinesevideo永久地址| www.69av| 顶级黑人搡bbw搡bbbb搡| 免费观看成人鲁鲁鲁鲁鲁视频| 疯狂做受xxxx高潮欧美日本| 欧美黑人性猛交| av片在线免费| 久久免费播放视频| 成人的网站免费观看| 日韩久久久精品| 91在线播放视频| 又色又爽又黄18网站| 性做久久久久久久久久| 亚洲成人动漫在线观看| 午夜精品国产精品大乳美女| www.成年人视频| 国产又色又爽又黄的| 久久久国际精品| 中文字幕一区二区精品| 一区二区在线观| 动漫性做爰视频| 成人性生交大片免费看视频在线| 日韩一级黄色片| 91探花福利精品国产自产在线 | 国产一区二区精品在线| 亚洲av成人片色在线观看高潮| 久久精品天堂| 91精品国产乱码久久蜜臀| 粉嫩高清一区二区三区精品视频 | a美女胸又www黄视频久久| 亚洲激情自拍图| 日韩精品av一区二区三区| 后入内射无码人妻一区| 国产电影一区二区三区| 日韩精品在线电影| 亚洲激情图片| 久久精品国产亚洲av无码娇色| 国产亚洲精品免费| 欧美国产激情18| 手机在线免费观看毛片| 国产激情无套内精对白视频| 色婷婷综合久久久| 97视频中文字幕| 亚洲精品成人av久久| 成人国产精品免费观看动漫| 亚洲天天在线日亚洲洲精| 91嫩草国产丨精品入口麻豆| 日韩在线播放中文字幕| 亚洲成人资源网| 成人在线精品视频| 青青草成人免费视频| 成人免费精品视频| 久久97精品久久久久久久不卡 | 91成人伦理在线电影| 精品亚洲aⅴ无码一区二区三区| 成人免费高清在线| 久久视频在线直播|