色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

人類評估已不是NLG的最佳標準,華盛頓大學提出新觀點遭網友質疑

評估AI生成的文本,真的太難了……

明敏 發自 凹非寺
量子位 報道 | 公眾號 QbitAI

AI生成的文本好不好,最權威的評估者竟然不是人類自己?

最近,華盛頓大學和艾倫人工智能研究院的學者們在研究中發現:

未經過訓練的人類評估文本時,往往過分關注生成文本像不像人話,而忽略了生成文本更重要的問題,即它的內容是否正確、合乎邏輯。

研究人員就給出了一個例子:

人類評估已不是NLG的最佳標準,華盛頓大學提出新觀點遭網友質疑

他們分別讓未經訓練的人類和機器來評價一段GPT-3生成的文字。

這段文字翻譯過來為:

從前,有一個海盜。他是那種寧愿把時間花在驅趕在船周圍游泳的鯊魚上,也不愿駛向外國港口尋找戰利品的海盜。他是個好海盜,高尚的海盜,誠實的海盜。他是個寧愿和妻兒呆在家里也不愿出海的海盜。

人類評估員認為這段文字除了有些啰嗦外,沒什么大毛病。

這可能就是一個海盜想回家陪老婆孩子吧,AI可能沒理解,但是這也沒什么稀奇的。

機器評估也認為這段文字很啰嗦,不過它對文段的內容提出了質疑:

海盜會有老婆孩子?還不和他一起在船上生活?

人類評估已不是NLG的最佳標準,華盛頓大學提出新觀點遭網友質疑

對比兩種判斷,人類評估更看重這段話像不像人話,在檢驗過它的確非常流暢后,就會默認這段文本沒什么大問題了。

而機器的判斷角度則更加多維,會考慮到文字傳達的意思是否正確。

很難分辨出GPT-3生成的文本

為了驗證自己的觀點,研究人員讓未經訓練的評估人員來區分人類寫的文本和AI生成的文本。

他們選擇了故事、新聞、菜譜三種不同的文體進行測試。

人類評估已不是NLG的最佳標準,華盛頓大學提出新觀點遭網友質疑

具體測試中,受試人員不僅要判斷給出的文本是否人類創作的,還要填寫相應的理由。

結果顯示,在區分人類和GPT-2創作的文本時,被測試群體的正確率為57.9%

但是在區分GPT-3生成的文本上,正確率就下降到了49.9%

而二選一問題的隨機概率就有50%……

人類評估已不是NLG的最佳標準,華盛頓大學提出新觀點遭網友質疑

顯然,普通人已經很難識別出當下最先進的NLG模型所生成的文本。

為了更進一步了解受試人員是如何做出判斷的,研究人員對150個回答進行了分析。

結果發現,受試人員在做出判斷后,更加傾向于從文本的格式、風格、語法角度上給出理由。

150個回答中,基于文本形式的判斷幾乎是基于內容判斷的2倍

但是,GPT-3在文本流暢度方面的表現其實已經非常出色,這或許也是為什么人類很難分辨GPT-3生成文本。

而且研究人員發現,受試人員給出判斷的理由都不盡相同,這也表明人類評估文本沒有一個明確的標準。

人類評估已不是NLG的最佳標準,華盛頓大學提出新觀點遭網友質疑

既然NLG模型訓練后可以變強,那培訓一下評估人員呢?

研究人員決定對一些受試人員進行了培訓,提高他們評估文字的能力和速度。

他們準備了3種不同的培訓:

第一種是給出明確的判斷標準,讓受試人員學習后來判斷;

第二種是通過大量的實例訓練,也就是題海戰術;

第三種是通過不斷對比來完成訓練。

人類評估已不是NLG的最佳標準,華盛頓大學提出新觀點遭網友質疑

然而結果表明,這好像并沒有什么用

三種培訓后的判斷正確率分別為52%、55%、53%,相較于未受訓時的表現,沒有顯著提高。

不過從受試人員的回答中可以看到,更多人現在會多維度判斷文本了,還是有進步的。

基于這樣的實驗結果,研究人員認為在評估最先進的NLG模型方面,人類可能真的不太靠譜了。

這實驗不太靠譜

對于這樣的結論,網友們提出了一些不同的看法:

判斷文本質量其實是一件非常艱巨的任務,需要專家來進行評估。

或許是這項研究中的受試人員不太行?

人類評估已不是NLG的最佳標準,華盛頓大學提出新觀點遭網友質疑

有人就指出了問題所在:他們用的Amazon Mechanical Turk的評估員。

是受試人員不太行。

人類評估已不是NLG的最佳標準,華盛頓大學提出新觀點遭網友質疑

AMTurk作為一個眾包平臺,近年來實在是飽受詬病。

此前BBC報道稱,由于招募到的志愿者所在的地區存在一些觀念偏見,導致最后研究出的算法也存在偏見。

而且招募到的人員水平也常常參差不齊。

不過有人也表示:這些人可能也是最適合的,因為他們最接近普通大眾水平,專家認為好的文字,普通人未必也這么認為。

這要取決于生成文本的目標人群是誰。

實驗中的志愿者對喬伊斯(后現代文學作家)的欣賞程度肯定和英文系教授不同。

盡管頂級文學評論家將其描述為“20世紀實驗文學的偉大紀念碑之一”和“英語中最美麗的散文詩之一”,但對于大多數普通讀者而言,它非常晦澀難懂。

此外,也有人就對這項研究提出了改進建議:

我認為他們可以用更簡單的NLG算法(基于規則,n-gram, rnn)進行更精細的分析,并對“非專家”評估者進行排名,而不是將他們作為一個群體來處理。

而關于NLG模型生成文本的評估問題,谷歌曾給出過一個方案。

2020年,它們提出了一個可量化評估NLG模型性能的指標——BLEURT

這是一個基于BERT的學習評價指標,在學習了幾千個人類評估案例后,它可以對不同模型生成的文本進行打分。

其最大的優勢就是,評估速度更快

谷歌研究人員認為這個指標有助于NLG模型的研究和開發,而且可以為開發人員提供更加多維的評判標準。

論文地址:
https://arxiv.org/pdf/2107.00061.pdf

參考鏈接:
[1]https://www.reddit.com/r/MachineLearning/comments/ok6c4k/r_human_evaluations_no_longer_the_gold_standard/
[2]https://arxiv.org/abs/2004.04696

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
逼特逼视频在线观看| 久久综合久久久久88| 亚洲欧美自拍一区| 99爱视频在线| 无吗不卡中文字幕| 玖玖爱在线观看| 中文字幕久久久| 国产又色又爽又黄又免费| 91欧美日韩一区| 欧美一激情一区二区三区| 久久综合久中文字幕青草| av首页在线观看| 国产精品黄视频| 国产综合久久久久影院| 国产又黄又爽免费视频| 亚洲另类在线视频| 日韩视频在线免费看| 日韩一区二区三区四区五区六区| 国产成年妇视频| 日本一区视频在线| 99久久综合国产精品| 中文字幕网av| 亚洲精品视频二区| 国产v在线观看| 国产成人a亚洲精v品无码| 日韩欧美中文字幕公布| 天堂成人国产精品一区| 亚洲日本一区二区三区在线不卡 | 国产精品久久久久三级| 手机在线观看日韩av| 在线播放国产一区中文字幕剧情欧美| 亚洲精品免费在线观看视频| 亚洲一区二区高清视频| 亚洲国产精品va在线看黑人| 亚洲天堂aaa| 图片区小说区区亚洲五月| 精品成人久久av| 国产精品怡红院| 熟妇人妻无乱码中文字幕真矢织江| 日韩电视剧免费观看网站| 国产丰满果冻videossex| 久久久久久三级| 一区二区日韩精品| av爱爱亚洲一区| wwwav国产| 亚洲伊人成综合成人网| 国产视频在线观看一区二区三区 | 亚洲精品免费在线看| 色综合天天综合在线视频| 国产一级在线视频| 精品日本一区二区| 91成人在线免费观看| 国产三级精品三级在线观看| 亚洲一区二区在线播放| 91麻豆精品国产91久久久久久 | 久久综合色婷婷| 久久精品视频国产| 国产精品www在线观看| 日韩一区二区三免费高清| 美女精品自拍一二三四| 鲁一鲁一鲁一鲁一av| 色多多国产成人永久免费网站| 日韩高清欧美激情| 依人在线免费视频| 国产免费一区二区三区在线观看| 一区二区在线观看视频 | 熟妇人妻中文av无码| 亚洲色成人www永久在线观看| 国产一区二区三区四区hd| 91精品国产欧美日韩| 国产黄色片免费在线观看| 日韩欧美一二区| 国产农村妇女毛片精品久久| 欧美精品一区二区性色a+v| 91精品欧美综合在线观看最新| 国产一区二区福利视频| 欧美人妻精品一区二区免费看| 国产精品制服诱惑| 欧美日韩一区小说| 国产精品日韩无码| 五月天丁香社区| 亚洲成人蜜桃| 久久男人资源视频| 亚洲私人影院在线观看| 成年人免费高清视频| 一本一道久久久a久久久精品91| 最近2019中文字幕mv免费看| 亚洲福利电影网| 久久久999久久久| 国产精品12345| 日韩精品在线免费看| 18禁免费观看网站| 中国一级片黄色一级片黄| 一本一生久久a久久精品综合蜜| 69堂精品视频| 99九九视频| 日本xxx免费| 日韩欧美一级二级三级| 97久久精品人人做人人爽50路| 无套内谢大学处破女www小说| 国产精品中文字幕久久久| 日韩欧美不卡在线观看视频| 国产欧美一区二区三区鸳鸯浴 | 在线免费观看日韩欧美| 国产刺激高潮av| 91在线直播亚洲| 亚洲视频国产视频| 午夜私人影院久久久久| 三级黄色录像视频| 免费成人看片网址| 欧美日韩的一区二区| 久久午夜激情| 日韩少妇高潮抽搐| 国产男女免费视频| 99re在线国产| 美女福利精品视频| 亚洲成人免费看| 国产一区二区久久| 在线观看一二三区| 天堂а√在线中文在线鲁大师| 先锋在线资源一区二区三区| 91精品国产91久久久久久| 黄色成人在线播放| 91在线porny国产在线看| 韩国av免费在线| 日本三级欧美三级| 精品国产无码在线观看| 亚洲一区三区| 91欧美日韩一区| 色综合视频一区中文字幕| 精品久久久久久久大神国产| 91伊人久久大香线蕉| 天堂va蜜桃一区二区三区| japanese国产在线观看| 亚洲女人久久久| 永久免费未满蜜桃| 日韩啊v在线| 国产色婷婷国产综合在线理论片a| 在线观看91av| 99re视频精品| 日韩av电影免费观看高清完整版| 777777国产7777777| 精品久久久久久无码中文野结衣| 国产女主播一区二区三区| 奇米四色中文综合久久| 欧美一级生活片| 亚洲va欧美va人人爽| 2020国产精品自拍| 国产一区二区三区四区在线观看| 亚洲国产精品一| 在线观看污污网站| 免费影院在线观看一区| 国产美女精品免费电影| 97国产成人精品视频| 欧美色爱综合网| 一区二区三区中文免费| 久久一日本道色综合| 激情文学综合插| 国产精品熟女视频| 日日骚一区二区三区| 777视频在线| 国产3p露脸普通话对白| 亚洲午夜精品久久| 欧美不卡三区| 国产一区二区三区高清| 91精品国产91久久久久青草| 最近中文字幕日韩精品 | 国产日韩欧美夫妻视频在线观看| 欧美成aaa人片在线观看蜜臀| 亚洲人成欧美中文字幕| 亚洲激情久久久| 亚洲成人午夜影院| 亚洲欧美自拍偷拍| 强制捆绑调教一区二区| 熟妇人妻一区二区三区四区| 午夜久久久久久久久久| 岛国毛片在线观看| 精品伦精品一区二区三区视频密桃 | 久久九九99| 久久久久久久极品| 久久这里只有精品国产| 男人的天堂免费| 大片在线观看网站免费收看| 91免费高清视频| 国产精品自产拍在线观看| 国产97在线|亚洲| 亚洲第一国产精品| 日韩免费视频一区| 欧美xingq一区二区| 亚洲sss视频在线视频| 亚洲一本大道在线| www激情久久| 爽爽淫人综合网网站| 午夜精品久久久久久久第一页按摩 | 国产免费黄色网址| 国产色片在线观看| 亚洲国产日韩在线观看| 久久免费高清| 久久精品av麻豆的观看方式| 国产99免费视频| 少妇一级淫片日本| www.久久久久久久| 国产一区二区三区四区视频| 欧美日韩人妻精品一区二区三区| 欧美日韩精品亚洲精品| av资源免费观看| 老熟妇一区二区三区啪啪| 97超碰资源站| 好吊色在线观看| 日韩av不卡一区二区| 国产精品综合视频| 亚洲va欧美va| 人人妻人人玩人人澡人人爽| 中文字幕天堂在线| 国产一区二区三区黄片| 午夜小视频在线播放| 在线免费观看一区二区| 精品人妻一区二区三区日产乱码| 日韩中文字幕免费在线观看| 久久99精品久久久| 手机看片福利永久| 蓝色福利精品导航| 国产91在线看| 久久99久久久久| 不卡高清视频专区| 国产精品1区2区| 日本不卡在线视频| 国产成人精品亚洲777人妖| 久久久久久久综合狠狠综合| 国产福利一区二区| 国产女人18毛片水真多成人如厕| 亚洲精品日产精品乱码不卡| 日韩人体视频一二区| 日韩精品在线一区| 日韩三级成人av网| 日韩中文字幕欧美| 欧洲一区二区视频| 成人xxxxx色| 欧美日韩一级在线| 粉色视频免费看| 天堂在线中文在线| 在线 丝袜 欧美 日韩 制服| 清纯粉嫩极品夜夜嗨av| 亚洲自拍偷拍另类| 蓝色福利精品导航| 国产女人18毛片水真多成人如厕| 疯狂蹂躏欧美一区二区精品| 精品国产成人av| 精品剧情在线观看| 欧美日韩福利在线观看| 欧美极品少妇xxxxⅹ免费视频 | 欧美日韩最好看的视频| 九色综合婷婷综合| 久久久久久久久久久久久久久久av | 顶级嫩模精品视频在线看| 国产成人无遮挡在线视频| 国产精品国产a| 亚洲免费观看在线观看| 欧美日韩国产经典色站一区二区三区 | 亚洲成人精品在线播放| 麻豆亚洲av成人无码久久精品| av网站在线观看免费| 成人精品视频一区二区三区| 亚洲第一av色| 精品夜色国产国偷在线| 4388成人网| 国产精品日韩精品| 成人福利视频网| 99蜜桃在线观看免费视频网站| 少妇高潮大叫好爽喷水| 国产欧美视频一区| 99精品视频99| 日韩av在线免费观看不卡| 国产精品不卡在线| 欧美mv和日韩mv国产网站| 韩剧1988在线观看免费完整版| 鲁鲁视频www一区二区| 天天碰免费视频| 中文字幕人妻一区二| 亚洲精品中文字幕成人片| 久久亚洲精华国产精华液 | 美女久久久久久久久久| 中文字幕 国产| 成人午夜激情影院| 在线观看日韩av先锋影音电影院| 久久天天躁狠狠躁夜夜躁| 国产精品露出视频| 日本人视频jizz页码69| 久久国产免费观看| 免费观看久久久4p| 亚洲成av人片在线观看| 日韩在线视频观看正片免费网站| 国产精品乱码| 在线黄色免费观看| 国产精品久久久久久久妇| 亚洲熟妇无码av在线播放| 国产污在线观看| 中文字幕 国产| 亚洲精品在线观| 日韩综合中文字幕| 国产xxxxx在线观看| 久久99九九99精品| 久久久噜噜噜久久久| 最新中文字幕av| 亚洲AV无码国产精品午夜字幕 | 亚洲精品成人久久久998| 91丨九色丨海角社区| 国产视频精品免费播放| 欧美bbbbb性bbbbb视频| 国产亚洲精品福利| 茄子视频成人在线观看 | 欧美经典一区二区三区| 国产精品视频999| 日韩久久精品视频| 亚洲福利在线视频| av网站免费在线看| 成人黄色免费视频| 日韩在线欧美在线| 丰满少妇被猛烈进入一区二区| 欧洲精品一区二区三区在线观看| 给我免费播放片在线观看| 北条麻妃一区二区三区| 成人国产一区二区| 中日精品一色哟哟| 欧美精品成人91久久久久久久| 国产亚洲欧美精品久久久www| 精品调教chinesegay| 国产又粗又硬视频| 国内精品免费**视频| 国产精品视频地址| 无码国产伦一区二区三区视频| 国产精品高清在线观看| 亚洲精品无遮挡| 国产精品一区二区3区| 少妇高潮久久久| 春色成人在线视频| 国产黄a三级三级| 欧美精品99久久久**| 一区二区三区久久久久| 亚洲一级黄色av| 国产精品手机在线| 成人一二三四区| 孩xxxx性bbbb欧美| www.亚洲欧美| 国产在线一区二区三区欧美| 精品一区二区三区日韩| 欧美午夜精品理论片a级大开眼界| 国产v综合v亚洲欧| 午夜啪啪福利视频| 一区精品在线播放| 九九爱精品视频| 亚洲美女视频在线| 中文字幕 欧美 日韩| 午夜精品一二三区| 国产欧美一区二区三区久久人妖| 亚洲av毛片成人精品| 免费精品视频一区二区三区| 国产精品三级av在线播放| 国产视频在线视频| 日韩写真欧美这视频| 久久9999久久免费精品国产| 69av成年福利视频| 久热成人在线视频| 国产色一区二区三区| 欧洲精品在线观看| xxxx 国产| 亚洲专区国产精品| 亚洲婷婷在线视频| 无码成人精品区在线观看| 久久理论片午夜琪琪电影网| 日韩精品视频播放| 99精彩视频| 在线免费亚洲电影| 精品丰满少妇一区二区三区| 亚洲精品综合久久中文字幕| 裸模一区二区三区免费| 亚洲视频1区2区| 国产精品久久免费观看| 国语自产精品视频在线看抢先版图片| 日韩国产欧美一区二区三区| 亚洲精品在线免费| 欧美午夜片欧美片在线观看| 国产系列第一页| 在线观看亚洲a| 毛片aaaaa| 精品国产一区二区三区麻豆小说| 亚洲狠狠丁香婷婷综合久久久| 国产精品18在线| 国产美女高潮久久白浆| 亚洲人成网站影音先锋播放| 欧美88888| 九色91国产| 在线国产电影不卡| 伊人久久久久久久久久久久 | 人妻丰满熟妇av无码区| 国产精品麻豆免费版| 午夜精品爽啪视频| 最近中文字幕av| 四虎4hu永久免费入口| 亚洲精品理论电影| 青青草国产精品亚洲专区无| 91香蕉视频导航| 国产精品色婷婷视频| 国产人伦精品一区二区| 五月婷婷亚洲综合| 欧美亚洲日本在线观看| 午夜精品久久17c| 亚洲www啪成人一区二区麻豆| 2019男人天堂| 日韩av电影免费在线观看|