一個(gè)API調(diào)用27個(gè)NLP預(yù)訓(xùn)練模型:BERT、GPT-2全囊括,就像導(dǎo)入NumPy一樣
網(wǎng)友驚呼:上帝的工作
魚羊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
只需一個(gè)API,就能調(diào)用BERT、XLM等多種語(yǔ)言模型,逆天的GPT-2也一樣輕松到碗里來,這樣的模型庫(kù)你是否期待?
現(xiàn)在,真的有人完成了這一驚人工作,推出了堪稱最先進(jìn)的自然語(yǔ)言處理預(yù)訓(xùn)練模型庫(kù)。
六種架構(gòu),27個(gè)預(yù)訓(xùn)練模型,簡(jiǎn)單易用,鵝妹子嚶。
其名為Pytorch-Transformers 1.0。
登場(chǎng)數(shù)小時(shí),獲贊1000+,網(wǎng)友忍不住驚嘆:這簡(jiǎn)直就是上帝的工作。
Pytorch-Transformers 1.0
從模型分析到生產(chǎn)加速,對(duì)自然語(yǔ)言處理研究人員來說,簡(jiǎn)直是一庫(kù)在手,天下我有。
目前這個(gè)庫(kù)中包含PyTorch實(shí)現(xiàn),預(yù)訓(xùn)練模型權(quán)重,數(shù)據(jù)集和六個(gè)模型的轉(zhuǎn)換工具。
六種NLP模型
庫(kù)中囊括了現(xiàn)在自然語(yǔ)言處理(NLP)領(lǐng)域最常用的六種模型:
- BERT
- GPT
- GPT-2
- Transformer-XL
- XLNet
- XLM
這些實(shí)現(xiàn)已經(jīng)在GLUE、SQuAD上進(jìn)行了測(cè)試,基本能與原始實(shí)現(xiàn)的性能相匹配。
△BERT原始實(shí)現(xiàn)性能
△Pytorch-Transformers 1.0中BERT實(shí)現(xiàn)性能
27個(gè)預(yù)訓(xùn)練模型
快速上手
這么強(qiáng)大的工具,上手也很簡(jiǎn)單。
作者已經(jīng)在Python 2.7和 3.5+上進(jìn)行過測(cè)試,PyTorch的版本則是 0.4.1到 1.1.0。
首先pip一下:
pip install pytorch-transformers
克隆儲(chǔ)存庫(kù)并運(yùn)行:
pip install [--editable] .
可以用pytest進(jìn)行一些測(cè)試:
python -m pytest -sv ./pytorch_transformers/tests/ python -m pytest -sv ./examples/
接著,就可以看一下快速入門示例了。
BERT:
首先,使用BertTokenizer從文本字符串中準(zhǔn)備一個(gè)標(biāo)記化的輸入:
使用BertModel在隱藏狀態(tài)下編碼輸入:
用BertForMaskedLM預(yù)測(cè)masked token:
OpenAI GPT-2
準(zhǔn)備輸入:
預(yù)測(cè)下一句:
就像這樣,每一個(gè)模型都有相應(yīng)的示例,可以在文檔中查看詳情。
不懂法律的物理學(xué)博士不是好工程師
Pytorch-Transformers 1.0的作者小哥是一位真正的跨界人才。
10歲學(xué)編程,大學(xué)卻入了物理坑。
第一份工作是在勞倫斯伯克利國(guó)家實(shí)驗(yàn)室的BELLA中心研究激光等離子體相互作用。
被麻省理工錄取為博士研究生,最后在索邦大學(xué)和ESPCI(巴黎高等物理化工學(xué)院)拿到了量子物理學(xué)博士學(xué)位。
在這之后,他又轉(zhuǎn)行去知識(shí)產(chǎn)權(quán)律師事務(wù)所當(dāng)起了歐洲專利律師。
現(xiàn)在,他在創(chuàng)業(yè)公司Huggingface Inc. 領(lǐng)導(dǎo)一支科學(xué)團(tuán)隊(duì),致力于自然語(yǔ)言生成和自然語(yǔ)言理解領(lǐng)域。
真乃神人也。
傳送門
教程文檔:
https://huggingface.co/pytorch-transformers/quickstart.html#documentation
— 完 —



