自學(xué)機(jī)器學(xué)習(xí),怎么才能找到工作啊?至少要避開十大雷區(qū) | Reddit高熱
把你的項(xiàng)目做成API啊
栗子 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
做機(jī)器學(xué)習(xí)工程師,通常都要讀過博。
即便沒有寫成崗位的必要條件,也慢慢變成了自然規(guī)律。
那自學(xué)成才的人類,要寫怎樣的項(xiàng)目經(jīng)歷,才能讓面試官相信,自己也是有同等能力的呢?
一個(gè)叫做AdditionalWay的網(wǎng)友,在Reddit提出了這個(gè)直擊靈魂的問題,引發(fā)了大量討論,兩天熱度已經(jīng)超過500。
討論版上,有許多人提出了中肯的建議:
工業(yè)界需要的技能
有位叫做po-handz的網(wǎng)友,他發(fā)表的意見收獲了80分的高贊同,占據(jù)了評(píng)論區(qū)的頂樓:
把自己的項(xiàng)目投入生產(chǎn)環(huán)節(jié) (launch into production) ,就能超越99%的應(yīng)屆生,也能超越大部分在位的ML工程師了。
對(duì)此,有人 (moravak) 表達(dá)了墻裂贊同:
這個(gè)“大部分”,其實(shí)就是≥99.9%。
頂樓又補(bǔ)充說,很多人就算讀到博士畢業(yè),可能也沒有自己把一個(gè)項(xiàng)目做到生產(chǎn)環(huán)節(jié)的經(jīng)驗(yàn)。
那么,怎樣才算有這樣的經(jīng)歷呢?
網(wǎng)友 (BernieFeynman) 簡(jiǎn)約地解釋了一下:
搭些模型,不用非常非常厲害。但要讓人能看到,模型在哪跑起來(lái)的樣子,比如有個(gè)API可以調(diào)用之類的。
當(dāng)然,做起來(lái)并不是一句話的事,頂樓詳細(xì)描述了,一整個(gè)過程究竟能有多難:
比如,一般你不會(huì)只有一個(gè)模型,是有一組。
所以,需要讓這些大模型,加載在服務(wù)器的RAM上。
還要接受新輸入的數(shù)據(jù)。這些數(shù)據(jù),要和測(cè)試數(shù)據(jù)的格式保持一致,還要scale,該怎么scale呢?
推理要用GPU么?那樣的話在AWS上每月可能要花1000刀,預(yù)算能支持么?時(shí)序數(shù)據(jù)怎么辦呢?
你需要一個(gè)連續(xù)更新的模型,還要一直跟蹤調(diào)參。
除此之外,你需要一個(gè)實(shí)時(shí)的、可維護(hù)的數(shù)據(jù)管道 (data pipeline) 。搞這個(gè),比處理一個(gè)清晰干凈的數(shù)據(jù)集要難多了。
最后的最后,你還需要一整套UI,網(wǎng)站,nginx堆棧,要做成用戶友好的樣子。
別說是剛畢業(yè)的博士,許多有經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家也對(duì)這些東西一竅不通,因?yàn)樗麄兛赡苤辉谧约簩I(yè)的領(lǐng)域里工作,都是別人把干凈的數(shù)據(jù)集交到他們手上。
你如果在這點(diǎn)上打贏他們,對(duì)企業(yè)來(lái)說就有更高的價(jià)值了。
簡(jiǎn)歷不要踩雷
訓(xùn)練實(shí)用技能,只是一方面。
如果不想在簡(jiǎn)歷篩選環(huán)節(jié)見光死,網(wǎng)友 (rudiXOR) 在一家“正在招聘ML工程師的中型企業(yè)”,總結(jié)了十大雷區(qū),供大家參考:
第一,拿著一大堆MOOC證書。沒用,我試過,quiz一路點(diǎn)下去誰(shuí)都做得到。第二,對(duì)Kaggle成績(jī)過于自豪。許多大學(xué)生都參加過Kaggle比賽,他們也知道這種比賽和ML工程師的工作,基本沒什么共同點(diǎn)。第三,去了3個(gè)月訓(xùn)練營(yíng),從PCA到LSTM,幾乎所有ML技術(shù)都修煉到了。真的沒人相信。第四,GitHub項(xiàng)目都是只提交過一次代碼的那種。根本看不出是不是自己做的。第五,GitHub主頁(yè)是新的,一個(gè)項(xiàng)目都沒有。第六,模型只在toy datasets上測(cè)試過,沒有再嚴(yán)肅點(diǎn)的項(xiàng)目了。第七,每種語(yǔ)言都說“精通”。比如C++、Python、Java、C#……第八,對(duì)照職位要求精心匹配了簡(jiǎn)歷 (“Buzzword optimization for HR algorithms”) 。第九,沒有證明自己的數(shù)學(xué)/統(tǒng)計(jì)學(xué)知識(shí)水平。第十,沒有軟件開發(fā)的經(jīng)歷。
就算前九條你都忘了,也可以嚴(yán)肅地參考第十條。網(wǎng)友在細(xì)數(shù)了雷區(qū)之后強(qiáng)調(diào):
如果你是自學(xué)的,不要一上來(lái)就投數(shù)據(jù)科學(xué)家,或者M(jìn)L工程師。可以先申請(qǐng)數(shù)據(jù)分析師,或者軟件工程師。如果是自學(xué)ML,又沒有軟件開發(fā)的經(jīng)歷,我是不會(huì)請(qǐng)你的。
參考前文,如果沒有讀過博士,就要比博士多點(diǎn)工業(yè)界的經(jīng)驗(yàn)才更有利。
One More Thing
不過,自學(xué)什么時(shí)候都不晚。
比如,谷歌大腦的研究員David Ha,在投入機(jī)器學(xué)習(xí)的懷抱之前,已經(jīng)做到高盛的董事總經(jīng)理 (MD) 了。
那么,各位也要加油啊。
Reddit討論版還有更多建議:
https://www.reddit.com/r/MachineLearning/comments/c3e9qu/d_those_who_hireinterview_for_machine_learning/
— 完 —
- 馬云正式卸任后,阿里巴巴開盤跌0.87%2019-09-10
- 亞馬遜在華拓展云計(jì)算團(tuán)隊(duì),挑戰(zhàn)阿里巴巴和騰訊2019-10-16
- AI獨(dú)角獸云知聲,已完成一期科創(chuàng)板IPO輔導(dǎo)2019-10-17
- IDC:今年上半年中國(guó)公有云服務(wù)市場(chǎng)規(guī)模達(dá)54.2億美元2019-11-07



