數(shù)據(jù)科學(xué)中的6個(gè)基本算法,掌握它們要學(xué)習(xí)哪些知識(shí)
有多少數(shù)學(xué)知識(shí)是做數(shù)據(jù)科學(xué)所必須的?
曉查 發(fā)自 凹非寺
量子位 出品 | 公眾號(hào) QbitAI
如果想從事數(shù)據(jù)科學(xué),但是又沒有數(shù)學(xué)背景,那么有多少數(shù)學(xué)知識(shí)是做數(shù)據(jù)科學(xué)所必須的?
統(tǒng)計(jì)學(xué)是學(xué)習(xí)數(shù)據(jù)科學(xué)繞不開的一門數(shù)學(xué)基礎(chǔ)課程,但數(shù)據(jù)科學(xué)也經(jīng)常會(huì)涉及數(shù)學(xué)中的其他領(lǐng)域。
數(shù)據(jù)科學(xué)使用算法進(jìn)行預(yù)測(cè),這些算法稱為機(jī)器學(xué)習(xí)算法,有數(shù)百種之多。有人總結(jié)了數(shù)據(jù)科學(xué)中最常用的6種算法,已經(jīng)掌握它們分別需要哪些數(shù)學(xué)知識(shí)。
樸素貝葉斯分類器
樸素貝葉斯分類器(Naive Bayes classifier)是一種簡(jiǎn)單的概率分類器,它基于特征之間相互獨(dú)立的假設(shè),以貝葉斯定理為基礎(chǔ)。
貝葉斯定理的數(shù)學(xué)公式為:
其中A、B表示兩個(gè)事件,且P(B)不等于0。各個(gè)部分具體的含義為:
1、P(A|B)是條件概率,它是事件B發(fā)生后事件A發(fā)生的概率。
2、P(B|A)也是一個(gè)條件概率,它是事件A發(fā)生后事件B發(fā)生的概率。事件發(fā)生的可能性 發(fā)生了 是真的。
3、P(A)和P(B)是各自發(fā)生的概率,A、B兩個(gè)事件彼此獨(dú)立。
需要的數(shù)學(xué)知識(shí):
如果你想要了解樸素貝葉斯分類器,以及貝葉斯定理的所有用法,只需學(xué)習(xí)概率課程就足夠了。
線性回歸
線性回歸是最基本的回歸類型,它用來理解兩個(gè)連續(xù)變量之間的關(guān)系。在簡(jiǎn)單線性回歸的情況下,獲取一組數(shù)據(jù)點(diǎn)并繪制可用于預(yù)測(cè)未來的趨勢(shì)線。
線性回歸是參數(shù)化機(jī)器學(xué)習(xí)的一個(gè)例子,訓(xùn)練過程最終使機(jī)器學(xué)習(xí)找到最接近于訓(xùn)練集的數(shù)學(xué)函數(shù),然后可以使用該函數(shù)來預(yù)測(cè)未來的結(jié)果。在機(jī)器學(xué)習(xí)中,數(shù)學(xué)函數(shù)被稱為模型。在線性回歸的情況下,模型可以表示為:
a1, a1, ……,an表示對(duì)數(shù)據(jù)集的參數(shù)值,x1, x1, ……,xn表示在線性模型中使用的特征值。
線性回歸的目標(biāo)是找到描述特征值和目標(biāo)值之間關(guān)系的最佳參數(shù)值。換句話說,就是找到一條最適合數(shù)據(jù)的線,可以外推趨勢(shì)以預(yù)測(cè)未來結(jié)果。
為了找到線性回歸模型的最佳參數(shù),我們希望讓殘差平方和(residual sum of squares)最小化。殘差通常被稱為誤差,它用來描述預(yù)測(cè)值和真實(shí)值之間的差異。殘差平方和的公式可表示為:
y的“頭頂”加上^用來表示預(yù)測(cè)值,y表示真實(shí)值。
需要的數(shù)學(xué)知識(shí):
如果你只想粗略地了解,基礎(chǔ)統(tǒng)計(jì)學(xué)課程就可以了。殘差平方和的公式可以在大多數(shù)高級(jí)統(tǒng)計(jì)課程中學(xué)到。
邏輯回歸
邏輯回歸(Logistic regression)側(cè)重于二元分類,即輸出結(jié)果只有兩種情況的概率。
與線性回歸一樣,邏輯回歸是參數(shù)化機(jī)器學(xué)習(xí)的一個(gè)例子。因此,這些機(jī)器學(xué)習(xí)算法的訓(xùn)練過程的結(jié)果是找到最接近訓(xùn)練集的數(shù)學(xué)函數(shù)模型。
但是線性回歸模型輸出的是一組實(shí)數(shù),而邏輯回歸模型輸出的是概率值。在邏輯回歸的過程中還會(huì)用到sigmoid函數(shù),它會(huì)把所有值壓縮到0~1的范圍之間。
需要的數(shù)學(xué)知識(shí):
這一部分包含的知識(shí)有指數(shù)函數(shù)和概率,你需要對(duì)代數(shù)和概率論有充分的理解。如果想深入了解,建議學(xué)習(xí)概率論、離散數(shù)學(xué)或?qū)嵎治觥?/p>
神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是一種機(jī)器學(xué)習(xí)模型,它們受到人類大腦中神經(jīng)元結(jié)構(gòu)的極大啟發(fā)。神經(jīng)網(wǎng)絡(luò)模型使用一系列激活單元(稱為神經(jīng)元)來預(yù)測(cè)某些結(jié)果。神經(jīng)元將輸入應(yīng)用于轉(zhuǎn)換函數(shù),并返回輸出。
神經(jīng)網(wǎng)絡(luò)擅長(zhǎng)獲取數(shù)據(jù)中的非線性關(guān)系,并幫助我們完成音頻和圖像處理等任務(wù)。雖然存在許多不同類型的神經(jīng)網(wǎng)絡(luò)(比如卷積神經(jīng)網(wǎng)絡(luò)、前饋神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)等),但它們都依賴于轉(zhuǎn)換輸入生成輸出的基本概念。
在上圖中,線條將每個(gè)圓圈連接到另一個(gè)圓圈。在數(shù)學(xué)中,這就是所謂的圖,一種由邊連接的節(jié)點(diǎn)組成的數(shù)據(jù)結(jié)構(gòu)。
神經(jīng)網(wǎng)絡(luò)的核心是一個(gè)系統(tǒng),它接收數(shù)據(jù),進(jìn)行線性代數(shù)運(yùn)算,然后輸出答案。
線性代數(shù)是理解神經(jīng)網(wǎng)絡(luò)的關(guān)鍵,它通過矩陣和向量空間來表示線性方程。因?yàn)榫€性代數(shù)涉及矩陣表示線性方程,所以矩陣是理解神經(jīng)網(wǎng)絡(luò)核心部分必須知道的基本知識(shí)。
矩陣是由數(shù)字、符號(hào)或表達(dá)式組成的矩形陣列,按行和列排列。例如:
它被稱為3×3矩陣,因?yàn)樗腥腥小?/p>
神經(jīng)網(wǎng)絡(luò),每個(gè)特征都表示為輸入神經(jīng)元。每個(gè)特征的數(shù)值乘以神經(jīng)元的權(quán)重向量獲得輸出。在數(shù)學(xué)上,該過程是這樣的:
其中X是一個(gè)m×n矩陣,m是神經(jīng)元輸入的數(shù)量,n神經(jīng)元輸出的數(shù)量。a是權(quán)重向量,aT是a的轉(zhuǎn)置,b是偏置。
偏置(bias)通過向左或向右移動(dòng)S形函數(shù)來影響神經(jīng)網(wǎng)絡(luò)輸出,以便對(duì)某些數(shù)據(jù)集進(jìn)行更好的預(yù)測(cè)。轉(zhuǎn)置(Transpose)是一個(gè)線性代數(shù)術(shù)語(yǔ),它的意思是把矩陣的行變成列、列變成行。
在所有特征列和權(quán)重相乘之后,調(diào)用激活函數(shù)來確定神經(jīng)元是否被激活。激活函數(shù)有三種主要類型:RELU函數(shù),sigmoid函數(shù)和雙曲正切函數(shù)。
sigmoid函數(shù)我們已經(jīng)知道了。RELU函數(shù)是一個(gè)簡(jiǎn)潔的函數(shù),當(dāng)輸入x大于0的時(shí)候輸出x,當(dāng)輸入x小于0的時(shí)候輸出0。雙曲正切函數(shù)與sigmoid函數(shù)類似,只是它用來約束-1和1之間的數(shù)值。
需要的數(shù)學(xué)知識(shí):
離散數(shù)學(xué)和線性代數(shù)課程是必須的。為了深入理解,還需要學(xué)習(xí)圖論、矩陣論、多元微積分和實(shí)分析課程。
K-平均聚類
K-平均聚類(K-Means Clustering)算法是一種無監(jiān)督機(jī)器學(xué)習(xí),用于對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行分類。該算法通過在數(shù)據(jù)中查找組來工作,其中組由變量k表示。它根據(jù)提供的特征將每個(gè)數(shù)據(jù)點(diǎn)分配給k組中的一個(gè)。
K-平均聚類依賴于整個(gè)算法中的距離概念,將數(shù)據(jù)點(diǎn)“分配”到聚類。在數(shù)學(xué)中,描述集合中任意兩個(gè)元素之間距離的指標(biāo)有兩種:歐幾里德距離和出租車距離(又叫曼哈頓距離)。
其中,(x1, y1)、(x2, y2 )是笛卡爾平面上的坐標(biāo)點(diǎn)。
雖然歐幾里得距離標(biāo)準(zhǔn)已經(jīng)足夠,但在某些情況下它不起作用。假設(shè)在城市街道上乘坐出租車,那么你是沒法走斜線的,只能走橫平豎直的街道,這時(shí)候我們可以使用出租車距離:
需要的數(shù)學(xué)知識(shí):
這部分牽涉到的知識(shí)比較少。實(shí)際上你只需要知道加法和減法和代數(shù)的基礎(chǔ)知識(shí),就可以掌握距離公式。但是為了深入理解每種距離的基本幾何形狀,建議學(xué)習(xí)歐氏幾何和非歐幾何。為了深入理解指標(biāo)和度量空間的含義,我會(huì)閱讀數(shù)學(xué)分析并參加實(shí)分析課程。
決策樹
決策樹是一種類似流程圖的樹結(jié)構(gòu),它使用分支方法來說明決策的每個(gè)可能結(jié)果。樹中的每個(gè)節(jié)點(diǎn)代表對(duì)特定變量的測(cè)試,每個(gè)分支都是該測(cè)試的結(jié)果。
決策樹依賴于信息論(information theory)。在信息論中,人們對(duì)某個(gè)主題了解越多,可以知道的新信息就越少。信息論的關(guān)鍵之一是熵(entropy)。熵是變量不確定性的一種度量,具體形式為:
在上面的公式中,P(x)是數(shù)據(jù)集中特征出現(xiàn)的概率。b是對(duì)數(shù)函數(shù)的底,它常見的值有2、e和10。前面的Σ符號(hào)表示求和,它的上下方分別寫著求和的上限和下限。
在計(jì)算熵之后,我們可以通過信息增益(information gain)構(gòu)造決策樹,它告訴哪種拆分方式會(huì)最大程度地減少熵。信息增益的公式如下:
信息增益用于衡量可以獲得多少“信息”。在決策樹中,我們可以計(jì)算數(shù)據(jù)集中每一列的信息增益,找到哪一列能為我們提供最大的信息增益,然后在該列上進(jìn)行拆分。
需要的數(shù)學(xué)知識(shí):
基本的代數(shù)和概率知識(shí)是了解決策樹所必須的。
原文地址:



