微積分是數(shù)學領域,它構成了機器學習算法的組成部分。在使用神經(jīng)網(wǎng)絡及其優(yōu)化時,經(jīng)常會遇到微積分的概念。在有關用于機器學習的微積分的系列的第一部分中,我們從關于函數(shù),梯度和微分的一些基本討論開始。我們看到了導數(shù)實際上與每個點上的函數(shù)梯度之間的關系。我們還構建了演算“工具箱”,以使我們的差異化之旅更加輕松。但是所有這些討論都是圍繞一個變量展開的。在機器學習微積分的第2部分中,我們將介紹多元或多元系統(tǒng)的概念。 多元系統(tǒng): 顧名思義,我們將對微分和梯度的學習應用于多變量系統(tǒng)。多變量術語通??梢曰Q使用。根據(jù)投入和產(chǎn)出的數(shù)量略有區(qū)別,但是我們不會進行討論,而是由統(tǒng)計人員進行。轉到微積分的機器學習多元系統(tǒng)第2部分意味著我們現(xiàn)在可以使用微積分實現(xiàn)高維空間,這種情況在機器學習中很常見。 在開始對多變量進行微分之前,我們先來看一下變量一詞。 在上一篇有關用于機器學習的微積分的文章中,我們正在研究汽車的速度與時間關系圖。 我們經(jīng)常將變量定義為其他變量的函數(shù)。例如,在汽車速度時間示例中,我們可以說速度是時間的函數(shù),因為汽車在每種時間實例中都有一個速度。相反,我們不能將時間定義為速度的函數(shù),因為汽車可以在許多時間點以相同的給定速度行駛。在這種情況下,我們可以將速度定義為因變量,將時間定義為自變量。 通常在微積分中,我們將因變量與自變量區(qū)分開。但是,在某些情況下,區(qū)分變量和常量似乎并不簡單。由于它可以隨著所描述問題的上下文而變化。 讓我們繼續(xù)我們關于汽車速度與時間的示例,以了解它可能如何產(chǎn)生??紤]以下等式。 在這里,由汽車發(fā)動機產(chǎn)生的力與汽車的質量m,加速度a,空氣動力學驅動力d和速度v有關。在這里,汽車的加速度和速度可以通過增加或減小作用力來改變。但是質量和驅動力是汽車設計的不變特征。 現(xiàn)在,可以將力視為一個獨立變量,因為它是獨立施加的。加速度和速度是因變量,因為它們取決于所施加的力。質量和驅動力是常數(shù)。 現(xiàn)在更改問題的上下文。假設您必須設計給定加速目標的汽車。力仍將保持獨立,但現(xiàn)在加速度和速度變?yōu)槌?shù),質量和驅動力是因變量而調整,以滿足所需的加速度目標。 這些變量在設計過程中稱為參數(shù)。在將函數(shù)擬合到數(shù)據(jù)時,這些是我們?yōu)榱苏业阶罴褦M合而調整的函數(shù)參數(shù)。也就是說,我們就這些參數(shù)進行區(qū)分。需要注意的重要一點是,任何變量都可以與其他變量區(qū)分開。 考慮另一個例子金屬罐。 要制作金屬罐,您將研究罐的不同設計參數(shù)。為此,可以將罐頭切成碎片。我們得到兩個圓,展開主體可以得到一個矩形,其寬度等于圓的周長。所有這些零件的面積乘以高度h,將得出用于制造罐頭的金屬的體積。將其乘以密度,我們得到金屬質量。 (矩形和圓形的)面積都乘以密度和厚度。 現(xiàn)在讓我們嘗試分離變量和常量。除了pi之外,我們還可以肯定其他所有參數(shù)都可以更改。因此,讓我們找到關于每個變量的罐頭質量的導數(shù)。在使用一個變量時,我們會將所有其他變量視為常量。 在這里,第一項不包含參數(shù)h,因此我們可以將其視為常數(shù),并且常數(shù)的導數(shù)為零(如上一部分所示)。另外,請注意“偏”導數(shù)的符號。卷曲d而不是d表示我們區(qū)分了包含多個變量的函數(shù)。 繼續(xù), 這是部分差異。偏微分只是將多維系統(tǒng)視為一個一維系統(tǒng),同時分別處理系統(tǒng)的每個變量??吹?,比以前考慮的單變量系統(tǒng)困難不大。 讓我們考慮一個更具挑戰(zhàn)性的偏微分問題。 考慮以下方程式: 從x開始,讓我們找到關于這三個變量的偏導數(shù)。 由于指數(shù)項沒有x變量,因此我們可以將其視為常數(shù)。 在這里,sin項被視為常數(shù)。對于指數(shù)項,我們可以使用鏈式規(guī)則,也可以記住該規(guī)則,即該項的導數(shù)只是將指數(shù)的導數(shù)與項相乘。 現(xiàn)在我們有了三個偏導數(shù),讓我們介紹總導數(shù)的概念。 讓我們考慮所有三個變量x,y和z是單個變量t的函數(shù)。這樣 我們可以用t代替所有這三個變量,并直接相對于t進行區(qū)分。但是,具有大量變量的非常復雜的系統(tǒng)呢?解析表達式可能不是那么簡單,甚至根本不存在。 另一種方法是對解決方案使用鏈式規(guī)則?,F(xiàn)在,關于新變量t的導數(shù)是其他三個變量的總和。 我們已經(jīng)解決了f關于x,y和z的導數(shù)。我們現(xiàn)在必須找到關于t的三個變量的導數(shù),然后我們可以進一步評估表達式。 替換我們的表達式B,并通過簡化一點,我們得出最終表達式。請注意,它與我們之前評估的內容相同-表達式A。 該示例有望為您提供偏導數(shù)的整體概念,以及為什么有時需要總函數(shù)。當我們在它們上構建一些東西時,這些零碎的片段將派上用場! 雅可比矩陣現(xiàn)在讓我們介紹jacobian的概念。Jacobian將幫助我們使用這些偏導數(shù)來構建有用的東西。雅可比行列式可以應用于許多問題。由于機器學習和優(yōu)化問題,經(jīng)常出現(xiàn)一種情況。具有多個變量的單個函數(shù)的雅可比行列式??紤]下面的函數(shù)。 此函數(shù)的雅可比將是一個包含函數(shù)中每個變量的偏導數(shù)的向量。 讓我們看看如何為函數(shù)構建雅可比行列式。 這表明我們具有向量的代數(shù)表達式。如果我們給它x,y和z坐標,它將返回指向上述函數(shù)最陡斜率的向量。 對于坐標位置(0,0,0),我們得到 這表明jacobian是在z方向上長度為3的向量。 隨著維數(shù)的增加,從視覺上實現(xiàn)該函數(shù)及其雅可比性變得困難。讓我們嘗試在2D空間中以圖形方式可視化函數(shù)。 這里的彩色區(qū)域是z的值。較亮的區(qū)域表示z的較高值,較暗的區(qū)域表示z的較低值。 在3D空間中,z的值為高度。 就像我們之前說的那樣,雅可比表示函數(shù)的斜率。斜度越大,雅可比值越大。 現(xiàn)在,讓我們以等高線圖的形式查看該圖。我們沿著相同高度的區(qū)域制作線,這意味著z的值相同。 查看這四個區(qū)域,并嘗試分辨哪個具有最高的雅可比的值。 在其頂部繪制雅可比矢量,我們看到所有這些矢量都指向更明亮的區(qū)域。雅可比最大的值是在線條密集的點,即點A。在其他任何位置、峰、谷底和平原區(qū)域,它的值都較小。 這給了我們一個想法,即我們正在談論的所有數(shù)學實際上在空間中都是有意義的。這也使我們有信心在進一步學習中占據(jù)更高的空間。 總結:在機器學習微積分的第2部分中,我們討論了多元系統(tǒng)。我們之前在單變量微積分中應用的偏微分如何應用于多變量函數(shù)。我們還學習了雅可比矩陣以及它如何幫助我們從偏導數(shù)中得到一些有用的東西。在后續(xù)的文章中我們將考慮更多關于微分的東西。 |
|
來自: taotao_2016 > 《數(shù)學》