在簡單線性回歸等曲線擬合中提到的最多的最小二乘法,那么下面引用《正態(tài)分布的前世今生》里的內(nèi)容稍微簡單闡述下。 一、最小二乘法的歷史 1801年,意大利天文學家朱賽普·皮亞齊發(fā)現(xiàn)了第一顆小行星谷神星。經(jīng)過40天的跟蹤觀測后,由于谷神星運行至太陽背后,使得皮亞齊失去了谷神星的位置。隨后全世界的科學家利用皮亞齊的觀測數(shù)據(jù)開始尋找谷神星,但是根據(jù)大多數(shù)人計算的結(jié)果來尋找谷神星都沒有結(jié)果。時年24歲的高斯也計算了谷神星的軌道。奧地利天文學家海因里?!W爾伯斯根據(jù)高斯計算出來的軌道重新發(fā)現(xiàn)了谷神星。 高斯使用的最小二乘法的方法發(fā)表于1809年他的著作《天體運動論》中。 法國科學家勒讓德于1806年獨立發(fā)明“最小二乘法”,但因不為世人所知而默默無聞。 勒讓德曾與高斯為誰最早創(chuàng)立最小二乘法原理發(fā)生爭執(zhí)。 1829年,高斯提供了最小二乘法的優(yōu)化效果強于其他方法的證明,因此被稱為高斯-馬爾可夫定理。(來自于wikipedia) 二、原理 我們口頭中經(jīng)常說:一般來說,平均來說。如平均來說,不吸煙的健康優(yōu)于吸煙者,之所以要加“平均”二字,是因為凡事皆有例外,總存在某個特別的人他吸煙但由于經(jīng)常鍛煉所以他的健康狀況可能會優(yōu)于他身邊不吸煙的朋友。而最小二乘法的一個最簡單的例子便是算術(shù)平均。 最小二乘法(又稱最小平方法)是一種數(shù)學優(yōu)化技術(shù)。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。利用最小二乘法可以簡便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實際數(shù)據(jù)之間誤差的平方和為最小。用函數(shù)表示為: 使誤差「所謂誤差,當然是觀察值與實際真實值的差量」平方和達到最小以尋求估計值的方法,就叫做最小二乘法,用最小二乘法得到的估計,叫做最小二乘估計。當然,取平方和作為目標函數(shù)只是眾多可取的方法之一。 最小二乘法的一般形式可表示為: 有效的最小二乘法是勒讓德在 1805 年發(fā)表的,基本思想就是認為測量中有誤差,所以所有方程的累積誤差為
我們求解出導致累積誤差最小的參數(shù)即可: 勒讓德在論文中對最小二乘法的優(yōu)良性做了幾點說明:
對于最后一點,從統(tǒng)計學的角度來看是很重要的一個性質(zhì)。推理如下:假設(shè)真值為 求解 使達到最小,正好是算術(shù)平均。 由于算術(shù)平均是一個歷經(jīng)考驗的方法,而以上的推理說明,算術(shù)平均是最小二乘的一個特例,所以從另一個角度說明了最小二乘方法的優(yōu)良性,使我們對最小二乘法更加有信心。 三、幾何解釋 從一個簡單的例子開始,已知平面上有三個點(1,2),(0,2),(2,3),我們想用一條直線去擬合它,像高中時一樣,設(shè)這條直線的方程為Y=kx+b(一次函數(shù)),我們希望這條直線可以同時通過這三個點,也就是這條直線的參數(shù)要滿足: 學過初中解方程組的同學知道,這個方程組是無解的。 怎么解一個無解的方程組呢? 為了解釋的方便,我們用X1表示k,用X2表示b,則:
一旦寫出列的形式,我們很自然的想到把向量a1a2和b畫到圖上。 要找到解,就要找到a1和a2的一個線性組合,使得組合的向量剛好等于b,可惜任何的a1和a2的線性組合,只能出現(xiàn)在a1和a2所在的平面s上(高中必修二第二章平面基本性質(zhì)二的推論二兩條相交直線確定一個平面,a1和a2可以認為是兩條相交直線),但是向量b不在平面s上,不可能找到解,怎么辦呢?
下面我們說一說這個解釋怎么求出來的,我們知道:
也就是:
最終最佳的近似解就是: 所以以后再說最小二乘就這個東東了! |
|
來自: 生物_醫(yī)藥_科研 > 《待分類》