作為一名合格的數(shù)據(jù)分析師,我們常用的統(tǒng)計(jì)方法處理均值的方法有 算術(shù)、幾何均值 。但很多人可能不知道諧波均值到底是什么。很多培訓(xùn)機(jī)構(gòu)也很少提及諧波均值的用途。 今天就給大家分享一下 算術(shù)、幾何和諧波均值 三者的聯(lián)系和區(qū)別以及 Python 機(jī)器學(xué)習(xí)中的實(shí)現(xiàn)。 計(jì)算變量或數(shù)字列表的平均值是機(jī)器學(xué)習(xí)中的常見操作。 平均值是代表概率分布中最中間大小的數(shù)字。因此有多種不同的方法可以根據(jù)使用的數(shù)據(jù)類型來計(jì)算平均值。 在使用性能指標(biāo)評估模型時(shí),例如還會(huì)有 G-mean 或 F-Measure 這樣特殊的操作。 什么是平均值?該集中趨勢是表示用于符號列表中最常見的值的單個(gè)符號。 從技術(shù)上講它是描述變量可能具有的所有可能值的概率分布中具有最高概率的值。 有許多方法來計(jì)算數(shù)據(jù)樣本集中趨勢,如平均其總值來計(jì)算。這是在數(shù)據(jù)分布中的最常見的值或中值,條件是必須所有的中間值數(shù)據(jù)樣本中的值是有序的。 均值與中位數(shù)和眾數(shù)的不同之處在于它是根據(jù)數(shù)據(jù)計(jì)算的集中趨勢的度量。因此根據(jù)數(shù)據(jù)類型有不同的方法來計(jì)算平均值。 可能會(huì)遇到的三種常見的平均計(jì)算類型是算術(shù)平均、幾何平均和調(diào)和平均。還有其他均值和更多的集中趨勢測度,但這三種均值可能是最常見的(例如 Pythagorean means)。 算術(shù)平均值算術(shù)平均值一般指算術(shù)平均數(shù)。 計(jì)算算術(shù)平均值的一種更方便的方法是計(jì)算值的總和并將其乘以值數(shù)量的倒數(shù): 算術(shù)平均值適合數(shù)據(jù)樣本中的所有值都具有相同的度量單位相同的情況,例如所有數(shù)字都是高度、美元或英里等。 計(jì)算算術(shù)平均值時(shí),這些值可以是正數(shù)、負(fù)數(shù)或零。 如果觀測樣本包含異常值 (特征空間中與所有其他值相距很遠(yuǎn)的幾個(gè)值),或者對于具有非高斯分布的數(shù)據(jù) (多個(gè)峰值,所謂的多模態(tài)概率分布)。 當(dāng)變量具有高斯或類高斯數(shù)據(jù)分布時(shí),算術(shù)平均值在機(jī)器學(xué)習(xí)中應(yīng)用才更有意義。 使用 NumPy 的 mean() 函數(shù)計(jì)算算術(shù)平均值。 # 計(jì)算包含 10 個(gè)數(shù)字的列表的算術(shù)平均值。from numpy import meandata = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]result = mean(data)print('算數(shù)平均值: %.3f' % result)算數(shù)平均值: 4.500 幾何平均數(shù)幾何平均值被計(jì)算為所有值之積,其中N是值的數(shù)量的N次方根。 如果數(shù)據(jù)僅包含兩個(gè)值則這兩個(gè)值的乘積的平方根就是幾何平均值。對于三個(gè)值使用立方根,依此類推。 幾何平均值適合數(shù)據(jù)包含具有不同度量單位的情況,例如 高度度量數(shù)據(jù)、美元金融數(shù)據(jù),英里長度數(shù)據(jù) 混在一起的情況。 幾何平均值不能是負(fù)值或零值,必須是正數(shù)。 機(jī)器學(xué)習(xí)中幾何均值是計(jì)算 G-Mean幾何均值度量,是一種模型評估度量。 使用 SciPy gmean() 函數(shù)計(jì)算幾何平均值。
諧波平均值諧波平均值也成為調(diào)和平均數(shù)。 調(diào)和平均值計(jì)算為值的數(shù)量N除以這些值的倒數(shù)之和(每個(gè)值 1)。 如果只有兩個(gè)值( 和 ),調(diào)和平均值的簡化計(jì)算可以計(jì)算為: 如果數(shù)據(jù)由速率組成,調(diào)和平均值是合適的平均值。 比率是具有不同度量(例如速度、加速度、頻率等)的兩個(gè)量之間的比率。 在機(jī)器學(xué)習(xí)中評估模型時(shí)有比率,例如預(yù)測中的真陽率或假陽率。 調(diào)和平均值不采用負(fù)值或零值,所有必須為正值。 在機(jī)器學(xué)習(xí)中使用調(diào)和平均值最常見的是 F-Measure(也稱為 F1-Measure 或 Fbeta-Measure) 。這是一個(gè)常用的模型評估指標(biāo),計(jì)算的結(jié)果精度和召回指標(biāo)的調(diào)和平均值。 使用 SciPy hmean() 函數(shù)計(jì)算調(diào)和平均值。 下面的示例演示了如何 # 計(jì)算九個(gè)數(shù)字列表的調(diào)和平均值。from scipy.stats import hmeandata = [0.11, 0.22, 0.33, 0.44, 0.55, 0.66, 0.77, 0.88, 0.99]result = hmean(data)print('調(diào)和平均值是: %.3f' % result)調(diào)和平均值是: 0.350 如何選擇正確的均值?已經(jīng)回顧了計(jì)算變量或數(shù)據(jù)集的平均值或均值的三種不同方法。 算術(shù)平均值是最常用的平均值,盡管在某些情況下可能不合適。 每個(gè)均值適用于不同類型的數(shù)據(jù)例如:
例外情況是如果數(shù)據(jù)包含負(fù)值或零值,則不能直接使用幾何平均值和調(diào)和平均值。 |
|