小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

Python數(shù)據(jù)分析之numpy學(xué)習(xí)(二)

 無聊齋話 2016-08-08

我們接著《Python數(shù)據(jù)分析之numpy學(xué)習(xí)(一)》繼續(xù)講解有關(guān)numpy方面的知識!


統(tǒng)計函數(shù)與線性代數(shù)運算

統(tǒng)計運算中常見的聚合函數(shù)有:最小值、最大值、中位數(shù)、均值、方差、標準差等。首先來看看數(shù)組元素級別的計算

In [94]: arr11 = 5-np.arange(1,13).reshape(4,3)

In [95]: arr12 = np.random.randint(1,10,size = 12).reshape(4,3)

In [96]: arr11

Out[96]:

array([[ 4,  3,  2],

[ 1,  0, -1],

[-2, -3, -4],

[-5, -6, -7]])


In [97]: arr12

Out[97]:

array([[1, 3, 7],

[7, 3, 7],

[3, 7, 4],

[6, 1, 2]])


In [98]: arr11 ** 2    #計算每個元素的平方

Out[98]:

array([[16,  9,  4],

[ 1,  0,  1],

[ 4,  9, 16],

[25, 36, 49]])


In [99]: np.sqrt(arr11)  #計算每個元素的平方根

Out[99]:

array([[ 2.        ,  1.73205081,  1.41421356],

[ 1.        ,  0.        ,         nan],

[        nan,         nan,         nan],

[        nan,         nan,         nan]])

由于負值的平方根沒有意義,故返回nan。


In [100]: np.exp(arr11)   #計算每個元素的指數(shù)值

Out[100]:

array([[  5.45981500e+01,   2.00855369e+01,   7.38905610e+00],

[  2.71828183e+00,   1.00000000e+00,   3.67879441e-01],

[  1.35335283e-01,   4.97870684e-02,   1.83156389e-02],

[  6.73794700e-03,   2.47875218e-03,   9.11881966e-04]])


In [101]: np.log(arr12)   #計算每個元素的自然對數(shù)值

Out[101]:

array([[ 0.        ,  1.09861229,  1.94591015],

[ 1.94591015,  1.09861229,  1.94591015],

[ 1.09861229,  1.94591015,  1.38629436],

[ 1.79175947,  0.        ,  0.69314718]])


In [102]: np.abs(arr11)   #計算每個元素的絕對值

Out[102]:

array([[4, 3, 2],

[1, 0, 1],

[2, 3, 4],

[5, 6, 7]])


相同形狀數(shù)組間元素的操作:

In [103]: arr11 + arr12   #加

Out[103]:

array([[ 5,  6,  9],

[ 8,  3,  6],

[ 1,  4,  0],

[ 1, -5, -5]])


In [104]: arr11 - arr12   #減

Out[104]:

array([[  3,   0,  -5],

[ -6,  -3,  -8],

[ -5, -10,  -8],

[-11,  -7,  -9]])


In [105]: arr11 * arr12   #乘

Out[105]:

array([[  4,   9,  14],

[  7,   0,  -7],

[ -6, -21, -16],

[-30,  -6, -14]])


In [106]: arr11 / arr12   #除

Out[106]:

array([[ 4.        ,  1.        ,  0.28571429],

[ 0.14285714,  0.        , -0.14285714],

[-0.66666667, -0.42857143, -1.        ],

[-0.83333333, -6.        , -3.5       ]])


In [107]: arr11 // arr12  #整除

Out[107]:

array([[ 4,  1,  0],

[ 0,  0, -1],

[-1, -1, -1],

[-1, -6, -4]], dtype=int32)

In [108]: arr11 % arr12   #取余

Out[108]:

array([[0, 0, 2],

[1, 0, 6],

[1, 4, 0],

[1, 0, 1]], dtype=int32)


接下來我們看看統(tǒng)計運算函數(shù):

In [109]: np.sum(arr11)   #計算所有元素的和

Out[109]: -18


In [110]: np.sum(arr11,axis = 0)    #對每一列求和

Out[110]: array([ -2,  -6, -10])


In [111]: np.sum(arr11, axis = 1) #對每一行求和

Out[111]: array([  9,   0,  -9, -18])


In [112]: np.cumsum(arr11) #對每一個元素求累積和(從上到下,從左到右的元素順序)

Out[112]: array([  4,   7,   9,  10,  10,   9,   7,   4,   0,  -5, -11, -18], dtype=int32)


In [113]: np.cumsum(arr11, axis = 0) #計算每一列的累積和,并返回二維數(shù)組

Out[113]:

array([[  4,   3,   2],

[  5,   3,   1],

[  3,   0,  -3],

[ -2,  -6, -10]], dtype=int32)


In [114]: np.cumprod(arr11, axis = 1) #計算每一行的累計積,并返回二維數(shù)組

Out[114]:

array([[   4,   12,   24],

[   1,    0,    0],

[  -2,    6,  -24],

[  -5,   30, -210]], dtype=int32)


In [115]: np.min(arr11)   #計算所有元素的最小值

Out[115]: -7


In [116]: np.max(arr11, axis = 0) #計算每一列的最大值

Out[116]: array([4, 3, 2])


In [117]: np.mean(arr11)  #計算所有元素的均值

Out[117]: -1.5


In [118]: np.mean(arr11, axis = 1) #計算每一行的均值

Out[118]: array([ 3.,  0., -3., -6.])


In [119]: np.median(arr11)   #計算所有元素的中位數(shù)

Out[119]: -1.5


In [120]: np.median(arr11, axis = 0)   #計算每一列的中位數(shù)

Out[120]: array([-0.5, -1.5, -2.5])


In [121]: np.var(arr12)   #計算所有元素的方差

Out[121]: 5.354166666666667


In [122]: np.std(arr12, axis = 1)   #計算每一行的標準差

Out[122]: array([ 2.49443826,  1.88561808,  1.69967317,  2.1602469 ])


numpy中的統(tǒng)計函數(shù)運算是非常靈活的,既可以計算所有元素的統(tǒng)計值,也可以計算指定行或列的統(tǒng)計指標。還有其他常用的函數(shù),如符號函數(shù)sign,ceil(>=x的最小整數(shù)),floor(<>


讓我很興奮的一個函數(shù)是where(),它類似于Excel中的if函數(shù),可以進行靈活的變換:

In [123]: arr11

Out[123]:

array([[ 4,  3,  2],

[ 1,  0, -1],

[-2, -3, -4],

[-5, -6, -7]])


In [124]: np.where(arr11 < 0,="">

Out[124]:

array([['positive', 'positive', 'positive'],

['positive', 'positive', 'negtive'],

['negtive', 'negtive', 'negtive'],

['negtive', 'negtive', 'negtive']],

dtype='<>< span=''><>

當(dāng)然,np.where還可以嵌套使用,完成復(fù)雜的運算。


其它函數(shù)

unique(x):計算x的唯一元素,并返回有序結(jié)果

intersect(x,y):計算x和y的公共元素,即交集

union1d(x,y):計算x和y的并集

setdiff1d(x,y):計算x和y的差集,即元素在x中,不在y中

setxor1d(x,y):計算集合的對稱差,即存在于一個數(shù)組中,但不同時存在于兩個數(shù)組中

in1d(x,y):判斷x的元素是否包含于y中



線性代數(shù)運算

同樣numpu也跟R語言一樣,可以非常方便的進行線性代數(shù)方面的計算,如行列式、逆、跡、特征根、特征向量等。但需要注意的是,有關(guān)線性代數(shù)的函數(shù)并不在numpy中,而是numpy的子例linalg中。

In [125]: arr13 = np.array([[1,2,3,5],[2,4,1,6],[1,1,4,3],[2,5,4,1]])

In [126]: arr13

Out[126]:

array([[1, 2, 3, 5],

[2, 4, 1, 6],

[1, 1, 4, 3],

[2, 5, 4, 1]])


In [127]: np.linalg.det(arr13)    #返回方陣的行列式

Out[127]: 51.000000000000021


In [128]: np.linalg.inv(arr13)    #返回方陣的逆

Out[128]:

array([[-2.23529412,  1.05882353,  1.70588235, -0.29411765],

[ 0.68627451, -0.25490196, -0.7254902 ,  0.2745098 ],

[ 0.19607843, -0.21568627,  0.07843137,  0.07843137],

[ 0.25490196,  0.01960784, -0.09803922, -0.09803922]])


In [129]: np.trace(arr13) #返回方陣的跡(對角線元素之和),注意跡的求解不在linalg子例程中

Out[129]: 10


In [130]: np.linalg.eig(arr13)    #返回由特征根和特征向量組成的元組

Out[130]:

(array([ 11.35035004,  -3.99231852,  -0.3732631 ,   3.01523159]),

array([[-0.4754174 , -0.48095078, -0.95004728,  0.19967185],

[-0.60676806, -0.42159999,  0.28426325, -0.67482638],

[-0.36135292, -0.16859677,  0.08708826,  0.70663129],

[-0.52462832,  0.75000995,  0.09497472, -0.07357122]]))


In [131]: np.linalg.qr(arr13) #返回方陣的QR分解

Out[131]:

(array([[-0.31622777, -0.07254763, -0.35574573, -0.87645982],

[-0.63245553, -0.14509525,  0.75789308, -0.06741999],

[-0.31622777, -0.79802388, -0.38668014,  0.33709993],

[-0.63245553,  0.580381  , -0.38668014,  0.33709993]]),

array([[-3.16227766, -6.64078309, -5.37587202, -6.95701085],

[ 0.        ,  1.37840488, -1.23330963, -3.04700025],

[ 0.        ,  0.        , -3.40278524,  1.22190924],

[ 0.        ,  0.        ,  0.        , -3.4384193 ]]))


In [132]:np.linalg.svd(arr13)    #返回方陣的奇異值分解

Out[132]:

(array([[-0.50908395,  0.27580803,  0.35260559, -0.73514132],

[-0.59475561,  0.4936665 , -0.53555663,  0.34020325],

[-0.39377551, -0.10084917,  0.70979004,  0.57529852],

[-0.48170545, -0.81856751, -0.29162732, -0.11340459]]),

array([ 11.82715609,   4.35052602,   3.17710166,   0.31197297]),

array([[-0.25836994, -0.52417446, -0.47551003, -0.65755329],

[-0.10914615, -0.38326507, -0.54167613,  0.74012294],

[-0.18632462, -0.68784764,  0.69085326,  0.12194478],

[ 0.94160248, -0.32436807, -0.05655931, -0.07050652]]))


In [133]: np.dot(arr13,arr13)     #方陣的正真乘積運算

Out[133]:

array([[18, 38, 37, 31],

[23, 51, 38, 43],

[13, 25, 32, 26],

[18, 33, 31, 53]])


In [134]:arr14 = np.array([[1,-2,1],[0,2,-8],[-4,5,9]])

In [135]: vector = np.array([0,8,-9])

In [136]: np.linalg.solve(arr14,vector)

Out[136]: array([ 29.,  16.,   3.])



隨機數(shù)生成

統(tǒng)計學(xué)中經(jīng)常會講到數(shù)據(jù)的分布特征,如正態(tài)分布、指數(shù)分布、卡方分布、二項分布、泊松分布等,下面就講講有關(guān)分布的隨機數(shù)生成。

正態(tài)分布直方圖

In [137]: import matplotlib #用于繪圖的模塊

In [138]: np.random.seed(1234)    #設(shè)置隨機種子

In [139]: N = 10000   #隨機產(chǎn)生的樣本量

In [140]: randnorm = np.random.normal(size = N)   #生成正態(tài)隨機數(shù)

In [141]: counts, bins, path = matplotlib.pylab.hist(randnorm, bins = np.sqrt(N), normed = True, color = 'blue')  #繪制直方圖

以上將直方圖的頻數(shù)和組距存放在counts和bins內(nèi)。


In [142]: sigma = 1; mu = 0

In [143]: norm_dist = (1/np.sqrt(2*sigma*np.pi))*np.exp(-((bins-mu)**2)/2)    #正態(tài)分布密度函數(shù)

In [144]: matplotlib.pylab.plot(bins,norm_dist,color = 'red') #繪制正態(tài)分布密度函數(shù)圖



使用二項分布進行賭博

同時拋棄9枚硬幣,如果正面朝上少于5枚,則輸?shù)?元,否則就贏8元。如果手中有1000元作為賭資,請問賭博10000次后可能會是什么情況呢?

In [146]: np.random.seed(1234)

In [147]: binomial = np.random.binomial(9,0.5,10000)  #生成二項分布隨機數(shù)

In [148]: money = np.zeros(10000) #生成10000次賭資的列表

In [149]: money[0] = 1000 #首次賭資為1000元

In [150]: for i in range(1,10000):

     ...:     if binomial[i] <>

     ...:         money[i] = money[i-1] - 8  

#如果少于5枚正面,則在上一次賭資的基礎(chǔ)上輸?shù)?元

     ...:     else:

     ...:         money[i] = money[i-1] + 8  

#如果至少5枚正面,則在上一次賭資的基礎(chǔ)上贏取8元

In [151]: matplotlib.pylab.plot(np.arange(10000), money)



使用隨機整數(shù)實現(xiàn)隨機游走

一個醉漢在原始位置上行走10000步后將會在什么地方呢?如果他每走一步是隨機的,即下一步可能是1也可能是-1。

In [152]: np.random.seed(1234)    #設(shè)定隨機種子

In [153]: position = 0    #設(shè)置初始位置

In [154]: walk = []   #創(chuàng)建空列表

In [155]: steps = 10000   #假設(shè)接下來行走10000步

In [156]: for i in np.arange(steps):

     ...:     step = 1 if np.random.randint(0,2) else -1  #每一步都是隨機的

     ...:     position = position + step  #對每一步進行累計求和

     ...:     walk.append(position)   #確定每一步所在的位置

In [157]: matplotlib.pylab.plot(np.arange(10000), walk)   #繪制隨機游走圖



上面的代碼還可以寫成(結(jié)合前面所講的where函數(shù),cumsum函數(shù)):

In [158]: np.random.seed(1234)

In [159]: step = np.where(np.random.randint(0,2,10000)>0,1,-1)

In [160]: position = np.cumsum(step)

In [161]: matplotlib.pylab.plot(np.arange(10000), position)


避免for循環(huán),可以達到同樣的效果。


使用Python進行數(shù)據(jù)分析,一般都會使用到numpy,pandas,scipy和matplotlib等模塊,而numpy是最為基礎(chǔ)的模塊,其他模塊的使用都是以numpy為核心,所以這里講解了有關(guān)numpy的方方面面,這部分的學(xué)習(xí)非常重要,希望感興趣的朋友多看看這方面的文檔和動手操作。在接下來Python一期中將會講到pandas模塊的學(xué)習(xí)。


    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多