掌握Python、NumPy和Pandas中的小技巧 問題 不止你一個人在編程時發(fā)現(xiàn)自己一遍又一遍地查找相同的問題、概念或語法。作者自己也經(jīng)常這樣做。 雖然在StackOverflow或其他資源上查找并不是困難的事,但它確實會讓你放慢腳步,并會讓你對語言的理解產(chǎn)生疑問。 我們生活在一個看似具有無限的免費資源的世界里,你隨時隨地都能搜索到你想要的東西。然而,這可能是祝福,也可能是一種詛咒。如果不能進行有效管理,過度依賴這些資源可能會養(yǎng)成不良習(xí)慣,從而導(dǎo)致長期的惡果。 就作者個人而言,他發(fā)現(xiàn)自己多次從類似的討論主題中提取代碼,而不是花時間去學(xué)習(xí)和鞏固這個概念,以便可以在下一次自己重新編寫代碼。 這樣做無疑會壓制你的成長、創(chuàng)造力以及回憶語法的能力。 目標(biāo) 最近,作者在Udemy上學(xué)習(xí)了名為Python for Data Science and Machine Learning的在線數(shù)據(jù)科學(xué)課程。在這期的講座中,作者想起了一些在Python中執(zhí)行數(shù)據(jù)分析時一直忽略的概念和語法。 為了鞏固對這些概念的理解,并且為節(jié)省一些StackOverflow搜索,下面是作者在使用Python,NumPy和Pandas時總是忘記的東西。 作者為每個概念都寫了一個簡短的描述和示例,但為了方便讀者,作者還展示包含視頻和其他資源的鏈接,以便更深入地探索每個概念。 單行列表理解 每次需要定義某種列表時,編寫一個for循環(huán)是很麻煩的,幸運的是,Python有一種內(nèi)置的方法可以在一行代碼中解決這個問題。語法可能有點難以理解,但一旦熟悉了這種技術(shù),你會經(jīng)常使用它。 請參閱上面和下面的示例,了解如何使用for循環(huán)創(chuàng)建列表。不過在這里我們沒有使用循環(huán)。 Lambda函數(shù) 你是否已經(jīng)厭倦了為有限的用例創(chuàng)建一個又一個的函數(shù)? Lambda函數(shù)來拯救你!Lambda函數(shù)用于在Python中創(chuàng)建小型、一次性和匿名函數(shù)對象。 lambda函數(shù)的基本語法是: 請注意,只要有一個表達式,lambda函數(shù)就可以完成常規(guī)函數(shù)可以執(zhí)行的任何操作。 map()和filter函數(shù) 一旦掌握了lambda函數(shù),接下來學(xué)習(xí)如何將它們與map()和filter函數(shù)配成為一個強大的工具。 具體來說,map()函數(shù)通過對每個元素執(zhí)行某種操作來獲取列表并將其轉(zhuǎn)換為新列表。 在本例中,它遍歷每個元素并將其本身的結(jié)果映射到新列表。 請注意,列表函數(shù)只是將輸出內(nèi)容轉(zhuǎn)換為列表類型。 filter函數(shù)接受列表和規(guī)則,就像map()一樣,但它通過比較每個元素和布爾過濾規(guī)則來返回原始列表的子集。 Arange和Linspace 創(chuàng)建快速而簡單的Numpy數(shù)組只需查看arange和linspace函數(shù)。每個數(shù)組都有它的意義,但這里是它們輸出的NumPy數(shù)組,因為這對于數(shù)據(jù)科學(xué)來說通常更容易處理。 Arange是返回給定時間間隔內(nèi)的等間距值。除了起點和終點之外,你還可以根據(jù)需要定義間距或數(shù)據(jù)類型。請注意,停止點是一個'截止'值,因此它不會包含在數(shù)組輸出中。 Linspace和Arange非常相似,但略有不同。 Linspace在給定的時間間隔內(nèi)返回等間距值。所以給定一個起點和終點,以及一些值,linspace會將它們均勻地放在NumPy數(shù)組中。這對繪圖時數(shù)據(jù)可視化和聲明坐標(biāo)軸特別有用。 軸到底意味著什么? 在Pandas中刪除一列或在NumPy矩陣中求和值時,你可能會遇到此問題?,F(xiàn)在我們以刪除一列為示例: 正如你可能從上面推斷出的那樣,如果你想處理列,將軸設(shè)置為1,如果你想要處理行,將其設(shè)置為0。但為什么呢?這里面有很多原因,但至少得知道這一點: 從Pandas數(shù)據(jù)框中調(diào)用shape屬性可以返回一個元組,第一個值代表行數(shù),第二個值代表列數(shù)。如果你考慮如何在Python中對其進行索引,則行數(shù)為0,列數(shù)為1,這很像聲明軸值的方式。 (https://www./watch?v=PtO3t6ynH-8) Concat、合并和加入 如果你熟悉SQL,那么這些概念對你來說可能會更容易。無論如何,這些函數(shù)本質(zhì)上就是以特定方式組合數(shù)據(jù)框的方式?,F(xiàn)在讓我們回顧一下這些函數(shù)。 Concat允許用戶在它下面或旁邊追加一個或多個數(shù)據(jù)框(取決于你如何定義軸)。 合并將多個數(shù)據(jù)框組合在作為主鍵的特定公共列上。 加入,就像合并一樣,結(jié)合了兩個數(shù)據(jù)框。但是,它會根據(jù)它們的指數(shù)連接它們,而不是某個指定的列。 查看關(guān)于特定語法和更多具體示例的優(yōu)秀文檔,以及可能遇到的一些特殊情況。 (https://www./watch?v=XMjSGGej9y8) Panda應(yīng)用 可以把apply想象成一個map()函數(shù),但它是為Panda數(shù)據(jù)框或更具體地為系列而設(shè)計的。如果你不是那么熟悉它,大多數(shù)情況下,它與NUMPY數(shù)組非常相似。 應(yīng)用根據(jù)你指定的內(nèi)容,向列或行中的每個元素發(fā)送一個函數(shù)。你可以想象在是多么有用,特別是對整個DataFrame列的值進行格式設(shè)置和操作,而不需要進行任何循環(huán)。 (https:///P_q0tkYqvSk) 數(shù)據(jù)透視表 排在最后但并非最不重要的是數(shù)據(jù)透視表。如果你熟悉Microsoft Excel,那么你可能在某些方面聽說過數(shù)據(jù)透視表。Pandas內(nèi)置的數(shù)據(jù)透視表函數(shù)以DataFrame的形式創(chuàng)建電子表格樣式的數(shù)據(jù)透視表。請注意,數(shù)據(jù)透視表中的級別存儲在生成的DataFrame的索引和列上的MultiIndex對象中。 (https://www./watch?v=xPPs59pn6qU) 結(jié)束 作者希望文章中的一些概述已經(jīng)有效的讓你記住了在使用Python進行數(shù)據(jù)科學(xué)時經(jīng)常遇到的重要方法、函數(shù)和概念。就作者個人而言,他認為即使是寫出這些東西并試圖用簡單的方式解釋它們的行為對他自身也很有幫助。 |
|