開始#

安裝#

使用 conda?

可以透過 conda-forge 中的 conda 安裝 pandas。

偏好 pip?

可以透過 PyPI 中的 pip 安裝 pandas。

更詳細的說明?

安裝特定版本?從原始碼安裝?請檢視高階安裝頁面。

pandas 入門#

當處理表格資料時,例如儲存在電子表格或資料庫中的資料,pandas 是您的理想工具。pandas 將幫助您探索、清理和處理資料。在 pandas 中,資料表稱為 DataFrame

../_images/01_table_dataframe.svg

pandas 原生支援與多種檔案格式或資料來源整合(csv、excel、sql、json、parquet 等)。從這些資料來源匯入資料的能力由字首為 read_* 的函式提供。類似地,to_* 方法用於儲存資料。

../_images/02_io_readwrite.svg

選擇或過濾特定的行和/或列?根據特定條件過濾資料?pandas 提供了用於切片、選擇和提取所需資料的方法。

../_images/03_subset_columns_rows.svg

pandas 利用 Matplotlib 的強大功能,開箱即用地為您的資料提供繪圖功能。只需選擇與您的資料相對應的圖表型別(散點圖、條形圖、箱線圖等)。

../_images/04_plot_overview.svg

無需迴圈遍歷資料表的所有行來進行計算。列資料操作在 pandas 中是逐元素工作的。根據其他列中的現有資料向 DataFrame 新增列非常直接。

../_images/05_newcolumn_2.svg

可以輕鬆地跨 DataFrame 計算基本統計資訊(均值、中位數、最小值、最大值、計數等)。這些,甚至自定義聚合,都可以應用於整個資料集、資料滑動視窗或按類別分組。後者也稱為拆分-應用-合併方法。

../_images/06_groupby.svg
以多種方式更改資料表的結構。您可以使用 melt() 將資料從寬格式重塑為長且整潔的格式。使用 pivot()

從長格式轉換為寬格式。透過內建的聚合功能,可以使用單個命令建立資料透視表。

../_images/07_melt.svg

可以使用 pandas 類似資料庫的連線和合並操作,按列或按行串聯多個表。

../_images/08_concat_row.svg

pandas 對時間序列提供了出色的支援,並擁有一套廣泛的工具用於處理日期、時間和時間索引資料。

資料集通常包含的不僅僅是數值資料。pandas 提供了廣泛的函式來清理文字資料並從中提取有用資訊。

來自…#

您是否熟悉其他用於處理表格資料的軟體?瞭解 pandas 與您已知的軟體對應的操作。

R 程式語言提供了 data.frame 資料結構,以及 tidyverse 等包,它們使用並擴充套件 data.frame 以提供類似於 pandas 的便捷資料處理功能。

是否已熟悉 SELECTGROUP BYJOIN 等?許多 SQL 操作在 pandas 中都有對應的功能。

STATA 統計軟體套件中包含的 data set 與 pandas 的 DataFrame 對應。STATA 中已知的許多操作在 pandas 中都有對應的功能。

Excel 或其他電子表格程式的 使用者會發現許多概念都可以遷移到 pandas。

統計軟體套件 SAS 使用 data set 結構,這與 pandas 的 DataFrame 非常相似。SAS 的向量化操作,如過濾或字串處理操作,在 pandas 中也有類似的功能。

教程#

要快速瞭解 pandas 的功能,請參閱 10 分鐘掌握 pandas

您還可以參考 pandas 的 備忘單,以獲得使用 pandas 處理資料的簡潔指南。

社群產生了各種各樣的線上教程。其中一些材料列在社群貢獻的 社群教程 中。