pandas 3 新功能
來源:datapythonista 部落格 - pandas | 作者:Marc Garcia | 釋出時間:2026年1月25日
pandas 3.0 已釋出。本文將使用一個真實世界的例子,重點關注效能、語法和使用者體驗,來解釋 pandas 2 和新的 pandas 3 版本之間最重要的區別。關於 pandas 版本管理的一點說明 在深入研究 pandas 3 的技術細節之前...
閱讀更多
pandas 3.0 釋出!
來源:pandas 部落格 | 作者:pandas 團隊 | 釋出時間:2026年1月21日
我們很高興地宣佈 pandas 3.0.0 的釋出。這個備受期待的重大版本為 pandas 帶來了顯著的改進,但也包含了一些可能導致不相容的更改。pandas 3.0 的亮點 pandas 3.0 引入了幾項重大改進。
閱讀更多
pandas 3.0.0 釋出候選版已準備好進行測試!
來源:pandas 部落格 | 作者:pandas 團隊 | 釋出時間:2025年12月12日
我們很高興地宣佈 pandas 3.0 的釋出候選版。這個重大版本為 pandas 帶來了顯著的改進,但也包含了一些可能導致不相容的更改。為了確保 pandas 3.0 的順利釋出,我們...
閱讀更多
處理 CSV 檔案能有多快
來源:datapythonista 部落格 - pandas | 作者:Marc Garcia | 釋出時間:2024年2月22日
引言 逗號分隔值(CSV)是一種非常流行的儲存表格資料的方式,因為它簡單易寫。該檔案可以直接被人類讀取,不像更高效的二進位制格式(例如 parquet)。例如:name,age Maryam,23 Mèng yáo ...
閱讀更多
pandas 2.2 新功能
來源:Patrick Hoefler - pandas | 作者:Patrick Hoefler | 釋出時間:2024年1月25日
新版本中最有趣的內容 pandas 2.2 已於 2024 年 1 月 22 日釋出。讓我們來看看這個版本引入了哪些內容,以及它將如何幫助我們改進 pandas 工作流程。它包含了一系列將改進使用者...
閱讀更多
深入瞭解 pandas 的 Copy-on-Write 模式 - 第三部分
來源:Patrick Hoefler - pandas | 作者:Patrick Hoefler | 釋出時間:2023年9月28日
解釋 Copy-on-Write 的遷移路徑 引言 Copy-on-Write (CoW) 的引入是一項不相容性更改,它將對現有的 pandas 程式碼產生一些影響。我們將研究如何在 CoW 預設啟用時調整我們的程式碼以避免錯誤。這目前計劃在 pandas...
閱讀更多
pandas 2.1 新功能
來源:Patrick Hoefler - pandas | 作者:Patrick Hoefler | 釋出時間:2023年9月6日
新版本中最有趣的內容 pandas 2.1 已於 2023 年 8 月 30 日釋出。讓我們看看這個版本引入了哪些內容,以及它將如何幫助我們改進 pandas 工作流程。它包含了一系列改進以及一組新...
閱讀更多
深入瞭解 pandas 的 Copy-on-Write 模式 - 第二部分
來源:Patrick Hoefler - pandas | 作者:Patrick Hoefler | 釋出時間:2023年8月16日
解釋 Copy-on-Write 如何最佳化效能 引言 第一篇文章解釋了 Copy-on-Write 機制的工作原理。它強調了一些在工作流程中引入副本的領域。本文將重點介紹確保這不會降低平均工作流程速度的最佳化。我們利用了 pandas 內部使用的技術...
閱讀更多
深入瞭解 pandas 的 Copy-on-Write 模式 - 第一部分
來源:Patrick Hoefler - pandas | 作者:Patrick Hoefler | 釋出時間:2023年8月8日
解釋 Copy-on-Write 的內部工作原理 引言 pandas 2.0 已於 4 月初發布,為新的 Copy-on-Write (CoW) 模式帶來了許多改進。該功能預計將在 pandas 3.0 中預設啟用,目前計劃於 2024 年 4 月釋出。目前沒有計劃...
閱讀更多
pandas 內部機制詳解
來源:Patrick Hoefler - pandas | 作者:Patrick Hoefler | 釋出時間:2023年7月20日
解釋 pandas 資料模型及其優勢 引言 pandas 允許您在不同型別的陣列之間進行選擇,以表示 DataFrame 的資料。歷史上,大多數 DataFrame 都基於 NumPy 陣列。pandas 2.0 引入了使用 PyArrow 陣列作為儲存格式的選項。存在...
閱讀更多
Dask 效能基準測試實測:修復 pandas 瓶頸
來源:Patrick Hoefler - pandas | 作者:Patrick Hoefler | 釋出時間:2023年6月27日
在釋出前一天收到重大效能迴歸的通知很糟糕,但快速識別並解決它感覺很好!我們在 JupyterCon 2023 的展位上進行佈置時收到了一個通知:我們團隊的一名工程師發現了 Dask 中一個重大的效能迴歸。隨著...
閱讀更多
從 pandas 的角度對 pandas 和 Polars 進行基準測試
來源:Patrick Hoefler - pandas | 作者:Patrick Hoefler | 釋出時間:2023年6月14日
或:編寫高效的 pandas 程式碼有多重要 引言 我經常看到顯示 Polars 比 pandas 快多少的基準測試。Polars 比 pandas 快的事實並不令人意外,因為它支援多執行緒,而 pandas 大部分是單核的。但這種巨大的差異仍然讓我感到驚訝。那是因為...
閱讀更多
利用 PyArrow 改進 pandas 和 Dask 工作流程
來源:Patrick Hoefler - pandas | 作者:Patrick Hoefler | 釋出時間:2023年6月4日
立即充分利用 pandas 和 Dask 中的 PyArrow 支援 引言 本文探討了我們現在可以利用 PyArrow 改進 pandas 和 Dask 工作流程的哪些方面。pandas 2.0 和 Dask 在 2023 年 5 月(譯者注:原文此處應有誤,根據上下文應為 pandas 2.0 釋出時間)引入了對 PyArrow dtypes 的通用支援。這解決了許多...
閱讀更多
歡迎 pandas 2.0
來源:Patrick Hoefler - pandas | 作者:Patrick Hoefler | 釋出時間:2023年3月22日
API 如何變化以及如何利用新功能 引言 經過 3 年的開發,pandas 2.0 的第二個候選版本已於 3 月 16 日釋出。pandas 2.0 包含許多新功能,包括改進的擴充套件陣列支援、DataFrame 的 pyarrow 支援以及...
閱讀更多
pandas 2.0 和 Arrow 革命(第一部分)
來源:datapythonista 部落格 - pandas | 作者:Marc Garcia | 釋出時間:2023年2月17日
引言 在撰寫本文時,我們正在釋出 pandas 2.0。該專案擁有大量的使用者,並且被個人和企業使用者廣泛應用於生產環境。這種龐大的使用基礎迫使我們保持保守,讓我們...
閱讀更多
pandas 中高效資料選擇指南
來源:Patrick Hoefler - pandas | 作者:Patrick Hoefler | 釋出時間:2023年2月9日
從 pandas 物件中選擇資料時提高效能 引言 有多種方法可以從 pandas 物件中選擇資料子集。根據具體操作,結果將是指向原始資料的檢視或原始資料的副本。這與...
閱讀更多
解決 pandas 中索引操作不一致的問題
來源:Patrick Hoefler - pandas | 作者:Patrick Hoefler | 釋出時間:2022年12月22日
擺脫惱人的 SettingWithCopyWarning 訊息 引言 pandas 中的索引操作非常靈活,因此有許多情況可能表現截然不同,從而產生意外的結果。此外,很難預測何時會引發 SettingWithCopyWarning 以及它的確切含義。我將展示幾個...
閱讀更多
擁有數億行的 pandas
來源:datapythonista 部落格 - pandas | 作者:Marc Garcia | 釋出時間:2022年9月21日
問題 我們想找出延誤時間最長的 5 個美國機場(國內航班平均延誤)。資料 我們將使用來自哈佛 Dataverse 的 Data Expo 2009:航班準點資料資料集。資料包含航班的起降細節...
閱讀更多
關於副本和檢視:擺脫 SettingWithCopyWarning
來源:Joris Van den Bossche - pandas | 作者:Joris Van den Bossche | 釋出時間:2022年4月7日
pandas 當前在索引返回檢視還是副本方面的行為令人生畏,即使是經驗豐富的使用者也如此。但不必如此。我們可以透過簡化副本/檢視規則來簡化 pandas 的這一方面,同時使 pandas 更節省記憶體。並擺脫 SettingWithCopyWarning。
閱讀更多
NumFOCUS 資助 pandas 基準測試和多樣性改進的總結
來源:pandas 部落格 | 作者:pandas 團隊 | 釋出時間:2022年4月1日
作者:Lucy Jiménez 和 Dorothy Kabarozi B. 我們想分享我們在 NumFOCUS 資助的 pandas 專案的 ASV 基準測試框架改進和多樣性工作方面的經驗。這項資助側重於...
閱讀更多
pandas 1.0
來源:pandas 部落格 | 作者:pandas 團隊 | 釋出時間:2020年1月29日
今天 pandas 迎來了 1.0.0 的釋出。在許多方面,這只是一個普通的釋出,包含了一系列新功能、效能改進和錯誤修復,這些都在...
閱讀更多
邁向 pandas 中一致的缺失值處理
來源:Joris Van den Bossche - pandas | 作者:Joris Van den Bossche | 釋出時間:2019年11月30日
這篇博文提供了我關於改進 pandas 缺失值支援的提案的背景和動機,以及已合併到開發版本(將在 pandas 1.0 中釋出)的更改:引入了一個新的 pd.NA 標量,它可以跨所有資料型別一致使用。
閱讀更多
pandas 文件更新
來源:datapythonista 部落格 - pandas | 作者:Marc Garcia | 釋出時間:2019年11月28日
一些背景 這篇文章主要是關於 pandas 文件狀態的技術性文章。但請允許我提供一些關於其來源的背景資訊。這是一個個人觀點,但我認為 pandas 是開源如何改變...
閱讀更多
新的 pandas 工作流程
來源:datapythonista 部落格 - pandas | 作者:Marc Garcia | 釋出時間:2019年11月17日
一些令人興奮的訊息。經過幾年組織衝刺和維護開源專案,我一直在思考一種更高效的工作流程,適用於像 pandas 這樣活動量大的專案。一個誇張的例子是,我想在 pandas 中建立 1600 個 issue。每個 docstring 一個...
閱讀更多
2019 NumFOCUS 獎項和新貢獻者認可
來源:pandas 檔案 - NumFOCUS | 作者:Admin | 釋出時間:2019年11月15日
文章 2019 NumFOCUS 獎項和新貢獻者認可 首先發布在 NumFOCUS。
閱讀更多
Chan Zuckerberg Initiative 資助 NumFOCUS 專案維護
來源:pandas 檔案 - NumFOCUS | 作者:Admin | 釋出時間:2019年11月14日
文章 Chan Zuckerberg Initiative 資助 NumFOCUS 專案維護 首先發布在 NumFOCUS。
閱讀更多
2019 Pandas Hack 的亮點
來源:pandas 檔案 - NumFOCUS | 作者:nf-admin | 釋出時間:2019年9月13日
文章 2019 Pandas Hack 的亮點 首先發布在 NumFOCUS。
閱讀更多
DataFrame Summit @ EuroSciPy 總結
來源:datapythonista 部落格 - pandas | 作者:Marc Garcia | 釋出時間:2019年9月10日
上週,EuroSciPy 2019 在西班牙畢爾巴鄂舉行。今年我們引入了維護者軌道,一個專門用於維護者之間討論的房間。這個想法類似於其他會議的“自由討論”或“非會議”環節。但側重於開源維護者和貢獻者。我們安排了...
閱讀更多
2019 pandas 使用者調查
來源:pandas 部落格 | 作者:pandas 團隊 | 釋出時間:2019年8月22日
Pandas 最近進行了一項使用者調查,以幫助指導未來的開發。感謝所有參與者!本文展示了高層結果。此分析和原始資料可在...
閱讀更多
GeoPandas 現在使用 pandas ExtensionArray 介面
來源:Joris Van den Bossche - pandas | 作者:Joris Van den Bossche | 釋出時間:2019年8月13日
簡而言之:即將釋出的 GeoPandas 0.6.0 版本將基於 pandas ExtensionArray 介面進行重構。儘管這項更改應該會保持使用者介面基本穩定,但它能夠與 pandas 進行更穩健的整合,並允許未來進行更多更改。鑑於底層程式碼的侵入性更改,非常歡迎測試!
閱讀更多
pandas:兩種文化
來源:datapythonista 部落格 - pandas | 作者:Marc | 釋出時間:2019年7月22日
Leo Breiman 是加州大學伯克利分校的一位傑出統計學家,他因對 CART(決策樹)和整合技術(主要是 bootstrap aggregation)做出的重大貢獻而聞名。將兩者結合起來,他能夠定義至今仍是最流行的機器學習模型之一(在其發表...
閱讀更多
pandas 擴充套件陣列
來源:pandas 部落格 | 作者:pandas 團隊 | 釋出時間:2019年1月4日
可擴充套件性是 pandas 在過去幾個版本中開發的一個主要主題。本文介紹了 pandas 擴充套件陣列介面:其背後的動機以及它可能如何影響您。
閱讀更多
首屆 NumFOCUS 獎項和新貢獻者認可
來源:pandas 檔案 - NumFOCUS | 作者:Admin | 釋出時間:2018年9月27日
文章 首屆 NumFOCUS 獎項和新貢獻者認可 首先發布在 NumFOCUS。
閱讀更多
全球 Pandas 文件衝刺:近距離觀察
來源:pandas 檔案 - NumFOCUS | 作者:Admin | 釋出時間:2018年3月27日
文章 全球 Pandas 文件衝刺:近距離觀察 首先發布在 NumFOCUS。
閱讀更多
#pandasSprint 總結
來源:datapythonista 部落格 - pandas | 作者:Marc | 釋出時間:2018年3月22日
上個月 10 號舉行了 #pandasSprint。據我所知,這是一種前所未有的活動,大約有 500 人共同努力改進流行庫 pandas 的文件。作為活動組織者之一,我想寫...
閱讀更多
3 月 10 日文件衝刺期間 pandas github 倉庫的活動
來源:Joris Van den Bossche - pandas | 作者:Joris Van den Bossche | 釋出時間:2018年3月13日
上週末,Marc Garcia 和許多其他人組織了一次全球性的 pandas 文件衝刺 (https://python-sprints.github.io/pandas/)。目標是改進 pandas API 文件,我必須說,這是一次巨大的成功!
閱讀更多
NumFOCUS 宣佈新的財政贊助專案:pandas
來源:pandas 檔案 - NumFOCUS | 作者:nf-admin | 釋出時間:2015年10月9日
作者:Gina Helfrich NumFOCUS 很高興地宣佈 pandas 為我們最新的財政贊助專案。pandas 是一個開源的、BSD 許可的庫,為 Python 程式語言提供了高效能、易於使用的資料結構和資料分析工具。pandas 允許使用者在 Python 中完成整個資料分析工作流程,而無需切換到更專業的語言,例如 [...] 文章 NumFOCUS 宣佈新的財政贊助專案:pandas 首先發布在 NumFOCUS。
閱讀更多