2024-10-28 15:20
[Data Cleaning 的習慣 (3)] 大多數人在檢查dataset時都會使用df.describe(),它提供了numeric data的分析,如count、mean、std和percentile等,這對理解數據非常有幫助。 最近,我發現了一個名為summarytools的package,它源自R語言,對於categorical data的理解和展示特別方便。 例如,你可以查看column中所有的value。對於通常有特定數值的column,這能幫助你輕鬆識別出錯誤值。它還顯示Missing value、distribution和frequency等信息,這在與他人討論data issue時非常有用。 此外,summarytools還有一個sparkline功能,可以直接在dataframe 的cell 中plot line plot或histogram。我認為這在展示趨勢時特別有用,可以在之後討論其他topic時再詳細說明。
164
回覆
2
轉發
29

回覆

轉發

24小時粉絲增長

發文前

270

發文後24小時

362

變化

+92 (34.07%)

互動率

(讚 + 回覆 + 轉發) / 粉絲數
45.77%

回覆 (BETA)

最先回覆的內容
發文後用戶內容
11 小時內
profile
Benny Lin
bennnnnnnnylin
太讚!謝謝分享
12 小時內
profile
Stephen Yang
domdan356710

© 2025 Threadser.net. 版權所有。

Threadser.net 與 Meta Platforms, Inc. 無關,未經其認可、贊助或特別批准。

Threadser.net 也不與 Meta 的"Threads" 產品存在任何關聯。