Threadser.net
數據
關鍵字
功能建議
Blog
Following
Threads
Change language
登入
串文
串文鏈結
2024-10-28 15:20
[Data Cleaning 的習慣 (3)] 大多數人在檢查dataset時都會使用df.describe(),它提供了numeric data的分析,如count、mean、std和percentile等,這對理解數據非常有幫助。 最近,我發現了一個名為summarytools的package,它源自R語言,對於categorical data的理解和展示特別方便。 例如,你可以查看column中所有的value。對於通常有特定數值的column,這能幫助你輕鬆識別出錯誤值。它還顯示Missing value、distribution和frequency等信息,這在與他人討論data issue時非常有用。 此外,summarytools還有一個sparkline功能,可以直接在dataframe 的cell 中plot line plot或histogram。我認為這在展示趨勢時特別有用,可以在之後討論其他topic時再詳細說明。
讚
164
回覆
2
轉發
29
作者
九州白豚肉 |Kyushu White Pork
ks_wpwb
粉絲
426
串文
99+
讚
回覆
轉發
24小時粉絲增長
發文前
270
發文後24小時
362
變化
+92 (34.07%)
互動率
(讚 + 回覆 + 轉發) / 粉絲數
45.77%
回覆 (BETA)
最先回覆的內容
發文後
用戶
內容
11 小時內
Benny Lin
bennnnnnnnylin
太讚!謝謝分享
12 小時內
Stephen Yang
domdan356710
酷