2024-09-13 06:56
Lần đầu chuyển 1 file PDF (data sao kê bão lũ) sang 1 file CSV:
(1) Mình dùng Python. Ban đầu mình loay hoay với camelot nhưng camelot không xử lý được dạng table thiếu đường kẻ ngang
(2) Dù sao thì table cũng có cấu trúc nên mình dùng pdfplumber và tách dữ liệu dần
(3) Mình dùng máy công ty, hơi cùi nên không xử lý một lèo 12 nghìn trang được.
(4) Tách ra thành các file 1000 trang xử lý dần. Mỗi file tầm 2 - 5 phút xử lý.
(5) Máy công ty đang chịu hết nổi. Về nhà xử lý tiếp vậy.