Uncategorized

CSVで分析するべき

Excelのまま分析するより、CSV変換する方が良いということに今更気づきました。

下記サイト参考になりました。

Pythonでのデータ分析:なぜCSVがExcelよりも選ばれるのか?
データ分析をする時やPythonを使って作業を進める際に、CSVファイルがExcelファイルよりも使用されることがよくあります。今回は、なぜCSVファイルがExcelファイルよりも好まれるのか、その理由を深掘りしていきます。

改めて表にまとめるとこんな感じでしょうか?

理由ExcelのままのデメリットCSV変換のメリットDAMA学習トラッキングでの具体例
1. 処理速度10倍向上書式/数式/マクロで重くなる純粋データのみで爆速読み込み100万行DAMA進捗表が1秒でpandas読み込み 
2. ファイルサイズ1/10XLSXはZIP圧縮でも肥大化テキストのみで超軽量45MB→4MB、Gitで履歴管理可能 
3. 完璧互換性複数シート/書式崩れリスク全言語・ツールで100%動作Python/R/Tableau/Power BI即読み込み 
4. バージョン管理バイナリで差分追跡不可テキストでGit差分クリアDAMA学習履歴をGitHubで公開可能 
5. 再現性保証Excelバージョンで挙動違い同一データで全環境同一結果分析スクリプトを他者に渡しても確実 

コメント

タイトルとURLをコピーしました