データ処理の基本、CSVファイルをPythonで自在に操る方法を学びましょう!
はじめに:CSVファイルとPythonの`csv`モジュール
CSV(Comma-Separated Values)ファイルは、データをカンマ(,
)で区切って保存するシンプルなテキストファイル形式です。スプレッドシートソフト(例:Microsoft Excel, Google Sheets)やデータベースソフトとのデータ交換によく用いられ、その互換性の高さから広く利用されています。
Pythonには、このCSVファイルを簡単に扱えるように、標準ライブラリとしてcsv
モジュールが用意されています。標準ライブラリなので、追加のインストールは不要ですぐに利用開始できます。このモジュールを使えば、CSVファイルの読み込み、書き込み、そしてより複雑な操作を効率的に行うことができます。
CSVファイルはテキストファイルなので、通常のファイルI/O(
open()
関数)でも読み書きできます。しかし、csv
モジュールを使うと、以下のような点でメリットがあります。
- フィールドの区切り文字(カンマ以外も可)や引用符(
"
)の扱いを自動で処理してくれる。 - 各行をリストや辞書として簡単に取得できる。
- 書き込み時も、リストや辞書から適切な形式に変換してくれる。
- Excel形式など、特定のCSV方言(Dialect)に合わせた処理が容易になる。
この記事では、Pythonのcsv
モジュールの基本的な使い方から、少し応用的なテクニック、注意点まで、幅広く詳細に解説していきます。データ分析、データ移行、簡単なスクリプト作成など、様々な場面で役立つ知識を身につけましょう!📄✨
基本的な使い方:CSVファイルの読み込み (`csv.reader`)
csv.reader
を使うと、CSVファイルの各行をリストとして読み込むことができます。最も基本的な使い方を見ていきましょう。
シンプルなCSVファイルの読み込み
以下のようなCSVファイル(例: users.csv
)があるとします。
id,name,email
1,Alice,alice@example.com
2,Bob,bob@example.com
3,Charlie,charlie@example.com
このファイルを読み込むPythonコードは以下のようになります。
import csv
# ファイルを開く(読み込みモード'r', テキストモード)
# newline='' は必須!理由は後述します
with open('users.csv', mode='r', newline='', encoding='utf-8') as csvfile:
# csv.readerオブジェクトを作成
reader = csv.reader(csvfile)
# 1行ずつ読み込んでリストとして表示
for row in reader:
print(row)
実行結果:
['id', 'name', 'email']
['1', 'Alice', 'alice@example.com']
['2', 'Bob', 'bob@example.com']
['3', 'Charlie', 'charlie@example.com']
このように、各行が文字列のリストとして取得できます。
ヘッダー行をスキップする
多くの場合、CSVファイルの1行目はヘッダー(列名)です。データ本体のみを処理したい場合は、ヘッダー行を読み飛ばす必要があります。next()
関数を使うと簡単です。
import csv
with open('users.csv', mode='r', newline='', encoding='utf-8') as csvfile:
reader = csv.reader(csvfile)
# ヘッダー行を読み飛ばす
header = next(reader)
print(f"ヘッダー: {header}")
# データ行のみを処理
print("データ:")
for row in reader:
print(row)
実行結果:
ヘッダー: ['id', 'name', 'email']
データ:
['1', 'Alice', 'alice@example.com']
['2', 'Bob', 'bob@example.com']
['3', 'Charlie', 'charlie@example.com']
next(reader)
はイテレータであるreader
から次の要素(最初の行)を取得し、イテレータを進めます。これにより、その後のfor
ループでは2行目から処理が開始されます。
区切り文字(Delimiter)の指定
CSVファイルはカンマ区切りが一般的ですが、タブ区切り(TSV)やセミコロン区切りなど、他の文字で区切られている場合もあります。csv.reader
のdelimiter
引数で区切り文字を指定できます。
例:タブ区切りのファイル (data.tsv
)
項目A\t項目B
値1\t値2
値3\t値4
読み込みコード:
import csv
with open('data.tsv', mode='r', newline='', encoding='utf-8') as csvfile:
# delimiter='\t' でタブ区切りを指定
reader = csv.reader(csvfile, delimiter='\t')
for row in reader:
print(row)
実行結果:
['項目A', '項目B']
['値1', '値2']
['値3', '値4']
引用符(Quote Character)の扱い
フィールドの値に区切り文字や改行文字自体が含まれる場合、そのフィールドは通常、引用符(デフォルトはダブルクォーテーション "
)で囲まれます。csv.reader
はこれを自動的に解釈します。
例:(quotes.csv
)
ID,Comment
1,"これは、カンマを含むコメントです。"
2,"複数行にわたる
コメントです。"
3,"""内部引用符""を含むコメント"
読み込みコード:
import csv
with open('quotes.csv', mode='r', newline='', encoding='utf-8') as csvfile:
reader = csv.reader(csvfile)
header = next(reader) # ヘッダーをスキップ
for row in reader:
print(row)
実行結果:
['1', 'これは、カンマを含むコメントです。']
['2', '複数行にわたる\nコメントです。']
['3', '"内部引用符"を含むコメント']
引用符で囲まれたフィールド内のカンマや改行は区切り文字として扱われず、正しく1つのフィールドとして読み込まれていることがわかります。また、フィールド内のダブルクォーテーションは""
のように2つ重ねることで表現され、これも適切に解釈されます。
引用符文字を変更したい場合は、quotechar
引数を使用します(例: quotechar="'"
)。
基本的な使い方:CSVファイルへの書き込み (`csv.writer`)
csv.writer
を使うと、リストなどのシーケンスデータをCSVファイルに書き込むことができます。
リストのリストを書き込む
複数の行データをまとめて書き込むには、writerows()
メソッドが便利です。
import csv
# 書き込むデータ(リストのリスト)
data_to_write = [
['ID', '製品名', '価格'],
['P001', 'ノートパソコン', 120000],
['P002', 'キーボード', 8000],
['P003', 'マウス', 3000]
]
# ファイルを開く(書き込みモード'w')
# newline='' を忘れずに!
with open('products.csv', mode='w', newline='', encoding='utf-8') as csvfile:
# csv.writerオブジェクトを作成
writer = csv.writer(csvfile)
# writerows()で複数行を一度に書き込む
writer.writerows(data_to_write)
print("products.csv にデータを書き込みました。")
生成される products.csv
の内容は以下のようになります。
ID,製品名,価格
P001,ノートパソコン,120000
P002,キーボード,8000
P003,マウス,3000
1行ずつ書き込む
データを1行ずつ処理しながら書き込みたい場合は、writerow()
メソッドを使います。
import csv
header = ['都市名', '人口(万人)']
cities = [
['東京', 1400],
['横浜', 370],
['大阪', 270]
]
with open('cities.csv', mode='w', newline='', encoding='utf-8') as csvfile:
writer = csv.writer(csvfile)
# ヘッダー行を書き込む
writer.writerow(header)
# データ行を1行ずつ書き込む
for city_data in cities:
writer.writerow(city_data)
print("cities.csv にデータを書き込みました。")
生成される cities.csv
:
都市名,"人口(万人)"
東京,1400
横浜,370
大阪,270
注意:上記の例で人口が文字列として書かれていないのは、writerow
が数値を自動で文字列に変換するためです。ただし、意図しない変換を防ぐため、事前に文字列に変換しておく方が安全な場合もあります。
区切り文字と引用符の制御
書き込み時も、csv.writer
の引数で区切り文字や引用符の挙動を制御できます。
delimiter
: 区切り文字を指定します(デフォルトは,
)。タブ区切りにする場合はdelimiter='\t'
とします。quotechar
: フィールドを囲む引用符を指定します(デフォルトは"
)。シングルクォートにする場合はquotechar="'"
など。quoting
: どのフィールドを引用符で囲むかを制御します。csv.QUOTE_MINIMAL
(デフォルト): 区切り文字や引用符、改行文字を含むフィールドのみを引用符で囲みます。csv.QUOTE_ALL
: すべてのフィールドを引用符で囲みます。csv.QUOTE_NONNUMERIC
: 数値でないフィールド(文字列など)をすべて引用符で囲みます。数値フィールドは囲みません。csv.QUOTE_NONE
: 引用符を一切使用しません。区切り文字などがフィールドに含まれる場合、escapechar
でエスケープする必要があります(指定しないとエラー)。
escapechar
:quoting=csv.QUOTE_NONE
の時に、区切り文字などをエスケープするための文字を指定します(例:escapechar='\\'
)。lineterminator
: 行末に使用する文字シーケンスを指定します(デフォルトは\r\n
)。UNIX系で一般的な\n
を使いたい場合はlineterminator='\n'
とします。
例:タブ区切り、すべてのフィールドをダブルクォートで囲む
import csv
data = [['A', 'B'], [1, 'Hello\tWorld']]
with open('output.tsv', 'w', newline='', encoding='utf-8') as f:
writer = csv.writer(f, delimiter='\t', quoting=csv.QUOTE_ALL)
writer.writerows(data)
生成される output.tsv
:
"A"\t"B"
"1"\t"Hello\tWorld"
既存ファイルへの追記
既存のCSVファイルにデータを追記したい場合は、open()
関数のモードを'a'
(append) にします。
import csv
new_data = ['P004', 'モニター', 25000]
# モード 'a' で追記用にファイルを開く
with open('products.csv', mode='a', newline='', encoding='utf-8') as csvfile:
writer = csv.writer(csvfile)
writer.writerow(new_data)
print("products.csv にデータを追記しました。")
これにより、products.csv
の末尾に新しい行が追加されます。
辞書形式での読み書き (`csv.DictReader`, `csv.DictWriter`)
CSVファイルの各行をリストではなく、ヘッダー名をキーとする辞書として扱いたい場合があります。これにはcsv.DictReader
とcsv.DictWriter
が便利です。
`csv.DictReader`による辞書形式での読み込み
csv.DictReader
は、CSVファイルの1行目を自動的にヘッダー(辞書のキー)として認識し、後続の各行を辞書オブジェクトとして返します。
例:(users.csv
を再利用)
id,name,email
1,Alice,alice@example.com
2,Bob,bob@example.com
3,Charlie,charlie@example.com
読み込みコード:
import csv
with open('users.csv', mode='r', newline='', encoding='utf-8') as csvfile:
# DictReaderオブジェクトを作成
reader = csv.DictReader(csvfile)
# 各行を辞書として処理
for row_dict in reader:
# print(row_dict) # 辞書全体を表示
print(f"ID: {row_dict['id']}, Name: {row_dict['name']}, Email: {row_dict['email']}")
実行結果:
ID: 1, Name: Alice, Email: alice@example.com
ID: 2, Name: Bob, Email: bob@example.com
ID: 3, Name: Charlie, Email: charlie@example.com
このように、列名をキーとして値にアクセスできるため、コードの可読性が向上します。列の順番が変わっても、キーでアクセスする限りコードの修正は不要です。
DictReader
もreader
と同様にdelimiter
などの引数を指定できます。
ヘッダー行が存在しない場合や、ヘッダーとして別の名前を使いたい場合は、fieldnames
引数でヘッダー名のリストを明示的に指定できます。
import csv
# ヘッダーがないCSVデータを想定した文字列
csv_data = """value1,value2,value3
apple,100,red
banana,50,yellow
"""
# StringIOを使って文字列をファイルのように扱う
from io import StringIO
with StringIO(csv_data) as f:
# fieldnamesを指定してヘッダーとする
fieldnames = ['item', 'price', 'color']
reader = csv.DictReader(f, fieldnames=fieldnames)
for row in reader:
print(row)
実行結果:
{'item': 'value1', 'price': 'value2', 'color': 'value3'}
{'item': 'apple', 'price': '100', 'color': 'red'}
{'item': 'banana', 'price': '50', 'color': 'yellow'}
この場合、CSVデータの1行目も通常のデータ行として扱われます(ヘッダーとはみなされない)。
`csv.DictWriter`による辞書形式での書き込み
csv.DictWriter
は、辞書のリストをCSVファイルに書き込む際に使用します。書き込み時には、どのキーをどの列に対応させるかを指定するためにfieldnames
引数が必須です。
import csv
# 書き込むデータ(辞書のリスト)
data_to_write = [
{'ID': 'EMP001', '氏名': '鈴木 一郎', '部署': '営業部'},
{'ID': 'EMP002', '氏名': '佐藤 花子', '部署': '開発部', '役職': 'リーダー'}, # 役職キーを持つ
{'ID': 'EMP003', '氏名': '高橋 健太', '部署': '人事部'}
]
# ヘッダー(書き出す列の順番と名前を指定)
fieldnames = ['ID', '氏名', '部署']
with open('employees.csv', mode='w', newline='', encoding='utf-8') as csvfile:
# DictWriterオブジェクトを作成(fieldnamesが必須)
writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
# writeheader()でヘッダー行を書き込む
writer.writeheader()
# writerows()で辞書のリストを書き込む
# fieldnamesに含まれないキー('役職')は無視される
writer.writerows(data_to_write)
print("employees.csv にデータを書き込みました。")
生成される employees.csv
:
ID,氏名,部署
EMP001,鈴木 一郎,営業部
EMP002,佐藤 花子,開発部
EMP003,高橋 健太,人事部
writeheader()
メソッドを呼び出すと、fieldnames
で指定した順番でヘッダー行が書き込まれます。writerows()
で辞書のリストを書き込む際、各辞書においてfieldnames
に含まれるキーの値だけが、対応する列に書き込まれます。含まれないキー(上記の例では’役職’)は無視されます。もしfieldnames
に含まれるキーが辞書に存在しない場合、デフォルトでは空文字列が書き込まれます。
1行ずつ書き込む場合はwriterow()
メソッドを使用します。
import csv
fieldnames = ['Language', 'Year']
with open('languages.csv', mode='w', newline='', encoding='utf-8') as f:
writer = csv.DictWriter(f, fieldnames=fieldnames)
writer.writeheader()
writer.writerow({'Language': 'Python', 'Year': 1991})
writer.writerow({'Language': 'Java', 'Year': 1995})
高度なトピックと便利な機能 ⚙️
Dialect(方言)の利用
CSV形式は標準化されているようでいて、実際にはアプリケーションによって微妙な違い(方言=Dialect)が存在します。例えば、Excelが生成するCSVと、Unix系システムで一般的なCSVでは、改行コードや引用符の扱いが異なることがあります。
csv
モジュールでは、これらの違いをDialect
オブジェクトとして定義し、簡単に切り替えることができます。
組み込みで用意されている主なDialect:
'excel'
: Excelで生成・読み込み可能な形式(デフォルト)。カンマ区切り、ダブルクォート、\r\n
改行。'excel-tab'
: Excelのタブ区切り形式。'unix'
: Unix系システムで一般的な形式。カンマ区切り、全てのフィールドをダブルクォート、\n
改行。(Python 3.2以降)
Dialectはreader
やwriter
のdialect
引数で指定します。
import csv
data = [["A", "B"], [1, 2]]
# Unix形式で書き込む例
with open('unix_dialect.csv', 'w', newline='', encoding='utf-8') as f:
writer = csv.writer(f, dialect='unix')
writer.writerows(data)
生成される unix_dialect.csv
(改行は\n
):
"A","B"
"1","2"
カスタムDialectの登録
独自のCSV形式を定義して、csv.register_dialect()
で登録することもできます。
import csv
# パイプ区切り、引用符なし、改行LFのDialectを定義
csv.register_dialect(
'pipes',
delimiter='|',
quoting=csv.QUOTE_NONE,
lineterminator='\n',
escapechar='\\' # QUOTE_NONE のためエスケープ文字が必要
)
data = [["Name", "Value"], ["Item|A", 100]]
with open('pipes.csv', 'w', newline='', encoding='utf-8') as f:
writer = csv.writer(f, dialect='pipes')
writer.writerows(data)
# 登録したDialectで読み込み
with open('pipes.csv', 'r', newline='', encoding='utf-8') as f:
reader = csv.reader(f, dialect='pipes')
for row in reader:
print(row)
生成される pipes.csv
:
Name|Value
Item\|A|100
読み込み結果:
['Name', 'Value']
['Item|A', '100']
利用可能なDialectの一覧はcsv.list_dialects()
で確認できます。
`csv.Sniffer`による形式の自動検出
未知の形式のCSVファイルを扱う際、区切り文字や引用符を自動で推測したい場合があります。そのためにcsv.Sniffer
クラスが用意されています。
sniff(sample, delimiters=None)
: 与えられたサンプル文字列(通常はファイルの先頭部分)を解析し、推測されたDialectオブジェクトを返します。delimiters
で推測する区切り文字の候補を指定できます。has_header(sample)
: サンプル文字列を解析し、最初の行がヘッダー行のように見える場合にTrue
を返します(これはヒューリスティックな判定であり、間違う可能性もあります)。
import csv
# 不明な形式のCSVデータ(ここではセミコロン区切り)
csv_content = """ID;Name;Value
1;"Alpha; Bravo";10.5
2;"Charlie";20.0"""
from io import StringIO
with StringIO(csv_content) as f:
sniffer = csv.Sniffer()
# 先頭1024バイトを読み込んで形式を推測
# delimitersを指定して候補を絞ることも可能
try:
# dialect = sniffer.sniff(f.read(1024), delimiters=';,\t')
dialect = sniffer.sniff(f.read(1024))
print(f"推測されたDialect:")
print(f" 区切り文字: {dialect.delimiter!r}")
print(f" 引用符: {dialect.quotechar!r}")
print(f" 改行: {dialect.lineterminator!r}")
# ファイルポインタを先頭に戻す
f.seek(0)
# 推測されたDialectを使って読み込む
reader = csv.reader(f, dialect)
# ヘッダーがあるかどうかも推測
f.seek(0) # 再度先頭に戻す必要あり
has_header = sniffer.has_header(f.read(1024))
print(f"ヘッダーあり?: {has_header}")
f.seek(0) # 再度先頭に戻す
if has_header:
header = next(reader) # ヘッダーを読み飛ばし
print(f"ヘッダー: {header}")
print("データ:")
for row in reader:
print(row)
except csv.Error as e:
print(f"CSV形式の推測に失敗しました: {e}")
実行結果:
推測されたDialect:
区切り文字: ';'
引用符: '"'
改行: '\r\n'
ヘッダーあり?: True
ヘッダー: ['ID', 'Name', 'Value']
データ:
['1', 'Alpha; Bravo', '10.5']
['2', 'Charlie', '20.0']
sniff()
はファイルの先頭部分しか見ないため、ファイル全体がその形式に従っている保証はありません。また、複雑な形式や曖昧な形式では正しく推測できない場合もあります。sniff()
の後はseek(0)
でファイルポインタを先頭に戻すのを忘れないようにしましょう。
エラーハンドリング (`csv.Error`)
CSVファイルの形式が不正(例:引用符が閉じられていない、フィールド数が異なる行があるなど)な場合、csv.reader
などはcsv.Error
例外(またはそのサブクラス)を発生させることがあります。
例えば、reader
オブジェクトのfield_size_limit
を超えた巨大なフィールドを読み込もうとした場合などです。
import csv
from io import StringIO
# 不正なCSVデータ(引用符が閉じていない)
bad_csv_data = 'col1,col2\nval1,"unclosed quote'
try:
with StringIO(bad_csv_data) as f:
reader = csv.reader(f)
for row in reader:
print(row)
except csv.Error as e:
print(f"CSVエラーが発生しました: {e}")
# エラーが発生した行番号などを取得できる場合がある
# print(f"エラー箇所 (行): {reader.line_num}") # line_numはreaderの内部状態
except Exception as e:
print(f"その他のエラー: {e}")
実行結果(環境によりエラーメッセージは若干異なる場合があります):
['col1', 'col2']
CSVエラーが発生しました: unexpected end of data
堅牢なプログラムを作成するには、このようなエラーをtry...except
ブロックで捕捉し、適切に処理(エラーログの記録、スキップ、デフォルト値の使用など)することが重要です。
文字コード(Encoding)の問題
CSVファイルを扱う際、特に日本語環境で問題になりやすいのが文字コードです。ファイルがどのような文字コードで保存されているかを知り、open()
関数のencoding
引数で正しく指定する必要があります。
- UTF-8: 現在最も広く使われている標準的な文字コード。Webや多くのシステムでデフォルト。Python 3では内部文字列もUTF-8ベース(Unicode)で扱われます。特別な理由がない限り、新規にファイルを作成する場合はUTF-8 (
encoding='utf-8'
) を使うのが推奨されます。 - Shift_JIS (または MS932, CP932): 従来のWindows環境でよく使われてきた文字コード。古いシステムやExcelで作成されたCSVファイルなどで見られます。読み込む際は
encoding='cp932'
(または'shift_jis'
) を指定します。ただし、Shift_JISでは表現できない文字(例:一部の環境依存文字、Unicodeで追加された絵文字など)が含まれているとエラー(UnicodeDecodeError
やUnicodeEncodeError
)になります。CP932はShift_JISの拡張で、より多くの文字を扱えます。 - BOM付きUTF-8 (utf-8-sig): 一部のWindowsアプリケーション(特に古いExcel)は、UTF-8のファイル先頭にBOM(Byte Order Mark)と呼ばれる数バイトの目印を付けることがあります。これを正しく読み込むには
encoding='utf-8-sig'
を指定します。書き込み時にBOMを付けたい場合も同様に指定します(ただし、通常はBOMなしのUTF-8が推奨されます)。
文字コードが不明な場合は、chardet
などの外部ライブラリを使って推測することもできますが、確実ではありません。可能であれば、ファイルの提供元に文字コードを確認するのが最善です。
文字コードエラーが発生した場合(例: UnicodeDecodeError
)、指定したencoding
が間違っている可能性が高いです。一般的な文字コード('utf-8'
, 'cp932'
, 'euc-jp'
など)を試してみると解決することがあります。
import csv
# 例: Shift_JIS (CP932) で書かれたファイルを読み込む
try:
with open('data_sjis.csv', mode='r', newline='', encoding='cp932') as f:
reader = csv.reader(f)
for row in reader:
print(row)
except FileNotFoundError:
print("ファイルが見つかりません。")
except UnicodeDecodeError as e:
print(f"文字コードエラー: {e}. encodingを確認してください。")
except Exception as e:
print(f"その他のエラー: {e}")
よくある落とし穴とベストプラクティス 🤔💡
`newline=”` を忘れる
前述の通り、open()
時にnewline=''
を指定しないと、特にWindows環境での書き込み時に、意図しない空行(\r\r\n
のような改行)が挿入されることがあります。これはPythonのテキストモードでの改行コード自動変換と、csv.writer
の改行コード書き込みが重複するためです。常にnewline=''
を指定する習慣をつけましょう。
数値や日付の扱い
csv.reader
やcsv.DictReader
は、すべてのフィールドを文字列として読み込みます。数値計算や日付比較を行いたい場合は、読み込んだ後に適切な型(int()
, float()
, datetime
オブジェクトなど)に変換する必要があります。
import csv
from datetime import datetime
with open('sales_data.csv', mode='r', newline='', encoding='utf-8') as f:
reader = csv.DictReader(f)
total_amount = 0
for row in reader:
try:
# 文字列から数値・日付に変換
item_id = int(row['ItemID'])
quantity = int(row['Quantity'])
price = float(row['Price'])
sale_date = datetime.strptime(row['SaleDate'], '%Y-%m-%d') # 日付形式に合わせて変換
amount = quantity * price
total_amount += amount
print(f"商品ID: {item_id}, 金額: {amount:.2f}, 販売日: {sale_date.date()}")
except ValueError as e:
print(f"エラー: 行 {reader.line_num} のデータ変換に失敗しました - {e} - データ: {row}")
except KeyError as e:
print(f"エラー: 行 {reader.line_num} に必要なキー '{e}' がありません - データ: {row}")
print(f"\n合計金額: {total_amount:.2f}")
データ形式が不正な場合に備え、try...except ValueError
などでエラーハンドリングを行うことが推奨されます。
巨大なファイルの扱い
非常に大きなCSVファイルを扱う場合、ファイル全体を一度にメモリに読み込むのは現実的ではありません。csv.reader
やcsv.DictReader
はイテレータであるため、for
ループで1行ずつ処理すれば、メモリ使用量を抑えることができます。これがcsv
モジュールの大きな利点の一つです。
import csv
# 巨大なファイルを想定 (例: large_data.csv)
# 1行ずつ処理するため、メモリ効率が良い
count = 0
try:
with open('large_data.csv', 'r', newline='', encoding='utf-8') as f:
reader = csv.reader(f)
header = next(reader) # ヘッダー処理など
for row in reader:
# ここで各行に対する処理を行う
# 例: 特定の条件に合う行だけを別のファイルに書き出す、集計するなど
# process_row(row)
count += 1
if count % 100000 == 0: # 定期的に進捗を表示
print(f"{count}行処理完了...")
print(f"処理完了: 全{count}行")
except FileNotFoundError:
print("ファイル large_data.csv が見つかりません。")
except csv.Error as e:
print(f"CSVエラー: {e}")
except Exception as e:
print(f"予期せぬエラー: {e}")
ただし、ファイル全体に対する集計(平均値、合計値など)を行う場合は、逐次的に計算を行うか、あるいはPandasのようなデータ分析ライブラリの使用を検討すると良いでしょう。Pandasは大規模データセットの扱いに最適化されています。
空行や不正な形式の行の扱い
CSVファイルには、意図しない空行や、フィールド数が異なる行が含まれていることがあります。csv.reader
は空行を空のリスト[]
として返すことがあります。処理内容によっては、これらの行をスキップする処理を入れる必要があります。
import csv
valid_rows = []
expected_field_count = 3 # 期待されるフィールド数
with open('potentially_malformed.csv', 'r', newline='', encoding='utf-8') as f:
reader = csv.reader(f)
try:
header = next(reader)
if len(header) != expected_field_count:
print(f"警告: ヘッダーのフィールド数が期待値({expected_field_count})と異なります: {header}")
for i, row in enumerate(reader, start=2): # start=2で行番号を1始まりにする(ヘッダー後)
# 空行をスキップ
if not row:
print(f"警告: 行 {i} は空行です。スキップします。")
continue
# フィールド数をチェック
if len(row) != expected_field_count:
print(f"警告: 行 {i} のフィールド数が期待値({expected_field_count})と異なります。スキップします。 データ: {row}")
continue
# ここで有効な行に対する処理を行う
valid_rows.append(row)
except StopIteration:
print("ファイルが空か、ヘッダーのみでした。")
except csv.Error as e:
print(f"CSV読み込みエラーが発生しました (行 {reader.line_num} 付近): {e}")
print(f"\n有効なデータ行数: {len(valid_rows)}")
# print(valid_rows)
代替ライブラリ:Pandas
csv
モジュールはシンプルで標準的なCSV操作には十分ですが、より高度なデータ分析、集計、変換、クリーニング、大規模データの効率的な操作を行いたい場合は、Pandasライブラリの使用が強力に推奨されます。
Pandasはread_csv()
関数で簡単にCSVファイルをDataFrameという高機能なデータ構造に読み込むことができ、豊富なデータ操作メソッドを提供します。
# Pandasを使う場合 (別途インストールが必要: pip install pandas)
import pandas as pd
try:
# CSVファイルをDataFrameに読み込む
df = pd.read_csv('users.csv', encoding='utf-8')
# 基本的な情報の表示
print("--- データフレーム情報 ---")
df.info()
print("\n--- 先頭5行 ---")
print(df.head())
# 特定の列にアクセス
print("\n--- Name列 ---")
print(df['name'])
# 条件でフィルタリング (例: idが1より大きい)
print("\n--- ID > 1 のデータ ---")
print(df[df['id'] > 1])
# CSVに書き出す
# df.to_csv('output_pandas.csv', index=False, encoding='utf-8') # index=Falseでインデックス列を書き出さない
except FileNotFoundError:
print("ファイルが見つかりません。")
except Exception as e:
print(f"Pandas処理中にエラーが発生しました: {e}")
単純な読み書きやスクリプトにはcsv
モジュール、複雑なデータ操作や分析にはPandas、と使い分けるのが良いでしょう。
まとめ
Pythonの標準ライブラリcsv
モジュールは、CSVファイルの基本的な読み書きを簡単かつ効率的に行うための強力なツールです。この記事では以下の点について解説しました。
csv.reader
を使った基本的な読み込み、ヘッダー処理、区切り文字・引用符の指定。csv.writer
を使った基本的な書き込み、複数行・単一行の書き込み、区切り文字・引用符・改行コードの制御、追記モード。csv.DictReader
とcsv.DictWriter
を使った辞書形式での読み書き。- Dialect(方言)の利用とカスタムDialectの登録。
csv.Sniffer
による形式の自動検出。- エラーハンドリングと
csv.Error
例外。 - 文字コード(Encoding)の問題と対処法。
- よくある落とし穴(
newline=''
の指定忘れ、型の扱い、巨大ファイル、不正形式)とベストプラクティス。 - 代替ライブラリとしてのPandasの紹介。
これらの機能を理解し活用することで、データ処理タスクの効率を大幅に向上させることができます。特にnewline=''
の指定や文字コード、エラーハンドリングに注意を払い、目的に応じてreader/writer
とDictReader/DictWriter
を使い分けることが重要です。
日々のプログラミングやデータ作業に、ぜひcsv
モジュールを活用してみてください!🐍📄👍
コメント