基本的な使い方から応用テクニック、そして現代における注意点まで
はじめに:md5deepとは? 🤔
md5deep
は、ファイルやディレクトリ内のファイルのMD5ハッシュ値を計算するためのコマンドラインユーティリティです。もともとはデジタルフォレンジック(コンピュータ犯罪捜査)の分野で、ファイルの同一性を検証したり、改ざんを検出したりするために開発されました。シンプルな操作性と強力な機能から、システム管理者やセキュリティ専門家、開発者など、幅広いユーザーに利用されています。
MD5(Message Digest Algorithm 5)は、任意の長さのデータを元に、128ビット(16バイト)の固定長のハッシュ値を生成するアルゴリズムです。同じファイルであれば常に同じハッシュ値が生成され、少しでもファイルの内容が異なれば、生成されるハッシュ値は大きく異なるという特性があります。この特性を利用して、md5deep
は以下のような目的で活用されます。
- ✅ ファイルの整合性チェック(ダウンロードしたファイルが壊れていないか、転送中に変更されていないかなど)
- ✅ ファイルの同一性確認(バックアップデータとオリジナルデータが一致しているかなど)
- ✅ 既知のファイル(マルウェア、OSのシステムファイルなど)の特定
- ✅ デジタルフォレンジックにおける証拠保全と分析
md5deepのインストール 💻
md5deep
は、多くのLinuxディストリビューションやmacOS、Windowsで利用可能です。後継のhashdeep
パッケージに含まれていることが多いです。
Linux (Debian/Ubuntu系)
APTパッケージマネージャを使用してインストールできます。
sudo apt update
sudo apt install md5deep
もしmd5deep
が見つからない場合は、hashdeep
パッケージをインストールしてみてください。hashdeep
にはmd5deep
互換の機能が含まれています。
sudo apt update
sudo apt install hashdeep
Linux (Red Hat/CentOS/Fedora系)
YUMまたはDNFパッケージマネージャを使用してインストールします。
# CentOS/RHEL
sudo yum install md5deep # または hashdeep
# Fedora
sudo dnf install md5deep # または hashdeep
EPELリポジトリなど、追加のリポジトリが必要な場合があります。
macOS
Homebrewを使用するのが最も簡単です。hashdeep
パッケージをインストールします。
brew install hashdeep
インストール後、md5deep
コマンドが利用可能になります。
Windows
md5deep
およびhashdeep
は、公式ウェブサイトや、Cygwin、MSYS2などの環境を通じて入手できます。
公式プロジェクトはSourceForgeなどでホストされていることがあります。実行ファイル(.exe)をダウンロードし、パスの通ったディレクトリに配置するか、フルパスを指定して実行します。
例えば、md5deep and hashdeep project page on SourceForge (もしアクセス可能であれば) からダウンロードできます。ただし、開発が活発でない可能性もあるため、信頼できるソースから入手するように注意してください。
ScoopやChocolateyといったパッケージマネージャーでも利用可能な場合があります。
# Scoopの場合 (利用可能であれば)
scoop install hashdeep
# Chocolateyの場合 (利用可能であれば)
choco install hashdeep
インストール確認
インストール後、ターミナル(コマンドプロンプト)で以下のコマンドを実行して、バージョン情報が表示されれば成功です。
md5deep -v
もしhashdeep
をインストールした場合は、hashdeep
コマンドも確認しておくと良いでしょう。
hashdeep -v
基本的な使い方 ✨
md5deep
の基本的な構文は非常にシンプルです。
md5deep [オプション] [ファイルまたはディレクトリ...]
引数なしで実行すると、標準入力からデータを読み込みます。
単一ファイルのハッシュ計算
指定したファイルのMD5ハッシュ値を計算し、標準出力に表示します。
# document.txt というファイルのMD5ハッシュを計算
md5deep document.txt
# 出力例:
# 3b5d5c3714f4eb1d87f1f71e33f8445d /home/user/docs/document.txt
出力は、ハッシュ値<スペース><スペース>ファイルパス
の形式になります。
複数ファイルのハッシュ計算
複数のファイル名を引数として指定できます。
# report.pdf と image.jpg のハッシュを計算
md5deep report.pdf image.jpg
# 出力例:
# d41d8cd98f00b204e9800998ecf8427e /home/user/files/report.pdf
# 098f6bcd4621d373cade4e832627b4f6 /home/user/files/image.jpg
ディレクトリ内のファイルのハッシュ計算(再帰的)
-r
オプションを使用すると、指定したディレクトリとそのサブディレクトリ内のすべてのファイルを再帰的に処理します。
# my_project ディレクトリ内のすべてのファイルのハッシュを計算
md5deep -r my_project
# 出力例:
# a1b2c3d4e5f6... /home/user/my_project/main.c
# f6e5d4c3b2a1... /home/user/my_project/lib/utils.h
# 1a2b3c4d5e6f... /home/user/my_project/docs/readme.txt
# ... (ディレクトリ内の全ファイル)
これは、ディレクトリ全体のファイルの状態を記録したり、後で比較したりする際に非常に便利です。
ハッシュ値のみを表示
-b
オプション(bare モード)を使用すると、ファイル名を省略し、ハッシュ値のみを出力します。スクリプトなどでハッシュ値だけを使いたい場合に便利です。
# document.txt のハッシュ値のみを表示
md5deep -b document.txt
# 出力例:
# 3b5d5c3714f4eb1d87f1f71e33f8445d
標準入力からのハッシュ計算
ファイル名を指定せずに実行するか、パイプでデータを受け取ると、標準入力から読み込んだデータのハッシュ値を計算します。
# 文字列 "hello world" のハッシュ値を計算
echo -n "hello world" | md5deep
# 出力例:
# 5eb63bbbe01eeed093cb22bb8f5acdc3 (stdin)
# ファイルの内容をパイプで渡す
cat important_data.log | md5deep
# 出力例:
# 1234abcd... (stdin)
echo
コマンドで文字列を渡す場合、末尾の改行を含めないように-n
オプションを付けるのが一般的です。
主要なオプション解説 ⚙️
md5deep
には多くの便利なオプションがあります。ここでは特に重要なものをいくつか紹介します。
オプション | 説明 | 使用例 |
---|---|---|
-r |
再帰処理 (Recursive) 指定したディレクトリ以下を再帰的に処理します。サブディレクトリ内のファイルも対象となります。 |
md5deep -r /var/log |
-b |
基本表示 (Bare) ファイル名を省略し、ハッシュ値のみを出力します。 |
md5deep -b config.ini |
-l |
相対パス表示 (Local) ファイルパスを相対パスで表示します。デフォルトは絶対パスです。 |
md5deep -r -l my_app |
-s |
サイレントモード (Silent) エラーメッセージ(ファイルが見つからない、アクセス権がないなど)を抑制します。正常に処理できたファイルのハッシュのみが出力されます。 |
md5deep -r -s / |
-z |
ファイルサイズゼロ (Zero-size) サイズが0バイトのファイルのハッシュ値も計算して表示します。デフォルトでは0バイトのファイルはスキップされることがあります。 |
md5deep -r -z empty_files_dir |
-M <file> |
マッチングモード (Matching) 指定したファイル(既知のハッシュリスト)に記載されているハッシュ値と一致するファイルのみを表示します。リストの形式は md5deep の出力と同じです。 |
md5deep -r -M known_good_hashes.txt /usr/bin |
-X <file> |
ネガティブマッチングモード (eXclude) 指定したファイル(除外ハッシュリスト)に記載されているハッシュ値と一致するファイルを除外し、それ以外のファイルを表示します。 |
md5deep -r -X known_bad_hashes.txt /downloads |
-m <file> |
-M の簡易版-M と同様ですが、リスト内のファイルパスを無視し、ハッシュ値のみで比較します。 |
md5deep -r -m whitelist.txt /opt |
-x <file> |
-X の簡易版-X と同様ですが、リスト内のファイルパスを無視し、ハッシュ値のみで比較します。 |
md5deep -r -x blacklist.txt /tmp |
-W <file> |
処理結果表示 (Witness) 処理したファイル名を表示します。どのファイルが比較対象になったかを確認するのに役立ちます。比較モード ( -M , -X など) と共に使用します。 |
md5deep -r -M list.txt -W processed_files.log /data |
-t |
タイムスタンプ表示 (Timestamp) 出力にタイムスタンプ(エポック秒)を追加します。 md5deep -t で現在の時刻が出力されます。 |
md5deep -t > timestamp.txt |
-p <size> |
ピースワイズハッシュ (Piecewise) ファイルを指定したサイズ(例: 10m = 10MB)ごとに分割し、各部分のハッシュを計算します。大きなファイルの破損箇所特定などに使えます。 hashdeep でより強化されています。 |
md5deep -p 10m large_video.mp4 (注意: md5deep での実装は限定的かもしれません。hashdeep の使用を推奨) |
-c |
計算モード/比較モードの指定 (Compute/Compare)hashdeep でより重要。ハッシュ計算のみを行うか、リストとの比較を行うかを明示的に指定します。md5deep では主にマッチングオプション (-M , -X など) が比較モードを意味します。 |
hashdeep -c md5,sha256 -r . (hashdeepでの例) |
これらのオプションを組み合わせることで、様々な要求に応じたファイルハッシュの処理が可能になります。特に比較モード(-M
, -X
, -m
, -x
)は、md5deep
の強力な機能の一つです。
応用的な使い方 🚀
基本的な使い方とオプションを理解すれば、md5deep
をさらに活用できます。
1. ディレクトリの整合性チェック
特定の時点でのディレクトリの状態(含まれるファイルのハッシュリスト)を保存しておき、後で比較することで、ファイルの変更、追加、削除を検出できます。
ステップ1: ベースラインの作成
最初に、チェックしたいディレクトリのハッシュリストを作成し、ファイルに保存します。
# /etc ディレクトリの状態を baseline_hashes.txt に保存
md5deep -r -l /etc > baseline_hashes.txt
-l
オプションで相対パスにすると、後で比較しやすくなる場合があります。
ステップ2: 定期的な比較
後日、同じディレクトリのハッシュリストを再度計算し、保存しておいたベースラインと比較します。
まず、現在のハッシュリストを計算します。
md5deep -r -l /etc > current_hashes.txt
次に、diff
コマンドなどを使って、ベースラインと現在のリストを比較します。
diff baseline_hashes.txt current_hashes.txt
diff
の出力を見れば、どのファイルが変更されたか(ハッシュ値が変わった)、追加されたか、削除されたかが分かります。
より高度な比較には、hashdeep
の監査機能(-a
オプションなど)が便利です。これは変更、追加、削除されたファイルを明確にレポートしてくれます。
# hashdeep を使った監査 (例)
# まずベースラインを作成
# hashdeep -c md5 -r -l /etc > baseline.hdeep
# 後日監査を実行
# hashdeep -c md5 -r -l -a -k baseline.hdeep /etc
2. 既知のファイルの特定(ホワイトリスト/ブラックリスト)
既知の良性ファイル(OSの標準ファイルなど)のハッシュリスト(ホワイトリスト)や、既知の悪性ファイル(マルウェアなど)のハッシュリスト(ブラックリスト)を使って、システム内のファイルを分類できます。
例:既知のマルウェアの検出
まず、信頼できるソースからマルウェアのMD5ハッシュリスト(例: malware_hashes.txt
)を入手します。リストはmd5deep
の出力と同じ形式か、ハッシュ値のみが記載されている形式(-m
, -x
オプション用)である必要があります。
# malware_hashes.txt の例 (ハッシュ値のみ)
# e4d909c290d0fb1ca068ffaddf22cbd0
# d8578edf8458ce06fbc5bb76a58c5ca4
# ...
次に、調査対象のディレクトリ(例: /downloads
)に対して、-x
オプション(ネガティブマッチングの簡易版)または-m
オプション(ポジティブマッチングの簡易版)を使ってスキャンします。
# /downloads ディレクトリ内で、malware_hashes.txt に載っているハッシュ値と一致するファイルを検索
md5deep -r -m malware_hashes.txt /downloads
# 出力例 (一致した場合):
# e4d909c290d0fb1ca068ffaddf22cbd0 /home/user/downloads/suspicious_file.exe
もしmalware_hashes.txt
がmd5deep
形式(ハッシュ値とファイルパス)であれば、-M
オプションを使います。
# malware_hashes_full.txt の例 (md5deep形式)
# e4d909c290d0fb1ca068ffaddf22cbd0 /path/to/original/malware1.exe
# d8578edf8458ce06fbc5bb76a58c5ca4 /path/to/original/malware2.dll
# 検索実行
md5deep -r -M malware_hashes_full.txt /downloads
逆に、ホワイトリスト(例: known_good_hashes.txt
)を使って、システム内に未知のファイルや変更されたファイルがないかを確認することもできます。-X
や-x
オプションでホワイトリストを指定し、リストに載っていないファイル(=未知または変更されたファイル)を出力させます。
# /usr/bin ディレクトリ内で、known_good_hashes.txt に載っていないファイルを探す
md5deep -r -x known_good_hashes.txt /usr/bin
3. デジタルフォレンジックでの利用
デジタルフォレンジックでは、証拠となるデータの完全性を証明することが非常に重要です。md5deep
は、ディスクイメージや個々のファイルのハッシュ値を計算し、記録しておくことで、その後の分析過程でデータが改ざんされていないことを示すために使われます。
- 証拠保全:差し押さえたコンピュータのディスクイメージを作成した後、そのイメージ全体のハッシュ値と、イメージ内の主要なファイルのハッシュ値を計算・記録します。
- 分析:分析中にファイルの内容を確認する際、元のハッシュ値と照合することで、意図しない変更が加わっていないかを確認します。
- 既知のファイルの除外:OSのシステムファイルなど、調査に関係のない既知のファイルのハッシュリスト(NSRL: National Software Reference Library などが有名)と比較し、調査対象から除外することで、効率的に分析を進めます。
フォレンジックの文脈では、MD5の脆弱性から、SHA-1やSHA-256などのより安全なハッシュアルゴリズムも併用することが一般的です。hashdeep
はこれらのアルゴリズムもサポートしているため、フォレンジック分野ではhashdeep
がより広く使われています。
4. スクリプトとの連携
md5deep
の出力はシンプルなテキスト形式なので、シェルスクリプトや他のプログラミング言語と容易に連携できます。例えば、特定のファイルのハッシュ値を計算し、期待される値と比較するスクリプトを作成できます。
#!/bin/bash
# チェック対象ファイルと期待されるMD5ハッシュ値
TARGET_FILE="/path/to/important/config.xml"
EXPECTED_HASH="a1b2c3d4e5f6a1b2c3d4e5f6a1b2c3d4"
# 現在のハッシュ値を計算 (-b でハッシュ値のみ取得)
CURRENT_HASH=$(md5deep -b "$TARGET_FILE")
# エラーチェック (ファイルが存在しない場合など)
if [ -z "$CURRENT_HASH" ]; then
echo "エラー: $TARGET_FILE のハッシュを計算できませんでした。"
exit 1
fi
# ハッシュ値を比較
if [ "$CURRENT_HASH" == "$EXPECTED_HASH" ]; then
echo "OK: $TARGET_FILE は変更されていません。 ($CURRENT_HASH)"
else
echo "警告: $TARGET_FILE が変更された可能性があります!"
echo " 期待値: $EXPECTED_HASH"
echo " 現在値: $CURRENT_HASH"
fi
exit 0
このように、md5deep
を自動化された監視やチェックの仕組みに組み込むことができます。
md5deep と hashdeep 🔄
md5deep
について解説してきましたが、現在ではその後継ツールであるhashdeep
の利用が推奨される場面が多いです。
hashdeep
は、md5deep
の機能をほぼすべて含んだ上で、以下の点で強化されています。
- 複数のハッシュアルゴリズムに対応: MD5だけでなく、SHA-1, SHA-256, SHA-3 (Keccak), Tiger, Whirlpoolなど、より多くのハッシュアルゴリズムを同時に計算・比較できます。
-c
オプションで指定します。(例:-c md5,sha256
) - 強化された監査機能:
-a
(audit)オプションを使うことで、ベースラインとなるハッシュリストと比較し、「一致したファイル」「変更されたファイル」「新規に追加されたファイル」「リストからは削除されたファイル」を明確にレポートします。 - ピースワイズハッシュの改善: 大きなファイルを指定サイズごとに分割してハッシュ計算する機能(
-p
オプション)がより安定し、実用的になっています。 - 柔軟な比較オプション: ファイル名、ファイルサイズ、ハッシュ値を組み合わせて比較するオプションが追加されています。
MD5の脆弱性を考慮すると、特にファイルの同一性や整合性を厳密に検証したい場合は、SHA-256などのより安全なアルゴリズムを使うべきです。hashdeep
を使えば、MD5とSHA-256のハッシュ値を同時に計算・記録することも可能です。
# hashdeep を使ってMD5とSHA-256を同時に計算
hashdeep -c md5,sha256 -r -l my_directory > hashes.hdeep
# hashes.hdeep の内容例:
# %%%% HASHDEEP-1.0
# %%%% size,md5,sha256,filename
## Invoked from: /home/user
## $ hashdeep -c md5,sha256 -r -l my_directory
##
12,d41d8cd98f00b204e9800998ecf8427e,e3b0c44298fc1c149afbf4c8996fb92427ae41e4649b934ca495991b7852b855,my_directory/file1.txt
567,a1b2c3d4e5f6... ,f1e2d3c4b5a6... ,my_directory/subdir/image.png
...
このように、hashdeep
はmd5deep
の自然な進化形であり、現代的な要件により適合したツールと言えます。md5deep
の基本的な考え方やオプションはhashdeep
にも引き継がれているため、md5deep
を学ぶことはhashdeep
を理解する上でも役立ちます。
MD5の脆弱性と現代における注意点 ⚠️
本記事でmd5deep
を取り上げていますが、MD5アルゴリズム自体の限界について改めて強調しておく必要があります。
前述の通り、MD5には衝突困難性の脆弱性が存在します。これは、悪意のある攻撃者が、意図的に同じMD5ハッシュ値を持つ二つの異なるファイル(例えば、無害なファイルとマルウェア)を作成できる可能性があることを意味します。
この脆弱性は、2004年頃に中国の研究者らによって具体的な衝突例が示されたことで広く知られるようになりました。その後も研究が進み、MD5の衝突を比較的容易に生成する手法が開発されています。
この脆弱性のため、以下のような用途でのMD5単独の使用は絶対に避けるべきです。
- デジタル署名: ファイルが正規のものであることを保証するために使われますが、衝突を利用して偽のファイルに有効な署名があるように見せかけることができます。
- SSL/TLS証明書: ウェブサイトの信頼性を保証するために使われますが、過去にはMD5の脆弱性を悪用した偽の証明書が発行された事例(2008年の事例など)があります。
- パスワードハッシュ: パスワードを安全に保存するために使われますが、レインボーテーブル攻撃などに対して弱く、より安全な専用のハッシュ関数(Argon2, bcryptなど)を使うべきです。
- ソフトウェアの完全性検証: 信頼性が重要なソフトウェア配布において、MD5だけで検証するのは不十分です。SHA-256などのより強力なハッシュと、可能であればデジタル署名を併用すべきです。
では、md5deep
やMD5はもはや使うべきではないのでしょうか?
答えは「状況による」です。以下の点に注意すれば、限定的な用途では依然として役立ちます。
- 速度が重要な非セキュリティ用途: 単純なファイル重複チェックなど、セキュリティが最優先事項でない場面では、計算速度の速さがメリットになることがあります。
- 既存システムとの互換性: 古いシステムやツールがMD5のみをサポートしている場合、一時的に使用する必要があるかもしれません。
- 他のハッシュとの併用:
hashdeep
のように、MD5とSHA-256などを組み合わせて使用すれば、MD5の衝突が発生しても他のハッシュ値が異なるため、より信頼性が高まります。 - 意図的な衝突攻撃の可能性が低い状況: 個人のローカル環境での一時的なファイル整合性チェックなど、悪意のある第三者が介入する可能性が低い状況では、リスクは相対的に低くなります。
結論として、MD5は「壊れている」アルゴリズムであり、セキュリティが要求される場面での単独使用は避けるべきです。可能な限り、SHA-256などのより現代的で安全なハッシュアルゴリズムに移行することが強く推奨されます。md5deep
を使う場合でも、これらの限界を十分に理解し、リスクを評価した上で利用する必要があります。多くの場合、後継であるhashdeep
を使用し、SHA-256などを併用するのが賢明な選択です。
まとめ 🎉
md5deep
は、ファイルやディレクトリのMD5ハッシュ値を効率的に計算・比較するための強力なコマンドラインツールです。ファイルの整合性チェック、既知ファイルの特定、デジタルフォレンジックなど、様々な場面で活用できます。
基本的な使い方から、再帰処理、比較モードなどの応用的な機能まで、その操作は比較的シンプルでありながら奥深いものがあります。
しかし、MD5アルゴリズム自体の脆弱性により、セキュリティが重要な場面での単独使用は推奨されません。後継ツールであるhashdeep
は、SHA-256などのより安全なハッシュアルゴリズムをサポートし、機能も強化されているため、現在ではhashdeep
への移行が望ましい選択肢となります。
md5deep
(およびhashdeep
)は、ファイル管理やシステムセキュリティに関わる上で非常に便利なツールです。この記事を参考に、ぜひその機能を試してみてください。ただし、MD5の限界を常に念頭に置き、適切な場面で、できればより安全なハッシュアルゴリズムと組み合わせて活用するようにしましょう。 💪
コメント