Pythonで開発されたアプリケーションは、その簡潔さや豊富なライブラリから多くの場面で活躍しています。しかし、時にはパフォーマンスの問題に直面することも少なくありません。処理速度が遅い、CPU使用率が高い、応答がない… こうした問題の原因を特定し、解決するために「プロファイリング」という手法が不可欠です。

Pythonには標準で`cProfile`などのプロファイリングツールが用意されていますが、本記事ではより強力で使いやすいサードパーティ製ツール、`py-spy`に焦点を当てて詳しく解説します。`py-spy`を使えば、実行中のPythonプログラムの内部で何が起こっているのかを、プログラムを停止したりコードを変更したりすることなく、かつ低いオーバーヘッドで「スパイ」することができるのです！

py-spy とは？

`py-spy`は、Ben Frederickson氏によって開発された、サンプリングプロファイラと呼ばれるタイプのツールです。Rust言語で書かれており、そのパフォーマンスと安全性に定評があります。

従来のプロファイラ（トレーシングプロファイラ）が関数呼び出しのすべてを記録しようとするのに対し、サンプリングプロファイラは一定間隔（デフォルトでは1秒間に100回）でプログラムの状態（どの関数が実行中かを示すコールスタック）をスナップショットとして取得します。これにより、プロファイリング対象のプログラムへのパフォーマンス影響を最小限に抑えることができます。本番環境で稼働中のアプリケーションに対しても安全に使用できるのが大きな利点です。

主な特徴

低オーバーヘッド: Rust製で、ターゲットプロセスとは別のプロセスとして動作するため、プロファイリングによるパフォーマンス低下が非常に小さいです。本番環境での使用に適しています。
アタッチ可能: 実行中のPythonプロセスに、コード変更や再起動なしでアタッチできます。問題が発生しているその瞬間の状態を調査できます。
フレームグラフ (Flame Graph) 出力: プロファイル結果をインタラクティブなSVG形式のフレームグラフとして出力できます。これにより、どの関数呼び出しパスで時間がかかっているかを視覚的に、かつ直感的に把握できます。
GILの可視化: Global Interpreter Lock (GIL) の取得状況をプロファイルし、どのスレッドがGILを保持している時間が多いかを確認できます。マルチスレッドアプリケーションのボトルネック特定に役立ちます。
ネイティブ拡張のプロファイリング: C/C++やCythonで書かれたネイティブ拡張モジュール内の処理時間もプロファイルできます (x86_64 Linux/Windows)。NumPyやPandasなどを多用するコードの解析に有効です。
サブプロセスのプロファイリング: multiprocessingを使用するアプリケーションなどで、子プロセスの情報も合わせてプロファイルできます。
クロスプラットフォーム: Linux, macOS, Windows, FreeBSDで動作します。
幅広いPythonバージョン対応: CPython 2.3-2.7 および 3.3-3.13 まで、多くのバージョンに対応しています。

他のプロファイラとの違い

Python標準の `cProfile` や `profile` は決定論的プロファイラであり、すべての関数呼び出しを計測します。これは詳細な情報を提供しますが、オーバーヘッドが大きくなる傾向があり、特に本番環境での使用は難しい場合があります。また、実行中のプロセスへのアタッチはできません。

`line_profiler` は行単位での実行時間を計測できますが、コードにデコレータを追加する必要があります。

`py-spy` はこれらのツールの欠点を補い、特に本番環境での低オーバーヘッドなプロファイリングや、実行中プロセスへのアタッチ、フレームグラフによる可視化といった点で優位性を持っています。ただし、`py-spy` はCPUプロファイリングに特化しており、メモリプロファイリング機能は持っていません。メモリリークなどを調査したい場合は、`memory_profiler`などの別のツールと組み合わせる必要があります。

Tip: `py-spy` はサンプリングプロファイラであるため、非常に短時間で実行される関数や、呼び出し頻度が低い関数は、サンプリングのタイミングによっては捉えきれない可能性があります。しかし、ほとんどのパフォーマンスボトルネックは、頻繁に呼び出されるか、実行時間が長い関数に起因するため、実用上は大きな問題にならないことが多いです。

インストール

`py-spy` のインストールは非常に簡単です。いくつかの方法があります。

pipを使用する (推奨)

多くの環境では、`pip` を使って簡単にインストールできます。

pip install py-spy

バイナリを直接ダウンロードする

GitHubのリリースページから、お使いのOSとアーキテクチャに対応したビルド済みバイナリをダウンロードして利用することもできます。wheelファイル (.whl) をダウンロードした場合は、`unzip` コマンドなどで展開すると実行ファイル (`py-spy`) が含まれています。

Docker環境での利用

Dockerコンテナ内で実行されているPythonプロセスをプロファイルする場合、コンテナ内に `py-spy` をインストールするか、ホストOSにインストールした `py-spy` を使用します。ホストOSからコンテナ内のプロセスをプロファイルする場合、適切な権限 (e.g., `–cap-add SYS_PTRACE` や `–pid=host`) が必要になることがあります。

実行権限について

`py-spy` はターゲットとなるPythonプロセスのメモリを読み取る必要があるため、通常はroot権限 (sudo) が必要です。ただし、以下の場合はroot権限なしで実行できることがあります。

`py-spy` 自身がプロファイル対象のPythonプロセスを起動する場合 (例: `py-spy record — python my_script.py`)
Linuxで `ptrace_scope` の設定が緩和されている場合 (`echo 0 | sudo tee /proc/sys/kernel/yama/ptrace_scope`)。ただし、セキュリティリスクを伴うため注意が必要です。

多くの場合、既存のプロセスにアタッチするには `sudo py-spy …` のように実行する必要があります。

基本的な使い方

`py-spy` には主に3つのサブコマンドがあります: `top`, `record`, `dump`。

ターゲットとなるPythonプロセスは、プロセスID (PID) で指定するか、`py-spy` にPythonスクリプトを実行させる形で指定します。PIDを調べるには `ps aux | grep python` や `pgrep python` などのコマンドを使います。

`py-spy top`: リアルタイムなパフォーマンス表示

`top` コマンドは、Unixの `top` コマンドのように、現在どの関数が最もCPU時間を消費しているかをリアルタイムで表示します。実行中のプロセスの概要を素早く掴むのに便利です。

# PIDを指定して実行中のプロセスを監視
sudo py-spy top --pid <プロセスID>
# Pythonスクリプトを指定して実行・監視
sudo py-spy top -- python my_script.py arg1 arg2

実行すると、以下のような形式で情報が更新され続けます。

py-spy> Sampling process 100 times a second. Press Control-C to exit.
Total Samples 1311 GIL: 68.65%, Active: 99.85%, Threads: 1 %Own %Total OwnTime TotalTime Function (filename:lineno) 19.83% 99.85% 0.260s 1.308s busy_function (my_script.py:15) 0.08% 99.92% 0.001s 1.310s main (my_script.py:25) 0.00% 99.92% 0.000s 1.310s <module> (my_script.py:28) 0.00% 0.00% 0.000s 0.000s <module> (<string>:1) ...

出力の見方:

%Own: その関数自体が消費したCPU時間の割合 (直接的な処理時間)。
%Total: その関数およびその関数から呼び出された関数全体が消費したCPU時間の割合 (累積的な処理時間)。
OwnTime: その関数自体が消費したCPU時間の合計 (秒)。
TotalTime: その関数およびその関数から呼び出された関数全体が消費したCPU時間の合計 (秒)。
Function (filename:lineno): 関数名、ファイル名、行番号。
GIL: GILを保持していたサンプルの割合。
Active: アイドル状態でないスレッドがあったサンプルの割合。
Threads: 検出されたスレッド数。

`top` コマンドは、現在の状況を把握するには便利ですが、詳細な分析や後での確認には次の `record` コマンドが適しています。

`py-spy record`: プロファイル結果をファイルに記録

`record` コマンドは、プロファイル結果を指定したファイル形式で保存します。最もよく使われるのは、インタラクティブなフレームグラフ (Flame Graph) を生成するSVG形式です。

# PIDを指定してプロファイルし、profile.svgに保存
sudo py-spy record -o profile.svg --pid <プロセスID>
# Pythonスクリプトを実行し、120秒間プロファイルしてprofile.svgに保存
sudo py-spy record -o profile.svg --duration 120 -- python my_script.py
# ネイティブコードも含めてプロファイル
sudo py-spy record -o native_profile.svg --native --pid <プロセスID>
# GILを保持しているスレッドのみプロファイル
sudo py-spy record -o gil_profile.svg --gil --pid <プロセスID>
# Speedscope形式 (.json) で保存
sudo py-spy record -o profile.speedscope.json --format speedscope --pid <プロセスID>

フレームグラフ (SVG) の見方:

生成されたSVGファイルをWebブラウザで開くと、フレームグラフが表示されます。

横軸: 全サンプルに対する割合を表します。幅が広いほど、その関数（およびその呼び出し先）がCPU時間を多く消費していることを示します。
縦軸: コールスタックの深さを表します。下にある関数が上にある関数を呼び出しています。
色: 通常、色はランダムに割り当てられ、特定の意味はありません（関数名を区別しやすくするため）。
インタラクション: 各ブロック（関数）にマウスカーソルを合わせると詳細情報が表示され、クリックするとその部分を拡大表示できます。

フレームグラフを見ることで、「どの関数呼び出しの経路（スタックトレース）が最もCPU時間を消費しているか」が一目でわかります。頂上が平坦で幅が広い関数が、直接的なボトルネックとなっている可能性が高いです。

`py-spy dump`: プロセス状態のスナップショット取得

`dump` コマンドは、その瞬間の各スレッドのコールスタック情報を標準出力に表示します。プログラムがハングアップしている場合など、特定の瞬間の状態を確認したい場合に役立ちます。

# PIDを指定してコールスタックをダンプ
sudo py-spy dump --pid <プロセスID>
# ローカル変数も表示
sudo py-spy dump --pid <プロセスID> --locals

出力は各スレッドごとにコールスタックが表示されます。`–locals` オプションを付けると、各スタックフレームにおけるローカル変数の値も表示されるため、デバッグに役立つことがあります。

Process ID: 12345
Python Version: 3.9.7
Timestamp: 1678886400.123456
Thread 140737354186496 (idle): --- Native --- --- Python --- _wait_for_tstate_lock (internal.py:111) wait (_locks.py:222) acquire (threading.py:101) _wait_once (_monitor.py:99) wait (_monitor.py:155) _monitor_thread (_internal.py:66) _bootstrap_inner (threading.py:1050) _bootstrap (threading.py:1008)
Thread 140737345793792 (active): --- Python --- busy_loop (my_script.py:10) locals: x = 99999 main (my_script.py:26) <module> (my_script.py:28)

主要なコマンドラインオプション

`py-spy` の各サブコマンドには、動作をカスタマイズするための多くのオプションがあります。

オプション	説明	対象コマンド
`-p, --pid <pid>`	プロファイル対象のプロセスID	all
`[python_program]...`	実行・プロファイルするPythonコマンドライン	record, top
`-o, --output <filename>`	出力ファイル名 (record)	record
`-f, --format <format>`	出力フォーマット (`flamegraph`, `speedscope`, `raw`) (デフォルト: flamegraph)	record
`-d, --duration <seconds>`	プロファイル記録時間 (秒) (デフォルト: プロセス終了まで)	record
`-r, --rate <hz>`	サンプリングレート (サンプル数/秒) (デフォルト: 100)	record, top
`--native`	ネイティブ拡張 (C/C++/Cython) のコードもプロファイルする	all
`--gil`	GIL (Global Interpreter Lock) を保持しているスレッドのみをサンプルする	record, top
`--subprocesses`	子プロセスもプロファイル対象に含める	record, top
`--idle`	アイドル状態のスレッドも表示する	record, top
`--nonblocking`	ターゲットプロセスを停止させずにサンプリングする (精度が低下する可能性あり)	all
`--locals`	各スタックフレームのローカル変数を表示する	dump
`--full-filenames`	ファイル名をフルパスで表示する	all
`-t, --threads`	フレームグラフにスレッドIDを表示する	record

より詳細なオプションについては、`py-spy [subcommand] –help` で確認できます。

高度な機能とユースケース

GIL (Global Interpreter Lock) の可視化と分析

CPython の GIL は、一度に1つのスレッドしか Python バイトコードを実行できないようにする排他ロックです。CPUバウンドな処理を複数のスレッドで行おうとすると、GIL の競合が発生し、期待したようなパフォーマンス向上が得られないことがあります。

`py-spy` の `–gil` オプションを使うと、GIL を保持しているスレッドのみをサンプリングできます。`py-spy top –gil –pid ` を実行すると、GILの競合がどの程度発生しているか、どのスレッドが主にGILを保持しているかを確認できます。`record` コマンドと組み合わせれば、GIL競合がパフォーマンスに与える影響をフレームグラフで視覚化できます。

# GILを保持しているスレッドのみをリアルタイム表示
sudo py-spy top --gil --pid <プロセスID>
# GILを保持しているスレッドのみを記録
sudo py-spy record --gil -o gil_profile.svg --pid <プロセスID>

フレームグラフでGILを保持している時間が長い処理パスが見つかれば、そこがマルチスレッド性能のボトルネックになっている可能性があります。対策としては、GILを解放するネイティブ拡張を利用する、`multiprocessing` を使ってプロセスベースの並列処理に切り替える、非同期I/O (asyncio) を活用するなどが考えられます。

ネイティブコード (C拡張など) のプロファイリング

NumPy, Pandas, Scikit-learn などの科学技術計算ライブラリや、Cython で高速化されたモジュール、あるいは自作の C/C++ 拡張など、Python コードから呼び出されるネイティブコードがパフォーマンスの鍵を握ることも少なくありません。

`py-spy` の `–native` オプションを使うと、Python のコールスタックだけでなく、ネイティブコードのコールスタックも合わせてプロファイルできます (現在 x86_64 Linux および Windows でサポート)。これにより、Python コードから呼び出されたネイティブ関数の中で、具体的にどの処理に時間がかかっているのかを特定できます。

# ネイティブコードも含めてプロファイル結果を記録
sudo py-spy record --native -o native_profile.svg --pid <プロセスID>
# ネイティブコードも含めてリアルタイム表示
sudo py-spy top --native --pid <プロセスID>

注意: ネイティブコードのプロファイリングで詳細な情報 (関数名や行番号) を得るには、対象のネイティブライブラリがデバッグシンボル付きでコンパイルされている必要があります。また、Cython コードの場合は、生成された C/C++ ファイルが必要になることがあります。

サブプロセスを含めたプロファイリング

`multiprocessing` モジュールや `gunicorn` のワーカープロセスのように、親プロセスから子プロセスが生成されるアプリケーションの場合、`–subprocesses` フラグを使用すると、親プロセスだけでなく、生成された子プロセスも自動的に検知し、プロファイリング対象に含めることができます。

# 親プロセスと全ての子プロセスをプロファイル
sudo py-spy record --subprocesses -o multi_process_profile.svg -- python main_app.py

フレームグラフには、各サンプルがどのプロセス (PIDとコマンドライン) から取得されたかの情報が含まれ、プロセス間の親子関係も表現されます。これにより、マルチプロセスアプリケーション全体のパフォーマンス分析が可能になります。

非ブロッキングモード (`–nonblocking`)

通常 `py-spy` は、サンプリングの瞬間にターゲットプロセスを非常に短時間停止させます。ほとんどの場合、この影響は無視できるほど小さいですが、ミリ秒単位のリアルタイム性が要求されるような非常にクリティカルなシステムでは、このわずかな停止も避けたい場合があります。

`–nonblocking` オプションを使用すると、ターゲットプロセスを停止させずにメモリの読み取りを試みます。これにより、ターゲットプロセスへの影響を完全にゼロにできます。

# プロセスを停止させずにプロファイル (精度低下の可能性あり)
sudo py-spy record --nonblocking -o nonblocking_profile.svg --pid <プロセスID>

警告: 非ブロッキングモードでは、メモリ読み取りがアトミックに行われないため、サンプリング中にプロセス状態が変化し、不正確な、あるいは意味不明なコールスタックが記録される可能性があります。特にPython (CPython) は、Ruby (CRuby) などと比較して、非ブロッキングモードでのプロファイル結果が不正確になりやすい内部構造を持っています。基本的には、このオプションは最後の手段として、そのリスクを理解した上で使用することが推奨されます。多くの場合、デフォルトのブロッキングモードでもオーバーヘッドは十分に低いです。

実践的な活用例

Webアプリケーション (Flask/Djangoなど) のボトルネック特定: 特定のリクエスト処理が遅い場合、そのリクエストを発生させながら `py-spy record` を実行し、フレームグラフで処理時間の長い箇所を特定します。データベースクエリ、テンプレートレンダリング、外部API呼び出しなどがボトルネックになりがちです。`–subprocesses` は Gunicorn などを使う場合に有効です。
データ処理バッチの最適化: 大量のデータを処理するバッチスクリプトの実行中に `py-spy record` を実行し、どのデータ処理ステップやライブラリ呼び出しに時間がかかっているかを分析します。NumPy や Pandas を使う場合は `–native` が役立ちます。
長時間実行されるデーモンプロセスの監視: バックグラウンドで動作し続けるデーモンプロセスが、時折CPU使用率が高騰するような場合、`py-spy top` でリアルタイムに状況を監視したり、問題発生時に `py-spy dump` でスタックトレースを取得したりします。定期的に `py-spy record` を実行して傾向を掴むのも有効です。

注意点とTips

実行権限: 前述の通り、多くの場合 `sudo` が必要です。権限がないとプロセスにアタッチできません。
パフォーマンスへの影響: 低オーバーヘッドとはいえ、ゼロではありません。サンプリングレート (`-r`) を上げすぎると影響が大きくなる可能性があります。デフォルトの100Hzは多くの場合、良いバランスです。
サンプリングの限界: 非常に短い関数や低頻度の呼び出しは捉えられないことがあります。また、I/O待ちなどCPUを使っていない時間は基本的にプロファイルされません (`–idle` オプションでアイドルスレッドも表示可能ですが、根本的な原因特定には繋がりにくいです)。
仮想環境: `py-spy` はシステム全体にインストールされていれば、仮想環境内のPythonプロセスもプロファイルできます。仮想環境内にインストールすることも可能です。
デバッグシンボル: ネイティブコードを詳細にプロファイリングするにはデバッグシンボルが必要です。Pythonインタプリタ自体もデバッグシンボル付きでビルドされていると、より詳細な情報が得られる場合があります。
フレームグラフの解釈: フレームグラフは強力ですが、解釈には慣れが必要です。幅が広いだけでなく、なぜその関数が頻繁に/長時間呼び出されているのか、呼び出し元のコンテキストを理解することが重要です。
メモリプロファイリングは不可: `py-spy` はCPUプロファイラです。メモリ使用量やリークを調査するには `memory_profiler`, `Pympler`, `tracemalloc` などのツールが必要です。
問題発生時に記録を開始する: 特に `record` を使う場合、常にプロファイリングしておくのではなく、パフォーマンス低下やハングアップなどの問題が発生しているタイミングで記録を開始すると、問題箇所が特定しやすくなります。
比較する: 最適化前と最適化後で `py-spy record` を実行し、フレームグラフを比較することで、改善効果を定量的に確認できます。

トラブルシューティング

“Permission Denied” / “Operation not permitted”: `sudo` を付けて実行してみてください。
プロセスが見つからない: PIDが正しいか、プロセスが実行中か確認してください。Dockerコンテナ内の場合は、ホストOSから見えるPIDが異なる場合があります。
ネイティブプロファイルで関数名が出ない: デバッグシンボルがない可能性があります。ライブラリをデバッグシンボル付きで再コンパイルするか、配布元が提供しているか確認してください。
フレームグラフが空/期待通りでない: サンプリング期間が短すぎる、または対象プロセスがCPUをほとんど使用していない可能性があります。`–duration` を長くする、CPU負荷がかかる操作を行うなどを試してください。`–idle` オプションも確認してみてください。

まとめ

`py-spy` は、Pythonアプリケーションのパフォーマンス分析において非常に強力なツールです。その主な利点は以下の通りです。

低オーバーヘッドで本番環境にも適用しやすい。
実行中のプロセスにアタッチ可能で、再起動やコード変更が不要。
フレームグラフによる直感的なボトルネック特定。
GILやネイティブ拡張、サブプロセスのプロファイリングなど、高度な機能。

もちろん、`cProfile` や `line_profiler`、メモリプロファイラなど、他のツールと組み合わせて使うことで、より多角的な分析が可能になります。

Pythonアプリケーションのパフォーマンスに悩んだときは、ぜひ `py-spy` を試してみてください。きっと問題解決の助けになるはずです！