はじめに：活性化関数って何？

ニューラルネットワークの学習ステップへようこそ！今回は、ネットワークの学習能力を左右する重要な要素、「活性化関数」について学びます。特に代表的な「ReLU」「Tanh」「Sigmoid」の3つに焦点を当て、それぞれの特徴と選び方を解説します。

活性化関数は、ニューロン（神経細胞のようなもの）が受け取った入力信号を、どのように「活性化」させて次のニューロンへ伝えるかを決める関数です。もし活性化関数がなければ、ニューラルネットワークは単純な線形変換の繰り返しになってしまい、複雑なパターンを学習することができません。活性化関数が非線形な変換を行うことで、ネットワークはより表現力豊かになり、複雑な問題に取り組めるようになります。

代表的な活性化関数を見てみよう！

ここでは、特によく使われる3つの活性化関数、Sigmoid、Tanh、ReLUについて、それぞれの特徴を見ていきましょう。

1. Sigmoid（シグモイド）関数

形状: 滑らかな「S」字カーブを描きます。
出力範囲: 0 から 1 の間。確率として解釈しやすいのが特徴です。
特徴:
- 古くから使われている代表的な活性化関数です。
- 二値分類問題（答えがYes/No、0/1など2択の問題）の出力層でよく使われます。
- 入力が大きすぎたり小さすぎたりすると、勾配（変化の度合い）が非常に小さくなってしまう「勾配消失問題」を起こしやすいという欠点があります。これにより、深いネットワークでの学習が進みにくくなることがあります。
数式: f(x) = 1 / (1 + exp(-x))

2. Tanh（ハイパボリックタンジェント）関数

形状: Sigmoid関数に似た「S」字カーブですが、出力範囲が異なります。
出力範囲: -1 から 1 の間。出力が0を中心としている（Zero-centered）のが特徴です。
特徴:
- Sigmoid関数よりも勾配消失問題が起こりにくいとされていますが、完全には解決されていません。
- 出力が0中心であるため、学習が効率的に進むことがあります。中間層で使われることがあります。
- Sigmoidと同様に、入力の絶対値が大きいと勾配が小さくなる問題があります。
- 再帰型ニューラルネットワーク（RNN）で使われることもあります。
数式: f(x) = (exp(x) - exp(-x)) / (exp(x) + exp(-x))

3. ReLU（Rectified Linear Unit：正規化線形ユニット）関数

形状: 入力が0以下なら出力は0、入力が0より大きければそのまま出力、というシンプルな形です。折れ線グラフのようなイメージ。
出力範囲: 0 以上。
特徴:
- 計算が非常に高速です。
- 勾配消失問題を大幅に緩和できるため、深いネットワークの学習に適しています。
- 現在、多くの中間層で標準的に使われている活性化関数です。
- ただし、入力が負の場合、勾配が常に0になってしまい、そのニューロンが学習しなくなる「Dying ReLU」という問題が発生する可能性があります。
数式: f(x) = max(0, x)

どうやって選べばいいの？選ぶ際のポイント

どの活性化関数を使うかは、ネットワークの性能に大きく影響します。基本的な選び方のガイドラインを見てみましょう。

基本的な考え方

中間層（隠れ層）: まずはReLUを試してみるのが一般的です。計算効率が良く、多くの場合で良好な性能を発揮します。もしDying ReLUが問題になる場合は、Leaky ReLUなどの派生形を検討することもあります。Tanhも選択肢ですが、Sigmoidは勾配消失問題のため、中間層での使用は避けられる傾向にあります。
出力層: 解きたい問題の種類によって選びます。
- 二値分類（2つのクラスに分ける問題）: Sigmoid関数がよく使われます。出力を0から1の確率として解釈できます。
- 多クラス分類（3つ以上のクラスに分ける問題）: Softmax関数（今回は詳しく触れませんが、複数の出力の合計が1になる関数）が一般的に使われます。
- 回帰（数値を予測する問題）: 活性化関数を使わない（恒等関数を使う）ことが多いです。出力値に制限を持たせないためです。

特徴の比較表

特徴	Sigmoid	Tanh	ReLU
出力範囲	0 ~ 1	-1 ~ 1	0 ~ ∞
勾配消失問題	起こりやすい	起こる可能性がある	起こりにくい
計算コスト	比較的高い (exp計算)	比較的高い (exp計算)	非常に低い (比較のみ)
ゼロ中心出力	No	Yes	No
主な用途	二値分類の出力層	中間層 (RNNなど)	中間層 (主流)
注意点	勾配消失	勾配消失	Dying ReLU

ポイント: 活性化関数の選択に絶対的な正解はありません。まずはReLUから試し、モデルの性能を見ながら他の関数や派生形（Leaky ReLU, ELUなど）を試していくのが良いアプローチです。実験と評価を繰り返しましょう！

まとめ

今回は、ニューラルネットワークの重要な構成要素である活性化関数、特にSigmoid、Tanh、ReLUについて学びました。

Sigmoid: 0~1の出力。二値分類の出力層向け。勾配消失に注意。
Tanh: -1~1の出力。ゼロ中心。中間層やRNNで使われるが、勾配消失の可能性あり。
ReLU: 0以上の出力。計算が速く、勾配消失しにくい。現在の中間層の主流。Dying ReLUに注意。

活性化関数は、ニューラルネットワークが複雑なデータを学習するための鍵となります。それぞれの関数の特性を理解し、問題設定やネットワークの構造に合わせて適切に選択することが、モデルの性能向上につながります。

次のステップでは、損失関数について学んでいきましょう！

[機械学習のはじめ方] Part32: 活性化関数の選び方（ReLU, Tanh, Sigmoid）

はじめに：活性化関数って何？

代表的な活性化関数を見てみよう！

1. Sigmoid（シグモイド）関数

2. Tanh（ハイパボリックタンジェント）関数

3. ReLU（Rectified Linear Unit：正規化線形ユニット）関数

どうやって選べばいいの？選ぶ際のポイント

基本的な考え方

特徴の比較表

まとめ

コメントを残すコメントをキャンセル

はじめに：活性化関数って何？

代表的な活性化関数を見てみよう！

1. Sigmoid（シグモイド）関数

2. Tanh（ハイパボリックタンジェント）関数

3. ReLU（Rectified Linear Unit：正規化線形ユニット）関数

どうやって選べばいいの？ 選ぶ際のポイント

基本的な考え方

特徴の比較表

まとめ

コメントを残す コメントをキャンセル

どうやって選べばいいの？選ぶ際のポイント

コメントを残すコメントをキャンセル