はじめに
「価値関数」という言葉を聞いたことがありますか?この用語は、AIの一分野である強化学習と、人間の意思決定を研究する経済学(特にプロスペクト理論)という、異なる2つの分野で重要な概念として使われています。しかし、それぞれの分野で意味するところは少し異なります。
この記事では、初心者の方でも理解できるように、それぞれの「価値関数」が何であり、どのように使われるのかを、具体例を交えながら分かりやすく解説します。
強化学習における価値関数
強化学習は、AIエージェント(学習する主体)が、試行錯誤を通じて最適な行動を学んでいく手法です。例えば、ロボットが迷路のゴールを目指したり、ゲームキャラクターがハイスコアを目指したりする際に使われます。
この強化学習において価値関数は、「ある状況(状態)の良さ」や「ある状況で特定の行動をとることの良さ」を数値で表すものです。この「良さ」とは、将来的に得られる報酬(リワード)の合計の期待値を指します。エージェントは、この価値関数が最大になるような行動を選ぶことで、目標達成を目指します。
価値関数には、主に2つの種類があります。
1. 状態価値関数 (State-Value Function) : V(s)
状態価値関数は、ある状態 s の価値を表します。つまり、「その状態にいると、将来どれくらいの報酬が期待できるか」を示します。
例えば、迷路を解くAIを考えてみましょう。ゴールに近いマス(状態)は、そこからゴールにたどり着きやすいため価値が高くなります。逆に、行き止まりのマスは価値が低くなります。状態価値関数 V(s) は、各マス(状態s)の「良さ」を数値化したものと言えます。
2. 行動価値関数 (Action-Value Function) : Q(s, a)
行動価値関数は、ある状態 s で特定の行動 a をとった場合の価値を表します。これは「Q関数(Q-function)」とも呼ばれ、特にQ学習という手法で中心的な役割を果たします。
再び迷路の例で考えると、あるマス(状態s)にいるとき、「上」「下」「左」「右」のいずれかの行動(a)をとれます。行動価値関数 Q(s, a) は、「このマスで右に進んだら、将来どれくらいの報酬が期待できるか」といったように、状態と行動の組み合わせに対する価値を評価します。
エージェントは、現在の状態で最も行動価値が高い行動を選ぶことで、最適なルートを見つけ出そうとします。
経済学(プロスペクト理論)における価値関数
一方、経済学の分野、特にプロスペクト理論における価値関数は、人間がどのように「価値」を感じるかをモデル化したものです。この理論は、心理学者のダニエル・カーネマンとエイモス・トベルスキーによって1979年に提唱されました。カーネマンはこの功績により2002年にノーベル経済学賞を受賞しています。
プロスペクト理論の価値関数は、人間が利益や損失をどのように主観的に評価するかを示しており、以下の大きな特徴があります。
1. 参照点依存性
人は絶対的な金額ではなく、ある基準点(参照点)からの変化として利得や損失を認識します。例えば、資産が100万円の人が105万円になる喜びと、資産が1億円の人が1億5万円になる喜びは、同じ「5万円の増加」でも感じ方が異なります。
2. 損失回避性
これが最も重要な特徴です。人は、同じ金額であれば、利益を得る喜びよりも損失を被る痛みの方を大きく感じる傾向があります。例えば、「1万円もらう喜び」よりも「1万円失う悲しみ」の方が、心理的なインパクトが2倍以上大きいとされています。
3. 感応度逓減性
利得や損失の額が大きくなるほど、その変化に対する感度(喜びや悲しみの度合い)は鈍くなっていきます。例えば、「0円が1万円になる喜び」と「100万円が101万円になる喜び」では、前者のほうが大きく感じられます。これは損失側でも同様で、「0円が-1万円になる悲しみ」は、「-100万円が-101万円になる悲しみ」よりも大きく感じられます。
これらの特徴により、プロスペクト理論の価値関数は、原点を中心にS字型を描くグラフとして表現されます。
2つの価値関数の違いと共通点
これら2つの「価値関数」は、名前は同じですが、異なる概念を扱っています。その違いを以下の表にまとめました。
項目 | 強化学習の価値関数 | プロスペクト理論の価値関数 |
---|---|---|
目的 | AIエージェントが最適な行動を決定するため | 人間の不合理な意思決定のメカニズムを説明するため |
評価対象 | 将来得られる「客観的な」報酬の期待値 | 利得や損失に対する「主観的な」満足度や不満度 |
使われ方 | アルゴリズムによって計算・更新され、行動選択の指針となる | 人間の行動パターンを分析・予測するための理論モデル |
関数の形 | 問題設定による(必ずしもS字ではない) | 参照点を中心としたS字型のカーブ |
一方で、両者には「価値」という目に見えないものを定量的に評価し、意思決定や行動の分析に役立てようとする点で共通していると言えるでしょう。
まとめ
この記事では、「価値関数」という用語が、強化学習と経済学の2つの文脈でどのように使われているかを解説しました。
強化学習における価値関数は、AIが最適な行動を見つけるための「羅針盤」のような役割を果たします。一方、経済学における価値関数は、人間が時に不合理に見える選択をしてしまう心理を解き明かすための「鍵」となります。
同じ名前でも分野が異なれば意味も変わる、という良い例です。この知識が、AIや経済のニュースに触れる際の理解を深める一助となれば幸いです。