» www.Giftbox.Az - Bir birindən gözəl hədiyyə satışı
ウィキペディアランダム
毎日カテゴリ
共有: WhatsappFacebookTwitterVK

強化学習

強化学習(きょうかがくしゅう、: reinforcement learningRL)は、ある環境内における知的エージェントが、現在の状態を観測し、得られる(累積報酬)(英語版)を最大化するために、どのような(行動)(英語版)をとるべきかを決定する機械学習の一分野である。強化学習は、教師あり学習教師なし学習と並んで、3つの基本的な機械学習パラダイムの一つである。

強化学習が教師あり学習と異なる点は、ラベル付きの入力/出力の組を提示する必要がなく、最適でない行動を明示的に修正する必要もない。その代わり、未知の領域の探索と、現在の知識の搾取の間のバランスを見つけることに重点が置かれる[1]

この文脈の強化学習アルゴリズムの多くは動的計画法を使用するため、この環境は通常マルコフ決定過程(MDP)として定式化される[2]。古典的な動的計画法と強化学習アルゴリズムとの主な違いは、後者はMDPの正確な数学的モデルの知識を必要とせず、正確な方法では実行不可能な大規模MDPを対象にできることである。代表的なアルゴリズムとしてTD学習Q学習が知られている。

導入

 
強化学習シナリオの典型的な構成: エージェントは環境内で行動をおこし、それは報酬や状態の表現に解釈され、エージェントにフィードバックされる。

強化学習はその一般性から、ゲーム理論制御理論オペレーションズ・リサーチ情報理論(シミュレーションに基づく最適化)(英語版)マルチエージェントシステム群知能統計学など、多くの分野で研究されている。オペレーションズ・リサーチや制御の文献では、強化学習は近似動的計画法(approximate dynamic programming)あるいはニューロダイナミック・プログラミング(neuro-dynamic programming)と呼ばれている。強化学習の問題は最適制御理論でも研究されており、主に最適解の存在と特徴づけや、その厳密な計算のためのアルゴリズムを対象するが、(特に環境の数学的モデルがない場合の)学習や近似への関心は高くない。また、経済学やゲーム理論では、限定合理性のもとで均衡がどのように生じるかを説明するために、強化学習が用いられることがある。

基本的な強化学習は、マルコフ決定過程(Markov decision process、MDP)としてモデル化される。

  • S:環境とエージェントの状態の集合
  • A:エージェントの行動の集合
  •  :行動   の下で状態   から状態   に遷移する確率(時間   において)
  •  :行動    から   に遷移した後の即時報酬(immediate reward)

強化学習の目標は、エージェントが、即時報酬から蓄積される報酬関数(reward function)または他のユーザ提供の強化信号を最大化するような、最適または最適に近い方策を学習することである。これは、動物心理学で起こっていると思われるプロセスに似ている。たとえば、生物の脳は、痛みや空腹などの信号を負の強化、喜びや食物摂取を正の強化として解釈するように配線(hardwired)されている。いくつかの状況では、動物はこれらの報酬を最適化するような行動を学習することができる。このことは、動物は強化学習が可能であることを示唆している[3][4]

基本的な強化学習エージェント型人工知能(AI)は、離散的な時間ステップで環境と相互作用を行う。各時刻 t において、エージェントは現在の状態   と報酬   を受け取る。次に選択可能な行動の集合から、1つの行動   を選択し、それを環境に送信する。環境は新しい状態   に移動し、遷移(transition)   に関連付けられる報酬   が決定される。強化学習エージェントの目標は、期待累積報酬を最大化する方策  ,   を学習することである。

この問題をMDPとして定式化すると、エージェントが環境の現在の状態を直接観測することを仮定し、この場合、問題は完全観測可能(full observability)であると言う。しかし、エージェントが一部の状態しか観測できない場合、あるいは観測された状態がノイズによって破損している場合、エージェントは部分観測可能(partial observability)であると呼ばれ、正式にはその問題を部分観測可能マルコフ決定過程(partially observable Markov decision process)として定式化しなければならない。どちらの場合も、エージェントが使用できる行動の集合は制限を受ける可能性がある。たとえば、口座残高の状態が正である制約を課すことができる。状態の現在値が3で、状態遷移が値を4だけ減らそうと試みた場合、その遷移は許可されない。

あるエージェントの性能を、最適に行動している別のエージェントの性能と比較すると、その差から(リグレット)(英語版)(regret後悔)という概念が生じる。最適な行動に近づくために、たとえ即時報酬は負であっても、エージェントはその行動の長期的な結果(すなわち将来の収益の最大化)について考えなければならない。

したがって、強化学習は、長期的な報酬と短期的な報酬のトレードオフを伴う問題に特に適している。強化学習は、(ロボット制御)(英語版)[5]エレベーターのスケジューリング電気通信バックギャモンチェッカー[6]囲碁AlphaGo)など、さまざまな問題への応用に成功している。

強化学習を強力なものにしている2つの要素として、性能を最適化するためのサンプルの使用と、大規模な環境に対処するための関数近似の使用があげられる。この2つの重要な要素により、強化学習は次のような状況下で、大規模環境に適用することができる。

  • 環境のモデルはわかっているが、(解析解)(英語版)が得られない。
  • 環境のシミュレーションモデルだけが与えられている((シミュレーションに基づく最適化)(英語版)の対象[7])。
  • 環境に関する情報を収集する唯一の方法は、環境と対話することである。

これらの問題のうち、最初の2つは計画問題であり(何らかの形のモデルが利用可能であるため)、最後の1つは真の学習問題であると考えることができる。ただし、強化学習はどちらの計画問題も機械学習問題に変換する。

探索

探索(exploration)と搾取(exploitation)のトレードオフは、多腕バンディット問題や、Burnetas and Katehakis(1997)の有限状態空間MDPの研究を通じて、最も詳細に研究されてきた[8]

強化学習には巧妙な探索機構が不可欠であり、推定された確率分布を参照せず、ランダムに行動を選択すればその性能は低下する。(小規模な)有限MDPについては、比較的よく理解されている。しかし、状態数に応じてうまくスケールする(あるいは状態空間が無限の問題でも対応する)アルゴリズムがないため、単純な探索方法が最も実用的となる。

そのような方法の一つが  -貪欲法(イプシロンどんよくほう、 -greedy)で、  は探索と搾取の量を制御するパラメータである。確率   で搾取が選択され、エージェントは長期的に最も効果があると思われる行動を選択する(行動間の関係は無作為に解消される)。あるいは、確率   で探索が選択され、行動は無作為に選択される。通常、  は固定パラメータであるが、スケジュールに従ったり(エージェントが探索を徐々に少なくする)、またはヒューリスティック(経験則)に基づいて適応的に調整することもできる[9]

制御学習アルゴリズム

たとえ探索の問題を無視して、状態が観測可能であっても(以下は仮定)、過去の経験を使用して、どの行動がより高い累積報酬につながるかを見つけ出すという問題が残される。

最適性の基準

方策

エージェントの行動(action)の選択は、方策(policy)と呼ばれる写像としてモデル化することができる。

 
 

方策の写像は、状態   において行動   を選択する確率を与える[10]:61。決定論的な方策(全ての確率が 0 または 1)を考えても良い。

状態価値関数

状態価値関数(state-value function)   は、状態  、すなわち   から出発して、方策   に連続して従う場合の期待収益(expected return)と定義される。したがって、大まかに言えば、価値関数は、ある状態にあることが「どれくらい良いか」を推定するものである[10]:60

 

ここで、確率変数  収益return)を表し、報酬(reward)に割引率(discount-rate)  を乗じた将来の割引報酬の和として定義される。

 

ここで、  はステップ   における報酬であり、  は(割引率)である。割引率   は1未満に設定され、遠い未来の事象ほど重み付けは小さくなる。

アルゴリズムは、期待収益が最大になるような方策を見つける必要がある。MDPの理論から、一般性を損なうことなく、探索をいわゆる「定常方策」(stationary policies)の集合に限定できることが知られている。ある方策が返す行動分布が、(観察しているエージェントの履歴から)最後に訪れた状態にのみ依存する場合、その方策は「定常的」(stationary)である。探索はさらに決定論的な定常方策に限定されることがある。「決定論的定常方策」(deterministic stationary policy)は、現在の状態に基づいて「決定論的」に行動を選択する。このような方策は、状態の集合から行動の集合へのマッピングとして識別できるので、一般性を損なうことなく、これらの方策はこのようなマッピングと識別することができる。

総当たり法

総当たり法(brute force method、力まかせ探索)は、次の2つの段階を伴う。

  • 可能性のある各方策について、それに従った場合の収益をサンプリングする
  • 期待収益が最大の方策を選択する

この場合の問題の一つは、方策数が増大する、あるいは無限大になる可能性である。また、収益の分散が大きい場合、各方策の収益を正確に推定するために多くのサンプルが必要になることもある。

これらの問題は、何らかの構造を仮定し、ある方策から生成されたサンプルが他の方策の推定に影響を与えるようにすることで改善することができる。これを実現するための2つな主要な手法は、価値関数推定直接方策探索である。

価値関数法

価値関数法(value function methods)は、ある方策(通常は「現行」(on-policy、方策内)または「最適」(方策外、off-policy)のいずれか)に対する期待収益の推定値の集合を維持することにより、収益を最大化する方策を見つけ出そうとするものである。

これらの方法はマルコフ決定過程の理論に基づいており、最適性は前述したよりも強い意味で定義されている。方策は、どのような初期状態からでも最大の期待収益を達成する場合、最適であると呼ばれる(つまり、この定義において初期分布は何の役割も果たさない)。繰り返すが、最適方策は常に定常方策の中から見出すことができる。

最適性を正式に定義するために、方策   の価値を、

 

で定義する。ここで、  は初期状態   から   に従うことに伴う収益を表す。また、  が変更しうる場合、  の最大可能値として  を定義すると、

 

となる。

すべての状態において、これらの最適値を達成する方策を最適(optimal)と呼ぶ。この強い意味で最適な方策は、期待収益   を最大化するという意味でも「最適」であることは明らかである。ここで、  は初期状態の分布   からランダムにサンプリングした状態(したがって  )である。最適性を定義するには状態価値で十分だが、行動価値を定義しておくと有用である。状態  、行動  、方策   が与えられたとき、  の下での状態-行動ペア   の行動価値は、

 

で定義される。ここで   は、状態   で最初に行動   を取り、その後   に従っているときのランダム収益を表している。

MDPの理論では、  が最適方策であれば、  から各状態   で最も価値の高い行動を選択することで最適に行動する(最適行動を取る)とされている。このような最適方策( )の行動価値関数(action-value function)を最適行動価値関数(optimal action-value function)といい、一般に   と表わす。要約すると、最適行動価値関数を知っていれば、最適な行動方法を知ることができる。

MDPの完全な知識を前提とすると、最適な行動価値関数を計算するための2つの基本的な手法は、(価値反復法)と(方策反復法)である。どちらのアルゴリズムも、  に収束する一連の関数   ( ) を計算する。これらの関数を計算するには、状態空間全体に対する期待価値を計算する必要があるが、これは最小の(有限の)MDPを除いては非現実的である。強化学習法では、大きな状態行動空間上の価値関数を表現する必要性に対処するために、サンプルの平均化や関数近似の手法を使用して期待値を近似する。

モンテカルロ法

モンテカルロ法(Monte Carlo methods)は、方策反復法を模倣したアルゴリズムに使用することができる。方策反復法は、方策の評価(policy evaluation)と方策の改善(policy improvement)という2つの段階から構成される。モンテカルロ法は、方策評価段階で使用される。この段階での目標は、定常的で決定論的な方策   が与えられたとき、すべての状態-行動ペア   に対する関数値  (またはその適切な近似)を計算することである。ここでは簡単にするために、MDPは有限であり、行動価値を収容するのに十分なメモリがあり、問題は偶発的(: episodic)で、各出来事の後にランダムな初期状態から新しい出来事が始まると仮定する。そして、与えられた状態-行動ペア   の価値の推定値は、  からサンプリングされた収益を時間経過とともに平均化することによって計算することができる。十分な時間があれば、この手順により、行動価値関数   の正確な推定値   を構築することができる。これで、方策評価段階の説明を終了する。

方策改善段階では、  に関する貪欲な方策(greedy policy)を計算することにより次の方策を得る。状態   が与えられたとき、この新しい方策は   を最大化する一つの行動を返す。実際には、遅延評価によって、最大化行動の計算を必要なときまで先送りすることができる。

この手法の問題を次にあげる。

  1. 最適でない方策を評価するのに時間がかかりすぎる場合がある。
  2. サンプリングが非効率的に行われる(長い軌跡が、軌跡を開始した単一の状態-行動ペアの推定値を改善するだけである)
  3. 軌跡上の収益が高分散(high variance)である場合、収束が遅くなる。
  4. 偶発的問題(episodic problems)に対してのみ有効である。
  5. 小規模で有限なMDPでしか使えない。

以降の小節では、それぞれの問題についてさらに議論する。

時間差分法

最初の問題は、価値が収まる前に(一部または全ての状態で)手順が方策を変更できるようにすることによって対応できる。ただし収束を妨げて問題となる可能性もある。現在のほとんどのアルゴリズムではこれを行い、一般化方策反復(generalized policy iteration)という種類のアルゴリズムを作り出すことができる。多くのアクター・クリティック法(actor-critic methods)はこの範疇(はんちゅう)に属する。

2番目の問題は、軌跡がその中の任意の状態-行動ペアに関与できるようにすることで修正できる。これは3番目の問題にもある程度有効であるが、収益が高い分散を持つ場合により優れた解決策は、再帰的ベルマン方程式(recursive Bellman equation)に基づくサットンの(時間差分法)(英語版)(temporal difference methods、TD法)である[11][12]。TD法における計算法には、インクリメンタル法(各遷移後にメモリを変更し、遷移を破棄する)またはバッチ法(遷移をバッチ処理し、バッチに基づいて推定値を一回計算する)がある。最小二乗時間差法(least-squares temporal difference method)のようなバッチ法は[13]、サンプル内の情報をより有効に利用できる可能性があるが、インクリメンタル法は、バッチ法が計算量やメモリの複雑性の理由で実行不可能な場合に選択される唯一の方法となる。この2つの方法を組み合わせる手法もある。時間差分に基づく方法は、4番目の問題も克服している。

TDに特有のもう一つの問題は、再帰的なベルマン方程式への依存に起因している。ほとんどのTD法には、いわゆる   (ラムダ)パラメータ   があり、ベルマン方程式に依存しないモンテカルロ法と、ベルマン方程式に完全に依存する基本的なTD法の間を、連続的に補間することができる。これにより、この問題を効果的に緩和することができる。

関数近似法

5番目の課題を解決するために、関数近似法(function approximation methods)が提案されている。線形関数近似(linear function approximation)は、各状態-行動ペアに有限次元ベクトルを割り当てるマッピング   から始まる。そして、状態-行動ペア   の行動価値(action values)は、  の成分を何らかの重み   で線形結合することによって得られる。

 

その後、アルゴリズムは、各状態-行動ペアに関連する値ではなく、重みを調整する。ノンパラメトリック統計学の考え方に基づく方法(独自の特徴を構築することが見られる)が探究されている。

また、値の反復を出発点として、Q学習アルゴリズム(Q-learning algorithm)とその多くのバリエーションを作成することができる[14]。Qを表現するためにニューラルネットワークを使用するディープQ学習法を含め、確率的探索問題へのさまざまな応用ができる[15]

行動価値を用いる場合の問題は、競合する行動価値を高精度に推定する必要であることになる可能性があることで、収益にノイズが多い場合には取得するのが難しい場合があるが、この問題は時間差法によってある程度軽減される。いわゆる互換関数近似法(compatible function approximation method)を使用すると、一般性と効率性が損なわれる。

直接方策探索

別の方法として、方策空間(その何らかの部分集合)を直接探索する方法があり、この場合、問題は(確率的最適化)(英語版)の一つとなる。利用可能な2つの方法は、勾配に基づく方法と、勾配を用いない方法である。勾配に基づく手法(policy gradient methods、方策勾配法)は、有限次元(パラメータ)空間から方策空間へのマッピングから始まる。パラメータベクトル   が与えられたとき、  に関連する方策を   とする。評価関数を、

 

と定義すると、この関数は穏やかな条件下ではパラメータベクトル   の関数として微分可能になる。もし   の勾配がわかっていれば、勾配上昇(gradient ascent)を使うことができる。勾配の解析式が存在しないため、ノイズを含んだ推定値しか利用できない[16]。このような推定値はさまざまな方法で構築することができ、ウィリアムズのREINFORCE法((シミュレーションベース最適化)(英語版)の文献では尤度比法として知られている)のようなアルゴリズムで作成することができる[17]。方策探索法は、ロボット工学の文脈でも使用されている[18]。多くの方策探索法は、局所最適に陥ることがある(局所探索に基づいているため)。

勾配情報への依存を避けるために、多くの種類の方法がある。たとえば、シミュレーティドアニーリング(クロスエントロピー探索)(英語版)、または進化的計算の手法などがある。多くの勾配を用いない手法は、(理論的にも極限的にも)大域的な最適解に到達することができる。

ノイズの多いデータでは、方策の収束が遅くなることがある。こうしたことは、たとえば、軌跡が長くリターンの分散が大きい偶発的問題で起こる。このような場合、時間差分法に依存する価値関数に基づく手法が役立つ可能性がある。近年では、アクター・クリティック法(actor-critic methods)が提案され、さまざまな問題で良い結果を出している[19]

モデルベース・アルゴリズム

最後に、上記の方法はみな、初めにモデルを訓練するアルゴリズムと組み合わせることができる。たとえば、Dynaアルゴリズムは経験からモデルを訓練し、実際の遷移に加えて、よりモデル化された遷移を価値関数に与えることができる[20]。このような方法はノンパラメトリックモデルに拡張できる場合があり、たとえば、遷移を単純に保存して学習アルゴリズムに「再生」させるなどの方法がある[21]

モデルの使用には価値関数を更新する以外の方法もある[22]。たとえば、モデル予測制御 (en:英語版では、モデルを用いて挙動を直接更新する。

理論

ほとんどのアルゴリズムの漸近的挙動と有限標本挙動の両方がよく理解されている。(探索問題に対処する)優れたオンライン性能が証明されたアルゴリズムも知られている。

MDPの効率的な探索については、Burnetas and Katehakis(1997)で述べられている[8]。また、多くのアルゴリズムで有限時間性能の限界が見られるが、これらの限界はかなり緩いと予想されるため、相対的な価値と限界をより深く理解するために、さらなる研究が必要である。

インクリメンタルアルゴリズムについては、漸近的収束の問題が解決された[要説明]。時間差分に基づくアルゴリズムでは、従来よりも広い条件の下で収束するようになった(たとえば、任意の滑らかな関数近似と併用する場合)。

研究

研究テーマを次に列挙する。

  • アクター・クリティック法
  • 少ないパラメータでも多数の条件下で動作する適応的手法
  • ソフトウェアプロジェクトにおけるバグ検出
  • 継続的な学習[23]
  • ロジックベースフレームワークとの組み合わせ[24]
  • 大規模MDPでの探索
  • (人間のフィードバックからの強化学習)(英語版)[25]
  • スキル獲得における暗黙知と明示知の相互作用
  • 情報探索-好奇心型行動と、タスク依存型-目的指向型行動とを区別する(内発的動機付け (人工知能))(英語版)の大規模な経験的評価
  • 大きな(または連続的な)行動空間
  • モジュール型および階層型な強化学習[26]
  • マルチエージェント・分散型強化学習は、関心を集めて話題で、応用が拡大している[27]
  • 乗員主体の制御
  • コンピューティング資源の最適化[28][29][30]
  • 部分情報(predictive state representation、POMDP)。たとえば(予測的状態表現)(英語版)(PSR)を使用する。
  • 新規情報の最大化することに基づく報酬関数[31][32][33]
  • サンプルベースの計画(たとえばモンテカルロ木探索に基づく)
  • 証券取引[34]
  • 転位学習[35]
  • 脳内のドーパミンを利用した学習をモデル化したTD学習。黒質緻密部から大脳基底核へのドーパミン作動性投射は予測誤差である。
  • 価値関数と方策の探索方法

強化学習アルゴリズムの比較

アルゴリズム 説明 方策 行動空間 状態空間 演算
Monte Carlo 逐次訪問モンテカルロ法 いずれでも 離散 離散 サンプル平均
Q学習 状態-行動-報酬-状態 方策外 離散 離散 Q値
SARSA 状態-行動-報酬-状態-行動 方策内 離散 離散 Q値
Q学習(λ) 状態-行動-報酬-適格性トレースを含む状態 方策外 離散 離散 Q値
SARSA(λ) 状態-行動-報酬-状態-行動と適格性トレース 方策内 離散 離散 Q値
DQN ディープQネットワーク 方策外 離散 連続 Q値
DDPG ディープ決定論的方策勾配 方策外 連続 連続 Q値
A3C 非同期アドバンテージ・アクター・クリティック・アルゴリズム 方策内 連続 連続 価値
NAF 正規化アドバンテージ関数を使用したQ学習 方策外 連続 連続 価値
TRPO 信頼領域方策最適化 方策内 連続 連続 価値
(PRO)(英語版) 近位方策最適化 方策内 連続 連続 価値
TD3 ツイン遅延ディープ決定論方策勾配法 方策外 連続 連続 Q値
SAC ソフト・アクター・クリティック 方策外 連続 連続 価値

連想強化学習

連想強化学習タスク(associative reinforcement learning)は、確率的学習オートマトンタスクと教師あり学習パターン分類タスクの側面をあわせ持っている。連想強化学習タスクでは、学習システムは閉ループで環境と相互作用する[36]

深層強化学習

深層強化学習(deep reinforcement learning) (en:英語版は、ディープニューラルネットワークを使用し、状態空間を明示的に設計することなく、強化学習を拡張するものである[37]。Google DeepMindによってATARIゲームの強化学習が研究されたことで、深層強化学習やエンドツーエンド強化学習が注目されるようになった[38]

敵対的深層強化学習

敵対的深層強化学習(adversarial deep reinforcement learning)は、学習された方策の脆弱性(ぜいじゃくせい)に焦点を当てた強化学習の活発な研究分野である。この研究領域では、当初、強化学習方策がわずかな敵対的操作の影響を受けやすいことがいくつかの研究で示されていた[39][40][41]。これらの脆弱性を克服するためにいくつか方法が提案されているが、最新の研究では、これらの提案された解決策は、深層強化学習方策の現在の脆弱性を正確に表すには程遠いことが示された[42]

ファジィ強化学習

強化学習にファジィ推論を導入することで[43]、連続空間における(ファジィルール)(英語版)で状態-行動価値関数を近似することが可能になる。ファジィルールの IF - THEN 形式は、自然言語に近い形式で結果を表現するのに適している。ファジィルール補間によるファジィ強化学習(fuzzy reinforcement learning、FRL)への拡張により[44]、サイズが縮小されたスパース・ファジィ・ルールベースを使用して、基本ルール(最も重要な状態-行動価値)に重点を置くことができるようになった。

逆強化学習

逆強化学習(inverse reinforcement learning、IRL)では報酬関数が与えられない。その代わり、専門家が観察した行動から報酬関数を推測する。このアイディアは観察された行動を模倣することであり、多くの場合、最適または最適に近い行動となる[45]

安全な強化学習

安全な強化学習(safe reinforcement learning、SRL)とは、システムの訓練や配置の過程で、その合理的な性能を確保し安全制約を尊重することが重要な問題において、期待収益を最大化する方策を学習する過程と定義することができる[46]

参考項目

  • (時間差分学習)(英語版)
  • Q学習
  • State–action–reward–state–action(SARSA法)
  • (人間のフィードバックからの強化学習)(英語版)
  • (仮想プレイ)(英語版)
  • (学習分類子システム)(英語版)
  • 最適制御
  • (動的治療計画)(英語版)
  • (誤差駆動型学習)(英語版)
  • (マルチエージェント強化学習)(英語版)
  • マルチエージェントシステム
  • (分散型人工知能)(英語版)
  • (内発的動機付け (人工知能))(英語版)
  • 遺伝的アルゴリズム
  • (徒弟学習)(英語版)
  • (モデルフリー (強化学習))(英語版)

脚注

  1. ^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). “Reinforcement Learning: A Survey”. Journal of Artificial Intelligence Research 4: 237–285. arXiv:cs/9605103. doi:10.1613/jair.301. オリジナルの2001-11-20時点におけるアーカイブ。. http://webarchive.loc.gov/all/20011120234539/http://www.cs.washington.edu/research/jair/abstracts/kaelbling96a.html. 
  2. ^ van Otterlo, M.; Wiering, M. (2012). Reinforcement learning and markov decision processes. Adaptation, Learning, and Optimization. 12. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN (978-3-642-27644-6) 
  3. ^ Russell, Stuart J.; Norvig, Peter (2010). Artificial intelligence : a modern approach (Third ed.). Upper Saddle River, New Jersey. pp. 830, 831. ISBN (978-0-13-604259-4) 
  4. ^ Lee, Daeyeol; Seo, Hyojung; Jung, Min Whan (21 July 2012). “Neural Basis of Reinforcement Learning and Decision Making”. Annual Review of Neuroscience 35 (1): 287–308. doi:10.1146/annurev-neuro-062111-150512. PMC 3490621. PMID (22462543). https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3490621/. 
  5. ^ Xie, Zhaoming, et al. "ALLSTEPS: Curriculum‐driven Learning of Stepping Stone Skills." Computer Graphics Forum. Vol. 39. No. 8. 2020.
  6. ^ Sutton & Barto 1998, Chapter 11.
  7. ^ (Gosavi, Abhijit) (2003). Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement. Operations Research/Computer Science Interfaces Series. Springer. ISBN (978-1-4020-7454-7). https://www.springer.com/mathematics/applications/book/978-1-4020-7454-7 
  8. ^ a b Burnetas, Apostolos N.; Katehakis, Michael N. (1997), “Optimal adaptive policies for Markov Decision Processes”, Mathematics of Operations Research 22: 222–255, doi:10.1287/moor.22.1.222 
  9. ^ Tokic, Michel; Palm, Günther (2011), “Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax”, KI 2011: Advances in Artificial Intelligence, Lecture Notes in Computer Science, 7006, Springer, pp. 335–346, ISBN (978-3-642-24455-1), http://www.tokic.com/www/tokicm/publikationen/papers/KI2011.pdf 
  10. ^ a b “Reinforcement learning: An introduction”. 2023年5月12日閲覧。
  11. ^ (Sutton, Richard S.) (1984). Temporal Credit Assignment in Reinforcement Learning (PhD thesis). University of Massachusetts, Amherst, MA.
  12. ^ Sutton & Barto 1998, §6. Temporal-Difference Learning.
  13. ^ Bradtke, Steven J.; Barto, Andrew G. (1996). “Learning to predict by the method of temporal differences”. Machine Learning 22: 33–57. doi:10.1023/A:1018056104778. 
  14. ^ (Watkins, Christopher J.C.H.) (1989). Learning from Delayed Rewards (PDF) (PhD thesis). King’s College, Cambridge, UK.
  15. ^ Matzliach, Barouch; Ben-Gal, Irad; Kagan, Evgeny (2022). “Detection of Static and Mobile Targets by an Autonomous Agent with Deep Q-Learning Abilities”. Entropy 24 (8): 1168. Bibcode: 2022Entrp..24.1168M. doi:10.3390/e24081168. PMC 9407070. PMID (36010832). https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9407070/. 
  16. ^ (Williams, Ronald J.) (1987). "A class of gradient-estimating algorithms for reinforcement learning in neural networks". Proceedings of the IEEE First International Conference on Neural Networks. (CiteSeerX(10.1.1.129.8871)
  17. ^ (Peters, Jan); (Vijayakumar, Sethu); (Schaal, Stefan) (2003). "Reinforcement Learning for Humanoid Robotics" (PDF). IEEE-RAS International Conference on Humanoid Robots.
  18. ^ Deisenroth, Marc Peter; Neumann, Gerhard; Peters, Jan (2013). A Survey on Policy Search for Robotics. Foundations and Trends in Robotics. 2. NOW Publishers. pp. 1–142. doi:10.1561/2300000021. hdl:(10044/1/12051). http://eprints.lincoln.ac.uk/28029/1/PolicySearchReview.pdf 
  19. ^ Juliani, Arthur (2016年12月17日). “Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)”. Medium. 2018年2月22日閲覧。
  20. ^ Sutton, Richard (1990). "Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming". Machine Learning: Proceedings of the Seventh International Workshop.
  21. ^ Lin, Long-Ji (1992). "Self-improving reactive agents based on reinforcement learning, planning and teaching" (PDF). Machine Learning volume 8. doi:10.1007/BF00992699。
  22. ^ van Hasselt, Hado; Hessel, Matteo; Aslanides, John (2019). "When to use parametric models in reinforcement learning?" (PDF). Advances in Neural Information Processing Systems 32.
  23. ^ “On the Use of Reinforcement Learning for Testing Game Mechanics : ACM - Computers in Entertainment” (英語). cie.acm.org. 2018年11月27日閲覧。
  24. ^ Riveret, Regis; Gao, Yang (2019). “A probabilistic argumentation framework for reinforcement learning agents” (英語). Autonomous Agents and Multi-Agent Systems 33 (1–2): 216–274. doi:10.1007/s10458-019-09404-2. 
  25. ^ Yamagata, Taku; McConville, Ryan; Santos-Rodriguez, Raul (16 November 2021). "Reinforcement Learning with Feedback from Multiple Humans with Diverse Skills". arXiv:(2111.08596) [(cs.LG)]。
  26. ^ Kulkarni, Tejas D.; Narasimhan, Karthik R.; Saeedi, Ardavan; Tenenbaum, Joshua B. (2016). “Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation”. Proceedings of the 30th International Conference on Neural Information Processing Systems. NIPS'16 (USA: Curran Associates Inc.): 3682–3690. arXiv:1604.06057. Bibcode: 2016arXiv160406057K. ISBN (978-1-5108-3881-9). http://dl.acm.org/citation.cfm?id=3157382.3157509. 
  27. ^ “Reinforcement Learning / Successes of Reinforcement Learning”. umichrl.pbworks.com. 2017年8月6日閲覧。
  28. ^ Quested, Tony. “Smartphones get smarter with Essex innovation”. Business Weekly. 2021年6月17日閲覧。
  29. ^ Dey, Somdip; Singh, Amit Kumar; Wang, Xiaohang; McDonald-Maier, Klaus (March 2020). “User Interaction Aware Reinforcement Learning for Power and Thermal Efficiency of CPU-GPU Mobile MPSoCs”. 2020 Design, Automation Test in Europe Conference Exhibition (DATE): 1728–1733. doi:10.23919/DATE48585.2020.9116294. ISBN (978-3-9819263-4-7). https://ieeexplore.ieee.org/document/9116294. 
  30. ^ Williams, Rhiannon (2020年7月21日). “Future smartphones 'will prolong their own battery life by monitoring owners' behaviour'” (英語). i. 2021年6月17日閲覧。
  31. ^ Kaplan, F.; Oudeyer, P. (2004). “Maximizing learning progress: an internal reward system for development”. In Iida, F.; Pfeifer, R.; Steels, L. et al.. Embodied Artificial Intelligence. Lecture Notes in Computer Science. 3139. Berlin; Heidelberg: Springer. pp. 259–270. doi:10.1007/978-3-540-27833-7_19. ISBN (978-3-540-22484-6) 
  32. ^ Klyubin, A.; Polani, D.; Nehaniv, C. (2008). “Keep your options open: an information-based driving principle for sensorimotor systems”. PLOS ONE 3 (12): e4018. Bibcode: 2008PLoSO...3.4018K. doi:10.1371/journal.pone.0004018. PMC 2607028. PMID (19107219). https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2607028/. 
  33. ^ Barto, A. G. (2013). “Intrinsic motivation and reinforcement learning”. Intrinsically Motivated Learning in Natural and Artificial Systems. Berlin; Heidelberg: Springer. pp. 17–47. https://people.cs.umass.edu/~barto/IMCleVer-chapter-totypeset2.pdf 
  34. ^ Dabérius, Kevin; Granat, Elvin; Karlsson, Patrik (2020). “Deep Execution - Value and Policy Based Reinforcement Learning for Trading and Beating Market Benchmarks”. The Journal of Machine Learning in Finance 1. SSRN 3374766. 
  35. ^ George Karimpanal, Thommen; Bouffanais, Roland (2019). “Self-organizing maps for storage and transfer of knowledge in reinforcement learning” (英語). Adaptive Behavior 27 (2): 111–126. arXiv:1811.08318. doi:10.1177/1059712318818568. ISSN 1059-7123. 
  36. ^ Soucek, Branko (6 May 1992). Dynamic, Genetic and Chaotic Programming: The Sixth-Generation Computer Technology Series. John Wiley & Sons, Inc. p. 38. ISBN (0-471-55717-X) 
  37. ^ Francois-Lavet, Vincent (2018). “An Introduction to Deep Reinforcement Learning”. Foundations and Trends in Machine Learning 11 (3–4): 219–354. arXiv:1811.12560. Bibcode: 2018arXiv181112560F. doi:10.1561/2200000071. 
  38. ^ Mnih, Volodymyr (2015). “Human-level control through deep reinforcement learning”. Nature 518 (7540): 529–533. Bibcode: 2015Natur.518..529M. doi:10.1038/nature14236. PMID (25719670). https://www.semanticscholar.org/paper/e0e9a94c4a6ba219e768b4e59f72c18f0a22e23d. 
  39. ^ Goodfellow, Ian; Shlens, Jonathan; Szegedy, Christian (2015). “Explaining and Harnessing Adversarial Examples”. International Conference on Learning Representations. arXiv:1412.6572. 
  40. ^ Behzadan, Vahid; Munir, Arslan (2017). “Vulnerability of Deep Reinforcement Learning to Policy Induction Attacks”. International Conference on Machine Learning and Data Mining in Pattern Recognition. Lecture Notes in Computer Science 10358: 262–275. arXiv:1701.04143. doi:10.1007/978-3-319-62416-7_19. ISBN (978-3-319-62415-0). 
  41. ^ Pieter, Huang, Sandy Papernot, Nicolas Goodfellow, Ian Duan, Yan Abbeel (2017-02-07). Adversarial Attacks on Neural Network Policies. OCLC 1106256905. http://worldcat.org/oclc/1106256905 
  42. ^ Korkmaz, Ezgi (2022). “Deep Reinforcement Learning Policies Learn Shared Adversarial Features Across MDPs.”. Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22) 36 (7): 7229–7238. doi:10.1609/aaai.v36i7.20684. 
  43. ^ Berenji, H.R. (1994). “Fuzzy Q-learning: a new approach for fuzzy dynamic programming”. Proc. IEEE 3rd International Fuzzy Systems Conference (Orlando, FL, USA: IEEE): 486–491. doi:10.1109/FUZZY.1994.343737. ISBN (0-7803-1896-X). https://ieeexplore.ieee.org/document/343737. 
  44. ^ Vincze, David (2017). “Fuzzy rule interpolation and reinforcement learning”. 2017 IEEE 15th International Symposium on Applied Machine Intelligence and Informatics (SAMI). IEEE. pp. 173–178. doi:10.1109/SAMI.2017.7880298. ISBN (978-1-5090-5655-2). http://users.iit.uni-miskolc.hu/~vinczed/research/vinczed_sami2017_author_draft.pdf 
  45. ^ Ng, A. Y.; Russell, S. J. (2000). “Algorithms for Inverse Reinforcement Learning”. Proceeding ICML '00 Proceedings of the Seventeenth International Conference on Machine Learning. pp. 663–670. ISBN (1-55860-707-2). https://ai.stanford.edu/~ang/papers/icml00-irl.pdf 
  46. ^ García, Javier; Fernández, Fernando (1 January 2015). “A comprehensive survey on safe reinforcement learning”. The Journal of Machine Learning Research 16 (1): 1437–1480. https://jmlr.org/papers/volume16/garcia15a/garcia15a.pdf. 

推薦文献

  • Annaswamy, Anuradha M. (3 May 2023). “Adaptive Control and Intersections with Reinforcement Learning” (英語). Annual Review of Control, Robotics, and Autonomous Systems 6 (1): 65–93. doi:10.1146/annurev-control-062922-090153. ISSN 2573-5144. https://doi.org/10.1146/annurev-control-062922-090153. 
  • Auer, Peter; Jaksch, Thomas; Ortner, Ronald (2010). “Near-optimal regret bounds for reinforcement learning”. Journal of Machine Learning Research 11: 1563–1600. http://jmlr.csail.mit.edu/papers/v11/jaksch10a.html. 
  • Busoniu, Lucian; Babuska, Robert; De Schutter, Bart; Ernst, Damien (2010). Reinforcement Learning and Dynamic Programming using Function Approximators. Taylor & Francis CRC Press. ISBN (978-1-4398-2108-4). http://www.dcsc.tudelft.nl/rlbook/ 
  • François-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle (2018). “An Introduction to Deep Reinforcement Learning”. Foundations and Trends in Machine Learning 11 (3–4): 219–354. arXiv:1811.12560. Bibcode: 2018arXiv181112560F. doi:10.1561/2200000071. 
  • Powell, Warren (2011). Approximate dynamic programming: solving the curses of dimensionality. Wiley-Interscience. http://www.castlelab.princeton.edu/adp.htm 
  • Sutton, Richard S.; Barto, Andrew G. (2018). Reinforcement Learning: An Introduction (2 ed.). MIT Press. ISBN (978-0-262-03924-6). http://incompleteideas.net/sutton/book/the-book.html 
  • (Sutton, Richard S.) (1988). “Learning to predict by the method of temporal differences”. Machine Learning 3: 9–44. doi:10.1007/BF00115009. http://incompleteideas.net/sutton/publications.html#TD_paper. 
  • Szita, Istvan; Szepesvari, Csaba (2010). (PDF). ICML 2010. Omnipress. pp. 1031–1038. 2010年7月14日時点のオリジナル (PDF)よりアーカイブ。

外部リンク

  • Reinforcement Learning Repository
  • Reinforcement Learning and Artificial Intelligence (RLAI, Rich Sutton's lab at the University of Alberta)
  • Autonomous Learning Laboratory (ALL, Andrew Barto's lab at the University of Massachusetts Amherst)
  • Real-world reinforcement learning experiments 2018-10-08 at the Wayback Machine. at Delft University of Technology
  • Stanford University Andrew Ng Lecture on Reinforcement Learning
  • Dissecting Reinforcement Learning Series of blog post on RL with Python code
  • A (Long) Peek into Reinforcement Learning
  • Reinforcement Learning (英語) - スカラーペディア百科事典「強化学習」の項目。
  • 強化学習とは? 木村 元ら
  • 強化学習FAQ Suttonの強化学習FAQ(英語)の日本語訳

(Template:Differentiable computing)

ウィキペディア、ウィキ、本、library、論文、読んだ、ダウンロード、自由、無料ダウンロード、mp3、video、mp4、3gp、 jpg、jpeg、gif、png、画像、音楽、歌、映画、本、ゲーム、ゲーム。