コンテンツへスキップ

DataHax

安心安全で効率的な交通を

  • 事業内容
    • 電脳パーク
    • モビリティリンク
    • AIトラフィック
      リサーチサービス
  • 企業情報
  • お知らせ
  • お問い合わせ
DataHax

カテゴリー: 強化学習

強化学習

Stable Baselinesとは

投稿日: 2021年3月23日2021年3月24日

概要 Open AIのBaselinesの強化学習を扱い安くしたしたライブラリです。Baselinesは研究と […]

強化学習

【論文紹介】PPO

投稿日: 2018年11月23日2021年1月21日

概要 proximal policy optimization (PPO)。policyの最適化手法です。安定 […]

強化学習

【書籍紹介】強化学習 第10章 強化学習の特徴軸

投稿日: 2018年10月15日2021年2月27日

強化学習を個々の手法の集まりとしてではなく、手法群全体で首尾一貫した考え方の集合として示しています。 統一され […]

強化学習

【書籍紹介】強化学習 第9章 プランニングと学習

投稿日: 2018年10月15日2021年2月27日

環境モデルを必要とする手法群(動的計画法やヒューリスティック探索など)と、モデルなしに用いることの出来る手法( […]

強化学習

【書籍紹介】強化学習 第8章 一般化と関数近似

投稿日: 2018年10月14日2021年2月27日

状態あるいは状態行動対の1つに対して1つのエントリーが対応するようなテーブル形式の推定価値関数を扱ってきました […]

強化学習

【書籍紹介】強化学習 第7章 適格度トレース

投稿日: 2018年10月11日2021年2月27日

遂に第7章から第3部です!第3部では、第2部で紹介された3種類(動的計画法、モンテカルロ法、TD法)の基本的な […]

強化学習

【書籍紹介】強化学習 第6章 TD学習

投稿日: 2018年10月7日2021年2月19日

TD学習(時間的差分学習:Temporal Difference Learning)はモンテカルロ法と動的計画 […]

強化学習

【書籍紹介】強化学習 第5章 モンテカルロ法

投稿日: 2018年10月6日2021年2月19日

モンテカルロ法は経験(experience)のみを必要とします(環境の完全な知識を仮定しない)。この経験という […]

強化学習

【書籍紹介】強化学習 第4章 動的計画法

投稿日: 2018年10月5日2021年2月11日

ここから遂に第2部具体的な解法に入ります!本書では大きく3つの解法が記載されています。(長所、短所も一緒に) […]

強化学習

【書籍紹介】強化学習 第3章 強化学習問題

投稿日: 2018年10月3日2023年10月27日

エージェントと環境間のインタフェース 強化学習とは、相互作用から学習して目標を達成する問題の枠組みそのものです […]

投稿ナビゲーション

1 2 次へ
© DataHax