課程簡介

介紹 Reinforcement Learning

  • 什麼是強化學習?
  • 關鍵概念:代理、環境、狀態、操作和獎勵
  • 強化學習的挑戰

勘探和開發

  • 平衡 RL 模型中的探索和開發
  • 探索策略:epsilon-greedy、softmax 等

Q-Learning 和深度 Q-Networks (DQN)

  • Q-learning 簡介
  • 使用 TensorFlow 實現 DQN
  • 使用體驗重放和目標網路優化 Q 學習

基於策略的方法

  • 策略梯度演算法
  • REINFORCE 演算法及其實現
  • Actor-critic 方法

使用 OpenAI 健身房

  • 在 OpenAI Gym 中設置環境
  • 在動態環境中類比代理
  • 評估代理性能

高級 Reinforcement Learning 技術

  • 多智慧體強化學習
  • 深度確定性策略梯度 (DDPG)
  • 近端策略優化 (PPO)

部署 Reinforcement Learning 模型

  • 強化學習的實際應用
  • 將 RL 模型整合到生產環境中

總結和後續步驟

最低要求

  • Python 個程式設計經驗
  • 對深度學習和機器學習概念有基本的瞭解
  • 瞭解強化學習中使用的演算法和數學概念

觀眾

  • 數據科學家
  • 機器學習從業者
  • AI 研究人員
 28 時間:

人數


每位參與者的報價

客戶評論 (4)

Provisional Upcoming Courses (Require 5+ participants)

課程分類