Markov Reward Process

[로봇인공지능]Markov Decision Process

2022.09.28

Markov Decision Process(MDP) MDP는 RL, 강화 학습에서 중요한 핵심 이론이다. 이론을 알아보기 전에 Markov property에 대한 정의를 먼저 알아보면 agent가 환경에서 어떤 행동을 취하기 위해서는 의사결정이 필요하다. 그럴 때 의사결정을 위해서 주변 환경으로부터 정보를 받게 되는데 이런 정보들의 특성을 Markov property라 한다. 현재 state에서 다음 state로 변화하는 transition은 오로지 현재 state만 의존한다. 왜냐하면 현재 state에는 과거의 여러 과정을 거쳐서 행동한 것이므로 앞으로의 행동을 위한 정보를 충분히 포함하고 있다고 보는 것이다. Markov_마르코프 연쇄 Markov Chain Markov property를 가지고 있는..

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Markov Reward Process

[로봇인공지능]Markov Decision Process

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역