몬테카를로 강화학습에서 몬테카를로(Monte Carlo)는 학습자가 미래의 보상을 예측하기 위해 모의실험을 수행하는 방법 중 하나입니다. 이 방법은 알고리즘의 강력함과 유연성 때문에 널리 사용되고 있습니다. 이번 블로그에서는 몬테카를로 방법의 개념과 구현에 대해 살펴보겠습니다. 몬테카를로 방법 몬테카를로 방법은 학습자가 미래의 보상을 예측하기 위해 무작위 샘플링을 사용하는 강화학습 방법입니다. 이 방법은 학습자가 상태-행동 쌍(state-action pair)의 가치를 추정하는 데 사용됩니다. 예를 들어, 에이전트는 특정 상태에서 가능한 모든 행동을 시도하고, 각 행동의 결과로 얻은 보상의 평균을 계산합니다. 이 과정을 여러 번 반복하여 보상의 평균값이 수렴할 때까지 계속합니다. 몬테카를로 방법은 일반적..
로봇 인공지능 분야 9월 29일 목요일 오후 7:00, 인공지능대학원 4학기 첫 시험을 치른다. 로봇분야는 강화 학습의 역할이 크고 수학과 통계 개념이 중요하다. 어렵고 복잡한 내용이지만 공부한 내용을 간결하게 요약해보며 시험을 위한 준비를 해보려 한다. 복잡한 수식과 계산은 참고만 해두고 최대한 개념과 이론 설명 위주로 작성해본다. Robots with AI INTRO 인공지능? 추론, 의미 이해, 일반화, 과거로부터 학습, 어떻게 행동할 것인지 결정하는 능력을 갖춘 시스템. 로봇분야에서는 어떻게 행동할 것인지 결정하는 것, make decision to act이 중요하다. The ability to reason, discover meaning, generalize, learn from past, ma..
Markov Decision Process(MDP) MDP는 RL, 강화 학습에서 중요한 핵심 이론이다. 이론을 알아보기 전에 Markov property에 대한 정의를 먼저 알아보면 agent가 환경에서 어떤 행동을 취하기 위해서는 의사결정이 필요하다. 그럴 때 의사결정을 위해서 주변 환경으로부터 정보를 받게 되는데 이런 정보들의 특성을 Markov property라 한다. 현재 state에서 다음 state로 변화하는 transition은 오로지 현재 state만 의존한다. 왜냐하면 현재 state에는 과거의 여러 과정을 거쳐서 행동한 것이므로 앞으로의 행동을 위한 정보를 충분히 포함하고 있다고 보는 것이다. Markov_마르코프 연쇄 Markov Chain Markov property를 가지고 있는..