
강화 학습
강화 학습을 하는 주체를 agent라고 부른다. agent는 주변 환경과 상호작용(interaction)을 하면서 환경이 어떻게 변하는지 피드백을 받아 자신이 어떻게 행동해야 하는지 학습해서 발전된다. 강화 학습이 학습을 하는 방법은 사람이 경험을 통해 배우는 방법과 굉장히 유사하다.
어린아이의 경우 잘 모르던 시절에 위험한 행동을 했을 때 어른들로부터 부정적인 피드백을 받는다. 그 피드백을 통해 "이렇게 하면 안 되는구나"라고 학습하여 앞으로 피하게 되고 좋은 행동을 함으로써 부모님에게 칭찬 또는 갖고 싶었던 물건등으로 보상을 받게 되면서 그 피드백을 통해 또 배워나가게 된다. 이처럼 강화 학습은 사람이 배우는 것과 비슷한 패러다임을 갖고 있어 매력적인 분야이다. 강화 학습은 사실 머신러닝의 여러 가지 종류 중에 하나이다. 강화 학습을 시작하기 전에 여러 머신러닝의 패러다임에 종류를 살펴본다.
머신러닝의 패러다임들
지도 학습 ( Supervised Learning )
데이터를 Input, Ouput(or Label) 페어로 준비해서 학습을 시킨다. 지도 학습을 하려면 데이터가 많이 필요하고 또 라벨링을 위한 전문가의 손이 많이 필요하다. 다른 분야에 비해 로봇분야에서는 라벨링 된 데이터가 많이 부족하다.
트레이닝(training) 단계와 추론(inference) 단계가 있다. 트레이닝 단계는 모델을 학습하는 단계 정답이 있는 즉 라벨링 된 데이터를 주어 학습한다. 추론 단계에서는 데이터셋에 없는 새로운 Input을 주어서 결과를 얻어본다.
비지도 학습 ( Unsupervised Learning )
레이블이 없는 데이터, 가장 대표적인 예시로 군집화(Clustering)가 있다. 정답은 없지만 클러스터를 나눈다. 데이터셋을 만들기 위한 노력은 필요 없지만 정답이 없기 때문에 학습이 잘 안 될 수 있다.
강화 학습 ( Reinforcement Learning )
시간을 두고 액션을 결정하는 경우가 많다. 예를 들어 로봇이 물체를 집는 작업을 해본다. 처음에는 잘 안 집힌다. 이렇게 하면 잘 안 집어지는구나 하는 식으로 계속 피드백을 받고 학습 해나가게 된다. 이외에도 쌓는 문제(Stacking)도 많이 연구된다.
make decisions to maximize a long-term benefit through trial and error
기계가 사람처럼 변해가는 과정 쉽게 알아보기(지도학습, 비지도학습, 강화학습)
기계가 사람처럼 행동하려면 뭐가 필요할까? 인공지능(artificial intelligence)이란 기계가 사람처럼 생각하고 결정하도록 만드는 과학분야입니다. 요즘 주변에서 AI가 붙은 제품을 많이 찾아볼 수
aiday.tistory.com
강화 학습에서 필요한 요소들 ( RL elements )
Agent
agent란 학습을 하는 주체(learner)이다. single agent 또는 multi agent일수 있다. agent는 무얼 할지(what to do) 행동(Action)을 배운다. 그리고 환경(Environment)하고 상호작용을 한다. 환경이란 Agent 밖에 있는 모든 것을 지칭한다. 예를 들어 로봇이 돌아다니는 공간, 앞에 있는 물체, 사람 등을 모두 환경이다. 상태(State)란 현재 처한 환경을 표현하기 위한 모든 것, 주어진 정보의 집합이고 이 값을 통해 현재 처한 상황을 설명하고 표현할 수 있다. agent는 주변 상황을 이해하기 위해 센서들을 통해 환경을 관찰(Observe)한다. 로봇은 기본적으로 센서를 달고 있는데 카메라, 레이더, 라이더 등이 있다.
처음에 로봇의 상태(Initial State)가 있고 이후 행동을 취한다. 그럼 상태 값이 바뀌게 되고 피드백(Reward)이 있을 것이다. 이 과정을 반복하면서 학습하는 것이 강화 학습의 기본적인 프로세스이다.
Episode
초기 상태에서 시작해서 환경과 상호작용을 하다 보면 어느 순간 터미널 상태(Terminal State)가 되는데 이렇게 초기 상태에서 행동을 통해 터미널 상태까지 가는 과정을 에피소드라고 한다. 예를 들어 Grid world(2D로 된 환경을 일정한 크기의 그리드로 쪼개서 상태를 표현하는 방법)에서 시작 지점에서 목표지점까지 가는 과정이다. 꼭 성공하지 않고 실패하는 과정 또한 하나의 에피소드가 된다.
터미널 상태가 있는 경우를 Episode task라고 한다. agent가 끝내지 않고 계속 훈련을 진행하는 경우를 Continuing task라고 한다. 이 경우는 터미널 상태가 없는 경우이다.
Policy 학습
Policy란 환경에 대한 관찰을 하고 어떤 행동을 취할 것인가에 대한 전략이다.
short-term reward가 아닌 long-term reward로 봤을 때 좋은 전략을 찾는 것이 강화 학습의 목적이다.
내용 참고
한양대학교 인공지능융합대학원 로봇인공지능 2주차 강의자료
'AI' 카테고리의 다른 글
[로봇인공지능] 핵심 총정리 (58) | 2022.09.29 |
---|---|
[로봇인공지능]Markov Decision Process (46) | 2022.09.28 |
[로봇인공지능]Robots with AI (68) | 2022.09.26 |
기계가 사람처럼 변해가는 과정 쉽게 알아보기(지도학습, 비지도학습, 강화학습) (83) | 2022.09.23 |
머신러닝과 딥러닝 그리고 인공지능 (90) | 2022.09.21 |

강화 학습
강화 학습을 하는 주체를 agent라고 부른다. agent는 주변 환경과 상호작용(interaction)을 하면서 환경이 어떻게 변하는지 피드백을 받아 자신이 어떻게 행동해야 하는지 학습해서 발전된다. 강화 학습이 학습을 하는 방법은 사람이 경험을 통해 배우는 방법과 굉장히 유사하다.
어린아이의 경우 잘 모르던 시절에 위험한 행동을 했을 때 어른들로부터 부정적인 피드백을 받는다. 그 피드백을 통해 "이렇게 하면 안 되는구나"라고 학습하여 앞으로 피하게 되고 좋은 행동을 함으로써 부모님에게 칭찬 또는 갖고 싶었던 물건등으로 보상을 받게 되면서 그 피드백을 통해 또 배워나가게 된다. 이처럼 강화 학습은 사람이 배우는 것과 비슷한 패러다임을 갖고 있어 매력적인 분야이다. 강화 학습은 사실 머신러닝의 여러 가지 종류 중에 하나이다. 강화 학습을 시작하기 전에 여러 머신러닝의 패러다임에 종류를 살펴본다.
머신러닝의 패러다임들
지도 학습 ( Supervised Learning )
데이터를 Input, Ouput(or Label) 페어로 준비해서 학습을 시킨다. 지도 학습을 하려면 데이터가 많이 필요하고 또 라벨링을 위한 전문가의 손이 많이 필요하다. 다른 분야에 비해 로봇분야에서는 라벨링 된 데이터가 많이 부족하다.
트레이닝(training) 단계와 추론(inference) 단계가 있다. 트레이닝 단계는 모델을 학습하는 단계 정답이 있는 즉 라벨링 된 데이터를 주어 학습한다. 추론 단계에서는 데이터셋에 없는 새로운 Input을 주어서 결과를 얻어본다.
비지도 학습 ( Unsupervised Learning )
레이블이 없는 데이터, 가장 대표적인 예시로 군집화(Clustering)가 있다. 정답은 없지만 클러스터를 나눈다. 데이터셋을 만들기 위한 노력은 필요 없지만 정답이 없기 때문에 학습이 잘 안 될 수 있다.
강화 학습 ( Reinforcement Learning )
시간을 두고 액션을 결정하는 경우가 많다. 예를 들어 로봇이 물체를 집는 작업을 해본다. 처음에는 잘 안 집힌다. 이렇게 하면 잘 안 집어지는구나 하는 식으로 계속 피드백을 받고 학습 해나가게 된다. 이외에도 쌓는 문제(Stacking)도 많이 연구된다.
make decisions to maximize a long-term benefit through trial and error
기계가 사람처럼 변해가는 과정 쉽게 알아보기(지도학습, 비지도학습, 강화학습)
기계가 사람처럼 행동하려면 뭐가 필요할까? 인공지능(artificial intelligence)이란 기계가 사람처럼 생각하고 결정하도록 만드는 과학분야입니다. 요즘 주변에서 AI가 붙은 제품을 많이 찾아볼 수
aiday.tistory.com
강화 학습에서 필요한 요소들 ( RL elements )
Agent
agent란 학습을 하는 주체(learner)이다. single agent 또는 multi agent일수 있다. agent는 무얼 할지(what to do) 행동(Action)을 배운다. 그리고 환경(Environment)하고 상호작용을 한다. 환경이란 Agent 밖에 있는 모든 것을 지칭한다. 예를 들어 로봇이 돌아다니는 공간, 앞에 있는 물체, 사람 등을 모두 환경이다. 상태(State)란 현재 처한 환경을 표현하기 위한 모든 것, 주어진 정보의 집합이고 이 값을 통해 현재 처한 상황을 설명하고 표현할 수 있다. agent는 주변 상황을 이해하기 위해 센서들을 통해 환경을 관찰(Observe)한다. 로봇은 기본적으로 센서를 달고 있는데 카메라, 레이더, 라이더 등이 있다.
처음에 로봇의 상태(Initial State)가 있고 이후 행동을 취한다. 그럼 상태 값이 바뀌게 되고 피드백(Reward)이 있을 것이다. 이 과정을 반복하면서 학습하는 것이 강화 학습의 기본적인 프로세스이다.
Episode
초기 상태에서 시작해서 환경과 상호작용을 하다 보면 어느 순간 터미널 상태(Terminal State)가 되는데 이렇게 초기 상태에서 행동을 통해 터미널 상태까지 가는 과정을 에피소드라고 한다. 예를 들어 Grid world(2D로 된 환경을 일정한 크기의 그리드로 쪼개서 상태를 표현하는 방법)에서 시작 지점에서 목표지점까지 가는 과정이다. 꼭 성공하지 않고 실패하는 과정 또한 하나의 에피소드가 된다.
터미널 상태가 있는 경우를 Episode task라고 한다. agent가 끝내지 않고 계속 훈련을 진행하는 경우를 Continuing task라고 한다. 이 경우는 터미널 상태가 없는 경우이다.
Policy 학습
Policy란 환경에 대한 관찰을 하고 어떤 행동을 취할 것인가에 대한 전략이다.
short-term reward가 아닌 long-term reward로 봤을 때 좋은 전략을 찾는 것이 강화 학습의 목적이다.
내용 참고
한양대학교 인공지능융합대학원 로봇인공지능 2주차 강의자료
'AI' 카테고리의 다른 글
[로봇인공지능] 핵심 총정리 (58) | 2022.09.29 |
---|---|
[로봇인공지능]Markov Decision Process (46) | 2022.09.28 |
[로봇인공지능]Robots with AI (68) | 2022.09.26 |
기계가 사람처럼 변해가는 과정 쉽게 알아보기(지도학습, 비지도학습, 강화학습) (83) | 2022.09.23 |
머신러닝과 딥러닝 그리고 인공지능 (90) | 2022.09.21 |