AI Repository/DRL

강화학습의 신경망 선택 방법

조금씩 차근차근 2025. 9. 27. 23:12

모든 DRL 환경은 순차적 데이터를 생성하는 것으로 해석될 수 있다.
RNN이 이러한 유형의 입력을 다루는 데 특화되어 있다고 알고있는데, 그렇다면 DRL은 왜 항상 RNN이나 CNN-RNN구조를 사용하지 않을까?

 

이에 대한 제대로된 이해를 위해선 우선 MDP와 POMDP의 차이에 대해 이해할 필요가 있다.

 

환경의 두 가지 특성

  • 얼마나 관측 가능한가
  • 상태 공간의 특성이 무엇인가

MDP와 POMDP

MDP

MDP는 의사결정을 모델링하는 수학적 프레임워크다.

 

MDP의 핵심은 상태 s_t가 다음 상태 s_t+1로 전이하는 방법을 모델링하는 전이 함수이다.
MDP 전이 함수는 다음 식으로 표현될 수 있다.


전이 함수는 마르코프 특성을 갖는다.
즉, s_t+1로의 전이는 전적으로 현재 상태와 행동 (s_t, a_t)에 의해 결정된다.

 

 

즉, MDP에서는 환경을 이전의 상태를 궁금해하지 않는, 최적 부분 구조로 한정한다.

  • 환경이 MDP이면, 완전히 관측 가능한 상태로 묘사된다.
    • 여기서 완전히 관측 가능하다는건, "학습과 정책을 고르기에 충분한 정보가 있다"는 의미이다.
    • 필요 없는 정보까지 갖게 된다면, 환경 상태 정보를 처리하는데 컴퓨터가 더욱 많은 부하를 받게 되고, 이는 학습 속도의 저하로 이어질 것이다.

POMDP

그렇다면, 환경의 내부 정보가 완전히 관측가능하지 않을 때는 어떻게 처리할까?
이런 상태를 부분적으로 관측 가능한 MDP(Partially observable Markov Decision Process, POMDP)라고 한다.

 

POMDP는 세가지 카테고리로 구분할 수 있다.

  • 과거의 부분적 이력으로부터 완전히 관측 가능한 경우
  • 과거의 전체 이력으로부터 완전히 관측 가능한 경우
  • 결코 완전히 관측 가능하지는 않은 경우

POMDP의 구분

과거의 부분적 이력으로부터 완전히 관측 가능한 경우

"벽돌깨기" 문제를 생각해보자.


이러한 환경에서는 "사진 한 장"에서는 학습에 필요한 핵심 정보가 결여되어 있다.

공의 이동 속도와 방향은 사진에 담기지 않는다.

 

하지만 4개의 프레임마다 하나의 프레임을 선택하고, 건너뛴 4개의 프레임을 모두 쌓아놓는다면 어떨까?
건너뛴 프레임들 사이의 차이를 이용하여 게임 객체에 대한 유용한 이동 기반 정보를 추정할 수 있을 것이다.

과거의 전체 이력으로부터 완전히 관측 가능한 경우

이번엔 이런 문제를 생각해보자.

에이전트가 자신의 "주변 상황"만을 알 수 있는 T자형 미로



 

만약 에이전트가 자신의 주변 상황만을 알 수 있다면, 주어진 정보로는 올바른 판단을 수행하기 어려울 것이다.

한 칸 이동하는 순간, 이전에 관측했던 주변 환경 정보를 잊어버리기 때문이다.
따라서 모델은 가운데의 빈 칸에서 방황하고 있을 것이다.

 

만약 이 환경에서 에이전트가 기존에 관측했던 상태의 전체 이력을 기억한다면, 올바른 판단을 수행할 수 있을 것이다.

결코 완전히 관측 가능하지 않은 경우

이러한 환경에서는 관측된 상태의 과거 전체 이력을 갖고 있다 해도 내부 상태를 추정할 수 없다.

대표적으로 '포커'가 그런 게임이다.
지금까지 다루어진 모든 카드를 기억한다 해도 다른 사람이 들고 있는 카드를 알 수는 없다.

물론 이렇다고 해서 'DRL의 적용이 불가능하다' 는 것은 아니다.
이는 환경에 대한 이해가 동반되어야 판단할 수 있는 문제이다.

환경을 위한 네트워크 선정 방법

지금까지 환경의 관측 가능성(즉, 관측된 상태로부터 환경의 내부 상태를 추정할 수 있는 범위)에 따라 환경을 특정지었다.
이러한 접근법을 환경의 상태 공간에 대한 정보와 결합하여 에이전트에게 가장 적합한 신경망 아키텍처가 무엇인지에 대한 단서를 만들어낼 수 있다.

 

이를 구분짓는 가장 중요한 특성은 네트워크의 연결 상태를 추적할 수 있는지 여부이다.
즉, 네트워크가 관측된 상태의 이력을 기억할 수 있는 능력을 갖고 있는가의 여부다.

 

환경이 '과거의 전체 이력으로부터 완전히 관측 가능'하거나 '결코 완전히 관측 가능하지 않은'경우에는 RNN 하위 네트워크를 갖는 것이 중요하다.

요약

신경망은 학습에 가장 적합한 데이터의 유형이 무엇인지에 따라 몇개의 그룹으로 나누어진다.

  • MLP: 낮은 차원의 정렬되지 않은 데이터에 적합
  • CNN: 이미지 데이터에 적합
  • RNN: 시간 순서를 갖는 시퀀스에 적합

또한, 각기 다른 유형의 네트워크를 결합하여 하이브리드 네트워크를 구성할 수도 있다.

 

MDP와 POMDP의 차이점도 알아봤다.
강화학습 환경은 관측된 상태 공간과 MDP 또는 POMDP 여부에 따라 달라진다.
이러한 정보를 이용하여 특별한 환경의 문제를 해결하는 데 가장 적합한 네트워크 아키텍처를 선택할 수 있다.

 


 

본 글은 단단한 심층강화학습 도서를 참고하여 작성되었습니다.