DRL을 이용하여 새로운 문제를 해결하려면 일단 환경이 존재해야 한다.
환경의 구현을 위해 디지털 트윈(Digital Twin)과 같은 환경을 구성하는 다양한 방식들이 논의되고 있지만, 그 모든 환경의 구현 이전에는 문제의 모델링이 우선되어야 한다.
강화학습의 문제 모델링에 대해서는 다음 네 가지를 고려해야 한다.
- 상태
- 행동
- 보상
- 전이함수
이번 글에서는 이 중 전이 함수에 집중해서 알아볼 것이다.
이번 내용은 다음과 같은 순서로 진행할 것이다.
- 먼저, 전이 함수로 구현할 수 있는지 여부를 파악한다.
- 이후, 전이 함수의 형태를 결정한다.
- 마지막으로, 구현한 전이 함수가 현실을 충분히 반영하고 있는지 확인한다.
실현 가능성 확인
전이 함수가 P(s_t+1|s_t, a_t)로 정의된다는 사실을 다시 떠올려보자.
전이 함수는 마르코프 특성을 갖는다.
이는 전이가 현재 상태와 행동에 의해 완전히 결정된다는 것을 의미한다.
그렇다면, 이 모델을 마르코프 특성을 갖춘 형태로 구축할 수 있는지 고려해야 한다.
이제부터 그 고려해야 하는 사항들을 살펴보자.
프로그래밍 가능 여부 vs 학습 가능 여부
- 데이터 없이 개념 설계와 전이 규칙에 대한 프로그래밍으로 구축할 수 있는가?
- 일련의 규칙들로 문제를 완전히 표현할 수 있는가?
이를 만족하는 대표적인 예시는 체스 같은 보드게임이나 로봇과 같은 물리적 시스템이다.
이 내용이 불가능하다면, 모델을 데이터로부터 학습할 수밖에 없다.
데이터 완결성
- 데이터로부터 모델을 학습한다면, 데이터는 충분한가?
- 데이터가 부족하다면, 더 많은 데이터를 수집할 수 있는가?
- 혹은, 부족한 데이터를 보완할 수 있는가
- 데이터가 '완전히 관측 가능'(Observable)한가?
- 완전히 관측 가능하지 않다면, 오차는 얼마까지 허용되는가?데이터 비용
- 데이터에 필요한 비용이 비싼가?
예를 들면, 실제 로봇은 시뮬레이션보다 더 천천히 움직이고 가격도 비싸다.
하지만 실제적인 모델을 만들려면 먼저 실제 로봇의 움직임에서 나오는 데이터를 수집해야 한다.
데이터 표본 vs 표본 효율성
DRL은 여전히 표본 효율성이 낮으며 일반화 능력도 약하다.
따라서 문제에 대한 모델이 높은 정확도를 가져야 한다.
오프라인 vs 온라인
데이터가 실제 강화학습 에이전트와는 별개로 수집되면, 이것은 오프라인 방식이다.
- 오프라인 데이터를 이용해 모델의 부족한 부분을 채울 수 있는가?(탐험에 대처할 수 있는가?)
- 아니면, 실제 문제와 상호작용해서 더 많은 데이터를 모으게 할 수 있는가?
훈련 vs 생산
- 에이전트를 완성하기 전에, 에이전트를 시험하는 것이 안전할까?
- 에이전트의 행동이 허용되는 범위 안에서 이루어진다는 것을 어떻게 보장할 수 있을까?
- 제품 생산 도중에 예기치 못한 행동이 발생할 경우 예상되는 잠재적인 금전적 손해는 얼마인가?
고려해야 할 문제의 특성
위에서 우리는 실현 가능성 확인을 수행했다.
이제부턴 전이함수를 구축할 때 일반적으로 고려해야 할 문제의 특성을 살펴보자.
이러한 고려사항을 통해 적합한 방법이 무엇인지 결정할 수 있다.
체스와 같이, 결정론적 문제에서 전이 규칙을 알고 있을 경우
- 이러한 문제의 경우, 이미 존재하는 오픈소스 엔진이나 상용 툴을 사용하면 편리하다.
- 유니티, 언리얼 엔진과 같은 것들이 도움된다.
이 경우 전이 모델은 다음과 같이 표현된다.
현실적인 로봇 시뮬레이션과 같이 확률론적(비결정론적) 문제에서 역학을 알고 있는 경우
- 이 경우에는 역학의 일부가 본질적으로 확률론적이며, 나머지 부분은 랜덤 노이즈가 더해진 결정론적 역학으로 구성되어 있다.
예를 들어, 어떤 물리적 시스템은 결정론적인 규칙으로 모델링될 수 있다.
하지만 모델을 좀 더 현실적으로 만들기 위해 마찰, 떨림 또는 센서 노이즈와 같은 랜덤 노이즈를 고려하는 것이 일반적이다.
이 경우 전이 모델은 다음과 같이 표현된다.
관측하거나 예상할 수 없는 변수가 많은 재고 관리나 판매 최적화와 같이 확률론적 문제에서 역학을 모르는 경우
- 역학을 모르기 때문에 데이터로부터 역학을 학습해야 한다.
- 가능한 모든 데이터를 s_t, a_t, ... 와 같은 형태로 수집하고, P(s_t+1|s_t, a_t)의 확률분포를 구한다.
- 이는 데이터로부터 확률분포를 구하는 지도학습 과정으로 변환될 수 있다.
복잡한 비디오 게임과 같이 마르코프 특성을 따르지 않는 문제의 경우
이 경우 두 가지 방법을 고려해야 한다.
- POMDP로 변환하는 과정을 먼저 거친다.
- MDP 식을 다시 세운다.
보통 더 유효한 전략은 2번이다.
구현한 모델의 현실성 확인 - 모델의 오차를 유발하는 원인
마지막으로, 구현한 모델이 현실을 충분히 반영하고 있는지 확인해야 한다.
이번 절에서는 모델의 오차를 유발하는 원인들을 알아보자.
모델을 불완전하게 만드는 원인은 크게 두 가지로 제시 가능하다.
원인 1: 물리적으로 불가능해서
첫 번째 원인은 문제의 모든 측면을 완벽히 시뮬레이션하는 것이 불가능해서 어쩔 수 없이 모델을 단순화해야 하는 경우에 해당한다.
- 로봇 팔을 시뮬레이션할 때 실제 세계에서 발생하는 마찰, 떨림, 열적 팽창, 충격에 의한 물리적 부분의 변형을 알 수 없는 경우
- 실제 데이터를 아예 얻을 수 없는 경우(그 사람이 좋아하는 영화 추측하기)
원인 2: 전이 함수를 이용할 때 탐험이 제한되는 경우
두 번째 원인은 학습된 전이 함수를 이용할 때 탐험이 제한되기 때문이다.
이 경우의 문제는 알고리즘을 전개하여 환경과 상호작용하기 전에는 경험하지 못하는 전이가 존재한다는 점이다.
이러한 상황은 상태 공간이 매우 커서 모든 전이를 위한 좋은 모델을 학습하는 것이 현실적으로 불가능할 경우에 발생한다.
이에 대한 일반적인 대안은 다음과 같다.
- 에이전트가 경험할 것 같은 전이에 대해 좋은 모델을 학습하도록 하는 데 집중하기
- 제품 제조 과정에서 에이전트가 경험하는 전이가 모델에 제대로 반영되지 못하면, 모델이 생성하는 전이는 부정확해질 것이다.
- 그렇다고 해서 에이전트가 제한된 모델을 학습하지 못한다는 뜻은 아니다.
이러한 모델의 오차를 정량화하는 방법으로는 KL 발산이 적극 활용된다.
본 글은 단단한 심층강화학습 도서를 참고하여 작성되었습니다.
[전자책]단단한 심층강화학습 - 예스24
심층강화학습의 확고한 기반을 다지기 위한 완벽한 방법!이 책은 이론과 실무적 내용을 독특하게 결합한 심층강화학습 소개서다. 직관적인 설명에서 시작하여 심층강화학습 알고리즘에 대한
www.yes24.com
'AI Repository > DRL' 카테고리의 다른 글
DRL 환경 - 보상의 설계 (0) | 2025.09.29 |
---|---|
DRL 환경 - 행동의 설계 (0) | 2025.09.29 |
DRL 환경 - 상태의 설계 (0) | 2025.09.28 |
강화학습의 신경망 선택 방법 (0) | 2025.09.27 |
DRL에서의 디버깅 방법, 하이퍼파라미터 설정 (0) | 2025.09.27 |