2025/09/29 3

DRL 환경 - 전이 함수의 설계

DRL을 이용하여 새로운 문제를 해결하려면 일단 환경이 존재해야 한다.환경의 구현을 위해 디지털 트윈(Digital Twin)과 같은 환경을 구성하는 다양한 방식들이 논의되고 있지만, 그 모든 환경의 구현 이전에는 문제의 모델링이 우선되어야 한다. 강화학습의 문제 모델링에 대해서는 다음 네 가지를 고려해야 한다.상태행동보상전이함수이번 글에서는 이 중 전이 함수에 집중해서 알아볼 것이다.이번 내용은 다음과 같은 순서로 진행할 것이다.먼저, 전이 함수로 구현할 수 있는지 여부를 파악한다.이후, 전이 함수의 형태를 결정한다.마지막으로, 구현한 전이 함수가 현실을 충분히 반영하고 있는지 확인한다.실현 가능성 확인전이 함수가 P(s_t+1|s_t, a_t)로 정의된다는 사실을 다시 떠올려보자.전이 함수는 마르코프..

DRL 환경 - 보상의 설계

DRL을 이용하여 새로운 문제를 해결하려면 일단 환경이 존재해야 한다.환경의 구현을 위해 디지털 트윈(Digital Twin)과 같은 환경을 구성하는 다양한 방식들이 논의되고 있지만, 그 모든 환경의 구현 이전에는 문제의 모델링이 우선되어야 한다. 강화학습의 문제 모델링에 대해서는 다음 네 가지를 고려해야 한다.상태행동보상전이함수이번 글에서는 이 중 보상에 집중해서 알아볼 것이다.보상의 역할보상 신호는 에이전트가 최대화해야 하는 목적 함수(objective function)를 정의한다.보상 설계는 강화학습의 근본적인 문제 중 하나이고, 환경에 대한 깊은 지식이 필요한 영역이며, 여러 가지 이유로 인해 해결하기 어려운 문제로 알려져 있다.보상이 양의 부호인가? 음의 부호인가? 혹은 0인가?보상의 크기(스칼..

DRL 환경 - 행동의 설계

DRL을 이용하여 새로운 문제를 해결하려면 일단 환경이 존재해야 한다.환경의 구현을 위해 디지털 트윈(Digital Twin)과 같은 환경을 구성하는 다양한 방식들이 논의되고 있지만, 그 모든 환경의 구현 이전에는 문제의 모델링이 우선되어야 한다. 강화학습의 문제 모델링에 대해서는 다음 네 가지를 고려해야 한다.상태행동보상전이함수이번 글에서는 이 중 행동에 집중해서 알아볼 것이다.행동을 구현하는 데에는 다음 두가지를 고려해야 한다.행동의 완결성(completeness)원하는 모든 것을 제어할 수 있게 해주는가?행동의 복잡성(complexity)행동의 최소 단위를 어느정도의 수준으로 둘 것인가?우선, 행동의 설계를 몇 가지 확인하고, 각 질문에 대한 상세한 정보를 알아보자.행동의 설계행동의 표현행동은 보통..