'보상의 밀도' 태그의 글 목록

보상의 밀도 1

DRL을 이용하여 새로운 문제를 해결하려면 일단 환경이 존재해야 한다.환경의 구현을 위해 디지털 트윈(Digital Twin)과 같은 환경을 구성하는 다양한 방식들이 논의되고 있지만, 그 모든 환경의 구현 이전에는 문제의 모델링이 우선되어야 한다. 강화학습의 문제 모델링에 대해서는 다음 네 가지를 고려해야 한다.상태행동보상전이함수이번 글에서는 이 중 보상에 집중해서 알아볼 것이다.보상의 역할보상 신호는 에이전트가 최대화해야 하는 목적 함수(objective function)를 정의한다.보상 설계는 강화학습의 근본적인 문제 중 하나이고, 환경에 대한 깊은 지식이 필요한 영역이며, 여러 가지 이유로 인해 해결하기 어려운 문제로 알려져 있다.보상이 양의 부호인가? 음의 부호인가? 혹은 0인가?보상의 크기(스칼..

AI Repository/DRL 2025.09.29

Go Gradually - Repository

진인사대천명, 조금씩 차근차근.

코루틴, 티스토리챌린지, PS, MountainCar, CI/CD, 도메인 이벤트, 리팩터링, 오블완, 누적 합, prefix sum, Greedy, math, rabbitmq, Kubernetes, DQN, k8s, LeetCode, DRL, DP, 쿠버네티스,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

보상의 밀도 1

티스토리툴바