Go Gradually - Repository

  • CS
  • PS
  • Backend
  • 개발
  • GitHub
  • 홈

정책 제어 1

[강화학습] 강화학습에서 최적 정책을 찾는 방법

최적 정책은 '평가'와 '개선'을 번갈아 반복하여 얻는다.'평가' 단계에서는 정책을 평가하여 가치 함수를 얻는다.그리고 '개선' 단계에서는 가치 함수를 탐욕화하여 정책을 개선한다.이 두 과정을 번갈아 반복함으로써 최적 정책(과 최적 가치 함수)에 점점 다가갈 수 있다. 신경망에 비유하자면, 강화학습의 '평가'는 손실 함수 역할이고, 강화학습의 '개선'은 경사 하강법이 수행하는 역할이다. 예를 들어 몬테 카를로 방법으로 강화학습을 수행한다고 해보자.pi라는 정책이 있다면, 몬테 카를로 법을 이용해 V_pi를 얻을 수 있다.그다음은 개선 단계이다. 개선 단계에서는 탐욕화를 수행하며, 다음 수식으로 표현할 수 있다.계산 단계에서는 가치 함수의 값을 최대로 만드는 행동을 선택한다.이를 탐욕화라고 한다. Q 함..

AI Repository/기초 강화학습 2025.09.01
이전
1
다음
더보기
프로필사진

Go Gradually - Repository

꾸준함은 모든 것을 이긴다.

  • 분류 전체보기 (215) N
    • Article - 깊게 탐구하기 (38)
      • 도메인 주도 설계 이해하기 (9)
      • 트랜잭션 완전정복 (2)
      • 모-던한 프로그래밍 (2)
      • OS - Deep Dive (6)
      • Network - Deep Dive (4)
      • 개발 꿀팁 (7)
      • 피드 한 줌 (1)
      • 개인 프로젝트 (3)
      • OpenAI Gym (2)
    • CS Repository (92)
      • 소프트웨어 공학 - Clean Code & Arc.. (4)
      • 객체지향 & Design Pattern + @ (1)
      • 운영체제 - Dinosaur Book + @ (1)
      • DB (2)
      • 네트워크 - Top-down Approach + .. (26)
      • 데이터 중심 애플리케이션 설계 (1)
      • 리팩터링 (4)
      • 엔터프라이즈 애플리케이션 아키텍처 패턴 (3)
      • HTTP 완벽 가이드 (8)
      • 프로그래밍 패러다임 (3)
    • AI Repository (0)
      • 기초 통계학 (10)
      • 기초 딥러닝 (12)
      • 기초 강화학습 (16)
      • DRL (0)
    • WEB BE Repository (31)
      • JAVA (5)
      • Spring (5)
      • JPA (1)
      • AWS (5)
      • 배포 및 운영 (3)
      • 주니어 백엔드 개발자가 반드시 알아야 할 실무 지.. (0)
      • Redis (1)
      • Spring Security (3)
      • RabbitMQ (7)
    • WEB FE Repository (5) N
      • React (5) N
    • PS (25) N
      • 이론 (1)
      • USACO Silver (1)
      • USACO Gold (4)
      • LeetCode (8) N
      • Baekjoon OJ (4)
      • Codeforces (7)
    • 주간 회고 - 체크리스트 (8) N
    • 개인적 공간 (16)
      • 방광암 치료 (2)

Tag

PS, Pub-Sub, 상태 가치 함수, DP, producer-consumer, 생산자-소비자, DQN, 최적 정책, rabbitmq, settings.gradle, Python, 도메인 이벤트, LeetCode, 오블완, Greedy, spring jdbctemplate, math, 티스토리챌린지, 마틴 파울러, 리팩터링,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

  • GoGradually 의 Repository 입니다.

Archives

Calendar

«   2025/09   »
일 월 화 수 목 금 토
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

  • GitHub

티스토리툴바