NLP lab/강화학습

'단단한 강화학습' 책 정리
NLP lab/강화학습

02. 다중 선택 문제와 행동 가치 방법 [CH2 다중 선택]

비연합(nonassociatiive) 구조: 하나의 상황에 대해서만 행동을 학습하는 단순화된 구조. 다중 선택 문제(k-armed bandit problem) k개의 서로 다른 옵션이나 행동을 중에 한 가지를 선택하는 문제. 매 선택 후에는 보상이 주어진다. 이 보상은 행동에 따라 결정되는 정상확률분포(stationary probability distribution)로부터 얻어진다. 예를 들어, 1000번 선택할 때 주어지는 보상 총량의 기댓값을 최대화하는 것이 목표이다. 가치(value): 다중 선택 문제에서 k개의 행동 각각에 할당된, 그 행동이 선택되었을 때 기대할 수 있는 평균 보상값. $$ q_*(a)= \mathbb{E}[R_t|A_t=a] $$ \( A_t \)는 시간단계 \( t \)에서 ..

NLP lab/강화학습

01. 틱택토로 알아보는 강화학습 [CH1 소개]

☆ 이 글은 '단단한 강화학습(리처드 서튼, 앤드류 바르토, 옮긴이 김성우)' 책 내을 요약합니다. 틱택토 게임에서 강화학습하기 틱택토 게임은 설명하지 않아도 될 것 같다. 유저가 X로 먼저 시작하고 상대방은 늘 최선의 수는 두지 않는다고 가정하자. 그리고 무승부도 패배로 간주한다. 보드판에서 가능한 모든 경우의 수에 대해 해당 상황에서의 승리 확률 표를 가치(value)로 정의한다. 가치의 초기 값은 모두 0.5이다.(승리 확률 반반) 게임을 하는 동안 나는 가치를 변화시키며 가치가 승리 확률에 대한 정확한 추정이 필요하다. 이때 항상 최적의 선택을 하는 것이 아니라 무작위의 선택을 할 수도 있는데, 이를 탐험적(exploratory) 선택이라고 한다. 그리디 서치로 행동을 선택한다. 이때 선택 이전의..

NLP lab/강화학습

00. 강화학습 용어 한국어 번역 정리

김성우 번역자님의 책인 '단단한 강화학습' 에서 사용된 번역을 정리한 글입니다. 신뢰 할당 메커니즘 ☆ credit assignment mechanism 단일 선택 ☆ one-armed bandit 다중 선택 ☆ k-armed bandit 행동자-비평자 구조 ☆ actor-critic architecture 정상 확률 분포 ☆ stationary probability distribution 연관 탐색 ☆ associative search 맥락적 다중 탐색 ☆ contextual bandits

heavyteil
'NLP lab/강화학습' 카테고리의 글 목록