본문 바로가기
Development

강화학습 Q러닝 학습정리.

by wellba 2022. 3. 17.

학습교재

엑셀로 배우는 초입문 순환 신경망.강화학습

 

149p 주변 내용.

 

x <- (1-a(알파기호))x +a(알파기호){r(알) + r(감마기호)max(a, b, c, d)} 

 

이전방의 출구의 매력도 = x .

 

a(알파기호) = 강화학습모델설계자가 임의로 정의하는 0<a<1 사이의 값, 학습률이라고 칭함.

 

r = reword ,즉각적인 보상점수.

 

r(감마기호) = 환경이 변할수 있는 확률이 있기에 이전에 설정된 보상값들에 일종에 환경변화확률을 반영한 보정치가 들어간다고 이해됨. 할인률이라고 칭함.

 

max = 어떤 요소들 중에 최대값을 선택한다는 의미.

 

(a, b, c, d) = 다음방의 출구의 매력도.

 

 

이글의 설명들은 글쓴이의 이해를 바탕으로 작성한 것이므로 오류가 있을 수 있음.

 

 

간단정리

*이런식으로 최종 목표에 도달했을 경우 이전방의 x값을 갱신하고 또 그 이전방의 x값을 갱신하는 식으로 처음x값부터 마지막 x값까지 갱신할수 있다.