홍카나의 공부방

Notice

Recent Posts

Recent Comments

Link

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

목록전체 글 (183)

홍카나의 공부방

[강화학습] 2강 학습 노트 - Markov Decision Process

2강에는 Markov Decision Process에 대해서 배운다. Introduction to MDPs - Markov decision processes는 강화학습을 위한 환경을 표현한다. - Fully Observable임을 가정한다. - 대부분의 강화학습 문제가 MDPs로 형식화할 수 있다. - Partially observable problems도 MDPs로 전환 가능, Bandits 문제도 1가지 상태의 MDPs 문제임. Markov Property - 현재 State만 필요할 뿐, History는 던져버릴 수 있다. State Transition Matrix - 마르코프 프로세스에서는 action이 없기 때문에, S_t에서 S_t+1이 될 수 있는 여러 state로 전이될 수 있는 확률을 나..

AI/Reinforcement Learning 2022. 11. 28. 12:07

[강화학습] 기초 이론 1강 학습노트

강화학습은 지도학습, 비지도학습과 달리 인공지능에서 따로 한 분야를 차지하는 기술이다. 강화학습의 특징 - 지도학습과 달리 Supervisor가 없다. 오로지 Agent가 reward(보상)라는 시그널을 줄 뿐이다. - 피드백(곧, reward)이 즉시 발생하지 않을 수 있다. - 강화학습은 sequential data로, 시간이 중요하다. ( Time really matters ) - Agent의 action이 data에 영향을 미친다. Rewards(보상) - 스칼라 피드백 시그널이다. (즉, 숫자 하나다. R_t ) - agent의 목적은 cumulative reward를 최대화하는 것이다. ( maximise cumulative reward ) - 보상을 스칼라 하나로 치환하기 쉬운 문제일수록 강..

AI/Reinforcement Learning 2022. 11. 26. 13:57

[ML] Cost Function

최근 시간을 들여 머신러닝을 배우기 시작했다. 입문으로 Andrew Ng 교수님의 Machine Learning 강좌를 많이 추천받아서, 해당 내용을 듣기 시작했다. 블로그에 남기지 않으면 시간 지나고 백퍼 까먹을 것이기 때문에 배운 내용들을 차근차근 정리하려고 한다. 1주차로서 기초적인 용어들과 머신러닝의 정의, 그리고 비용함수에 대해 배웠다. 머신러닝의 정의는 컴퓨터가 어떤 작업(T)를 하는데, 경험(E)로부터 학습해서 성능에 대한 측정(P)를 향상시키는 학문이다. 예시) 알파고가 바둑을 둔다.(T) 각종 바둑 기사들의 대국을 복기하며 최적의 선택지를 배운다.(E) 승률이 얼마나 높아졌는지 측정(P)한다. 음 내가 든 예시가 맞는지 100% 자신감은 없는데,, 맞을것 같다. 그리고 머신러닝은 지도학습..

AI/Machine Learning 2021. 9. 24. 01:20

이전 Prev 1 ··· 43 44 45 46 Next 다음

목록전체 글 (183)

홍카나의 공부방

티스토리툴바