일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- Django
- dockerfile
- 컴퓨터 네트워크
- Docker
- 파이썬
- 데이터 파이프라인
- 자료구조
- 정리
- PYTHON
- HADOOP
- airflow.cfg
- 데이터엔지니어링
- airflow
- 데이터 웨어하우스
- 데이터 엔지니어링
- 운영체제
- 종류
- S3
- 데브코스
- TCP
- Go
- AWS
- sql
- 컴퓨터네트워크
- redshift
- TIL
- 가상환경
- linux
- http
- 데이터베이스
- Today
- Total
목록AI (6)
홍카나의 공부방
If you are a beginner interested in reinforcement learning, here are a few steps you can take to get started: Start by learning the basics of machine learning and artificial intelligence. You can do this by reading introductory texts or taking online courses to learn about the fundamental concepts and algorithms used in reinforcement learning. Practice implementing simple reinforcement learning ..
모델을 모를 때 Prediction 문제를 푸는 방법을 알아본다. 더보기 Model은 강화 학습에서 환경의 모델(model of enviornment)의 줄임말로, 에이전트의 액션에 대해 환경이 어떻게 응답할지 예측하기 위해 사용하는 모든 것을 가리킴. 에이전트의 액션에 대하여 환경이 어떻게 반응할지 알 수 있다면, 에이전트 입장에서는 여러가지 Planning을 세워볼 수 있기에 모델을 아는 것이 큰 도움이 된다. Prediction은 Policy가 정해져있는 상태에서 Value Fuction을 찾는 문제, Control은 Optimal Policy 그리고 Optimal Value Fuction을 찾는 문제다. ( 컨트롤은 정책이 정해져있지 않다. ) Monte-Carlo Reinforcement Lea..
Planning -> MDP가 어떻게 동작하는지 알 때 최적의 policy를 찾는 문제! What is Dynamic Programming? - 큰 문제를 작은 문제로 나눠서 해결하는 방법 - 작은 문제에 대한 솔루션을 찾고, 큰 문제를 해결하는 방법론 ( 학부에서 알고리즘 수업을 들었으면, 바로 알만한 방법 ) - Optimal Substructure가 필요하다. - subproblem들이 Overlapping 해야 한다. ( soultion들을 분할-정복 방법처럼 reuse할 수 있어야 한다. ) Prediction vs. control: - Prediction은 MDP 와 정책Pi를 input으로 준다. - 그래서 가치 함수 V_pi를 찾는 것이다. - control은 MDP 를 input으로 줬을..
2강에는 Markov Decision Process에 대해서 배운다. Introduction to MDPs - Markov decision processes는 강화학습을 위한 환경을 표현한다. - Fully Observable임을 가정한다. - 대부분의 강화학습 문제가 MDPs로 형식화할 수 있다. - Partially observable problems도 MDPs로 전환 가능, Bandits 문제도 1가지 상태의 MDPs 문제임. Markov Property - 현재 State만 필요할 뿐, History는 던져버릴 수 있다. State Transition Matrix - 마르코프 프로세스에서는 action이 없기 때문에, S_t에서 S_t+1이 될 수 있는 여러 state로 전이될 수 있는 확률을 나..