일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 파이썬
- TIL
- TCP
- 데이터 파이프라인
- AWS
- 데이터베이스
- http
- airflow
- 가상환경
- 데이터엔지니어링
- 데이터 엔지니어링
- redshift
- 종류
- airflow.cfg
- 컴퓨터네트워크
- Go
- 운영체제
- Docker
- 정리
- S3
- 컴퓨터 네트워크
- 데브코스
- sql
- 자료구조
- linux
- 데이터 웨어하우스
- PYTHON
- dockerfile
- HADOOP
- Django
- Today
- Total
목록전체 글 (183)
홍카나의 공부방
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/yNWK0/btrSbTPttiY/WkKyEfKtwAD4QFMYaPq3bK/img.png)
2강에는 Markov Decision Process에 대해서 배운다. Introduction to MDPs - Markov decision processes는 강화학습을 위한 환경을 표현한다. - Fully Observable임을 가정한다. - 대부분의 강화학습 문제가 MDPs로 형식화할 수 있다. - Partially observable problems도 MDPs로 전환 가능, Bandits 문제도 1가지 상태의 MDPs 문제임. Markov Property - 현재 State만 필요할 뿐, History는 던져버릴 수 있다. State Transition Matrix - 마르코프 프로세스에서는 action이 없기 때문에, S_t에서 S_t+1이 될 수 있는 여러 state로 전이될 수 있는 확률을 나..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/c6pjH7/btrR4GBPPmf/eFhzhA9n9dRPlJbc4rE3CK/img.png)
강화학습은 지도학습, 비지도학습과 달리 인공지능에서 따로 한 분야를 차지하는 기술이다. 강화학습의 특징 - 지도학습과 달리 Supervisor가 없다. 오로지 Agent가 reward(보상)라는 시그널을 줄 뿐이다. - 피드백(곧, reward)이 즉시 발생하지 않을 수 있다. - 강화학습은 sequential data로, 시간이 중요하다. ( Time really matters ) - Agent의 action이 data에 영향을 미친다. Rewards(보상) - 스칼라 피드백 시그널이다. (즉, 숫자 하나다. R_t ) - agent의 목적은 cumulative reward를 최대화하는 것이다. ( maximise cumulative reward ) - 보상을 스칼라 하나로 치환하기 쉬운 문제일수록 강..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/4efji/btrfIX26SMW/WVuSU79waCZkPbkEeDByN1/img.png)
최근 시간을 들여 머신러닝을 배우기 시작했다. 입문으로 Andrew Ng 교수님의 Machine Learning 강좌를 많이 추천받아서, 해당 내용을 듣기 시작했다. 블로그에 남기지 않으면 시간 지나고 백퍼 까먹을 것이기 때문에 배운 내용들을 차근차근 정리하려고 한다. 1주차로서 기초적인 용어들과 머신러닝의 정의, 그리고 비용함수에 대해 배웠다. 머신러닝의 정의는 컴퓨터가 어떤 작업(T)를 하는데, 경험(E)로부터 학습해서 성능에 대한 측정(P)를 향상시키는 학문이다. 예시) 알파고가 바둑을 둔다.(T) 각종 바둑 기사들의 대국을 복기하며 최적의 선택지를 배운다.(E) 승률이 얼마나 높아졌는지 측정(P)한다. 음 내가 든 예시가 맞는지 100% 자신감은 없는데,, 맞을것 같다. 그리고 머신러닝은 지도학습..