일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- S3
- 종류
- Django
- 파이썬
- redshift
- airflow.cfg
- 자료구조
- dockerfile
- TIL
- TCP
- HADOOP
- 컴퓨터 네트워크
- 데이터 웨어하우스
- 데브코스
- AWS
- 데이터 파이프라인
- 정리
- 컴퓨터네트워크
- 데이터 엔지니어링
- http
- 운영체제
- PYTHON
- 가상환경
- airflow
- linux
- sql
- 데이터베이스
- 데이터엔지니어링
- Go
- Docker
- Today
- Total
목록AI (6)
홍카나의 공부방

강화학습은 지도학습, 비지도학습과 달리 인공지능에서 따로 한 분야를 차지하는 기술이다. 강화학습의 특징 - 지도학습과 달리 Supervisor가 없다. 오로지 Agent가 reward(보상)라는 시그널을 줄 뿐이다. - 피드백(곧, reward)이 즉시 발생하지 않을 수 있다. - 강화학습은 sequential data로, 시간이 중요하다. ( Time really matters ) - Agent의 action이 data에 영향을 미친다. Rewards(보상) - 스칼라 피드백 시그널이다. (즉, 숫자 하나다. R_t ) - agent의 목적은 cumulative reward를 최대화하는 것이다. ( maximise cumulative reward ) - 보상을 스칼라 하나로 치환하기 쉬운 문제일수록 강..

최근 시간을 들여 머신러닝을 배우기 시작했다. 입문으로 Andrew Ng 교수님의 Machine Learning 강좌를 많이 추천받아서, 해당 내용을 듣기 시작했다. 블로그에 남기지 않으면 시간 지나고 백퍼 까먹을 것이기 때문에 배운 내용들을 차근차근 정리하려고 한다. 1주차로서 기초적인 용어들과 머신러닝의 정의, 그리고 비용함수에 대해 배웠다. 머신러닝의 정의는 컴퓨터가 어떤 작업(T)를 하는데, 경험(E)로부터 학습해서 성능에 대한 측정(P)를 향상시키는 학문이다. 예시) 알파고가 바둑을 둔다.(T) 각종 바둑 기사들의 대국을 복기하며 최적의 선택지를 배운다.(E) 승률이 얼마나 높아졌는지 측정(P)한다. 음 내가 든 예시가 맞는지 100% 자신감은 없는데,, 맞을것 같다. 그리고 머신러닝은 지도학습..