:)
정보이론 본문
정보이론
- 정보이론과 확률통계는 많은 교차점을 가짐
- 확률 통계는 기계학습의 기초적인 근간 제공
- 해당 확률 분포 추정
- 확률 분포 간의 유사성 정량화
정보이론 관점에서도 기계학습을 접근 가능
- 불확실성을 정량화 하여 정보이론 방법을 기계학습에 활용한 예
- 엔트로피, 교차 엔트로피, KL 발산(상대 엔트로피)
- 정보이론 : 사건이 지닌 정보를 정량화 할 수 있나?
- 정보이론의 기본 원리 -> 확률이 작을수록 많은 정보
- 자주 발생하는 사건보다 잘 일어나지 않는 사건의 정보량이 많음
- 정보이론의 기본 원리 -> 확률이 작을수록 많은 정보
- 자기정보(self information) : 사건(메시지) e의 정보량
- h(e)= -logP(e)
- 예) 동전에서 앞면이 나오는 사건의 정보량의 -log2(1/2)=1 이고, 1이 나오는 사건의 정보량은 -log2(1/6)=2.58
- 후자의 사건이 전자의 사건보다 높은 정보량을 가짐.
- 엔트로피(entropy) : 확률변수 x의 불확실성을 나타내는 엔트로피
- 모든 사건 정보량의 기대 값으로 표현
최적화
순수 수학 최적화와 기계 학습 최적화의 차이
순수 수학의 최적화 예 f(x1,x2) = -(cos(x1^2) + sin(x2^))^2의 최저점을 찾아라
기계 학습의 최적화는 단지 훈련집합이 주어지고, 훈련집합에 따라 정해지는 목적함수의 최저점으로 만드는 모델의 매개변수를 찾아야 함.
- 주로 SGD(확률론적 경사 하강법)사용. 손실함수 미분하는 과정 필요 -> 오류 역전파 알고리즘
매개변수 공간의 탐색
학습 모델의 매개변수 공간
- 특징 공간의 높으 ㄴ차원에 비해 훈련집합의 크기가 작아 참인 확률분포를 구하는 일은 불가능함
- 기계 학습은 적절한 모델을 선택과 목적함수를 정의하고, 모델의 매개변수 공간을 탐색하여 목적함수가 최저가 되는 최저점을 찾는 전략 사용
- 특징 공간에서 해야 하는 일을 모델의 매개변수 공간에서 하는 일로 대치
최적화 문제 해결
낱낱탐색(exhaustive search) 알고리즘
- 차원이 조금만 높아져도 적용 불가능
- 예) 4차원 iris에서 각 차원을 1000구간으로 나눈다면 총 1000^4개의 점을 평가해야 함
무작위탐색(random search) 알고리즘
- 아주 전략이 없는 순진한 알고리즘
기계학습이 사용하는 전형적인 알고리즘
- 난수를 생성하여 초기해 세타 설정
- repeat
- j(θ)가 작아지는 방향 dθ를 구한다 (목적함수가 작아지는 방향을 주로 미분으로 찾아냄)
- θ=θ+dθ
- until(멈춤 조건)
- θ^ = θ
경사 하강 알고리즘
경사 하강법이 낮은 곳을 찾아가는 원리
- 함수의 기울기(경사)를 구하여 기울기가 낮은 쪽으로 반복적으로 이동하여 최소값에 도달
집단(무리) 경사 하강 알고리즘
- 샘플의 경사도를 구하고 평균한 후 한꺼번에 갱신
- 훈련집합 전체를 다 봐야 갱신이 일어나므로 학습 과정이 오래 걸리는 단점
확률론적 경사 하강(SGD: stochastic gradient descent) 알고리즘
- 한 샘플 혹은 작은 집단(무리) mini-batch 의 경사도를 계산한 후 즉시 갱신
'AI' 카테고리의 다른 글
Perception 기술 분류 (0) | 2022.05.02 |
---|---|
YOLOv3 시작하기 (0) | 2022.05.02 |
Object Detection (0) | 2022.04.30 |
CNN - Training (0) | 2022.04.29 |
CNN (0) | 2022.04.26 |
Comments