목록Head/인공지능 (24)
Head vs breakz
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/1ISh8/btqBS565rcm/KA54RkeqysuMqdfFBiuEyK/img.jpg)
모델을 훈련하는 동안 무작위로 층의 일부 출력 특성을 제외 뉴런의 부정확한 부분을 제거하기 위해 착안 dropout 효과 Voting 모든 뉴런에 의존하는 것이 아닌 dropout을 통해 임의로 몇개의 뉴런만으로 학습을 시킨다. 이러한 과정을 통해 뉴런들을 평균적으로 잘 예측하게 만든다. Co-adaptation 어떠한 뉴런은 다른 뉴런에 크게 의존하고 있는데, 이 떄 만약 '나쁜' 입력을 받게 된다면 의존하고 있는 뉴런도 영향을 받게 된다. 이러한 문제를 dropout을 통해 해결 할 수 있다. dropout을 할 경우, 특정 뉴런의 영향을 받지 않기 떄문에 뉴런들이 서로 동조화 되는 것을 피할 수 있다. 참고&도움 Dive into deep learing 라온피플 Dropout: A simple wa..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bg0Uks/btqByE8UrU6/9moc9G8tRBOdKyyk81e2h1/img.jpg)
학습 속도를 빠르고, 안정적으로 하는 것을 목표 Gradient Descent 가장 기초 학습식으로 전체데이터를 사용 전체 데이터를 사용하기 때문에 시간이 오래걸림 Stochastic Gradient Descent 전체데이터가 아닌 분할하여 학습 Momentum gradient를 수정 Gradient Descent를 통해 이동하는 과정에 관성을 추가 momentum term은 0.9 정도사용 Oscilation 현상 시 유용 SGD 방식에 비해 상대적으로 빠르게 이동 adam gradient, learning rate 모두 수정 RMSProp + Momentum Nesterov Accelerated Gradient Adagrad RMSProp AdaDelta Mini-batch Gradinet Desce..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/mVlop/btqBBffJu4p/fLgyNWIP1VwgTUGLS2RFF1/img.jpg)
활성화 함수 노드에 들어온 값(xw)들에 대해서 출력값에 대해서 활성화을 할것인지 결정 Data를 비선형으로 바꾸기 위해 사용 sigmoid S 자 모양을 가지는 함수 초창기에 많이 사용한 함수 중심을 기준으로 왼쪽은 0, 오른쪽은 1로 수렴하는 함수 모든 구간에서 미분이 가능한 특징 Vanishing gradient problem 발생 ReLU sigmoid의 Vanishing gradient problem 해결하는 함수 Leaky ReLU Dying ReLu 현상을 해결하는 함수 Softmax 분류 할때 사용 모델의 출력층에서 입력데이터가 어떤 클래스로 분류되는지에 대한 확률값 각 출력값들의 합은 1 지수함수를 사용하여, 값이 급격하게 증가하여 overflow 발생 hyperbolic Tangent ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/caKheD/btqBoxvT81r/DcnHwW4WVm9nUAFwnLkac0/img.jpg)
정규분포 초기화의 문제점 w(weight) 값이 정규 분포 0~1 사이의 값으로 설정 wx+b에서 sum.wx을 할 경우 수치가 거대해짐 sigmoid(wx+b)의 모든 값이 1 w 값이 정규 분포 -4~4 사이의 값으로 설정 sigmoid(wx+b)의 값이 0 또는 1 부분에 집중됨 w 값이 N(0,0.1) 값으로 설정 sigmoid(wx+b)의 값이 대다수가 존재 Xavier 초기화 - sigmoid 입력과 출력 노드의 수를 이용한 초기화 He 초기화 - ReLU 입력 노드의 수를 이용한 초기화 참조 & 도움 EXCELSIOR