목록optimizer (1)
Head vs breakz

학습 속도를 빠르고, 안정적으로 하는 것을 목표 Gradient Descent 가장 기초 학습식으로 전체데이터를 사용 전체 데이터를 사용하기 때문에 시간이 오래걸림 Stochastic Gradient Descent 전체데이터가 아닌 분할하여 학습 Momentum gradient를 수정 Gradient Descent를 통해 이동하는 과정에 관성을 추가 momentum term은 0.9 정도사용 Oscilation 현상 시 유용 SGD 방식에 비해 상대적으로 빠르게 이동 adam gradient, learning rate 모두 수정 RMSProp + Momentum Nesterov Accelerated Gradient Adagrad RMSProp AdaDelta Mini-batch Gradinet Desce..
Head/인공지능
2020. 1. 23. 09:46