hyeori
LSTM ) 개념과 원리 본문
LSTM 이란
- RNN의 한 종류, RNN의 장기 의존성 문제 해결하기 위해 나온 모델
- 직전 데이터 뿐만 아니라, 거시적으로 과거 데이터 고려 → 미래 데이터 예측
LSTM 네트워크 구조
RNN과 똑같이 체인 구조를 가지고 있지만, 4개의 Layer가 특별한 방식으로 서로 정보를 주고 받는다.
총 6개의 파라미터 + 4개의 게이트
Cell State
LSTM의 핵심 부분으로, 컨베이어 벨트와 같다. 작은 linear interaction 만을 적용시켜, 전체 체인을 계속 구동시킨다. 정보가 전혀 바뀌지 않고, 그대로만 흐르게 한다. State가 오래 경과해도, Gradient가 잘 전파 된다. Gate 에 의해 정보가 추가되거나 제거되며, Gate는 Training을 통해 어떤 정보를 유지하고 버릴지 학습한다.
Forget Gate
과거의 정보를 버릴지 말지 결정하는 과정. Sigmoid layer에 의해서 결정된다. $h_{t-1}$ 과 $x_t$를 받아서 0과 1사이의 값을 $C_{t-1}$에 보내준다. 그 값이 1이면, "모든 정보를 보존해라.", 0이면 "죄다 갖다 버려라." 가 된다.
Input Gate
현재 정보를 기억하기 위한 게이트. 현재의 Cell state 값에 얼마나 더할지 말지 정하는 역할을 한다.
Update
과거 Cell State를 새로운 State로 없데이트 하는 과정. Forget Gate를 통해서 얼마나 버릴지, Input Gate에서 얼마나 더할지 정했으므로, 이 Update 과정에서, 계산을 통해, Cell State로 업데이트 한다.
Output Gate
어떤 출력값을 출력할지 결정하는 과정. 최종적으로 얻어진 Cell State 값을 얼마나 빼낼지 결정하는 역할을 한다.
https://dgkim5360.tistory.com/entry/understanding-long-short-term-memory-lstm-kr
'딥러닝' 카테고리의 다른 글
LSTM ) 모델 차이 (0) | 2024.02.22 |
---|