목록머신러닝 (12)
hyeori
앙상블 기법 - 랜덤 포래스트RandomForestClassifier 모델 훈련feature_importances_ 속성에서 확인Wine 데이터 셋에서 500개의 트리를 가진 랜덤 포레스트를 훈련한다.각각의 중요도에 따라 13개의 특성에 순위를 매긴다.*트리 기반의 모델은 표준화나 정규화할 필요 Xfrom sklearn.ensemble import RandomForestClassifierfeat_labels = df_wine.columns[1:]forest = RandomForestClassifier(n_estimators=500, random_state=1)forest.fit(X_train, y_train)importances = forest.fe..
과대적합(overfitting) : 모델이 테스트 데이터셋보다 훈련 데이터셋에서 성능이 훨씬 높다.→ 더 많은 훈련 데이터→ 규제를 통해 복잡도를 제한→ 파라미터 개수가 적은 간단한 모델 선택→ 데이터 차원을 줄이기 4.5.1 모델 복잡도 제한을 위한 L1 규제와 L2 규제 - L2 규제 (Ridge) : - L1 규제 (Lasso) : 가중치 제곱 → 가중치 절댓값, 희소한 특성 벡터를 만든다. 대부분의 특성 가중치가 0이 된다.(고차원 데이터의 경우), 훈련 샘플보다 관련 없는 특성이 더 많은 경우 4.5.2 L2 규제의 기하학적 해석 L2 규제 ) 비용함수 + 패널티 항목표 : train data에서 비용함수를 최소화하는 가중치 값의 조합을 찾자! (타원 중심 포인트) 4.5.3 L1 규..
결정 트리와 랜덤 포레스트는 특성 스케일 조정 걱정 필요 X, scale 에 영향 받지 않는다.대부분의 머신 러닝과 최적화 알고리즘은 특성의 스케일이 같을 때 성능 ↑스케일이 다른 특성을 맞추는 대표적인 방법 두 가지정규화 (normalization)[0,1]min_max scalingfrom sklearn.preprocessing import MinMaxScalermms = MinMaxScaler()X_train_norm = mms.fit_transform(X_train)X_test_norm = mms.transform(X_test) 2. 표준화 (standardization)경사 하강법과 같은 최적화 알고리즘에 널리 사용된다.평균 : 0, 표준편차 : 1min_max scaling에 비해 이상치에..