목록분류 전체보기 (24)
hyeori
train_test_split : X와 y를 랜덤하게 훈련 데이터셋과 테스트 데이터셋으로 분할test_size = 0.3 : 와인 샘플의 30% 가 X_test와 y_test에 할당된다. 나머지 70%는 X_train과 y_train에 할당된다.
4.2.1 판다스를 사용한 범주형 데이터 인코딩color : 순서 Xsize : 순서 Oprice : 수치형 특성4.2.2 순서가 있는 특성 매핑학습 알고리즘이 순서 특성을 올바르게 인식하려면→ 범주형의 문자열 값 → 정수로 변환size_mapping = {'XL': 3, 'L': 2, 'M': 1}df['size'] = df['size'].map(size_mapping)df정수 → 원래 문자열 표현 : inv_size_mapping = {v: k for k, v in size_mapping.items()}inv_size_mapping = {v: k for k, v in size_mapping.items()}df['size'].map(inv_size_..
NAN : 숫자가 아니다 (not a number)NULL : 관계형 데이터베이스에서 모르는 값을 지칭4.1.1 테이블 형태 데이터에서 누락된 값 식별df.isnull().sum() #누락된 값의 개수를 얻을 수 있다. 4.1.2 누락된 값이 있는 훈련 샘플이나 특성 제외해당 훈련 행이나 열 삭제df.dropna(axis = 0) # 누락된 값이 있는 행 삭제df.dropna(axis = 1) # NaN이 하나라도 있는 열 삭제 가능df.dropna(how = 'all') # 모든 열이 Nan일 때만 행을 삭제df.dropna(thresh=4) # NaN이 아닌 값이 4개 보다 작은 행 삭제df.dropna(subset = ['C']) # 특정 열에 NaN이 있는 행만 삭제4.1.3 누락된 값 대체평균으..
선형 뉴런 (ADAptive Linear NEuron, ADALINE), 아달린 (Adaline) ← 퍼셉트론의 향상된 버전아달린은 연속 함수 (continuous function) 으로 비용함수를 정의하고, 최소화하는 핵심 개념을 보여준다. logistic regression, SVM 이해하는데 도움이 된다. 아달린 규칙(위드로우-호프 규칙) vs 퍼셉트론가중치를 업데이트 할 때, 선형활성화 함수를 사용한다.선형 활성화 함수 𝜃(𝑧)는 단순한 항등함수 (identity function)이다. 아달린 알고리즘은 진짜 클래스 레이블과 선형 활성화 함수의 실수 출력 값을 비교하여, 모델의 오차를 계산하고 가중치를 업데이트 한다.퍼셉트론은 진짜 클래스 레이블과 예측 클래스 레이블을 비교한다. 2.3.1 경..