목록전체 글 (24)
hyeori
단순한 선택 과정을 거쳐 복잡한 결정을 한다. | 의사 결정 트리의 이해 * 루트노드 (root node) * 결정 노드 (decision node) * 분기 (branches) * 잎 노드 (terminal node, leaf node, 일련의 결정이 이뤄진 결과로 수행할 액션 나타냄) 장점) 사람이 읽을 수 있는 형식 어떻게, 왜 특정 작업에 잘 작동하는지 혹은 잘 작동하지 않는지에 대한 통찰력 제공 결정이 많아질 경우 복잡해지며, 의사 결정 트리가 데이터에 과적합되는 경향 갖게 됨 | 분할 정복 재귀분할(recursiving) 이라고 불리는 휴리스틱 사용 → 분할 정복(divide and conquer) 처음에 루트노드는 분할이 일어나지 않았기 때문에 전체 데이터 셋을 표현하고 있..
| 머신러닝의 기원 데이터를 지능적인 행동으로 변환하는 컴퓨터 알고리즘의 개발에 관심을 갖는 연구 분야를 머신러닝 이라고 한다. 머신러닝과 밀접하게 관련된 주제인 데이터 마이닝은 커다란 데이터베이스에서 새로운 통찰력을 얻는 것과 관련돼 있다. 데이터 마이닝은 실행 가능한 지능 덩어리를 체계적으로 추적한다. 머신러닝이 문제를 해결하고자 컴퓨터에게 데이터의 사용법을 가르치는 데 집중하는 반면, 데이터 마이닝은 문제를 해결하고자 컴퓨터에게 사람이 사용할 패턴을 찾도록 가르치는데 집중한다. | 머신러닝의 사용과 남용 대용량 데이터 베이스에서 감지하기 힘든 패턴을 찾는 것은 사람보다 컴퓨터가 더 적합할지 몰라도 분석에 동기를 부여하고 결과를 의미있는 실해으로 전환하려면 아직까지는 사람이 필요하다. 요즘 머..
1) 서울 불법 주정차 신고 현황 시각화2) k= 24 일 때3) K-means clustering 후 , k = 19 인 경우 시각import matplotlib.pyplot as plt # 클러스터 ID가 19인 데이터 필터링 cluster_19 = seoul_data[seoul_data['cluster_id'] == 19] # 클러스터 ID가 19인 데이터의 중심 위치 cluster_19_center = kmeans.cluster_centers_[19] # 클러스터 시각화 plt.scatter(cluster_19['경도'], cluster_19['위도'], c='blue', s=10, alpha=0.5) plt.scatter(cluster_19_center[0], cluster_19_center[1..
LSTM 이란 - RNN의 한 종류, RNN의 장기 의존성 문제 해결하기 위해 나온 모델 - 직전 데이터 뿐만 아니라, 거시적으로 과거 데이터 고려 → 미래 데이터 예측 LSTM 네트워크 구조 RNN과 똑같이 체인 구조를 가지고 있지만, 4개의 Layer가 특별한 방식으로 서로 정보를 주고 받는다. 총 6개의 파라미터 + 4개의 게이트 Cell State LSTM의 핵심 부분으로, 컨베이어 벨트와 같다. 작은 linear interaction 만을 적용시켜, 전체 체인을 계속 구동시킨다. 정보가 전혀 바뀌지 않고, 그대로만 흐르게 한다. State가 오래 경과해도, Gradient가 잘 전파 된다. Gate 에 의해 정보가 추가되거나 제거되며, Gate는 Training을 통해 어떤 정보를 유지하고 버릴..