목록2025/03/15 (2)
yuns
머신러닝 모델의 성능은 주어진 데이터의 품질에 크게 좌우됩니다. 따라서 데이터 수집과 전처리는 모델 개발 과정에서 가장 중요한 단계 중 하나입니다. 이번 글에서는 머신러닝을 위한 데이터 수집 및 전처리 과정에 대해 자세히 알아보겠습니다.1. 데이터 수집(Data Collection)데이터 수집은 머신러닝 모델을 훈련하기 위해 필요한 데이터를 확보하는 과정입니다. 데이터는 다양한 출처에서 얻을 수 있으며, 다음과 같은 방법들이 일반적으로 사용됩니다.📌 데이터 수집 방법공개 데이터셋 활용Kaggle (https://www.kaggle.com)UCI Machine Learning Repository (https://archive.ics.uci.edu/ml)Google Dataset Search (https:..

1. KNN이란?K-최근접 이웃(K-Nearest Neighbors, KNN)은 지도 학습(Supervised Learning) 알고리즘 중 하나로, 분류(Classification)와 회귀(Regression) 문제를 해결하는 데 사용됩니다. KNN은 새로운 데이터 포인트가 주어졌을 때, 가장 가까운 K개의 이웃을 참고하여 클래스를 결정하는 방식으로 작동합니다.2. KNN의 작동 원리KNN은 훈련 데이터로부터 명시적인 모델을 학습하지 않고, 단순히 거리 기반 비교(distance-based comparison) 를 수행하여 예측하는 비모수(non-parametric) 알고리즘입니다.새로운 데이터 포인트가 주어지면,기존 데이터와의 거리를 계산합니다.가장 가까운 K개의 이웃을 선택합니다.이웃들의 클래스를 ..