yuns
Cross Validation and Dimensionality Reduction 본문
goorm 수업 정리/Machine Learning
Cross Validation and Dimensionality Reduction
yuuuun 2021. 8. 30. 16:05반응형
Cross Validation
- Loo(Leave-one-out) cross validation
- 1개를 제외한 모든 것을 TRAINING
- 한번당 학습에 소요되는 시간이 매우 오래 걸린다.
- 성능이 조금 더 좋다.
- k-fold cross validation
- 데이터를 다 사용하지 않기 때문에 실제로 성능이 좋지 않다.
- 랜덤하게 K개로 나누어학습 진행
- class imbalance가 자주 존재
- 데이터가 적은 애를 비율로 추가해서 진행하는 방식으로
- Train, Valid, Test Data
- 비율: 70, 20, 10
Dimenionality Reduction
- 효과
- less storage
- faster computation
- noise removal(improving data quality)
- works as pre-processing for better performance
- 불필요한 데이터를 제거가능(오히려 있으면 방해가 될 데이터셋)
- 2d/3d representation
- 기술(Feature = Variable = Dimension)
- Feature Selection
- selects a subset of the original variables as reduced dimensions
- Feature extraction
- each reduced dimension combines multiple original dimensions
- 가지고 있는 데이터를 이용해서 추출하여 새로운 feature를 만들어 내는 과정
- feature를 마냥 늘린다고 해서 성능이 올라간다는 것만은 아니기 때문에 적당한 FEATURE수를 갖는 것이 중요하다.
- Feature Selection
Principal Component Analysis(PCA)
- finds the axis showing the largest variation, and project all points into this axis
- Reduced dimensions are orthogonal
- Algorithm: Eigen-decomposition
- Pros: Fast
- Cons: Limited Performances
- 분산이 가장 펼쳐져 있는 축을 고르는 것이 데이터를 골고루 분포하게 할수 있어서 좋음
반응형
'goorm 수업 정리 > Machine Learning' 카테고리의 다른 글
Dimensionality Reduction (0) | 2021.09.01 |
---|---|
Regularization (0) | 2021.08.27 |
Logistic Regression (0) | 2021.08.26 |
Multiple Variable Linear Regression (0) | 2021.08.25 |
Linear Regression (0) | 2021.08.24 |
Comments