
Cross Validation and Dimensionality Reduction 본문

goorm 수업 정리/Machine Learning

Cross Validation and Dimensionality Reduction

yuuuun 2021. 8. 30. 16:05

Cross Validation

  • Loo(Leave-one-out) cross validation
    • 1개를 제외한 모든 것을 TRAINING
    • 한번당 학습에 소요되는 시간이 매우 오래 걸린다.
    • 성능이 조금 더 좋다.
  • k-fold cross validation
    • 데이터를 다 사용하지 않기 때문에 실제로 성능이 좋지 않다.
    • 랜덤하게 K개로 나누어학습 진행
    • class imbalance가 자주 존재
      • 데이터가 적은 애를 비율로 추가해서 진행하는 방식으로 
  • Train, Valid, Test Data
    • 비율: 70, 20, 10

Dimenionality Reduction

  • 효과
    • less storage
    • faster computation
    • noise removal(improving data quality)
      • works as pre-processing for better performance
      • 불필요한 데이터를 제거가능(오히려 있으면 방해가 될 데이터셋)
    • 2d/3d representation
  • 기술(Feature = Variable = Dimension)
    • Feature Selection
      • selects a subset of the original variables as reduced dimensions
    • Feature extraction
      • each reduced dimension combines multiple original dimensions
      • 가지고 있는 데이터를 이용해서 추출하여 새로운 feature를 만들어 내는 과정
      • feature를 마냥 늘린다고 해서 성능이 올라간다는 것만은 아니기 때문에 적당한 FEATURE수를 갖는 것이 중요하다.

Principal Component Analysis(PCA)

  • finds the axis showing the largest variation, and project all points into this axis
  • Reduced dimensions are orthogonal
  • Algorithm: Eigen-decomposition
  • Pros: Fast
  • Cons: Limited Performances
  • 분산이 가장 펼쳐져 있는 축을 고르는 것이 데이터를 골고루 분포하게 할수 있어서 좋음

'goorm 수업 정리 > Machine Learning' 카테고리의 다른 글

Dimensionality Reduction  (0) 2021.09.01
Regularization  (0) 2021.08.27
Logistic Regression  (0) 2021.08.26
Multiple Variable Linear Regression  (0) 2021.08.25
Linear Regression  (0) 2021.08.24