xdots 2023. 11. 1. 20:18
  • 랜덤포레스트는 의사결정나무 분석의 심화된 기법
  • 데이터를 하나의 나무가 아니라 여러 개의 나무로 확장시켜 분석하는 기계학습
  • 변수 선택이 자유로워 데이터셋에 과적합(Overfitting) 되는 것을 방지할 수 있어 높은 예측력을 가진 모델
  • 원데이터에서 배깅(bagging)을 통해 중복을 허용한 무작위추출로 원데이터와 동일한 크기의 데이터를 여러 개 구성하고 이를 토대로 각각의 의사결정나무를 구성한다.
  • 각각의 의사결정 나무에서 추출된 결과들의 최빈값이나 가중평균 등으로 결합하여 최종 관측치를 예측한다. 
  • 랜덤포레스트에서는 전체 데이터의 약 37%가 OOB(Out of bag) 데이터로 사용된다. OOB 오차를 통해서 구축된 모델 성능 평가 뿐 아니라 예측성능에 영향을 미치는 입력변수에 대한 중요도를 산출할 수 있다.