랜덤 포레스트 r 예제

결론짓기 위해 의사 결정 트리는 모든 예측 변수를 사용하여 전체 데이터 집합에 빌드되는 반면 임의 포리스트는 여러 의사 결정 트리를 만드는 데 사용되며 각 의사 결정 트리는 데이터 집합의 일부에만 빌드됩니다. randomForest() 함수를 사용하여 의사 결정 트리를 만들고 그래프를 봅니다. 임의 포리스트는 소수의 튜닝 매개 변수만 있기 때문에 조정하기가 매우 쉽습니다. 일반적으로 시작할 때 가장 중요한 관심사는 각 분할에서 선택할 후보 변수 수를 조정하는 것입니다. 그러나 우리가 알고 있어야 하는 몇 가지 추가 하이퍼 매개 변수가 있습니다. 인수 이름은 패키지마다 다를 수 있지만 이러한 하이퍼 매개 변수가 있어야합니다 : 이제 많은 예측 변수를 버리는 것은 미친 것처럼 보이지만, 그렇게하는 효과는 각 트리가 서로 다른 예측 변수를 사용하여 다양한 데이터를 분할하기 때문에 의미가 있습니다. 시간. 즉, 동일한 학습 데이터에 생성된 2개의 트리는 각 분할에서 임의로 다른 변수를 선택하므로 트리의 상관 관계가 분리되고 서로 독립됩니다. 랜덤 포리스트와 배깅에 대한 또 다른 좋은 점은 우리가 점점 더 큰 덤불 나무를 추가 계속 할 수 있다는 것입니다 그리고 결국 우리는 단지 나무의 수의 요인에 의해 분산을 줄일 수 있도록 그들을 평균하려고하기 때문에 우리를 다치게하지 않습니다 (T) 자체. mtry 매개 변수를 시작하고 튜닝하는 데 관심이 있다면 randomForest::tuneRF를 사용하여 빠르고 쉽게 튜닝할 수 있습니다. tuneRf는 OOB 오류가 지정된 양으로 개선이 중지 될 때까지 공급하고 특정 단계 계수에 의해 증가 mtry의 값에서 시작합니다. 예를 들어 아래는 mtry = 5로 시작하여 OOB 오류가 1% 향상되지 않는 때까지 1.5배씩 증가합니다.

tuneRF에는 별도의 x y 사양이 필요합니다. 이 시퀀스의 최적 mtry 값이 의 기본 mtry 값에 매우 가깝습니다. 결정 트리와 랜덤 포리스트의 차이점이 분명하기를 바랍니다. 패키지 “랜덤 포레스트”는 임의의 포리스트를 만들고 분석하는 데 사용되는 함수 randomForest()가 있습니다. 부트 스트랩 데이터 세트 – R에서 임의의 포리스트 – Edureka 우리의 경우, OOB 데이터 집합에 대 한 출력 클래스는 `아니오`. 따라서 임의 포리스트 모델이 정확하려면 OOB 데이터를 의사 결정 트리 아래로 실행하면 과반수의 `아니오` 표를 얻어야 합니다.