다중회귀분석 예제

PROC REG를 사용하여 SAS에서 여러 회귀를 수행합니다. 다음은 위에서 설명한 롱노스 데이스 풍요로움에 대한 데이터를 사용하는 예이다. “R” 열은 다중 상관 계수인 R의 값을 나타냅니다. R은 종속 변수의 예측 품질의 하나의 척도로 간주될 수 있다; 이 경우 VO2max. 이 예제에서 값이 0.760이면 양호한 수준의 예측이 있음을 나타냅니다. “R 사각형” 열은 R2 값(결정 계수라고도 함)을 나타내며, 이는 독립 변수에 의해 설명될 수 있는 종속 변수의 분산 비율입니다(기술적으로 는 설명된 변동의 비율입니다) 평균 모델 위와 그 너머의 회귀 모델에 의해) 0.577의 가치에서 우리의 독립 변수가 우리의 종속 변수 VO2max의 변동성의 57.7 %를 설명하는 것을 볼 수 있습니다. 그러나 데이터를 정확하게 보고하려면 “조정된 R 스퀘어”(adj. R2)를 해석할 수도 있어야 합니다. 우리는 우리의 향상된 다중 회귀 가이드에서 이것에 대한 이유뿐만 아니라 출력을 설명합니다. 마지막 예제에서는 locus_of_control 방정식의 과학 계수가 self_concept 방정식의 과학 계수와 같으며 변수 쓰기 방정식에 변수 쓰기 계수가 있다는 null 가설을 테스트합니다. 결과 변수 locus_of_control은 방정식에서 쓰기 계수와 결과 변수 self_concept와 같습니다.

마지막 예제에서 쓰기계수의 차이를 테스트했기 때문에 accum 옵션을 사용하여 과학 계수의 차이 테스트를 추가하여 두 계수 집합을 동시에 테스트할 수 있습니다. 다변량의 경우 둘 이상의 독립 변수가 있는 경우 회귀 선은 2차원 공간에서 시각화할 수 없지만 쉽게 계산할 수 있습니다. 예를 들어 IQ 외에도 추가 성취 예측 변수(예: 동기 부여, 자기 수율)가 있는 경우 이러한 모든 변수를 포함하는 선형 방정식을 구성할 수 있습니다. 일반적으로, 여러 회귀 절차는 양식의 선형 방정식을 추정합니다 : 예를 들어, 시험에서 학생의 시험 점수는 수업에 참석하는 동안 자신의 초점과 같은 다양한 요인에 따라 달라집니다 가정 해 봅시다, 전에 음식의 섭취 시험과 그가 시험 전에 얻는 수면의 양. 이 테스트를 사용하면 이러한 요소 들 간의 적절 한 관계를 추정할 수 있습니다. 산점도에는 독립 또는 X 변수와 종속 변수 또는 Y 변수가 있습니다. 이러한 변수는 예를 들어 IQ(시험으로 측정된 지능) 및 학교 성취도(학점 평균)를 나타낼 수 있습니다. GPA) 각각. 플롯의 각 점은 한 학생, 즉 각 학생의 IQ 및 GPA를 나타냅니다. 선형 회귀 절차의 목표는 점을 통과하는 선을 맞추는 것입니다.

특히 이 프로그램은 해당 줄에서 관찰된 점의 제곱 편차가 최소화되도록 선을 계산합니다. 따라서, 이 일반적인 절차는 때때로 적어도 제곱 추정이라고도 합니다. 다중 회귀의 한 가지 용도는 X 값 집합에 해당하는 알 수 없는 Y 값의 예측 또는 추정입니다. 예를 들어, 북미 대서양 연안의 모래 해변에 사는 희귀 한 해변 호랑이 딱정벌레 인 Cicindela dorsalis dorsalis를 다시 소개하기에 적합한 서식지를 찾는 데 관심이 있다고 가정 해 봅시다. 당신은 이미 딱정벌레를 가지고 호랑이 딱정벌레 (종속 변수)와 파도 노출, 모래 입자 크기, 해변 가파른, 양서류 및 기타 먹이의 밀도와 같은 여러 생물학적 및 비생물 적 요인의 밀도를 측정 한 해변의 숫자에 갔다 유기체 등 다중 회귀는 호랑이 딱정벌레 밀도를 다른 모든 변수의 함수와 연관시키는 방정식을 제공합니다. 그런 다음 호랑이 딱정벌레가없는 해변에 가서 모든 독립적 인 변수 (파도 노출, 모래 입자 크기 등)를 측정하면 여러 회귀 방정식을 사용하여 호랑이 딱정벌레의 밀도를 예측할 수 있습니다. 그들을 소개했다.