رگرسيون خطي براي مدل كردن مقدار يك متغير كمي وابسته كه بر رابطة خطي‌اش با يك يا چند پيشگو بنا شده است به كار مي‌رود.

مدل رگرسيون خطي

مدل رگرسيون خطي فرض مي‌كند كه يك رابطة خطي (يا خط مستقيم) بين متغير وابسته و هر پيشگو وجود دارد. اين رابطه در فرمول زير توضيح داده شده است.

yi = b0 + b1xi1 + … + bpxip + ei

كه در آن

yi: مقدار مورد iام متغير كمي وابسته است.

p: تعداد پيشگوها مي‌باشد.

bj: مقدار ضريب jام است، j= 0 , … , p

Xij: مقدار مورد iام از پيشگوي jام مي‌باشد.

ei: خطاي در مقدار مشاهده شده براي مورد iام است.

مدل خطي است زيرا با افزايش مقدار پيشگوي jام با يك واحد باعث افزايش مقدار وابسته واحدهاي bi مي‌شود. توجه كنيد كه b0 عرض از مبدأ است، كه وقتي مقدار هر پيشگو برابر صفر مي‌شود، b0 مقدار مدل پيشگوي متغير وابسته مي‌باشد.

به منظور آزمايش فرضيه‌هاي مربوط به مقادير پارامترهاي مدل، مدل رگرسيون خطي نيز فرضيات زير را در نظر مي‌گيرد:

ـ عبارت خطا يك توزيع نرمال با ميانگين 0 دارد.

ـ واريانس عبارت خطا در سرتاسر موارد ثابت مي‌باشد و از متغيرها در مدل مستقل است. يك عبارت خطا با واريانس غيرثابت را heteroscedastic مي‌نامند.

ـ مقدار عبارت خطا براي يك مورد داده شده مستقل از مقادير متغيرها در مدل و مستقل از مقادير عبارت خطا براي موارد ديگر مي‌باشد.

استفاده از رگرسيون خطي براي پيشگويي زمان‌هاي پرداخت كاري

شركتي يك خط توليد دارد كه نيازمند به يك مرحله پرداخت كاري در فرآيند ساخت مي‌باشد. براي برنامه‌ريزي زمان توليد، زمان‌هاي پرداخت كاري 59 محصول، به همراه نوع محصول و اندازه‌هاي مرتبط با آن، ثبت شده است.

اين داده‌ها در فايل Polishing.sav ذخيره شده است. از رگرسيون خطي براي تعيين زمان پرداخت كاري كه با اندازة محصول مي‌تواند پيشگويي شود استفاده نماييد.

قبل از اجراي رگرسيون، بايد يك نمودار پراكنش از زمان پرداخت كاري نسبت به اندازة محصول تهيه كنيد تا مشخص شود كه آيا مدل خطي براي اين متغيرها منطقي است.

ايجاد نمودار پراكنش متغير وابسته نسبت به مستقل

1ـ براي ايجاد يك نمودار پراكنش از متغير diam بر حسب time، مسير زير را از نوار منو برگزينيد:

Graphs > Scatter / Dot

2ـ دكمة Define را كليك كنيد.

3ـ time را به عنوان متغير y و diam را بعنوان متغير x برگزينيد.

4ـ Ok را كليك كنيد. در نتيجه نمودار پراكنش ايجاد مي‌شود.

5ـ براي ديدن بهترين خطي كه روي نقاط اين نمودار قرار مي‌گيرد، با دوبار كليك كردن نمودار، آن را فعال نماييد.

6ـ نقطه‌اي را در Chart Editor برگزينيد.

7ـ آيكن Add Fit Line را كليك كنيد و سپس پنجرة Chart Editor را ببنديد.

نمودار پراكنش نتيجه با خط رگرسيون مناسب ظاهر مي‌گردد.

a ـ تغييرپذيري زمان پرداخت كاري طوري ظاهر مي‌شود كه با افزايش اندازه، زياد مي‌شود.

b ـ نقطة موجود در بالا و سمت راست نمودار ممكن است تأثير بيش از حدي در وضعيت خط رگرسيون بگذارد.

 

 

آغاز تحليل

1ـ براي اجراي يك تحليل رگرسيون خطي، مسير Analyze > Regression > Linear را از نوار منو برگزينيد.

2ـ time را بعنوان متغير وابسته برگزينيد.

3ـ diam را به عنوان متغير مستقل انتخاب كنيد.

4ـ type را بعنوان متغير عنوان‌گذاري مورد (Case Labels) انتخاب نماييد.

5ـ دكمة Plots را كليك كنيد.

6ـ *SDRESID را به عنوان متغير y و *ZPRED را به عنوان متغير x برگزينيد.

7ـ گزينه‌هاي Histogram و Normal Probability Plot را فعال كنيد.

8ـ دكمة Continue را كليك كنيد.

9ـ دكمة Save را در جعبه محاورة Linear Regression كليك كنيد.

10ـ در مجموعة Predicted Values گزينة Standardized را فعال نماييد.

11ـ در مجموعة Residuals گزينة Standardized را فعال كنيد.

12ـ گزينه‌هاي Cook’s و Leverage Values را در مجموعة Distances فعال نماييد.

13ـ دكمة Continue را كليك كنيد.

14ـ دكمة Ok را در جعبه محاورة Linear Regression كليك كنيد.

اين مراحل، يك مدل رگرسيون خطي را براي زمان پرداخت كاري برحسب اندازه ايجاد مي‌نمايد. نمودارهاي تشخيصي باقي‌مانده‌هاي استاندارد شده با مقادير مدل پيشگو مورد نياز هستند، و مقادير مختلف براي آزمون تشخيصي بيشتر ذخيره شده‌اند.

جدول زير ضرائب رگرسيون خطي را نشان مي‌دهد. اين بيان مي‌كند كه زمان پرداخت مورد انتظار برابر DIAM-1.955*3.475 مي‌باشد. اگر شركت بخواهد يك قابلمه 15 اينچي را بسازد، زمان پرداخت كاري برابر 15-1.955=49.9*3.457، يا حدود 50 دقيقه مي‌باشد.

 

 

 

 

 

 

 

بررسي همواري مدل

جدول ANOVA مقبوليت مدل را از منظر آماري بررسي مي‌كند. سطر Regression اطلاعات راجع به تغيير مدل شما را نشان مي‌دهد (a). سطر Residual اطلاعات راجع به تغيير كه در مدل شما به حساب نمي‌آيد نشان مي‌دهد (b).

جمع مربعات رگرسيون و باقي‌مانده تقريباً برابرند، كه نشان مي‌دهد نيمي از تغيير در زمان پرداخت كاري توسط مدل نشان داده شده است (c). سطح معني‌داري آماره F كمتر از 0.05 مي‌باشد، و اين بدان معني است كه تغيير نشان داده شده بوسيله مدل بر اثر اتفاق نيست (d).

از آنجا كه جدول ANOVA يك آزمون سودمند از توانايي مدل در توضيح تأثير هر متغير در متغير وابسته مي‌باشد، مستقيماً به شدت رابطه توجه ندارد.

جدول خلاصه مدل شدت رابطه بين مدل و متغير وابسته را گزارش مي‌نمايد. R، يعني ضريب همبستگي چندگانه، همبستگي خطي بين مقادير مشاهده شده و مقادير مدل پيشگوي متغير وابسته مي‌باشد. مقدار بزرگ آن يك رابطة قوي را نشان مي‌دهد (a). R’square، يعني ضريب تعيين، مقدار مربع ضريب همبستگي چندگانه است. اين نشان مي‌دهد كه حدود نيمي از تغيير در زمان با مدل تبيين شده است (b).

براي بررسي بيشتر دربارة همواري مدل، خطاي استاندارد برآورد در جدول خلاصة مدل را با انحراف معيار زمان گزارش شده در جدول آماره‌هاي توصيفي مقايسه نماييد.

بدون آگاهي قبلي دربارة اندازة يك محصول جديد، بهترين حدس شما براي زمان پرداخت كاري حدود 35.8 دقيقه با انحراف معيار 19.0 مي‌باشد. با مدل رگرسيون خطي، خطاي برآوردهاي شما بطور معني‌داري كمتر مي‌باشد (حدود 13.7).

بررسي نرمال بودن عبارت خطا

Residual (باقي‌مانده) اختلاف بين مشاهده و مقادير مدل پيشگوي متغير وابسته است. باقي‌ماندة يك محصول عبارتست از مقدار مشاهده شدة عبارت خطا براي آن محصول. هيستوگرام يا نمودار P-P باقي مانده براي بررسي فرض نرمال بودن عبارت خطا مورد استفاده قرار مي‌گيرد. شكل هيستوگرام تقريباً بايد از شكل منحني نرمال تبعيت كنند.

باقي مانده‌ها در نمودار P-P بايد تابع خط 45 درجه باشند. نه هيستوگرام و نه نمودار P-P فرضيه نرماليته را نقض نمي‌كنند.

 

 

 

 

 

 

 

 

 

بررسي استقلال عبارت خطا

نمودار باقي‌مانده‌ها نسبت به مقادير پيشگويي نشان مي‌دهد كه واريانس خطاها با افزايش زمان پرداخت كاري پيشگويي شده افزايش مي‌يابند.

1ـ براي بررسي باقي‌مانده‌ها نسبت به ابعاد، جعبه محاورة Simple Scatterplot  را فراخواني كنيد.

2ـ به جاي time،  گزينة Standardized Residual را متغير y نماييد.

3ـ Ok را كليك كنيد.

نمودار باقي‌مانده‌ها نسبت به ابعاد نتايج يكساني را در بردارد. براي تصحيح Heteroscedasticity (عبارت خطا با واريانس غيرثابت) در باقي‌مانده‌ها در تحليل‌هاي تكميلي، بايد يك متغير وزن‌دهي را بر اساس معكوس ابعاد محصول تعريف نماييد. استفاده از متغير وزن‌دهي، تأثير محصولات با ابعاد بزرگ و متغير زمان‌هاي پرداخت كاري خيلي زياد كه ناشي از برآوردهاي رگرسيون خيلي دقيق است كاهش مي‌دهد.

شناسايي نقاط مؤثر

4ـ براي بررسي نقاط مؤثر، جعبه محاورة Simple Scatterplot را فراخواني نماييد.

5ـ به جاي Standardized Residual گزينة Cook’s Distance را متغير y نماييد.

6ـ به جاي diam گزينة Centered Leverage Value را متغير x كنيد.

7ـ Type را براي متغير عنوان‌گذاري مورد (Label Cases by) برگزينيد.

8ـ Ok را كليك كنيد.

نمودار پراكنش نتيجه، يك نقطه را در سمت راست در فاصله‌اي دور از بقيه نشان مي‌دهد.

9ـ براي شناسايي نقطه، نمودار را با دوبار كليك كردن فعال نماييد.

10ـ آيكن Data ID Mode را كليك كنيد (a).

11ـ نقطه را انتخاب نماييد. اين نقطه با كلمة Tray معرفي مي‌شود.

اين مورد داراي اثر اهرمي و تأثير زيادي مي‌باشد. اثر اهرمي آن باعث وزن بالا در محاسبات رگرسيون خطي مي‌شود، و تأثير بالاي آن روي شيب و رگرسيون خطي اعمال مي‌گردد. شما مي‌توانيد به يك نقطه مؤثر به كمك يك متغير وزن‌دهي كه نقطه مؤثر را كم وزن مي‌كند سر و كار داشته باشيد.

خلاصه

دانستن زمان پرداخت كاري براي هر محصول به شركت كمك مي‌كند تا برنامه زمان‌بندي مناسب‌تري داشته باشد. با استفاده از قابليت رگرسيون خطي مي‌توانيد با استفاده از رابطة بين ابعاد محصول و زمان پرداخت كاري برنامه زمان‌بندي را به روز نماييد.

استفاده از رگرسيون خطي براي مدل فروش كاميون

يك گروه صنعتي خودروسازي قصد دارد ميزان فروش كاميون‌هاي خود را بررسي نمايد. براي اينكار بررسي ارتباط بين فروش كاميون‌ها و مشخصات آنها لازم مي‌باشد.

اطلاعات لازم در فايل Car–sales.sav موجود است. از رگرسيون خطي براي شناسايي مدل‌هايي كه خوب به فروش نمي‌رسند استفاده نماييد.

 

آغاز تحليل

1ـ براي اجراي يك ـ رگرسيون خطي، مسير Analyze > Regression > Linear را از نوار منو برگزينيد.

2ـ Log – transformed Sales را بعنوان متغير وابسته برگزينيد.

توزيع Log – transformed Sales نسبت به Sales in thousands به حالت نرمال نزديك‌تر است و مدل رگرسيون خطي با متغيرهاي نرمال بهتر كار مي‌كند.

3ـ گزينه‌هاي Vehicle type تا Fuel efficiency را به عنوان متغيرهاي مستقل انتخاب نماييد.

4ـ دكمة Statistics را كليك كنيد.

5ـ گزينه‌هاي Part and Partial Correlations و Collinearity diagnostics را فعال نماييد.

6ـ دكمة Continue را كليك كنيد.

7ـ Ok را در جعبه محاورة Linear Regression كليك كنيد.

 

بررسي همواري مدل

جدول ANOVA يك آمارة F معني‌دار را شرح مي‌دهد، و نشان مي‌دهد كه استفاده از مدل بهتر از تخمين‌زدن ميانگين است.

بطور كلي، رگرسيون فروش‌ها را به طور مناسب مدل‌سازي مي‌كند. تقريباً نيمي از تغيير در فروش‌ها با مدل بيان مي‌شود.

 

 

 

 

 

 

 

 

 

 

 

ضرايب

با اين كه همواري مدل مثبت به نظر مي‌رسد، بخش اول جدول ضرائب نشان مي‌دهد كه پيشگوهاي فراواني در مدل وجود دارند. چندين ضريب بي‌معني وجود دارد كه نشان مي‌دهد اين متغيرها خيلي به مدل كمك نمي‌كنند (a). براي تعيين پيشگوهاي معني‌دار نسبتاً مهم، به ضرائب استاندارد شده نگاه كنيد. حتي اگر Price in thousands يك ضريب كوچك در مقايسه با Vehicle type دارد، Price in thousands در واقع به مدل كمك بيشتري مي‌كند چون يك مقدار مطلق ضريب استاندارد شدة بزرگتري دارد (b).

قسمت دوم جدول ضرائب نشان مي‌دهد كه ممكن است با هم خطي چندگانه مشكلي وجود داشته باشد. براي بيشتر پيشگوها، مقادير همبستگي‌هاي Partial و Part به طور ناگهاني از همبستگي مرتبه صفر كاهش مي‌يابند (a).

تلرانس، درصد واريانس در يك پيشگو مي‌باشد كه نمي‌توان با پيشگوهاي ديگر آن را توضيح داد. بنابراين، تلرانس‌هاي كوچك كه 70%-90% واريانس را در يك پيشگو نشان مي‌دهد مي‌تواند با پيشگوهاي ديگر معلوم شود (b). وقتي تلرانس به 0 نزديك شود، هم خطي چندگانه بزرگي وجود دارد و خطاي استاندارد ضرائب رگرسيون بزرگ خواهند شد. يك عامل افزايشي واريانس بزرگتر از 2 معمولاً مسئله‌ساز مي‌باشد، در حاليكه كوچك‌ترين VIF در جدول معادل 3.193 است (c).

 

 

 

 

هم‌خطي بودن

هم‌خطي بودن تأئيد مي‌كند كه مجموعه‌اي از مشكلات همراه با چند خطي چندگانه وجود دارد. چندين مقدار ويژه (Eigenvalue) نزديك به 0، نشان مي‌دهد كه پيشگوها خيلي همبستگي داخلي دارند و اينكه تغييرات كوچك در مقادير داده‌ها ممكن است به تغييرات بزرگي دربرآورد ضرائب منتهي شود. Condition Index به صورت مربع ريشه نسبت‌هاي بزرگ‌ترين مقدار ويژه به مقدار ويژه متوالي محاسبه مي‌شود. مقادير بزرگتر از 15 نشان مي‌دهد كه احتمالاً مشكلي در هم‌خطي بودن وجود دارد؛ مقادير بزرگتر از 30، نشان دهندة يك مجموعه از مشكلات هستند، شش تا از اين شاخص‌ها بزرگتر از 30 هستند، در نتيجه مشكلات فراواني با هم‌خطي بودن همراه است (a).

در ادامه تلاش مي‌شود كه مشكلات هم‌خطي بودن را با اجراي رگرسيون با استفاده از ZScoreهاي متغيرهاي وابسته و روش قدم به قدم (stepwise) انتخاب مدل حل گردد.

اجراي رگرسيون خطي قدم به قدم

1ـ براي اجراي يك رگرسيون خطي قدم به قدم در متغيرهاي استاندارد شده، جعبه محاورة Linear Regression را فراخواني نماييد.

2ـ گزينه‌هاي Vehicle type تا Fuel efficiency را بعنوان متغيرهاي مستقل از حالت انتخاب خارج سازيد.

3ـ گزينة ZScore: Vehicle type تا ZScore: Fuel efficiency را به عنوان متغيرهاي وابسته انتخاب نماييد.

4ـ Stepwise را بعنوان روش وارد كردن (Method) انتخاب كنيد.

5ـ گزينة Model را به عنوان متغير عنوان‌گذاري مورد (Case Labels) انتخاب نماييد.

6ـ دكمة Statistics را كليك كنيد.

7ـ گزينة Part and Partial Correlations را از حالت انتخاب خارج سازيد.

8ـ گزينة Casewise diagnostics را انتخاب نماييد و 2 را در كادر متني تايپ نماييد.

9ـ دكمة Continue را كليك كنيد.

10ـ دكمة Plots را در جعبه محاورة Linear Regression كليك كنيد.

11ـ *SDRESID را به عنوان متغير y و *ZPRED را به عنوان متغير X برگزينيد.

12ـ گزينة Histogram را فعال نماييد.

13ـ دكمة Continue را كليك كنيد.

14ـ دكمة Save را در جعبه محاورة Linear Regression كليك كنيد.

15ـ گزينة Standardized را در مجموعة Predicted Values فعال نماييد.

16ـ گزينة Standardized را در مجموعة Residuals فعال كنيد.

17ـ گزينه‌هاي Cook’s و Leverage Values را در مجموعة Distances فعال نماييد.

18ـ دكمة Continue را كليك كنيد.

19ـ Ok را در جعبه محاورة Linear Regression كليك كنيد.

 

تشخيص هم‌خطي بودن

هيچ مقدار ويژه‌اي در نزديكي 0 وجود ندارد، و همة شاخص‌هاي شرطي خيلي كوچكتر از 15 هستند. استراتژي كار مي‌كند، و مدل ساخته شده با روش‌هاي قدم به قدم مشكلي با هم خطي بودن ندارد.

بررسي همواري مدل

مدل جديد قادر است كه فروش‌ها را در قياس با مدل قبلي تبيين ‌نمايد. به آماره‌هاي ضريب تعييني تعديل شده (Adjusted R Square) كه تقريباً يكسان مي‌باشند نگاه كنيد. يك مدل با پيشگوهاي اضافي هميشه يك ضريب تعييني (R – Square) بزرگتر خواهد داشت. ضريب تعييني تعديل شده پيچيدگي مدل را اصلاح مي‌كند.

ضرائب قدم‌ به قدم

الگوريتم قدم به قدم، قيمت و اندازه را (بر حسب فاصلة دو محور چرخ كاميون) به عنوان پيشگوها انتخاب مي‌كند. فروش‌ها به صورت منفي تحت تأثير قيمت و به صورت مثبت تحت تأثير اندازه مي‌باشد؛ نتيجه اين است كه ماشين‌هاي بزرگ‌تر بهتر بفروش مي‌رسند.

قيمت ابتدا انتخاب شده است زيرا اين پيشگويي مي‌باشد كه همبستگي خيلي محكمي با فروش‌ها دارد. سپس باقي‌ماندة پيشگوها تحليل مي‌شوند تا تعيين شود كه كدام يك براي نتيجه در مرحلة بعدي مناسب‌تر است (a).

Bate In در صورتي كه بعداً به حساب آورده شود مقدار ضريب استاندارد شده براي پيشگو مي‌باشد (b). تمام مقادير معنادار كمتر از 0.05 هستند، بنابراين هر كدام از پيشگوهاي باقي‌مانده در صورتيكه در مدل به حساب آورده شوند كافي مي‌باشند (c).

براي انتخاب بهترين متغير براي افزودن به مدل، به همبستگي جزئي كه همبستگي خطي بين پيشگوي پيشنهادي و متغير وابسته بعد از حذف تأثير مدل جاري مي‌باشد نگاه كنيد. فاصلة محوري دو چرخ (Wheelbase) بعداً انتخاب شده است چون اين بزرگترين همبستگي جزيي را دارد (d). بعد از اضافه كردن فاصلة محوري دو چرخ به مدل، هيچكدام از پيشگوهاي باقي مانده معني‌دار نيستند (e). با اين وجود، نوع كاميون فقط مقدار غير معتبر 0.05 را دارد، بنابراين ممكن است بخواهيد بعداً آن را بصورت دستي تحليل نماييد تا چگونگي تغيير نتايج را ببينيد (f). اندازة موتور (Engine Size) در صورتيكه به مدل اضافه شود بايد ضريب بتاي (beta) بزرگتري داشته باشد. اين بدان علت است كه اندازة موتور يك تلرانس نسبتاً پايين در مقايسه با نوع كاميون دارد كه نشان مي‌دهد همبستگي محكم‌تري با قيمت و فاصلة محور دوچرخ دارد (g).

بررسي نرمال بودن عبارت خطا

شكل هيستوگرام كاملاً از شكل منحني نرمال تبعيت مي‌نمايد، اما يك يا دو باقي‌ماندة (Residual) منفي وجود دارد. براي اطلاعات بيشتر، به قمست بعدي يعني «تشخيص موردي» مراجعه نماييد.

 

 

تشخيص موردي

اين جدول موارد را با مقادير باقي‌ماندة خيلي منفي به صورت 3000GT و Cutlass نشان مي‌دهد. اين بدان معني است كه نسبت به ماشين‌هاي ديگر با همين اندازه و قيمت، اين دو مدل در بازار تحت اجرا هستند (a). روشن است كه گزينه‌هاي Breeze، Prowler و SW نيز با اندازة كمتري اجرا شده‌اند (b). Explorer تنها موردي است كه به نظر مي‌رسد اجرا كنندة خوبي باشد (c).

 

نمودار پراكنش باقي‌مانده

نمودار باقي‌مانده‌ها با مقادير پيش‌بيني شده به وضوح وسيله تحت اجراتري را نشان مي‌دهد (a). بعلاوه، مي‌توانيد ببينيد كه Breeze، Prowler، SW و Explorer كاملاً به اكثر موارد نزديك هستند. اين نشان مي‌دهد كه اجراي Breeze، Prowler و SW و اجراي فوق‌العاده explorer مي‌توانند به دليل شانس و تصادف بوده باشند (b). برخي از موارد در اين نمودار در سمت راست و چپ خوشه‌اي شده‌اند. ماداميكه كاميون‌ها در اين خوشه‌ها داراي باقي‌مانده‌هاي بزرگ نباشند، فاصلة اينها از خوشه كلي ممكن است در تعيين ضرائب رگرسيون اين موارد را خيلي تحت تأثير بگذارد (c).

1ـ براي بررسي باقي‌مانده‌ها با قيمت، مسير Graphs > Scatter / Dot را از منوي اصلي برگزينيد.

2ـ دكمة Define را كليك كنيد.

3ـ Standardized Residual را به عنوان متغير y و Z Score: Price in thousands را به عنوان متغير x انتخاب نماييد.

4ـ Model را به عنوان متغير عنوان‌گذاري موارد (Label Cases by) برگزينيد.

5ـ Ok را كليك كنيد.

نمودار پراكنش نتيجه، نقاط را در سمت راست و دور از هم نشان مي‌دهد (a).

6ـ براي شناسايي نقاط، نمودار را با دوبار كليك كردن آن فعال كنيد.

7ـ روي آيكن Data ID Mode كليك كنيد.

8ـ نقاط را برگزينيد.

فواصل نمودار پراكنش كه نقاط غيرعادي نشان داده شده در نمودار پراكنش باقي‌مانده‌ها بر حسب مقادير پيش‌بيني شده مي‌باشند كاميون‌هاي گران قيمت هستند. توزيع قيمت به سمت راست چولگي دارد، بنابراين ممكن است بخواهيد از لگاريتم تبديل استاندارد شدة قيمت‌ها در تحليل‌هاي بعدي استفاده نماييد.

9ـ براي بررسي باقي مانده‌ها با فاصلة محوري چرخ، جعبه محاورة Simple Scatterplot را فراخواني نماييد.

10ـ به جاي Z Score: Price in thousands از Z Score: Wheelbase به عنوان متغير x استفاده نماييد.

11ـ Ok را كليك كنيد.

12ـ نمودار پراكنش نتيجه، نقاط را در سمت راست به دور از هم نشان مي‌دهد.

13ـ براي شناسايي نقاط، نمودار را با دوبار كليك كردن فعال نماييد.

14ـ آيكن Data ID Model را كليك كنيد.

15ـ نقاط را برگزينيد.

نقاط موجود در سمت راست خوشة كلي در نمودار با نقاط موجود در سمت راست خوشة كلي در نمودار پراكنش باقي‌مانده‌ها بر حسب مقادير پيش‌بيني شده مرتبط هستند. همانند توزيع قيمت، ممكن است بخواهيد از لگاريتم تبديل استاندارد شدة فاصله محورها در تحليل‌هاي بعدي استفاده نماييد.

 

شناسايي نقاط مؤثر

1ـ براي بررسي فاصلة Cook نسبت به مقدار مؤثر مركزي، جعبه محاورة Simple Scatterplot را فراخواني نماييد.

2ـ به جاي Standardized Residual گزينة Cook’s Distance را به عنوان متغير y انتخاب نماييد.

3ـ Centered Leverage Value را به جاي Z score:wheelbaseبه عنوان متغير x برگزينيد.

4ـ Ok را كليك كنيد.

نمودار پراكنش حاصله چندين نقطه غيرعادي را نشان مي‌دهد.

5ـ براي شناسايي نقاط، نمودار را با دوبار كليك كردن فعال نماييد.

6ـ آيكن Data ID Mode را كليك كنيد.

7ـ نقاط را برگزينيد.

نقطه با بزرگترين فاصلة Cook نقطة 3000GT مي‌باشد. اين داراي يك مقدار مؤثر بزرگ نمي‌باشد، بنابراين با افزودن يك مقدار تغييرپذيري به برآوردهاي رگرسيون، نقطة 3000GT روي شيب معادلة رگرسيون تأثير ندارد (a). به طور مشابهي، خيلي از موارد با مقادير مؤثر بالا داراي فواصل Cook بزرگي نيستند، بنابراين احتمالاً تأثير زيادي روي مدل ندارند (b).

مشكل‌دارترين مورد SL-Class مي‌باشد، كه هم خيلي مؤثر و هم فاصلة Cook زيادي دارد. اين كاميون يك فاصلة محوري و برچسب قيمت زياد دارد، بنابراين تأثير آن با مشكلات مشاهده شده در نمودارهاي پراكنش باقي مانده در ارتباط است (c).

خروجي‌هاي رگرسيون

توصيف‌هاي رگرسيون

جدول آماره‌هاي توصيفي هر متغير را نشان مي‌دهد و شامل ميانگين، انحراف استاندارد و تعداد موارد مقادير معتبر مي‌باشد.

 

 

همبستگي‌هاي رگرسيون

در جدول همبستگي‌ها ضرائب همبستگي پيرسون، سطح معني‌داري، و تعداد موارد با مقادير معتبر وجود دارد. نكات بيان شده دربارة ضريب پيرسون، سطح معني‌داري و N در اينجا نيز صادق است.

متغيرهاي وارد شده / حذف شده رگرسيون

اين جدول متغيرهايي را كه در هر مرحله وارد و / يا حذف شده‌اند نشان مي‌دهد. متغيرهايي كه در مدل در هر مرحله‌اي وارد شده‌اند در ستون Variables Entered فهرست شده‌اند. متغيرهاي حذف شده از مدل در هر مرحله را در ستون Variable Removed فهرست شده‌اند. در ستون Method روش انتخاب شده براي حذف يا وارد كردن متغير نمايش داده شده است.

خلاصه مدل رگرسيون

جدول شامل R، ضريب تعييني، ضريب تعييني تعديل شده و خطاي استاندارد مي‌باشد (ستون دوم تا پنجم). R يعني ضريب همبستگي چندگانه، همبستگي بين مقادير مشاهده شده و پيش‌بيني شدة متغير وابسته است. مقادير R مربوط به مدل توليد شده با دستورالعمل رگرسيون در محدودة 0 تا 1 هستند. مقادير بزرگتر R روابط قوي‌تر را نشان مي‌دهند.

R Squared نسبت تغيير در متغير وابسته مي‌باشد كه با مدل رگرسيون بيان شده است. مقادير ضريب تعييني (مربع R) در محدودة 0 تا 1 هستند. مقادير كوچك نشان مي‌دهد كه مدل به خوبي با داده‌ها منطبق نيست. نمونه مربع R گرايش دارد كه نحوة انطباق مدل‌ها با جمعيت آماري را برآورد نمايد.

Adjusted R Squared سعي دارد كه مربع R را تصحيح نمايد تا بيشترين ميزان انطباق مدل را در جمعيت انعكاس دهد. از ضريب تعيني براي تعيين اينكه كدام مدل بهتر است استفاده نماييد. يك مدل با مقدار بزرگ ضريب تعييني را برگزينيد كه شامل تعداد زيادي متغير نيست. مدل‌هاي با متغيرهاي زياد اغلب بيش از حد انطباق دارند و براي تفسير كردن سخت مي‌باشند.

 

 

 

 

 

 

رگرسيون ANOVA

اين جدول نتايج يك تحليل واريانس را خلاصه كرده است. مجموع مربعات، درجات آزادي و مربع ميانگين براي دو مورد از منابع تغيير، يعني Regression و Residual از محتويات اين جدول است. خروجي Regression اطلاعات راجع به تغيير كه براي مدل شما در نظر گرفته شده است را نشان مي‌دهد. خروجي Residual اطلاعات راجع به تغيير كه براي مدل شما در نظر گرفته نشده است را نشان مي‌دهد و خروجي Total جمع اطلاعات مربوط به Regression و Residual مي‌باشد.

يك مدل با مجموع مربعات رگرسيون بزرگ در مقايسه با مجموع مربعات باقي مانده مشخص مي‌كند كه مدل براي بسياري از تغييرات در متغير وابسته در نظر گرفته شده است. مقادير خيلي بزرگ مجموع مربعات باقي مانده نشان مي‌دهند كه مدل در توضيح بسياري از تغييرات در متغير وابسته ناتوان است وشما ممكن است بخواهيد كه به دنبال عوامل اضافي بگرديد كه در به حساب آوردن يك نسبت بزرگتر تغيير در متغير وابسته به شما كمك مي‌كند.

مربع ميانگين مجموع مربعات تقسيم بر درجات آزادي مي‌باشد. آماره F مربع ميانگين رگرسيون (MSR) تقسيم بر مجموع مربعات باقي‌مانده (MSE) مي‌باشد. درجات آزادي رگرسيون، صورت df و درجات آزادي باقي مانده، مخرج df براي آمارة F مي‌باشد. تعداد كل درجات آزادي برابر تعداد موارد منهاي 1 مي‌باشد.

اگر سطح معني‌داري آماره F كوچك باشد (كمتر از 0.05) آنگاه متغيرهاي مستقل به خوبي تغيير در متغير وابسته را تبيين مي‌كنند. در صورتيكه اين مقدار بزرگ‌تر از 0.05 باشد، آنگاه متغيرهاي مستقل، تغيير در متغير وابسته را تبيين نمي‌كنند.

ضرائب رگرسيون

ضرائب استاندارد نشده، ضرائب مدل رگرسيون برآورد شده مي‌باشند. در اين مثال، مدل تخميني، ميزان متوسط عمر خانم‌ها برابر 82.677-662Fertility – 0.240 Infant mortality مي‌باشد. اغلب متغيرهاي مستقل در واحدهاي مختلف سنجش مي‌شوند. ضرائب استاندارد شده يا بتا (Beta) براي سنجش‌پذيرتر كردن ضرائب رگرسيون مي‌باشد.

 

 

 

شيوه‌هاي تشخيصي بر اساس مورد رگرسيون

اين جدول آماره‌هاي موارد خاص را كه با تعداد موردشان تعيين مي‌شوند نشان مي‌دهد. آماره‌ها ببيشتر براي موارد با باقيمانده‌هاي استاندارد نشان داده شده است تا براي تعداد معيني از انحراف معيارهاي دور از ميانگين (در اين مثال، 2). باقي‌مانده‌هاي استاندارد شده، باقيمانده‌هاي معمولي تقسيم شده بر انحراف معيار نمونه باقي مانده‌ها مي‌باشند. باقي‌مانده‌هاي استاندارد شده داراي ميانگين 0 و انحراف معيار 1 هستند.

مقادير مشاهده شده متغير وابسته نمايش داده شده‌اند (Female Life Expectancy). ممكن است كه مقدار پيش‌بيني شده و باقي‌مانده هر مورد را هم ببينيد. باقي‌مانده (ستون Residual) تفاوت بين مقدار مشاهده شده متغير وابسته و مقدار پيش‌بيني شده است.

 

آماره‌هاي باقي مانده رگرسيون

اين جدول آماره‌هاي باقي‌مانده‌ها و مقادير پيش‌بيني شده را نشان مي‌دهند. براي هر مورد، مقدار پيش‌بيني شده عبارتست از مقدار پيش‌بيني توسط مدل رگرسيون (رديف Predicted Value) و براي هر مورد، Residual تفاوت بين مقدار مشاهده شده متغيير وابسته و مقدار پيش‌بيني شده توسط مدل است. باقي‌مانده‌ها برآوردهاي خطاهاي درست در مدل هستند. اگر مدل براي داده‌ها مناسب باشد، باقي‌مانده‌ها بايد از يك توزيع نرمال تبعيت نمايند.

مقادير پيش‌بيني استاندارد شده مقاديري هستند كه ميانگين 0 و انحراف معيار 1 دارند. (رديف Std. Predicted Value) به طور مشابهي، باقي‌مانده‌هاي استاندارد، باقي‌مانده‌هاي معمولي تقسيم بر انحراف معيار نمونه باقي‌مانده‌ها هستند و ميانگين 0 و انحراف معيار 1 دارند.

كمترين، بيشترين، ميانگين، انحراف معيار و اندازة نمونه موارد فوق در جدول نمايش داده شده‌اند.

 

 

 

 

 

 

 

 

همبستگي‌هاي ضريب رگرسيون

اين جدول، ماتريس‌هاي همبستگي و كوواريانس متغيرهاي مستقل را كه در هر مرحله در مدل هستند نشان مي‌دهد.

در ماتريس‌هاي همبستگي، مقادير ضرائب همبستگي در محدودة -1 تا 1 هستند. علامت ضريب همبستگي، جهت رابطه را (مثبت يا منفي) مشخص مي‌نمايد. مقدار مطلق ضريب همبستگي، شدت رابطه را تعيين مي‌نمايد، مقادير مطلق بزرگ‌تر رابطه‌هاي قوي‌تر را نشان مي‌دهند.

ضرائب همبستگي در قطر اصلي هميشه1 هستند، چون هر متغير يك رابطة خطي كاملاً مثبت با خودش دارد. همبستگي‌هاي بالاي قطر اصلي، در پايين قطر اصلي تكرار شده‌اند.

در ماتريس‌هاي كوواريانس، واريانس‌ها در قطر اصلي و كوواريانس‌ها در بالا و پايين قطر اصلي نمايش داده شده‌اند. كوواريانس‌هاي بالاي قطر اصلي معكوس كوواريانس‌هاي زير قطر اصلي هستند.

 

تشخيص هم‌خطي بودن رگرسيون

اين جدول آماره‌هايي را نشان مي‌دهد كه با آن مي‌توانيد مشكلات مربوط به هم‌خطي بودن را تعيين نماييد. هم‌خطي (يا هم خطي چندگانه) وضعيت نامطلوبي است كه در جايي كه همبستگي‌هاي متغيرهاي رشته‌اي هستند ايجاد مي‌شود.

مقادير ويژه (ستون Eigenvalue) براي تعيين تعداد ابعاد موجود در متغيرهاي مستقل مي‌باشند. وقتي چندين مقدار ويژه نزديك به صفر هستند، متغيرها شديداً همبسته هستند و تغييرات كوچك در مقادير داده‌ها ممكن است به تغييرات بزرگي در برآوردهاي ضرائب ختم شود.

شاخص‌هاي شرطي (ستون Condition Index) ريشه‌هاي دوم نسبت‌هاي بزرگترين مقدار ويژه به هر مقدار ويژه متوالي هستند. يك شاخص شرطي بزرگتر از 15 نشان‌دهندة يك مسئلة احتمالي است و يك شاخص بزرگتر از 30 حكايت از يك مشكل جدي با خطي بودن دارد.

Variance Proportions نسبت‌هاي واريانس برآورد در نظر گرفته شده با هر مولفه اصلي مرتبط با هر مقدار ويژه مي‌باشد. هم خطي يك مسئله و مشكل است وقتي كه مؤلفه با شاخص شرطي در ارتباط است كه به طور قابل توجهي با واريانس دو يا چند متغير مشترك است.

 

 

متغيرهاي كنار گذاشته شده رگرسيون

اين جدول اطلاعات مربوط به متغيرهايي را كه در هر مرحله در مدل نيستند نمايش مي‌دهد. Beta In ضريب رگرسيون استاندارد شده است به شرطي كه متغير در هر مرحله در معادله وارد شده باشد. آمارة t و سطح معني‌داري (Sig.) آن براي بررسي فرضيه صفري به كار مي‌روند كه مي‌گويد ضريب رگرسيون صفر است (يا اينكه هيچ رابطة خطي بين متغير وابسته و مستقل وجود ندارد). اگر سطح معني‌داري كوچك باشد (<0.05) آنگاه ضريب معني‌دار در نظر گرفته مي‌شود.

همبستگي جزئي (Partial Correlation) عبارت است از همبستگي هر متغير مستقل با متغير وابسته بعد از حذف اثر خطي متغيرهايي كه قبلاً در مدل بوده‌اند.

هم خطي بودن (يا هم خطي چندگانه) وضعيت نامطلوبي است كه در آن همبستگي‌هاي متغيرهاي مستقل قوي مي‌باشند.

Tolerance يك آماره‌اي است كه مشخص مي‌كند چقدر متغير مستقل به طور خطي با ديگري وابسته است. تلرانس بخشي از واريانس متغير است كه با متغيرهاي مستقل ديگر موجود در مدل در نظر گرفته نشده است. يك متغير با تلرانس خيلي پايين اطلاعاتي از مدل را ارائه كرده، و مي‌تواند باعث مشكلات محاسباتي شود.

VIF، يا عامل افزايش واريانس عبارتست از معكوس واريانس. با افزايش VIF، واريانس ضريب رگرسيون آن را برآوردي ناپايدار مي‌نمايد. مقادير VIF بزرگ نشانه‌اي از هم‌خطي چندگانه مي‌باشند. Minimum Tolerance كمترين تلرانس همة متغيرهاي مستقل است كه قبلاً در مدل مي‌باشند به شرطي كه متغير مستقل كه در معادله نيست به حساب آيد.