به لحاظ لغوی رگرسیون به معنای بازگشت است. به بیانی دیگر این لغت یعنی پیشبینی و بیان تغییرات یک متغیر بر اساس اطلاعات متغیری دیگر. زمانی که بین دو متغیر همبستگی وجود داشته باشد؛ میتوان نمرهی فردی را در یک متغیر از طریق متغیر دیگر برآورد یا پیشبینی کرد. اگر ضریب همبستگی بین متغیرها عددی بین ۱+ تا ۱- باشد و در واقع همبستگی کامل برقرار نباشد پیشبینی ما برآورد خوبی است اما پیشبینی کاملی نیست. هرچه همبستگی بین متغیرها بالاتر باشد؛ به همان اندازه پیشبینی دقیقتر است. نحوهی محاسبهی رگرسیون به این شکل است که اگر متغیری را که قصد پیشبینی آن را داریم Y و متغیری که از طریق آن پیشبینی صورت میگیرد را X بنامیم؛ نمرهی پیشبینی شده برای متغیر Y برابر است با حاصل ضرب نمرهی استاندارد متغیر X در ضریب همبستگی بین دو متغیر. رابطهی بین متغیر پیشبینی شونده (y) و پیشبینی کننده (x) تابع علامت و شدت ضریب همبستگی است. رگرسیون به سمت میانگین پدیدهای بود که گالتون مطرح کرد و به معنای میل نمرات به سمت میانگین آنهاست. در ادامه از انواع رگرسیونها نام میبریم و در نهایت رگرسیون خطی را شرح میدهیم.
پیشبینی
رگرسیون از جمله مطالبی است که کاملاً وابسته به بحث همبستگی است و در ادامهی آن مطرح میشود؛ فلذا برای فهم آن باید اطلاعاتی راجع به اینکه همبستگی چیست و چه انواعی دارد؛ داشته باشید.
این مطلب از این جهت میتواند برای فهم دقیق و درست مطلب کاملاً مؤثر باشد.
به لحاظ لغوی رگرسیون به معنای بازگشت است. به بیانی دیگر این لغت یعنی پیشبینی و بیان تغییرات یک متغیر بر اساس اطلاعات متغیری دیگر. زمانی که بین دو متغیر همبستگی وجود داشته باشد؛ میتوان نمرهی فردی را در یک متغیر از طریق متغیر دیگر برآورد یا پیشبینی کرد. مثلاً چنانچه بین بهرهی هوشی و پیشرفت تحصیلی در دانشگاه، همبستگی مستقیم وجود داشته باشد؛ میتوان پیشبینی کرد که پیشرفت تحصیلی دانشجویانی که بهرهی هوشی بالاتر از میانگین داشته باشند؛ بالاتر از میانگین خواهد بود.
مثلاً تصور کنید که بین میزان تماشای تلویزیون و پیشرفت تحصیلی دانشآموزان همبستگی وجود دارد. در اینجا میتوان از متغیر میزان تماشای تلویزیون به عنوان یک متغیر پیشبینیکننده برای پیشبینی پیشرفت تحصیلی استفاده کرد. بنابراین میتوان با استفاده از میزان تماشای تلویزیون (متغیر ملاک یا پیشبینیکننده)، پیشرفت تحصیلی دانشآموزان در مدرسه (متغیر بیشبینیشونده) را پیشبینی کرد. دقت پیشبینی به شدت به همبستگی بین متغیر پیشبینیکننده و پیشبینیشونده بستگی دارد. چنانچه همبستگی بین متغیرها کامل باشد (۱+ تا ۱-) پیشبینی بهصورت کامل و دقیق امکانپذیر است. به عنوان مثال بین جرم برحسب کیلوگرم و تن همبستگی کامل وجود دارد. اگر وزن یا به لحاظ درستی لفظ علم فیزیک جرم کسی را به طور صحیح بدانیم؛ میتوانیم وزن او را بر حسب تن محاسبه کنیم.
اگر ضریب همبستگی بین متغیرها عددی بین ۱+ تا ۱- باشد و در واقع همبستگی کامل برقرار نباشد پیشبینی ما برآورد خوبی است اما پیشبینی کاملی نیست. هرچه همبستگی بین متغیرها بالاتر باشد؛ به همان اندازه پیشبینی دقیقتر است.
پیشبینی نمرههای استاندارد

رگرسیون چیست؟ پیشبینی در علم آمار به چه شکل است؟
نحوهی محاسبهی رگرسیون به این شکل است که اگر متغیری را که قصد پیشبینی آن را داریم Y و متغیری که از طریق آن پیشبینی صورت میگیرد را X بنامیم؛ نمرهی پیشبینی شده برای متغیر Y برابر است با حاصل ضرب نمرهی استاندارد متغیر X در ضریب همبستگی بین دو متغیر. رابطهی بین متغیر پیشبینی شونده (y) و پیشبینی کننده (x) تابع علامت و شدت ضریب همبستگی است. به دو شکل:
- همبستگی مثبت: جهت پیشبینی y همانند جهت نمرهی استاندارد x
- همبستگی منفی: جهت پیشبینی y خلاف جهت نمرهی استاندارد x
اگر همبستگی مثبت و کامل باشد چنین پیشبینی میکنیم که نمره استاندارد فرد در متغیر x برابر نمره استاندارد او در متغیر y است. در صورتی که همبستگی کامل و منفی باشد اینطور یشبینی میکنیم که نمرهی استاندارد در دو متغیر مساوی اما از جهت علامت مخالف یکدیگر است.
اگر همبستگی مثبت و کمتر از ۱+ باشد پیشبینی ما این است که نمرهی استاندارد پیشبینی شده برای y نسبت نمرهی استاندارد x، به صفر نزدیکتر است. زمانی که همبستگی بین دو متغیر، منفی ولی کوچکتر از ۱- باشد پیشبینی ما این است که نمرهی استاندارد پیشبینی شده برای y نسبت به نمرهی استاندارد x به صفر نزدیکتر است ولی علامت آن با علامت x مخالف است. هنگامی که همبستگی بین دو متغیر کم باشد؛ نمرهی استانداردی که پیشبینی میکنیم نزدیک به میانگین خواهد بود. در واقع شدت همبستگی مشخص میکند که نمرههای پیشبینی شده تا چه اندازه از میانگین فاصله دارند. چنانچه همبستگی بین دو متغیر کم باشد؛ نمرههایی که پیشبینی میکنیم؛ در میانگین y قرار خواهند گرفت.
رگرسیون به سمت میانگین
تاریخچه
اولین بار این پدیده را فرانسیس گالتون را مطرح کرد. او واژه رگرسیون را در مطالعهی تأثیر وراثت در قد به کار برد. براساس یافتههای او فرزندان والدین کوتاه قد، کوتاه قد هستند اما نه به اندازهی والدینشان و به همین ترتیب فرزندان والدین بلند قد، قد بلند هستند؛ اما نه به اندازهی والدین خود. در واقع قد فرزندان به سوی میانگین کلی جامعه گرایش دارد. گالتون این پدیده را رگرسیون به سمت میانگین نامیده است.
اصل ماجرا
اگر همبستگی بین متغیرها برای پیشبینی کامل نباشد؛ رگرسیون اتفاقی جالب است. به این دلیل که در چنین شرایطی نمرههای پیشبینی شده به میانگین نمونهمان نزدیکتر است تا به نمرههای پیشبینیکننده. چنانچه تعدادی آزمودنی را که نمرههای آنها در متغیری که از طریق آن پیشبینی صورت میگیرد؛ مساوی باشد انتخاب کنیم؛ متوجه خواهیم شد که نمرهی پیشبینیشدهی این آزمودنیها به میانگین متغیری که قصد پیشبینی آن را داریم نزدیکتر است تا به متغیری که از طریق آن پیشبینی صورت میگیرد. مثلاً چنانچه دانشآموزانی را انتخاب کنیم که بهرهی هوشیشان بالاتر از ۱۴۰ است متوجه خواهیم شد که نمرهی بیشتر آنها در آزمون پیشرفت تحصیلی بالاتر از میانگین است و فقط نمرهی تعداد محدودی از آنها در آزمون پیشرفت تحصیلی با نمرههای بالاتر از میانگین فاصله دارد. به همین ترتیب چنانچه آزمودنیهایی را انتخاب کنیم که بهرهی هوشی آنها کم است؛ نمرهی بیشترشان در آزمون پیشرفت تحصیلی به نزدیکتر به میانگین این آزمون است تا آزمون هوش.
بنابراین تاز مانی که دو متغیر بهصورت کامل همبسته نباشند؛ این گرایش وجود دارد که نمرههای گروهی از آنها در اولین متغیر به دومین متغیر نزدیک باشد. این اثر در نمرهها تأثیر رگرسیون نامیده میشود و غالباً چون رگرسیون به به طرف میانگین دومین متغیر است؛ آن را رگرسیون در اطراف متغیر مینامند. نمرهی پیشبینی شده به میانگین نزدیکتر است تا نمرههایی که از طریق آنها پیشبینی صورت میپذیرد.
میزان همبستگی بین دو متغیر حدود یا مقدار رگرسیون را تعیین میکند. اگر نمرهی همبستگی کامل باشد جهت هر نمرهی پیشبینی شده با جهت هر نمره در متغیری که بر اساس آن پیشبینی صورت میپذیرد؛ همسان یا همتراز است و پدیدهی رگرسیون یا اتفاق نمیافتد یا وجود ندارد. رگرسیون زمانی اتفاق میافتد که همبستگی بین دو متغیر کامل نباشد.
اگر همبستگی بین متغیرها بالا باشد و نه کامل، گرایش کمی وجود دارد که میانگین نمرههای گروه انتخاب شده در اولین متغیر به طرف میانگین نمرههای دومین متغیر کشیده شود. اما اگر همبستگی پایین باشد گرایش خیلی زیادی وجود دارد که میانگین نمرهها در اولین متغیر به طرف میانگین نمرههای دومین متغیر کشیده شود. حالت سومی هم وجود دارد که همبستگی صفر باشد که در آن صورت رگرسیون در اطراف میانگین بهصورت کامل اتفاق میافتد یا به عباریت قدرت پیشبینی وجود ندارد و بهترین پیشبینی میانگین y هاست.
وقتی یک گروه به دلیل عملکرد مشابه در اولین متغیر انتخاب شده باشند؛ نمرههای اعضای گروه در متغیر دوم دارای میانگینی مساوی با گروهی خواهد بود که دارای عملکرد یا اندازههای مختلف هستند.
فراموش نکنید که رگرسیون به طرف میانگین با همبستگی بین متغیرها رابطه معکوس دارد. هرچه، همبستگی بالاتر (کاملتر) باشد؛ رگرسیون به طرف میانگین کمتر است.
انواع رگرسیون کدام اند؟



رگرسیون چیست؟ پیشبینی در علم آمار به چه شکل است؟
رگرسیون خطی ساده (Simple Linear Regression)
زمانی از این آزمون استفاده میشود که پژوهشگر میخواهد تأثیر یک متغیر مستقل بر روی یک متغیر وابسته را مورد سنجش قرار دهد. به این آزمون، رگرسیون دو متغیره هم گفته میشود. پژوهشگر باید توجه داشته باشد؛ زمانی میتوان از آزمون رگرسیون (ساده و چندگانه) استفاده کرد که اولاً مقیاس گردآوری دادهها فاصلهای یا نسبی باشد و دوماً ارتباط میان دو متغیر به لحاظ آماری معنادار باشد که البته نرم افزار SPSS قبل از بررسی تأثیر این رابطه را بررسی میکند. که در عنوان بعدی آن را بهصورت کامل شرح میدهیم.
رگرسیون چند متغیره (Multiple Regression)
زمانی که تعداد متغیرهای مستقل دو و یا بیشتر باشد، دیگر رگرسیون خطی ساده نمیتواند نتایج دقیقی از تأثیر این متغیرها به ما بدهد. در چنین شرایطی از رگرسیون چند متغیره استفاده میشود. رگرسیون چند متغیره به نام رگرسیون چندگانه نیز شهرت دارد. متغیرهای مستقل به ۵ روش متفاوت وارد مدل رگرسیونی میشوند و هر یک از این روشها کاربرد متفاوتی خواهند داشت. روش همزمان، روش گام به گام، روش حذفی، روش پسرونده و روش پیشرونده. این روش در مقالات بعدی به تفصیل شرح داده میشوند.
رگرسیون لجستیک (Logestic Regression) دو وجهی و چند وجهی:
اما گاهی اوقات اتفاق میافتد که متغیر وابسته تحقیق در مقیاس فاصلهای یا نسبی نبوده و مقیاس آن بهصورت اسمی است. یکی از سؤالات شرکتکنندگان در دورههای کاربردی SPSS آکادمی تحلیل آماری شرکت میکنند این است که در چنین حالتی با توجه به اینکه پیشفرض اساسی تحلیل رگرسیون مقیاس فاصلهای /نسبی متغیر وابسته است چه باید کرد. رگرسیون لجستیک پیشبینی کننده متغیر وابسته دووجهی و یا چندوجهی اسمی خواهد بود. البته با توجه به بحثهای گسترده در دورههای آکادمی تحلیل آماری بهتر است در این شرایط به جای استفاده از مدلهای رگرسیون لجستیک در نرمافزارهایی مثل SPSS از نرمافزارهای با تخمینهای مخصوص به این شرایط مثل mplus استفاده میکنیم.
رگرسیون تخمین منحنی (Curve Estimation) :
رگرسیون برآورد یا تخمین منحنی از خانواده تحلیل رگرسیون غیرخطی است. این نوع رگرسیون زمانی مورد استفاده قرار میگیرد که رابطه بین متغیر وابسته و متغیرهای مستقل بهصورت غیرخطی است و بنابراین، نمیتوانیم از رگرسیونهای خطی استفاده کنیم.
رگرسیون ترتیبی (ordinal regression):
در برخی از پژوهشها و به خصوص پژوهشهای پیمایشی، ممکن است که متغیر وابسته یک متغیر ترتیبی باشد. یعنی شرط اول اجرای رگرسیونهای چندگانه که همان فاصلهای یا نسبی بودن متغیر است را نداشته باشد. یعنی ما میتوانیم که به طبقات این متغیر رتبه دهیم اما هرگز نمیتوانیم فاصلهی بین رتبهها را مشخص نماییم؛ مثلاً متغیر شادی به جای اینکه توسط یکسری شاخص و سؤال در پرسشنامه سنجیده شده باشد که در آخر بتوان این سؤالات را به سمت یک متغیر کمی پیوسته حرکت داد؛ جوابها میتواند شامل یک طیف سه گزینهای زیاد، متوسط و کم جهت سنجش باشد. در این شرایط نیز به جای استفاده از مدلهای رگرسیون ترتیبی در نرمافزارهای مثل SPSS از نرمافزارهایی با تخمینهای مخصوص به این شرایط مثل mplus استفاده میکنیم.
رگرسیون پروبیت (Probit Regression) :
زمانی که خروجی یا متغیر وابسته دارای دو بعد باشد از این نوع رگرسیون استفاده خواهد شد. این نوع رگرسیون با عنوان مدلهای پروبیتنیز شناخته شده است. برای مثال، زمانی که بخواهیم متغیرهای مؤثر بر شرکت افراد در برنامههای فرهنگی یک سرای محله را بررسی کنیم؛ این نوع رگرسیون مناسبتر خواهد بود. این رگرسیون مشابه رگرسیونهای لجستیک است.
توضیح مشروح و مفصل انواع رگرسیون را میتوانید در مقالات بعدی ما بخوانید.
رگرسیون خطی یا خط رگرسیون



رگرسیون چیست؟ پیشبینی در علم آمار به چه شکل است؟
وقتی که نمرههای استاندارد پیشبینی شده را در دستگاه محور مختصات ترسیم میکنیم؛ روی یک خط مستقیم قرار میگیرند. دلیل این امر آن است که برای محاسبه و پیشبینی نمرهها آنها را در مقدار ثابت ضریب همبستگی ضرب میکنیم. این خط به دست آمده خط رگرسیون است که با توجه به تعریف آن چنانچه فاصلهی هر نمره را از محور y کم و سپس آن را مجذور کنیم از طریق مجموع مجذورهای محاسبه شده متوجه خواهیم شد که این مجموع کوچکتر از مجموع مجذور هر خط دیگری تا محور y است. این مفهوم گاهی اوقات برای تعریف خط رگرسیون به کار برده میشود. به همین دلیل است که گاهی اوقات خط رگرسیون، خط حداقل مجذورها تعریف میشود. در واقع این خط، خطی است که خطاهای پیشبینی را به حداقل میرساند.
بهترین پیشبینی
وقتی که نمرهی Y را از طریق نمرهی x پیشبینی میکنیم؛ نمرههای پیشبینی شده روی یک خط قرار میگیرند که به آن خط برازش میگویند؛ اما نمرههای اصلی متغیر Y بر روی این خط قرار نمیگیرند؛ زیرا نمرههای پیشبینی شده با نمرههای اصلی Y مساوی نیستند و بین آنها اختلاف وجود دارد.
اختلاف بین نمرهی اصلی و نمرهی پیشبینی شده خطای پیشبینی نامیده میشود که میتواند مثبت یا منفی باشد.
رگرسیون خطی یکی از چند روشی است که به وسیلهی آن میتوان دست به پیشبینی زد. اما در این پیشبینی نیز به طبع درصدی از خطا وجود دارد. مقالههای بعدی در شرح بیشتر رگرسیون و انواع روشهای آن است که به فراخور دادههایتان میتواند دقیقتر و با خطای کمتری باشد.