رگرسیون یکی از مهمترین و پرکاربردترین روشهای آماریه که برای مدلسازی رابطه میان متغیرهای کمی استفاده میشه. در واقع، رگرسیون به ما این امکان رو میده تا با استفاده از یک یا چند متغیر مستقل (Predictor)، مقدار یک متغیر وابسته (Response) رو پیشبینی کنیم. این روش در بسیاری از زمینهها از جمله اقتصاد، مهندسی، علوم اجتماعی و پزشکی کاربرد گستردهای داره.
مفاهیم پایه رگرسیون
- متغیر وابسته (Response Variable): متغیری که میخواهیم آن را پیشبینی کنیم. در نمودارها، معمولاً روی محور عمودی (y) نمایش داده میشه.
- متغیرهای مستقل (Predictor Variables): متغیرهایی هستن که برای پیشبینی متغیر وابسته استفاده میشن. در نمودارها، معمولاً روی محور افقی (x) نمایش داده میشن.
- خط رگرسیون: خطی است که بهترین برازش رو بر روی دادهها داره و نشاندهنده رابطه بین متغیرهای مستقل و وابسته هستش.
- ضرایب رگرسیون: اعدادی هستن که نشان میدن هر یک از متغیرهای مستقل چقدر بر روی متغیر وابسته تاثیرگذاره.
- مدل رگرسیون: معادلهایه که رابطه بین متغیرهای مستقل و وابسته رو توصیف میکنه.
- ضرایب رگرسیون: اعدادی هستن که به هر متغیر مستقل اختصاص داده میشن و نشان میدن که تغییر یک واحدی در آن متغیر، چه تأثیری بر متغیر وابسته خواهد داشت.
- خطای رگرسیون: تفاوت میان مقدار واقعی متغیر وابسته و مقدار پیشبینی شده توسط مدل رو خطا می نامیم.

رایج ترین انواع رگرسیون
رگرسیون انواع مختلفی دارد که هر کدام برای کاربرد خاصی مناسب هستند:
- رگرسیون خطی ساده (Simple Linear Regression)
- تعریف: سادهترین نوع رگرسیونه که رابطه خطی بین یک متغیر وابسته و یک متغیر مستقل رو مدلسازی میکنه.
- کاربرد: برای پیشبینی متغیرهای پیوسته استفاده میشه.
- مثال: پیشبینی قیمت خانه بر اساس متراژش.
- رگرسیون خطی چندگانه (Multiple Linear Regression)
- تعریف: این نوع رگرسیون رابطه خطی بین یک متغیر وابسته و چندین متغیر مستقل رو مدلسازی میکنه.
- کاربرد: زمانی استفاده میشه که چندین متغیر بر متغیر وابسته تأثیرگذار باشن.
- مثال: پیشبینی نمره آزمون دانشآموزان بر اساس ساعات مطالعه، تعداد تستهای حل شده و نمرات آزمون های قبلی.
- رگرسیون لجستیک (Logistic Regression)
- تعریف: زمانی استفاده میشه که متغیر وابسته دودویی (مثلاً 0 یا 1) باشه.
- کاربرد: برای مدلسازی احتمال وقوع یک رویداد استفاده میشه.
- مثال: پیشبینی اینکه آیا یک مشتری محصولی رو میخره یا خیر.
- رگرسیون پُلینومی (Polynomial Regression)
- تعریف: رابطه بین متغیرها رو به صورت یک چندجملهای مدلسازی میکنه.
- کاربرد: زمانی استفاده میشه که رابطه بین متغیرها غیرخطی باشه.
- مثال: مدلسازی رشد جمعیت یک روستا، شهر و…
- رگرسیون غیرخطی 🙁Nonlinear Regression)
- تعریف: روابط غیرخطی پیچیدهتری رو نسبت به رگرسیون پُلینومی مدلسازی میکنه.
- کاربرد: برای مدلسازی دادههایی که رابطه بین متغیرهای آنها به صورت یک تابع ساده قابل بیان نیستش.
- مثال: مدلسازی فرآیندهای زیستی و ژنتیکی.
6. رگرسیون پویا (Time Series Regression):
برای تحلیل دادههای سری زمانی مانند قیمت سهام استفاده میشود. مدلهای ARIMA و VAR نمونههایی از رگرسیون پویا هستند.

انتخاب میان مناسب میان رگرسیون ها
انتخاب نوع شایسته رگرسیون به عوامل مختلفی از جمله نوع دادهها، هدف تحلیل و شکل رابطه میان متغیرها بستگی داره.
موارد مهم در انتخاب نوع رگرسیون:
- نوع متغیر وابسته: پیوسته، دودویی یا چندگانه
- تعداد متغیرهای مستقل
- شکل رابطه میان متغیرها: خطی، غیرخطی، پُلینومی
- وجود همبستگی میان متغیرهای مستقل
- حجم دادهها
مراحل انجام یک تحلیل رگرسیون
- تشخیص هدف تحقیق: مشخص کردن اینکه چه چیزی رو میخوایم پیشبینی کنیم و از چه متغیرهایی استفاده خواهیم کرد.
- جمعآوری دادهها: گردآوری دادههای مربوط به متغیرهای وابسته و مستقل.
- بررسی دادهها: بررسی دادهها از نظر وجود مقادیر گمشده، ساختاریافته، پرتافتاده و توزیع آنها.
- انتخاب مدل مناسب: انتخاب نوع رگرسیون مناسب بر اساس نوع دادهها و سوال تحقیق که بالاتر توضیح دادیم.
- برآورد مدل: برآورد ضرایب رگرسیون و رسم خط رگرسیون.
- ارزیابی مدل: ارزیابی دقت مدل با استفاده از معیارهایی مانند ضریب تعیین (R-squared) و جذر میانگین مربعات (RMSE).
- تفسیر نتایج: تفسیر ضرایب رگرسیون و نتیجهگیری در مورد رابطه بین متغیرها.
مطلبی مهم از کتاب “Introduction to Statistical Learning” نوشته Gareth James و همکاران:
“رگرسیون یکی از مهمترین ابزارهای آماریه که ما ازش استفاده میکنیم تا بفهمیم بین یه مقدار که میخوایم پیشبینیش کنیم (یعنی y) و چند تا مقدار دیگه که فکر میکنیم روش تاثیر دارن (یعنی xها)، چه ارتباطی وجود داره”.

بررسی عمیق رگرسیون به کمک مثالی ساده!
رگرسیون خطی: خرید مسکن با توجه به متراژ و قیمت
میخواهیم دادههای مربوط به متراژ و قیمت هزاران خانه در شهر رو جمعآوری کنیم. سپس با استفاده از رگرسیون خطی، یک نمودار رسم کنیم که نشان میدهد به طور کلی، هرچه متراژ خانه بیشتر باشه، قیمت آن نیز بیشتر میشه. این رابطه رو میتونیم با یک خط مستقیم نشان بدیم.
حالا با این مدل تونستیم با دانستن متراژ یک خانه، قیمت تقریبی اون رو پیشبینی کنیم. مثلاً اگر متراژ خانهای 100 متر مربع باشه، ما میتونیم با استفاده از مدل خود، قیمت تقریبی اون رو تخمین بزنیم.
رگرسیون لجستیک: خرید ماشین
در ادامه، ما تصمیم گرفتیم بررسی کنیم که چه عواملی باعث میشه افراد یک مدل خاص از ماشین رو خریداری کنن. ما دادههایی رو جمعآوری میکنیم که نشان میدن آیا هر کسی میتونه این ماشین رو خریداری کنه یا نه، و همچنین سن، درآمد و تحصیلات خریداران رو نیز در نظر گرفتیم.
در این مثال، متغیر وابسته (خرید یا عدم خرید ماشین) یک متغیر دودویی (بله یا خیر) هستش. برای تحلیل این دادهها، ما از رگرسیون لجستیک استفاده کردیم. رگرسیون لجستیک به ما کمک کرد تا احتمال خرید ماشین رو بر اساس سن، درآمد و تحصیلات افراد پیشبینی کنیم.

اما تفاوت رگرسیون خطی و لجستیک
- نوع متغیر وابسته: در رگرسیون خطی، متغیر وابسته عددی و پیوسته هستش (مانند قیمت خانه)، در حالی که در رگرسیون لجستیک، متغیر وابسته دودویی هستش (مانند خرید یا عدم خرید ماشین).
- نوع رابطه: رگرسیون خطی یک رابطه خطی میان متغیرها رو فرض میکنه، در حالی که رگرسیون لجستیک یک رابطه غیرخطی (S شکل) رو مدل میکنه.
کاربرد های رگرسیون
در دنیای واقعی، رگرسیون کاربردهای بسیار متنوعی داره:
- اقتصاد: پیشبینی نرخ تورم، نرخ بهره و…
- بازاریابی: پیشبینی میزان فروش، شناسایی مشتریان بالقوه و…
- علوم پزشکی: بررسی رابطه میان عوامل خطر و بیماریها
- مهندسی: مدلسازی فرآیندهای صنعتی، طراحی محصولات جدید و…
سخن پایانی
رگرسیون خطی و لجستیک دو ابزار قدرتمند برای تحلیل دادهها هستن که هر کدام برای نوع خاصی از مسائل مناسب هستند. انتخاب بین این دو روش به نوع متغیر وابسته و هدف تحلیل بستگی زیادی داره.

