مباحث پیشرفته آماری (joint distribution، covariance، correlation، آزمون های آماری، p-value و رگرسیون …)
Correlation
ضرایب همبستگی نشانگر قدرت رابطه خطی بین دو متغیر مختلف x و y هستند. ضریب همبستگی خطی که بزرگتر از صفر باشد نشان دهنده یک رابطه مثبت است. مقداری که کمتر از صفر باشد نشان دهنده یک رابطه منفی است. در نهایت، مقدار صفر نشان دهنده عدم رابطه بین دو متغیر x و y است.
Covariance
کوواریانس و واریانس هر دو برای اندازه گیری توزیع نقاط در یک مجموعه داده استفاده می شوند. با این حال، واریانس معمولاً در مجموعههای داده تنها با یک متغیر استفاده میشود و نشان میدهد که این نقاط داده تا چه اندازه در اطراف میانگین خوشهبندی شدهاند. کوواریانس جهت رابطه بین دو متغیر را اندازه گیری می کند. کوواریانس مثبت به این معنی است که هر دو متغیر تمایل به بالا یا پایین بودن همزمان دارند. کوواریانس منفی به این معنی است که وقتی یک متغیر زیاد است، متغیر دیگر به سمت پایین تمایل دارد.
Joint distribution
در زندگی واقعی، ما اغلب به چندین متغیر تصادفی که به یکدیگر مرتبط هستند علاقه مندیم. به عنوان مثال، فرض کنید ما یک خانواده تصادفی انتخاب می کنیم و می خواهیم تعداد افراد خانواده، درآمد خانوار، سن اعضای خانواده و غیره را بررسی کنیم. آنها وابسته هستند. در اینجا به جای یک متغیر تصادفی، دو یا چند متغیر را در نظر می گیریم. در این قسمت، ما بر روی دو متغیر تصادفی تمرکز خواهیم کرد، اما هنگامی که تئوری دو متغیر تصادفی را درک کردید، گسترش به n متغیر تصادفی ساده است.
آزمون های آماری و p-value
در آزمون فرضیه ها از آزمون های آماری استفاده می شود. آنها می توانند در موارد زیر استفاده شوند:
• برای تعیین این که آیا یک متغیر پیشبینیکننده رابطه آماری معناداری با متغیر نتیجه دارد یا خیر.
• تخمین تفاوت بین دو یا چند گروه
آزمون های آماری فرضیه صفر مبنی بر عدم وجود رابطه یا عدم تفاوت بین گروه ها را فرض می کنند. سپس تعیین می کنند که آیا داده های مشاهده شده خارج از محدوده مقادیر پیش بینی شده توسط فرضیه صفر قرار می گیرند یا خیر.
آزمونهای آماری با محاسبه یک آماره آزمون کار میکنند – عددی که نشان میدهد چقدر رابطه بین متغیرها در آزمون شما با فرضیه صفر عدم وجود رابطه متفاوت است. سپس p-value (مقدار احتمال) را محاسبه می کند. p-value تخمین می زند که اگر فرضیه صفر عدم وجود رابطه درست باشد، چقدر احتمال دارد که تفاوت توصیف شده توسط آماره آزمون را مشاهده کنید.
اگر مقدار آماره آزمون خیلبی بیشتر از آمار محاسبه شده از فرضیه صفر باشد، می توانید یک رابطه آماری معنی دار بین متغیرهای پیش بینی کننده و نتیجه استنباط کنید. اگر مقدار آماره آزمون خیلی کمتر از مقدار محاسبه شده از فرضیه صفر باشد، آنگاه نمی توانید هیچ رابطه آماری معنی داری بین متغیرهای پیش بینی کننده و نتیجه استنباط کنید.
میتوانید آزمایشهای آماری را روی دادههایی که به شیوهای معتبر آماری جمعآوری شدهاند و یا از طریق آزمایش یا از طریق مشاهدات انجام شده با استفاده از روشهای نمونهگیری احتمالی به دست آمده اند، انجام دهید. برای اینکه یک آزمون آماری معتبر باشد، حجم نمونه شما باید به اندازه کافی بزرگ باشد تا توزیع واقعی جامعه مورد مطالعه را به تقریبی به دست آورد.
برای تعیین اینکه از کدام آزمون آماری استفاده کنید، باید بدانید:
• آیا داده های شما با فرضیات خاصی مطابقت دارد یا خیر.
• انواع متغیرهایی که با آنها سر و کار دارید.
رگرسیون
رگرسیون یک روش آماری است که در زیست شناسی، امور مالی، سرمایهگذاری و سایر رشتهها استفاده میشود و تلاش میکند تا قدرت و ویژگی رابطه بین یک متغیر وابسته (معمولاً با Y نشان داده میشود) و مجموعهای از متغیرهای دیگر (معروف به متغیرهای مستقل) را تعیین کند.
دو نوع اصلی رگرسیون، رگرسیون خطی ساده و رگرسیون خطی چندگانه هستند، اگرچه روشهای رگرسیون غیرخطی برای دادهها و تحلیلهای پیچیدهتر وجود دارد. رگرسیون خطی ساده از یک متغیر مستقل برای توضیح یا پیش بینی نتیجه متغیر وابسته Y استفاده می کند، در حالی که رگرسیون خطی چندگانه از دو یا چند متغیر مستقل برای پیش بینی نتیجه استفاده می کند.
مطالعات بیشتر در بخش راهنمای علمی سایت
کاراموزی های بیشتر در بخش کاراموزی های سایت