پیش پردازش داده ها

پیش پردازش داده ها (بررسی کامل بودن دیتاست، تبدیل داده های غیر عددی به عددی، نرمال کردن داده ها، داده های نویز و …)

دیتاست ها و پیش پردازش داده ها

یادگیری ماشینی به ما این امکان را می دهد که داده های زیادی را به پیش بینی هایی تبدیل کنیم که بتوانیم از توانایی های آنها در پروژه های مختلف بهره ببریم. با این حال، الگوریتم‌های یادگیری ماشینی مؤثر (ML) برای انجام پیش‌بینی‌های دقیق نیاز به آموزش و آزمایش داده‌های با کیفیت – و اغلب تعداد زیادی از آن‌ها دارند.

مجموعه داده‌های مختلف در تهیه الگوریتمی برای پیش‌بینی و تصمیم‌گیری بر اساس داده‌های دنیای واقعی اهداف متفاوتی دارند. در اینجا، داده‌های آموزشی را با داده‌های آزمایشی در مقابل داده‌های اعتبارسنجی مقایسه می‌کنیم. در حالی که هر سه به طور معمول از یک مجموعه داده بزرگ جدا می شوند، هر کدام معمولاً کاربرد متمایز خود را در مدل سازی ML دارند.

داده های آموزشی و پیش پردازش داده ها

این نوع داده الگوریتم یادگیری ماشینی را ایجاد می کند. دانشمند داده، داده های ورودی الگوریتم را تغذیه می کند، که با خروجی مورد انتظار مطابقت دارد. مدل ها داده ها را به طور مکرر ارزیابی می کنند تا در مورد رفتار داده ها اطلاعات بیشتری کسب کند و سپس خود را برای خدمت به هدف مورد نظر خود تنظیم می کند.

داده های اعتبارسنجی و پیش پردازش داده ها

در طول آموزش، داده‌های اعتبارسنجی داده‌های جدیدی را به مدل وارد می‌کنند که قبلاً ارزیابی نشده است. داده‌های اعتبارسنجی اولین آزمایش را در برابر داده‌های دیده نشده ارائه می‌کند و به دانشمندان داده اجازه می‌دهد تا میزان پیش‌بینی‌های مدل را بر اساس داده‌های جدید ارزیابی کنند. همه دانشمندان داده از داده‌های اعتبار سنجی استفاده نمی‌کنند، اما می‌توانند اطلاعات مفیدی را برای بهینه‌سازی فراپارامترها فراهم کنند، که بر نحوه ارزیابی مدل تأثیر می‌گذارد.

داده های تست و پیش پردازش داده ها

پس از ساخته شدن مدل، داده های آزمایشی بار دیگر تایید می کند که می تواند پیش بینی های دقیقی انجام دهد. اگر داده‌های آموزشی و اعتبارسنجی شامل برچسب‌هایی برای نظارت بر معیارهای عملکرد مدل باشد، داده‌های آزمایش باید بدون برچسب باشند. داده‌های آزمایشی یک بررسی واقعی و نهایی از مجموعه داده‌های دیده نشده را فراهم می‌کند تا تأیید کند که الگوریتم ML به طور مؤثر آموزش داده شده است.

در حالی که هر یک از این سه مجموعه داده جایگاه خود را در ایجاد و آموزش مدل‌های ML دارند، به راحتی می‌توان همپوشانی بین آنها را مشاهده کرد. تفاوت بین داده‌های آموزشی و داده‌های آزمایشی واضح است: یکی یک مدل را آموزش می‌دهد، دیگری تأیید می‌کند که درست کار می‌کند.

پیش پردازش داده ها

داده های آموزش در برابر داده های اعتبار سنجی

الگوریتم های ML برای دستیابی به یک هدف به داده های آموزشی نیاز دارند. الگوریتم این مجموعه داده آموزشی را تجزیه و تحلیل می‌کند، ورودی‌ها و خروجی‌ها را طبقه‌بندی می‌کند، سپس دوباره آن را تحلیل می‌کند. الگوریتمی که بیش از حد آموزش دیده باشد، اساساً تمام ورودی ها و خروجی های یک مجموعه داده آموزشی را به خاطر می سپارد – این زمانی که نیاز به در نظر گرفتن داده ها از منابع دیگر، مانند مشتریان دنیای واقعی دارد، مشکل ساز می شود.

 

در اینجا اطلاعات اعتبارسنجی مفید است. داده‌های اعتبارسنجی یک بررسی اولیه را فراهم می‌کند که مدل می‌تواند پیش‌بینی‌های مفید را در یک محیط واقعی برگرداند، که داده‌های آموزشی نمی‌توانند انجام دهند. الگوریتم ML می تواند داده های آموزشی و داده های اعتبار سنجی را همزمان ارزیابی کند.

داده های اعتبار سنجی یک بخش کاملاً مجزا از داده ها است، اگرچه یک دانشمند داده ممکن است بخشی از مجموعه داده های آموزشی را برای اعتبار سنجی بسازد – تا زمانی که مجموعه داده ها در کل آموزش و آزمایش جداگانه نگه داشته شوند.

برای مثال، فرض کنید یک الگوریتم ML قرار است تصویری از یک مهره‌دار را تجزیه و تحلیل کند و طبقه‌بندی علمی آن را ارائه دهد. مجموعه داده آموزشی شامل تعداد زیادی عکس از پستانداران است، اما نه همه تصاویر همه پستانداران، چه رسد به همه تصاویر همه مهره داران.

بنابراین، وقتی داده‌های اعتبارسنجی تصویری از یک سنجاب ارائه می‌دهند، حیوانی که مدل قبلاً ندیده است، دانشمند داده می‌تواند ارزیابی کند که الگوریتم در آن کار چقدر خوب عمل می‌کند. این یک بررسی در برابر مجموعه داده های کاملاً متفاوت با مجموعه ای است که در آن آموزش داده شده است.

بر اساس دقت پیش‌بینی‌ها پس از مرحله اعتبارسنجی، دانشمندان داده می‌توانند فراپارامترهایی مانند نرخ یادگیری، ویژگی‌های ورودی و لایه‌های پنهان را تنظیم کنند. این تنظیمات از تطبیق بیش از حد جلوگیری می‌کند، که در آن الگوریتم می‌تواند تصمیمات عالی را روی داده‌های آموزشی انجام دهد، اما نمی‌تواند به طور موثر پیش‌بینی‌ها را برای داده‌های اضافی تنظیم کند.

مشکل برعکس، عدم تناسب، زمانی رخ می‌دهد که مدل به اندازه کافی پیچیده نباشد تا بتواند پیش‌بینی‌های دقیقی را نسبت به داده‌های آموزشی یا داده‌های جدید انجام دهد.

به طور خلاصه، وقتی پیش‌بینی‌های خوبی در مجموعه داده‌های آموزشی و مجموعه داده‌های اعتبارسنجی مشاهده می‌کنید، می‌توانید اطمینان داشته باشید که الگوریتم بر روی داده‌های جدید، نه فقط یک زیرمجموعه کوچک از داده‌ها، همانطور که در نظر گرفته شده است، کار می‌کند.

داده های اعتبار سنجی در برابر داده های تست

همه دانشمندان داده هم به داده های اعتبارسنجی و هم به داده های آزمایشی اعتماد نمی کنند. تا حدودی، هر دو مجموعه داده یک هدف را دنبال می کنند: مطمئن شوید که مدل بر روی داده های واقعی کار می کند.

با این حال، برخی تفاوت های عملی بین داده های اعتبار سنجی و داده های آزمایشی وجود دارد. اگر تصمیم بگیرید که یک مرحله جداگانه برای تجزیه و تحلیل داده های اعتبار سنجی قرار دهید، این مجموعه داده معمولاً برچسب گذاری می شود تا دانشمند داده بتواند معیارهایی را جمع آوری کند که می توانند برای آموزش بهتر مدل از آنها استفاده کنند.

در این معنا، داده های اعتبارسنجی به عنوان بخشی از فرآیند آموزش مدل رخ می دهد. برعکس، زمانی که داده های آزمایشی را از طریق آن اجرا می کنید، این مدل به عنوان یک جعبه سیاه عمل می کند. بنابراین، داده‌های اعتبارسنجی مدل را تنظیم می‌کند، در حالی که داده‌های آزمایشی به سادگی کارکرد آن را تأیید می‌کند.

 

استاندارد سازی و نرمال سازی و پیش پردازش داده ها

«استاندارد کردن» یک بردار اغلب به معنای کم کردن یک اندازه از مکان و تقسیم بر یک مقیاس است. به عنوان مثال، اگر بردار حاوی مقادیر تصادفی با توزیع گاوسی باشد، ممکن است میانگین را کم کرده و بر انحراف استاندارد تقسیم کنید، در نتیجه یک متغیر تصادفی “عادی استاندارد” با میانگین 0 و انحراف استاندارد 1 به دست آورید.

“نرمال سازی” یک بردار اغلب به معنای تقسیم بر یک نرم بردار است. همچنین اغلب به تغییر مقیاس توسط حداقل و دامنه بردار اشاره دارد، تا همه عناصر بین 0 و 1 قرار بگیرند و بنابراین تمام مقادیر ستون های عددی در مجموعه داده را به یک مقیاس مشترک برساند.

داده های نویز و پیش پردازش داده ها

چرا باید به نویز داده و نویز برچسب در یادگیری ماشین اهمیت دهیم؟

دستاوردهای فوق العاده یادگیری ماشین را به برنامه های مختلف آورده است. این باید به تحقیق و کاربرد انگیزه و سرعت بخشد، زیرا اکنون می‌توانیم به سؤالاتی که واقعاً مهم هستند در پزشکی، روان‌شناسی، جرم‌شناسی پاسخ دهیم. با این حال، این برنامه های کاربردی دنیای واقعی بیشتر از مشکلات آکادمیک پر سر و صدا هستند.

به عنوان مثال، در پزشکی، تشخیص های مختلف یک یا چند پزشک در یک نمونه پزشکی یک مشکل شناخته شده است، اگرچه نویز در مجموعه داده های دانشگاهی نیز وجود دارد. از سوی دیگر، گرایش به شبکه های بزرگتر منجر به مشکل به خاطر سپردن به جای تعمیم می شود که به خاطر سپردن نویز نیز ایجاد می شود.

مطالعات بیشتر در بخش راهنمای علمی سایت

کاراموزی های بیشتر در بخش کاراموزی های سایت

http://geniranlab.ir

از این مطلب چقدر راضی بودید؟

روی ستاره کلیک کنید تا نظرتون ثبت بشه

3.7 / 5. تعداد رای دهندگان: 3

تا حالا امتیازی برای این مطلب ثبت نشده؛ با ثبت نظرتون مارو خوشحال می‌کنید