روش‌های گروهی در یادگیری ماشینی

روش‌های گروهی در یادگیری ماشینی

مقدمه‌ای برمدل های یادگیری ماشین ترکیبی یا مدل های جمعی

مدل‌های یادگیری ماشینی به‌عنوان یک سیستم چندوجهی تعریف می‌شود که در آن طبقه‌بندی‌ و تکنیک‌های مختلف به‌صورت استراتژیک در مدلی پیش‌بینی شده، ترکیب می‌شوند. (گروه‌بندی به این صورت انجام می‌شود: مدل ترتیبی، مدل موازی، روش‌های همگن و ناهمگن و غیره). این مجموعه روش‌ها همچنین به کاهش واریانس در داده‌های پیش‌بینی شده، به حداقل رساندن سوگیری در مدل پیش‌بینی‌شده کمک می‌کند‌. همچنین به طبقه‌بندی و پیش‌بینی آماری درمورد مسائل پیچیده با دقت بالا نیز کمک می‌کند.

انواع روش‌های یادگیری ماشینی جمعی

این مجموعه روش‌ها به ایجاد چندین مدل و سپس ترکیب آن‌ها برای ایجاد نتایج بهتر کمک می‌کنند، برخی از این روش‌ها به گروه‌های زیر دسته‌بندی می‌شوند:

  1. روش‌ متوالی

در این نوع روش Ensemble، مدل‌های پایه به صورت متوالی تولید می‌شوند، که وابسته به داده‌ها هستند.

هر داده دیگری در مدل پایه به داده‌های قبلی وابستگی دارد. بنابراین، داده‌های برچسب‌گذاری شده‌ی نادرست قبلی بر اساس وزن تنظیم می‌شوند تا عملکرد کلی سیستم بهبود یابد.

مثال: روش boosting

  1. روش موازی

در این نوع روش Ensemble، مدل پایه به‌ صورت موازی تولید می‌شود که در آن وابستگی داده وجود ندارد. هر داده در مدل پایه به‌طور مستقل تولید می‌شود.

مثال: Stacking

  1. مجموعه‌ی همگن

این روش مجموعه‌ای ترکیبی از انواع مشابه طبقه‌بندی‌کننده‌ها است. اما مجموعه داده‌ها برای هر طبقه‌بندی متفاوت است. این باعث می‌شود که مدل ترکیبی پس از تجمیع نتایج هر مدل با دقت بیشتری کار کند. این نوع روش مجموعه‌ای، با تعداد زیادی مجموعه داده کار می‌کند. در روش همگن، روش انتخاب ویژگی برای داده‌های پایه مختلف یکسان است و از نظر محاسباتی گران است.

مثال: روش‌های پرطرفدار مانند bagging و boosting به مجموعه همگن وارد می‌شوند.

  1. مجموعه‌ی ناهمگن

این روش مجموعه‌ای ترکیبی از انواع مختلف طبقه‌بندی‌کننده‌ها یا مدل‌های پایه‌ای ماشینی است، که در آن هر طبقه‌بندی‌کننده بر اساس داده‌های یکسانی ساخته شده است. چنین روشی برای مجموعه داده‌های کوچک کار می‌کند. در مجموعه ناهمگن، روش انتخاب ویژگی برای هر داده‌ی پایه متفاوت است. نتیجه کلی اینکه این مجموعه با میانگین‌گیری تمام نتایج هر مدل ترکیبی انجام می‌شود.

مثال: Stacking

طبقه‌بندی فنی روش‌های جمعی

در زیر طبقه‌بندی فنی روش‌های جمعی آورده شده است:روش‌های گروهی در یادگیری ماشینی

 

  • Bagging

این روش دو مدل پایه ماشین یعنی Bootstrapping و Aggregation را در یک مدل واحد ترکیب می‌کند.

Bootstrapping و Aggregation در یک مدل واحد ادغام می‌شوند. هدف از روش bagging کاهش واریانس بالای مدل است. درخت‌های تصمیم دارای واریانس و سوگیری کم هستند. مجموعه داده بزرگ (مثلاً 1000 نمونه) نمونه فرعی است (مثلاً 10 نمونه فرعی هر کدام 100 نمونه داده را حمل می کند).

Bootstrapping و Aggregation در یک مدل واحد ادغام می‌شوند. هدف از روش bagging کاهش واریانس بالای مدل است. درخت‌های تصمیم دارای واریانس و سوگیری کم هستند. مجموعه داده بزرگ دارای زیرمجموعه‌ای از نمونه‌های فرعی است (مثلاً 10 نمونه هر کدام 100 نمونه داده را حمل می‌کند).

درخت‌های تصمیم‌گیری چندگانه بر روی هر داده آموزشی ساخته شده‌اند. درحالیکه داده‌های نمونه‌گیری فرعی را روی درخت‌های تصمیم مختلف پیاده می‌کنند، نگرانی از برازش (انطباق) بیش از حد داده‌های آموزشی در هر درخت تصمیم کاهش می‌یابد. برای کارایی بیشتر در مدل‌ها، هر یک از درخت‌های تصمیم‌گیری جداگانه حاوی training data نمونه‌برداری‌شده عمیق رشد می‌کنند.

درخت‌های تصمیم‌گیری چندگانه بر روی هر training data ساخته شده‌اند. درحالیکه داده‌های نمونه‌گیری فرعی را روی درخت‌های تصمیم مختلف پیاده می‌کنند، نگرانی از برازش بیش از حد training data در هر درخت تصمیم کاهش می‌یابد. برای کارایی بیشتر در مدل‌ها، هر یک از درخت‌های تصمیم‌گیری جداگانه حاوی training data نمونه‌برداری‌شده رشد می‌کنند.

نتایج هر درخت تصمیم برای درک پیش‌بینی نهایی تجمیع می‌شوند. واریانس داده‌های جمع‌آوری‌شده کاهش می‌یابد. دقت پیش‌بینی مدل در روش bagging به تعداد درخت تصمیم مورد استفاده بستگی دارد. نمونه‌های فرعی مختلف از یک داده به‌طور تصادفی با جایگزینی انتخاب می‌شود. خروجی هر درخت دارای همبستگی بالایی است.

  • Boosting

این مجموعه نیز انواع مختلف طبقه‌بندی‌کننده را ترکیب می‌کند. Boosting یکی از روش‌های متوالی مجموعه‌ای است که در آن هر مدل یا طبقه‌بندی‌کننده بر اساس ویژگی‌هایی اجرا می‌شود که توسط مدل بعدی استفاده شود. به این ترتیب، روش boosting، با میانگین وزن، یک مدل پایه‌ قوی‌تر را از مدل‌های پایه ضعیف تشخیص می‌دهد. به عبارت دیگر، یک trained model قوی‌تر به چندین trained model ضعیف بستگی دارد. یک trained model ضعیف، مدلی است که با طبقه‌بندی واقعی همبستگی بسیار کمتری دارد. اما مدل پایه ضعیف بعدی کمی بیشتر با طبقه‌بندی واقعی مرتبط است. ترکیب چنین مدل‌های پایه‌ی ضعیف متفاوتی یک مدل قوی می‌دهد که به خوبی با طبقه‌بندی واقعی همبستگی دارد.

  • Stacking

این روش همچنین چندین طبقه‌بندی یا تکنیک‌های رگرسیون را با استفاده از یک متا مدل ترکیب می‌کند. مدل‌های سطوح پایین‌تر با مجموعه داده‌های کامل ادغام می‌شوند و سپس مدل ترکیبی با نتایج مدل‌های سطح پایین‌تر ادغام داده می‌شود.

بر خلاف boosting، هر مدل سطح پایین‌تر تحت آموزش موازی قرار می‌گیرد. پیش‌بینی مدل‌های سطح پایین‌تر که ورودی مدل بعدی هستند و به‌عنوان مجموعه داده training استفاده می‌شود، که در آن لایه بالایی مدل نسبت به لایه پایینی مدل آموزش‌دیده‌تر است. مدل لایه بالایی دقت پیش‌بینی خوبی دارد و بر اساس مدل‌های سطح پایین‌تر ساخته شده‌اند.

دسته آنقدر افزایش می‌یابد تا زمانیکه بهترین پیش‌بینی با حداقل خطا انجام شود. پیش‌بینی مدل ترکیبی یا متا مدل براساس پیش‌بینی مدل‌های ضعیف مختلف یا مدل‌های لایه پایین‌تر است. تمرکز آن بر تولید مدل بصورت بی‌طرفانه است.

  • Random forest

random forest کمی با bagging متفاوت است زیرا از درختان عمیقی استفاده می‌کند که روی نمونه‌های بوت استرپ نصب شده‌اند. خروجی هر ستون برای کاهش واریانس ترکیب می‌شود.روش‌های گروهی در یادگیری ماشینی

در حین رشد هر درخت، به جای ایجاد یک نمونه بوت استرپ بر اساس مشاهده در مجموعه داده، ما مجموعه داده را براساس ویژگی‌ها نمونه‌برداری می‌کنیم و تنها از یک زیر مجموعه تصادفی از چنین نمونه‌ای برای ایجاد درخت استفاده می‌کنیم. به عبارت دیگر، نمونه‌برداری از مجموعه داده بر اساس ویژگی‌هایی انجام می‌شود، که همبستگی خروجی‌های مختلف را کاهش می‌دهد. random forest یا جنگل تصادفی برای تصمیم‌گیری برای داده‌های از دست رفته خوب است.

جنگل تصادفی، به معنای انتخاب تصادفی زیرمجموعه‌ای از نمونه است، که شانس به‌دست آوردن مقادیر پیش‌بینی مرتبط را کاهش می‌دهد. هر درخت ساختار متفاوتی دارد. جنگل تصادفی منجر به افزایش کمی انتخاب متعصبانه  در جنگل می‌شود، اما به دلیل میانگین همه پیش‌بینی‌ها با ارتباط کم در درختان مختلف، واریانس حاصل کاهش می‌یابد و عملکرد کلی بهتری ارائه می‌دهد.

نتیجه‌گیری

روش چند مدلی ensemble توسط مدل‌های یادگیری عمیق که در آن داده‌های پیچیده از طریق چنین ترکیب‌های مختلف طبقه‌بندی‌کننده برای پیش‌بینی یا طبقه‌بندی بهتر پردازش‌شده‌، تحقق می‌یابد.

پیش‌بینی هر مدل در یادگیری گروهی باید غیرمرتبط باشد. این امر سوگیری و واریانس مدل را تا حد امکان پایین نگه می‌دارد. با این روش مدل کارآمدتر خواهد بود و خروجی را با حداقل خطا پیش‌بینی می‌کند. Ensemble  یک الگوریتم یادگیری تحت نظارت است. چراکه مدل پایه آن، از قبل با مجموعه‌ای از داده‌ها برای پیش‌بینی آموزش داده شده است. در یادگیری گروهی، برای دستیابی به دقت بالا، تعداد طبقه‌بندی‌کننده‌های اجزا باید با برچسب‌های رده‌ی یکسان باشد.

مترجم: شقایق مرتاضی

منبع

همچنین اخبار های علمی را بخوانید:

اخبار

از این مطلب چقدر راضی بودید؟

روی ستاره کلیک کنید تا نظرتون ثبت بشه

0 / 5. تعداد رای دهندگان: 0

تا حالا امتیازی برای این مطلب ثبت نشده؛ با ثبت نظرتون مارو خوشحال می‌کنید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *