یادگیری ماشینی بدون نظارت

نرم افزارهای یادگیری ماشین

مقدمه‌ای بر یادگیری ماشینی بدون نظارت

یادگیری ماشینی بدون نظارت یکی از سه تکنیک اصلی یادگیری ماشینی است که یک الگوریتم یادگیری خود سازمان‌ دهنده است که در آن نیازی به نظارت بر داده‌ها با ارائه یک مجموعه داده برچسب‌دار نداریم؛ زیرا در مقایسه با سایر تکنیک­های یادگیری ماشینی مانند یادگیری نظارت شده، می‌تواند به تنهایی یک الگوی ناشناخته را در مجموعه داده­‌های بدون برچسب پیدا کند تا با انجام کارهای پیچیده، اطلاعات مفیدی را کشف کند (مانند آنالیز مولفه اصلی و آنالیز خوشه­ای).

پس بیایید ببینیم چگونه می­توانیم این کار را انجام دهیم! در این مبحث قصد داریم با یادگیری ماشینی بدون نظارت آشنا شویم.

در “یادگیری ماشینی”، همانطور که از اسمش پیداست، ما به ماشین­ها آموزش می­دهیم که کارهایی شبیه به انسان را انجام دهند و  همانند انسان­ها که یا از کسی یا از طریق مشاهده یاد می­گیرند، ماشین هم به این روش یاد می­گیرد.

یادگیری ماشینی را می­توان به 3 بخش تقسیم کرد:

  • یادگیری تحت نظارت
  • یادگیری بدون نظارت
  • یادگیری تقویتی
انواع یادگیری ماشینی
انواع یادگیری ماشینی: یادگیری تحت نظارت- یادگیری بدون نظارت- یادگیری تقویتی

انواع یادگیری ماشینی

یادگیری تقویتی یادگیری مبتنی بر عامل است که شامل پاداش و تنبیه بر اساس اقدامات انجام شده توسط یک عامل است. هدف نهایی، ماکسیمم سازی پاداش کلی در فرآیند یادگیری از محیط است.

به‌طور خلاصه وقتی داده‌های ورودی-خروجی دارید، داده‌های برچسب‌ گذاری ‌شده (برای مثال داده‌­های قد و وزن برای تعیین اینکه آیا یک فرد مرد است یا زن) می‌تواند به عنوان یک کار یادگیری تحت نظارت (در مورد انسان یادگیری از شخص) در نظر گرفته شود.

اما در بسیاری از سناریوهای زندگی واقعی، این داده‌های برچسب‌ گذاری یا حاشیه‌ نویسی شده همیشه در دسترس نیستند. در نتیجه، بارها با مشکلات دسته بندی اشیا بر اساس ویژگی‌هایشان که به صراحت ذکر نشده‌­اند، مواجه می‌شویم. پس چگونه این مشکل را حل کنیم؟ خب، جواب یادگیری بدون نظارت است.

ویکی‌پدیا می‌گوید یادگیری بدون نظارت نوعی از یادگیری هب (Hebbian learning) خود سازمان‌یافته است که به یافتن الگوها در مجموعه داده‌های ناشناخته بدون برچسب‌های از قبل موجود کمک می‌کند. در یادگیری بدون نظارت، ما هیچ اطلاعات برچسبی نداریم، اما با این وجود، می‌خواهیم از داده‌ها بر اساس ویژگی‌های مختلف آن اطلاعاتی به دست آوریم.

 

یادگیری ماشینی بدون نظارت
تفاوت یادگیری ماشینی بدون نظارت و نظارت شده

 

انواع یادگیری ماشینی بدون نظارت

وظایف یادگیری بدون نظارت را می­توان به طور کلی به 3 دسته تقسیم کرد:

  • کاوش قواعد وابستگی ((ARM) Association rule mining)
  • خوشه بندی (Clustering)
  • سیستم توصیه­ گر(Recommendation system)

 

  1. کاوش قواعد وابستگی

هنگامی که ما داده‌های تراکنشی برای چیزی داریم، این داده­‌ها می‌توانند برای محصولات فروخته شده یا هر داده تراکنشی مربوط به آن باشند. می‌خواهیم بدانیم آیا رابطه پنهانی بین خریدار و محصول یا محصول با محصول وجود دارد، به گونه‌­ای که بتوانیم به نحوی از این اطلاعات برای افزایش فروش خود استفاده کنیم. استخراج این روابط هسته روش کاوش قواعد وابستگی است. می‌توانیم از الگوریتم‌های AIS، SETM، Apriori، FP برای استخراج روابط استفاده کنیم.

 

  1. خوشه بندی

خوشه بندی را می­توان بر روی هر داده­ای که اطلاعات کلاس یا برچسب را نداریم اعمال کرد. ما می­خواهیم داده‌­ها را طوری گروه بندی کنیم که مشاهدات با ویژگی­‌های مشابه متعلق به یک خوشه یا گروه باشند و فاصله بین خوشه‌­ای باید ماکزیمم باشد. در عین حال، فاصله درون خوشه­‌ای باید مینیمم باشد. برای مثال می‌توانیم داده‌های رأی ‌دهندگان را برای تعیین نظر در مورد دولت، محصولات بر اساس ویژگی‌ها و کاربردشان، تقسیم بندی جمعیت بر اساس ویژگی­ درآمدی در فروش و بازاریابی، خوشه بندی کنیم.

ما می­توانیم از ابزارهایی نظیر  K-Means، K-Means++، K-Medoids، Fuzzy C-means (FCM) ، همچنین الگوریتم­هایی نظیر Expectation-Maximisation (EM)، خوشه بندی تجمعی (Agglomerative Clustering) ، DBSCAN، انواع خوشه بندی سلسله مراتبی (Hierarchical Clustering) به عنوان روش خوشه بندی تک اتصالی، اتصال کامل، اتصال میانی، الگوریتم­‌های روش وارد (Ward’s method algorithms) برای خوشه بندی، استفاده کنیم.

 

  1. سیستم توصیه گر

سیستم توصیه گر اساساً بسط و گسترش کاوش قواعد وابستگی است. در این روش در حال استخراج روابط در ARM (کاوش قواعد وابستگی) هستیم. در سیستم توصیه گر، ما از این روابط برای توصیه چیزی استفاده می­کنیم که شانس پذیرش بالاتری توسط کاربر نهایی دارد. پس از اعلام جایزه بزرگ 1,000,000 دلاری در سال 2009 توسط نتفلیکس، سیستم‌­های توصیه گر محبوبیت پیدا کردند.

سیستم توصیه گر روی داده‌های تراکنشی کار می‌کند، اعم از تراکنش مالی، تجارت الکترونیک، یا تراکنش‌های فروشگاه‌های مواد غذایی. امروزه، بازیگران بزرگ در صنعت تجارت الکترونیک، با ارائه توصیه­‌های سفارشی برای هر کاربر بر اساس سابقه خرید قبلی و داده‌­های مربوط به رفتارهای مشابه در خرید از سوی سایر کاربران، مشتریان را اغوا می­کنند.

روش‌های توسعه سیستم‌های توصیه گر را می‌توان به طور کلی به فیلتر مشارکتی (Collaborative filtering) و فیلتر محتوا محور (Content-Based filtering) تقسیم کرد. در فیلتر مشارکتی، ما فیلتر مشارکتی کاربر-کاربر و فیلتر مشارکتی آیتم-آیتم را داریم که رویکردهای مبتنی بر حافظه هستند و همچنین ماتریس عامل بندی (Matrix factorization) و تجزیه مقادیر منفرد (Singular Value Decomposition (SVD)) که رویکردهای مبتنی بر مدل هستند را داریم.

 

کاربردهای یادگیری ماشینی بدون نظارت

از آنجایی که داده­‌های جهان هر روز به شدت در حال افزایش است، یادگیری بدون نظارت کاربردهای زیادی دارد. ما همواره با استفاده از پلتفرم‌های رسانه‌های اجتماعی یا تولید محتوای ویدیویی در یوتیوب در حال ایجاد داده‌ها هستیم و بسیاری از اوقات حتی عمداً این کار را انجام نمی‌دهیم. همه این داده‌ها بدون ساختار هستند و برچسب زدن به آن‌ها برای امورات مربوط به یادگیری تحت نظارت، خسته‌کننده و پرهزینه خواهد بود.

کاربرد های یادگیری ماشینی بدون نظارت

در زیر برخی از کاربردهای جالب یادگیری ماشین بدون نظارت آورده شده است:

خواربارفروشی یا فروشگاه/بازار تجارت الکترونیک: قواعد وابستگی را از داده‌های معاملاتی مشتریان استخراج کرده و توصیه‌هایی برای خرید محصولات به مصرف‌کنندگان ارائه می­دهد.

پلتفرم­ رسانه‌­های اجتماعی: روابط با کاربران مختلف برای پیشنهاد محصولات یا خدمات استخراج می­کند. به افراد جدید ارتباط اجتماعی را توصیه می‌کند.

خدمات: ارائه پیشنهادهایی برای خدمات مسافرتی، پیشنهاد خانه­‌هایی برای اجاره یا خدمات مراسم ازدواج.

بانکداری: مشتریان را بر اساس تراکنش­های مالی آنها خوشه بندی می­کند. تراکنش­های مشکوک را برای کشف تقلب خوشه بندی می­کند.

سیاست: نظرات رای دهندگان در مورد شانس پیروزی یک حزب خاص را خوشه بندی می­کند.

بصری سازی داده: با خوشه بندی و روش t-distributed Stochastic Neighbor​ Embedding​ (t-SNE) می­توانیم داده‌­های با ابعاد بالا را به تصویر بکشیم. همچنین، این روش می­تواند برای کاهش ابعاد استفاده شود.

سرگرمی: ارائه پیشنهادهایی برای فیلم و موسیقی، همانطور که نتفلیکس و آمازون این کار را انجام می­دهند.

بخش بندی تصویر: خوشه‌بندی بخش‌های تصویر بر اساس نزدیک‌ترین مقادیر پیکسلی.

محتوا: روزنامه‌های شخصی‌سازی شده، پیشنهاد‌های صفحات وب، برنامه‌های آموزش الکترونیکی و فیلترهای ایمیل.

کشف ساختاری: با خوشه ‌بندی می‌توانیم هر ساختار پنهانی را در داده‌ها کشف کنیم همانند خوشه بندی داده‌های توییتر برای تجزیه و تحلیل احساسات.

نتیجه گیری

یادگیری ماشینی بدون نظارت خیلی قابل اندازه‌گیری نیست، اما می‌تواند بسیاری از مشکلاتی را که در آن الگوریتم‌های نظارت شده با شکست مواجه می‌شوند، حل کند. کاربردهای زیادی برای یادگیری بدون نظارت در بسیاری از حوزه‌ها که در آن داده‌های بدون ساختار و بدون برچسب داریم، وجود دارد.

ما می‌توانیم از تکنیک‌های یادگیری بدون نظارت استفاده کنیم تا به ماشین‌هایمان بیاموزیم که بهتر از ما کار کنند. در سال‌های اخیر، ماشین‌ها در زمینه اموراتی که قرن‌ها توسط انسان‌ها حل شده تلقی می­شدند، بهتر از انسان عمل کرده‌اند. امیدوارم با این مقاله متوجه شده باشید که یادگیری ماشینی بدون نظارت چیست و چگونه می­توان از تکنیک­های آن برای حل مسائل دنیای واقعی استفاده کرد.

 

از دوره های کارآموزی ژنیران دیدن فرمایید:

 

منبع

مترجم: فاطمه فریادرس

از این مطلب چقدر راضی بودید؟

روی ستاره کلیک کنید تا نظرتون ثبت بشه

5 / 5. تعداد رای دهندگان: 2

تا حالا امتیازی برای این مطلب ثبت نشده؛ با ثبت نظرتون مارو خوشحال می‌کنید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *