روش‌های خوشه‌بندی

روش‌های خوشه‌بندی

مقدمه‌ای بر روش‌های خوشه‌بندی

روش‌های خوشه‌بندی (مانند روش سلسله‌مراتبی، تقسیمی، روش مبتنی بر چگالی، خوشه‌بندی مبتنی بر مدل، و مدل مبتنی بر شبکه) با استفاده از تکنیک‌های مختلف برای انتخاب نتیجه مناسب برای مسئله استفاده می‌شوند و به گروه‌بندی نقاط داده در خوشه‌ها کمک می‌کنند. تکنیک‌های خوشه‌بندی به گروه‌بندی نقاط داده در دسته‌های مشابه کمک می‌کنند و هر یک از این زیرمجموعه‌ها، خود به زیرمجموعه‌هایی دیگر تقسیم می‌شوند تا پاسخ مسائل ایجاد شده کمک کنند.

روش‌های خوشه‌بندی را توضیح دهید؟

روش خوشه‌بندی به گروه‌بندی داده‌های ارزشمند در خوشه‌ها کمک می‌کند و نتایج مناسب را بر اساس تکنیک‌های مختلف انتخاب می‌کند. به‌عنوان‌مثال، در بازیابی اطلاعات، نتایج پرس‌وجو در خوشه‌های کوچک گروه‌بندی می‌شوند و هر خوشه نتایج نامربوطی دارد. با استفاده از تکنیک‌های خوشه‌بندی، آن‌ها به دسته‌های مشابه گروه‌بندی می‌شوند و هر دسته به زیرمجموعه‌هایی تقسیم می‌شوند تا به کاوش خروجی مورد بررسی کمک کنند. انواع مختلفی از روش‌های خوشه‌بندی وجود دارد. از جمله:

  • روش‌های سلسله‌مراتبی
  • روش‌های پارتیشن‌بندی
  • بر اساس تراکم
  • خوشه‌بندی مبتنی بر مدل
  • مدل مبتنی بر شبکه

در زیر به مروری بر تکنیک‌های مورد استفاده در داده‌کاوی و هوش مصنوعی می‌پردازیم.

  1. روش سلسله‌مراتبی

این روش با پارتیشن‌بندی به صورت بالا به پایین و پایین به بالا یک خوشه ایجاد می‌کند. هر دوی این رویکردها دندروگرام تولید می‌کنند و بین آنها ارتباط برقرار می‌کنند.

دندروگرام یک قالب درخت‌مانند است که توالی خوشه‌های ادغام شده را حفظ می‌کند. روش‌های سلسله‌مراتبی پارتیشن‌های متعدد با توجه‌ به سطوح شباهت تولید می‌شوند. آنها به خوشه‌بندی سلسله‌مراتبی تجمعی و خوشه‌بندی سلسله‌مراتبی تقسیمی تقسیم می‌شوند. در اینجا یک درخت خوشه‌ای با استفاده از تکنیک‌های ادغام ایجاد می‌شود. برای فرایند تقسیم، تقسیم‌کننده و برای ادغام از ترکیب استفاده می‌شود.

خوشه‌بندی تجمعی شامل موارد زیر است:

  • در ابتدا، گرفتن تمام نقاط داده و در نظر گرفتن آنها به عنوان خوشه‌های منفرد از یک روش بالا به پایین شروع می‌شود. سپس این خوشه‌ها با هم ادغام می‌شوند تا به نتایج دلخواه برسیم.
  • دو خوشه مشابه بعدی در کنار هم قرار می‌گیرند تا یک خوشه بزرگ را تشکیل دهند.
  • مجدداً محاسبه مجاورت در خوشه بزرگ و ادغام خوشه‌های مشابه انجام می‌شود.
  • مرحله نهایی شامل ادغام تمام خوشه‌های بازده در هر مرحله برای تشکیل یک خوشه منفرد نهایی است.
  1. روش پارتیشن‌بندی

هدف اصلی پارتیشن‌بندی، جابه‌جایی است.  پارتیشن‌ها با جابه‌جایی از یک خوشه به خوشه دیگر تغییر مکان می‌دهند و در نهایت یک پارتیشن‌بندی اولیه را ایجاد  می‌کنند. اشیاء داده‌ای ‘n’ به تعداد ‘k’ خوشه تقسیم می‌شوند. این روش پارتیشنی بیش از مدل سلسله‌مراتبی در تشخیص الگو ترجیح داده می‌شود.

معیارهای زیر برای برآوردن تکنیک‌ها تنظیم شده است:

هر خوشه باید یک شیء داشته باشد.

هر شیء داده متعلق به یک خوشه است.

متداول‌ترین تکنیک‌های پارتیشن مورد استفاده، الگوریتم K-mean است. آنها به خوشه‌های “K” تقسیم می‌شوند که توسط مرکزها نشان داده می‌شوند. سپس، هر مرکز خوشه به عنوان میانگین آن خوشه محاسبه می‌شود و تابع R نتیجه را به تصویر می‌کشد.

این الگوریتم مراحل زیر را در پی دارد:

  • انتخاب K اشیاء به صورت تصادفی از مجموعه‌داده و تشکیل مراکز اولیه.
  • سپس، تعیین فاصله اقلیدسی بین اجسام و مرکز میانگین.
  • اختصاص یک مقدار متوسط ​​برای هر خوشه جداگانه.
  • مراحل به‌روزرسانی سنتروئیدها (مراکز) برای هر خوشه
  1. مدل چگالی

در این مدل، خوشه‌ها با قرار دادن مناطق با تراکم بالاتر در یک خوشه تعریف می‌شوند. اصل اساسی این مدل، تمرکز بر دو پارامتر است: حداکثر شعاع همسایگی و حداقل تعداد نقاط. مدل مبتنی بر چگالی، خوشه‌هایی با اشکال و نویزهای مختلف را شناسایی می‌کند. این روش با شناسایی الگوها با تخمین موقعیت مکانی کار می‌کند و فاصله تا تکنیک نزدیک به‌کاررفته در اینجا، DBSCAN (خوشه‌بندی فضایی مبتنی بر تراکم) است که موجب دسترسی به پایگاه‌ داده‌های فضایی بزرگ می‌شود.

در این روش از سه نقطه داده برای خوشه‌بندی، یعنی نقاط اصلی، نقاط مرزی و نقاط پرت استفاده می‌شود. هدف اصلی شناسایی خوشه‌ها و پارامترهای توزیع آنهاست. فرایند خوشه‌بندی با نیاز به پارامترهای چگالی متوقف می‌شود. برای یافتن خوشه‌ها، داشتن پارامتر حداقل ویژگی در هر خوشه در محاسبه فاصله هسته مهم است. سه ابزار مختلف ارائه شده توسط این مدل عبارت‌اند از:

DBSCAN، HDBSCAN، Multi-scale

  1. خوشه‌بندی مبتنی بر مدل

این مدل دو یا سه خوشه را با هم از توزیع داده ترکیب می‌کند. ایده اصلی پشت این مدل این است که باید داده‌ها را بر اساس مدل احتمال (توزیع‌های نرمال چندمتغیره) به دو گروه تقسیم کرد. در اینجا هر گروه به عنوان مفاهیم یا کلاس‌ها اختصاص داده می‌شود. تابع چگالی هر جزء را تعریف می‌کند. برای یافتن پارامتر در این مدل، از تخمین حداکثر درست‌نمایی برای برازش توزیع مخلوط استفاده شده است. هر خوشه “K” با توزیع گاوسی با بردار میانگین µk دو پارامتری و بردار کوواریانس £k مدل‌سازی می‌شود.

  1. مدل مبتنی بر شبکه

در این رویکرد، با تقسیم فضا به تعداد محدودی سلول برای تشکیل یک شبکه، اشیاء فضا محور در نظر گرفته می‌شوند. سپس، با کمک شبکه، تکنیک خوشه‌بندی برای پردازش سریع‌تر که معمولاً به سلول‌ها وابسته است، نه به اشیا، اعمال می‌شود.

مراحل آن عبارت‌اند از:

  • ایجاد ساختار شبکه‌ای
  • محاسبه تراکم سلولی برای هر سلول
  • استفاده از مکانیزم مرتب‌سازی برای چگالی آنها
  • جستجوی مراکز خوشه‌ای و پیمایش در سلول‌های همسایه برای تکرار فرایند

اهمیت روش‌های خوشه‌بندی

روش‌های خوشه‌بندی به راه‌اندازی مجدد روش جستجوی محلی/ داخلی و رفع ناکارآمدی کمک می‌کند. علاوه بر این، خوشه‌بندی به تعیین ساختار داخلی داده‌ها کمک می‌کند.

خوشه‌بندی به درک گروه‌بندی طبیعی در یک مجموعه‌داده کمک می‌کند و هدف آن، این است که داده‌ها را به گروهی از گروه‌بندی‌های منطقی تقسیم کنند.

کیفیت خوشه‌بندی به روش‌ها و شناسایی الگوهای پنهان بستگی دارد.

آنها نقش گسترده‌ای در برنامه‌هایی مانند تحقیقات اقتصادی بازاریابی و وبلاگ‌ها برای شناسایی اقدامات مشابه، پردازش تصویر و تحقیقات فضایی ایفا می‌کنند.

خوشه‌بندی‌ها هم چنین در تشخیص‌های دور از دسترس برای شناسایی کلاهبرداری از کارت‌های اعتباری  نیز استفاده می‌شوند.

نتیجه

خوشه‌بندی به عنوان یک کار کلی برای حل مسئله در نظر گرفته می‌شود که مسائل بهینه‌سازی را فرموله می‌کند و در زمینه داده‌کاوی و تجزیه‌وتحلیل داده‌ها اهمیت اساسی دارد. روش‌های خوشه‌بندی مختلفی را دیده‌ایم که مجموعه‌داده‌ها را بسته به نیازها تقسیم می‌کنند. بیشتر تحقیقات بر اساس تکنیک‌های سنتی مانند K-means و مدل‌های سلسله‌مراتبی است. مناطق خوشه‌ای همچنین می‌توانند در ابعاد بالا به کار روند که حوزه آینده محققین این عرصه را تشکیل می‌دهد.

منبع

مترجم: مریم محجوب

همچنین اخبار را مطالعه فرمایید.

 

از این مطلب چقدر راضی بودید؟

روی ستاره کلیک کنید تا نظرتون ثبت بشه

0 / 5. تعداد رای دهندگان: 0

تا حالا امتیازی برای این مطلب ثبت نشده؛ با ثبت نظرتون مارو خوشحال می‌کنید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *