مقدمهای بر روشهای خوشهبندی
روشهای خوشهبندی (مانند روش سلسلهمراتبی، تقسیمی، روش مبتنی بر چگالی، خوشهبندی مبتنی بر مدل، و مدل مبتنی بر شبکه) با استفاده از تکنیکهای مختلف برای انتخاب نتیجه مناسب برای مسئله استفاده میشوند و به گروهبندی نقاط داده در خوشهها کمک میکنند. تکنیکهای خوشهبندی به گروهبندی نقاط داده در دستههای مشابه کمک میکنند و هر یک از این زیرمجموعهها، خود به زیرمجموعههایی دیگر تقسیم میشوند تا پاسخ مسائل ایجاد شده کمک کنند.
روشهای خوشهبندی را توضیح دهید؟
روش خوشهبندی به گروهبندی دادههای ارزشمند در خوشهها کمک میکند و نتایج مناسب را بر اساس تکنیکهای مختلف انتخاب میکند. بهعنوانمثال، در بازیابی اطلاعات، نتایج پرسوجو در خوشههای کوچک گروهبندی میشوند و هر خوشه نتایج نامربوطی دارد. با استفاده از تکنیکهای خوشهبندی، آنها به دستههای مشابه گروهبندی میشوند و هر دسته به زیرمجموعههایی تقسیم میشوند تا به کاوش خروجی مورد بررسی کمک کنند. انواع مختلفی از روشهای خوشهبندی وجود دارد. از جمله:
- روشهای سلسلهمراتبی
- روشهای پارتیشنبندی
- بر اساس تراکم
- خوشهبندی مبتنی بر مدل
- مدل مبتنی بر شبکه
در زیر به مروری بر تکنیکهای مورد استفاده در دادهکاوی و هوش مصنوعی میپردازیم.
-
روش سلسلهمراتبی
این روش با پارتیشنبندی به صورت بالا به پایین و پایین به بالا یک خوشه ایجاد میکند. هر دوی این رویکردها دندروگرام تولید میکنند و بین آنها ارتباط برقرار میکنند.
دندروگرام یک قالب درختمانند است که توالی خوشههای ادغام شده را حفظ میکند. روشهای سلسلهمراتبی پارتیشنهای متعدد با توجه به سطوح شباهت تولید میشوند. آنها به خوشهبندی سلسلهمراتبی تجمعی و خوشهبندی سلسلهمراتبی تقسیمی تقسیم میشوند. در اینجا یک درخت خوشهای با استفاده از تکنیکهای ادغام ایجاد میشود. برای فرایند تقسیم، تقسیمکننده و برای ادغام از ترکیب استفاده میشود.
خوشهبندی تجمعی شامل موارد زیر است:
- در ابتدا، گرفتن تمام نقاط داده و در نظر گرفتن آنها به عنوان خوشههای منفرد از یک روش بالا به پایین شروع میشود. سپس این خوشهها با هم ادغام میشوند تا به نتایج دلخواه برسیم.
- دو خوشه مشابه بعدی در کنار هم قرار میگیرند تا یک خوشه بزرگ را تشکیل دهند.
- مجدداً محاسبه مجاورت در خوشه بزرگ و ادغام خوشههای مشابه انجام میشود.
- مرحله نهایی شامل ادغام تمام خوشههای بازده در هر مرحله برای تشکیل یک خوشه منفرد نهایی است.
-
روش پارتیشنبندی
هدف اصلی پارتیشنبندی، جابهجایی است. پارتیشنها با جابهجایی از یک خوشه به خوشه دیگر تغییر مکان میدهند و در نهایت یک پارتیشنبندی اولیه را ایجاد میکنند. اشیاء دادهای ‘n’ به تعداد ‘k’ خوشه تقسیم میشوند. این روش پارتیشنی بیش از مدل سلسلهمراتبی در تشخیص الگو ترجیح داده میشود.
معیارهای زیر برای برآوردن تکنیکها تنظیم شده است:
هر خوشه باید یک شیء داشته باشد.
هر شیء داده متعلق به یک خوشه است.
متداولترین تکنیکهای پارتیشن مورد استفاده، الگوریتم K-mean است. آنها به خوشههای “K” تقسیم میشوند که توسط مرکزها نشان داده میشوند. سپس، هر مرکز خوشه به عنوان میانگین آن خوشه محاسبه میشود و تابع R نتیجه را به تصویر میکشد.
این الگوریتم مراحل زیر را در پی دارد:
- انتخاب K اشیاء به صورت تصادفی از مجموعهداده و تشکیل مراکز اولیه.
- سپس، تعیین فاصله اقلیدسی بین اجسام و مرکز میانگین.
- اختصاص یک مقدار متوسط برای هر خوشه جداگانه.
- مراحل بهروزرسانی سنتروئیدها (مراکز) برای هر خوشه
-
مدل چگالی
در این مدل، خوشهها با قرار دادن مناطق با تراکم بالاتر در یک خوشه تعریف میشوند. اصل اساسی این مدل، تمرکز بر دو پارامتر است: حداکثر شعاع همسایگی و حداقل تعداد نقاط. مدل مبتنی بر چگالی، خوشههایی با اشکال و نویزهای مختلف را شناسایی میکند. این روش با شناسایی الگوها با تخمین موقعیت مکانی کار میکند و فاصله تا تکنیک نزدیک بهکاررفته در اینجا، DBSCAN (خوشهبندی فضایی مبتنی بر تراکم) است که موجب دسترسی به پایگاه دادههای فضایی بزرگ میشود.
در این روش از سه نقطه داده برای خوشهبندی، یعنی نقاط اصلی، نقاط مرزی و نقاط پرت استفاده میشود. هدف اصلی شناسایی خوشهها و پارامترهای توزیع آنهاست. فرایند خوشهبندی با نیاز به پارامترهای چگالی متوقف میشود. برای یافتن خوشهها، داشتن پارامتر حداقل ویژگی در هر خوشه در محاسبه فاصله هسته مهم است. سه ابزار مختلف ارائه شده توسط این مدل عبارتاند از:
DBSCAN، HDBSCAN، Multi-scale
-
خوشهبندی مبتنی بر مدل
این مدل دو یا سه خوشه را با هم از توزیع داده ترکیب میکند. ایده اصلی پشت این مدل این است که باید دادهها را بر اساس مدل احتمال (توزیعهای نرمال چندمتغیره) به دو گروه تقسیم کرد. در اینجا هر گروه به عنوان مفاهیم یا کلاسها اختصاص داده میشود. تابع چگالی هر جزء را تعریف میکند. برای یافتن پارامتر در این مدل، از تخمین حداکثر درستنمایی برای برازش توزیع مخلوط استفاده شده است. هر خوشه “K” با توزیع گاوسی با بردار میانگین µk دو پارامتری و بردار کوواریانس £k مدلسازی میشود.
-
مدل مبتنی بر شبکه
در این رویکرد، با تقسیم فضا به تعداد محدودی سلول برای تشکیل یک شبکه، اشیاء فضا محور در نظر گرفته میشوند. سپس، با کمک شبکه، تکنیک خوشهبندی برای پردازش سریعتر که معمولاً به سلولها وابسته است، نه به اشیا، اعمال میشود.
مراحل آن عبارتاند از:
- ایجاد ساختار شبکهای
- محاسبه تراکم سلولی برای هر سلول
- استفاده از مکانیزم مرتبسازی برای چگالی آنها
- جستجوی مراکز خوشهای و پیمایش در سلولهای همسایه برای تکرار فرایند
اهمیت روشهای خوشهبندی
روشهای خوشهبندی به راهاندازی مجدد روش جستجوی محلی/ داخلی و رفع ناکارآمدی کمک میکند. علاوه بر این، خوشهبندی به تعیین ساختار داخلی دادهها کمک میکند.
خوشهبندی به درک گروهبندی طبیعی در یک مجموعهداده کمک میکند و هدف آن، این است که دادهها را به گروهی از گروهبندیهای منطقی تقسیم کنند.
کیفیت خوشهبندی به روشها و شناسایی الگوهای پنهان بستگی دارد.
آنها نقش گستردهای در برنامههایی مانند تحقیقات اقتصادی بازاریابی و وبلاگها برای شناسایی اقدامات مشابه، پردازش تصویر و تحقیقات فضایی ایفا میکنند.
خوشهبندیها هم چنین در تشخیصهای دور از دسترس برای شناسایی کلاهبرداری از کارتهای اعتباری نیز استفاده میشوند.
نتیجه
خوشهبندی به عنوان یک کار کلی برای حل مسئله در نظر گرفته میشود که مسائل بهینهسازی را فرموله میکند و در زمینه دادهکاوی و تجزیهوتحلیل دادهها اهمیت اساسی دارد. روشهای خوشهبندی مختلفی را دیدهایم که مجموعهدادهها را بسته به نیازها تقسیم میکنند. بیشتر تحقیقات بر اساس تکنیکهای سنتی مانند K-means و مدلهای سلسلهمراتبی است. مناطق خوشهای همچنین میتوانند در ابعاد بالا به کار روند که حوزه آینده محققین این عرصه را تشکیل میدهد.
مترجم: مریم محجوب
همچنین اخبار را مطالعه فرمایید.