مروری بر تجزیه‌وتحلیل خوشه‌بندی سلسله‌مراتبی

تحلیل خوشه‌بندی سلسله‌مراتبی الگوریتمی است که برای گروه‌بندی نقاط داده با ویژگی‌های مشابه استفاده می‌شود. این گروه‌ها به عنوان خوشه نامیده می‌شوند. در نتیجه‌ی خوشه‌بندی سلسله‌مراتبی، مجموعه‌ای از خوشه‌هایی را خواهیم داشت که با یکدیگر متفاوت هستند. خوشه‌بندی این داده‌ها به عناوین زیر طبقه‌بندی می‌شوند:
خوشه‌بندی تجمعی (شامل تجزیه خوشه با استفاده از استراتژی پایین به بالا)
و خوشه‌بندی تقسیمی (شامل تجزیه خوشه با استفاده از استراتژی از بالا به پایین)
انواع مختلفی از تجزیه‌وتحلیل خوشه‌بندی وجود دارد. یکی از این انواع، خوشه‌بندی سلسله‌مراتبی است.
خوشه‌بندی سلسله‌مراتبی به ایجاد خوشه‌ها در نظم/سلسله‌مراتب مناسب کمک می‌کند. به‌عنوان‌مثال، رایج‌ترین مثال روزمره‌ای که می‌بینیم این است که چگونه فایل‌ها و پوشه‌های خود را در رایانه خود با سلسله‌مراتب مناسب مرتب می‌کنیم.
انواع خوشه‌بندی سلسله‌مراتبی
خوشه‌بندی سلسله‌مراتبی به دو نوع تقسیم می‌شود، یعنی خوشه‌بندی تجمعی و خوشه‌بندی تقسیمی (DIANA).

خوشه‌بندی تجمعی

در این حالت از خوشه‌بندی، تجزیه سلسله‌مراتبی با کمک استراتژی از پایین به بالا انجام می‌شود، به این شکل که با ایجاد خوشه‌های اتمی (کوچک) و افزودن یک شیء داده شروع می‌شود و سپس آنها را با هم ادغام می‌کند تا در پایان یک خوشه بزرگ تشکیل شود. این رویه تکرار می‌شود تا زمانی که تمام نقاط داده تحت یک خوشه بزرگ قرار گیرند.
AGNES (AGglomerative NESting) نوعی از خوشه‌بندی تجمعی است که اشیاء داده را در یک خوشه بر اساس شباهت ترکیب می‌کند. نتیجه این الگوریتم یک ساختار درختی به نام دندروگرام است. در اینجا از معیارهای فاصله برای تصمیم‌گیری اینکه کدام نقاط داده باید با کدام خوشه ترکیب شوند استفاده می‌کند. اساساً یک ماتریس فاصله ایجاد می‌شود و جفت خوشه‌هایی با کمترین فاصله با هم ترکیب می‌شوند.
بر اساس نحوه اندازه‌گیری فاصله بین هر خوشه، می‌توانیم 3 روش مختلف داشته باشیم:
پیوند منفرد: جایی که کمترین فاصله بین دو نقطه در هر خوشه به عنوان فاصله بین خوشه‌ها تعریف می‌شود.
پیوند کامل: در این حالت، ما بیشترین فاصله بین نقاط هر خوشه را به عنوان فاصله بین خوشه‌ها در نظر می‌گیریم.
میانگین پیوند: در اینجا، میانگین بین هر نقطه در یک خوشه را با هر نقطه دیگر در خوشه دیگر به دست می‌آوریم.
حال بیایید نقاط قوت و ضعف در AGNES را مورد بحث قرار دهیم. این الگوریتم دارای پیچیدگی زمانی حداقل O(n2) است. ازاین‌رو در مقیاس‌بندی خوب عمل نمی‌کند. یکی دیگر از اشکالات مهم آن، این است که هر کاری انجام شده در آن هرگز قابل بازگرداندن نیست، یعنی اگر هر خوشه‌ای را به اشتباه در مرحله اولیه الگوریتم گروه‌بندی کنیم، در ادامه نمی‌توانیم نتیجه را تغییر دهیم و یا آن را اصلاح کنیم. اما این الگوریتم جنبه مثبت و روشن هم دارد زیرا در روند آن خوشه‌های کوچک‌تر زیادی تشکیل شده است. ترتیب ایجاد شده می‌تواند در تجسم و تصویرسازی بسیار مفید واقع شود.

خوشه‌بندی تقسیمی (DIANA)

Diana اساساً مخفف تجزیه‌وتحلیل تقسیمی است. این روش، نوع دیگری از خوشه‌بندی سلسله‌مراتبی است که بر اساس اصل رویکرد از بالا به پایین (معکوس) AGNES کار می‌کند که در آن الگوریتم با تشکیل یک خوشه بزرگ شروع می‌شود و به صورت بازگشتی غیر مشابه‌ترین خوشه را به دو قسمت تقسیم می‌کند و تا زمانی ادامه می‌یابد که همه نقاط داده مشابه به خوشه‌های مربوطه خود تعلق پیدا کنند. این الگوریتم‌های تقسیم‌کننده منجر به سلسله‌ مراتب بسیار دقیق‌تری نسبت به رویکرد تجمعی می‌شوند، اما از نظر محاسباتی گران هستند.

خوشه‌بندی سلسله‌مراتبی چند فازی

برای بهبود کیفیت خوشه‌های تولید شده توسط تکنیک‌های خوشه‌بندی سلسله‌مراتبی فوق، ما تکنیک‌های خوشه‌بندی سلسله‌مراتبی خود را با سایر تکنیک‌های خوشه‌بندی به نام خوشه‌بندی چند فازی ادغام می‌کنیم. انواع مختلف خوشه‌بندی چند فازی به شرح زیر است:
• BIRCH (کاهش و خوشه‌بندی متوازن تکراری با استفاده از سلسله‌مراتب)
• ROCK (خوشه‌بندی RObust با استفاده از پیوندها)
• CHAMELEON

1. کاهش و خوشه‌بندی متوازن تکراری با استفاده از سلسله‌مراتب
این روش عمدتاً برای خوشه‌بندی حجم عظیمی از داده‌های عددی با ادغام خوشه‌بندی سلسله‌مراتبی/ریز در فاز اولیه و خوشه‌بندی کلان/پارتیشن‌بندی تکراری در فاز بعدی استفاده می‌شود. این روش به غلبه بر مشکل مقیاس‌پذیری که در AGNES با آن مواجه بودیم و ناتوانی در لغو کاری که در مرحله قبل انجام شد کمک می‌کند. BIRCH از دو مفهوم مهم در الگوریتم خود استفاده می‌کند
الف. ویژگی خوشه‌بندی (به جمع‌بندی خوشه کمک می‌کند)
CF به‌ صورت <n, LS, SS> تعریف می‌شود ( n تعداد نقاط داده در خوشه، مجموع خطی n نقطه، مجموع مربع n نقطه). ذخیره کردن ویژگی یک خوشه به جلوگیری از ذخیره اطلاعات دقیق در مورد آن کمک می‌کند و CF ماهیت افزایشی برای خوشه‌های مختلف دارد.
CF1 + CF2 = <n1+n2, LS1+LS2, SS1+SS2>
ب. درخت ویژگی خوشه‌بندی (به نمایش یک خوشه به عنوان یک سلسله‌مراتب کمک می‌کند)
درخت CF درختی متعادل با فاکتور انشعاب B (حداکثر تعداد فرزندان) و آستانه (T حداکثر تعداد زیر خوشه‌هایی است که می‌توان در گره‌های برگ ذخیره کرد)
الگوریتم اساساً در 2 فاز کار می‌کند. در فاز 1 پایگاه داده را اسکن می‌کند و یک درخت CF در حافظه ایجاد می‌کند و در فاز 2 از الگوریتم خوشه‌بندی استفاده می‌کند که با حذف نقاط پرت (خوشه‌های پراکنده) به خوشه‌بندی گره‌های برگ کمک می‌کند و خوشه را با حداکثر چگالی گروه‌بندی می‌کند. تنها اشکال این الگوریتم این است که فقط نوع داده‌های عددی را کنترل می‌کند.
2. خوشه‌بندی Robust با استفاده از پیوندها
پیوند به عنوان تعداد همسایه‌های مشترک بین دو شی تعریف می‌شود. الگوریتم ROCK نوعی الگوریتم خوشه‌بندی است که از این مفهوم پیوند با مجموعه داده‌های طبقه‌بندی شده استفاده می‌کند. همان‌طور که می‌دانیم الگوریتم‌های خوشه‌بندی فاصله اندازه‌گیری شده، خوشه‌های باکیفیت بالا را برای مجموعه داده طبقه‌ای ارائه نمی‌کنند، اما در مورد ROCK، همسایگی نقاط داده را نیز در نظر می‌گیرد، یعنی اگر دو نقطه داده همسایگی یکسانی داشته باشند، پس آنها به‌احتمال زیاد به یک خوشه تعلق دارند. الگوریتم در مرحله اول با درنظرگرفتن ماتریس شباهت با مفهوم همسایگی و آستانه تشابه یک نمودار پراکنده می‌سازد. مرحله دوم از تکنیک خوشه‌بندی سلسله‌مراتبی تجمعی بر روی نمودار پراکنده استفاده می‌کند.
3. Chameleon
این نوع الگوریتم خوشه‌بندی سلسله‌مراتبی از مفهوم مدل‌سازی پویا (دینامیک) استفاده می‌کند. تعجب می‌کنید که چرا به آن پویا می‌گویند؟ زیرا می‌تواند به طور خودکار با ویژگی‌های خوشه داخلی با ارزیابی شباهت خوشه سازگار شود، یعنی اینکه نقاط داده در یک خوشه و در مجاورت خوشه‌ها چقدر به هم متصل هستند. یکی از اشکالات Chameleon این است که هزینه پردازش آن بسیار زیاد است .
نتیجه
در این مقاله عناوینی چون خوشه و تجزیه‌وتحلیل خوشه، انواع تکنیک‌های خوشه‌بندی سلسله‌مراتبی و مزایا و معایب آن‌ها را آموختیم. هر یک از تکنیک‌هایی که مورد بحث قرار گرفت، نقاط مثبت و منفی خاص خود را دارد. ازاین‌رو، ما باید داده‌های خود را با تجزیه‌وتحلیل داده‌های اکتشافی مناسب درک کنیم و قبل از ادامه الگوریتم، الگوریتم را بااحتیاط انتخاب کنیم.
منبع

مترجم:مریم محجوب

از این مطلب چقدر راضی بودید؟

روی ستاره کلیک کنید تا نظرتون ثبت بشه