مقدمه ای بر درخت تصمیم

مقدمه ای بر درخت تصمیم

درخت تصمیم یک الگوریتم درختی ساخت یافته سلسله مراتبی است که برای استخراج خروجی معنادار از انواع ورودی­ها استفاده می­شود. خروجی به دست آمده از این نوع آرایش سلسله مراتبی، سهم ارزشمندی برای تولید نتایج تحلیلی در تصمیم‌گیری تجاری واقعی دارد. از این رو نام درخت تصمیم به این الگوریتم داده شده است. متخصصان کسب و کار زمانی از درخت تصمیم کمک می­گیرند که حجم داده­های مورد ارزیابی بسیار زیاد است و نمی­توان بخش­های بزرگی از داده را به صورت دستی مرور کرد.

 

درخت تصمیم چیست؟

اکنون اجازه دهید به بررسی عمیقی بپردازیم که درخت تصمیم در کدام دسته قرار می­گیرد و دقیقاً منظور ما از اصطلاح درخت تصمیم چیست. همانطور که قبلاً بحث کردیم، درخت تصمیم در دسته یادگیری نظارت شده (Supervised learning) قرار می­گیرد. یادگیری نظارت شده بخشی از یادگیری ماشینی است که در آن یک مدل بر روی داده­ها با ویژگی­های خروجی (outputموجود در مجموعه داده، آموزش داده می­شود. در اصطلاح عام، منظور ما این است که ما از قبل می­دانیم خروجی چیست و بر اساس آن به ویژگی­های ورودی نگاه کرده و سعی می­کنیم به یک مدل آموزش برسیم تا به متغیر یا ویژگی خروجی دست یابیم.

اکنون می‌رسیم به اینکه درخت‌های تصمیم چیست. درخت تصمیم الگوریتمی است که ساختاری درخت مانند یا ساختاری فلوچارت مانند می­سازد که در آن هر سطح یا آنچه ما به آن گره می­گوییم، اساساً آزمونی است که روی یک ویژگی کار می­کند. این آزمون اساساً بر روی یک ویژگی بر اساس معیاری که بعداً در مقاله توضیح داده شد عمل می­کند. همچنین، نکته­ای که باید در نظر داشت این است که در گره شروع، کل مجموعه داده در یک دسته قرار می­گیرد و متعاقباً در هر لایه، تقسیم داده­ها اتفاق خواهد افتاد.

 

 

مناسب / نامناسب ورزش کردن غذاهای ناسالم زیاد سن
نامناسب خیر خیر 45
مناسب بله خیر 40
نامناسب خیر بله 25
مناسب بله خیر 29
نامناسب بله بله 23

 

 

در نمودار زیر نحوه خواندن درخت تصمیم برای جدول ذکر شده با داده­ها را بررسی می­کنیم.

در نمودار بالا درخت تصمیم را می­خوانیم. اگر سن فرد بیش از 30 سال باشد، سپس بررسی کنید که آیا فرد ورزش می­کند یا خیر. اگر بله، آن شخص مناسب است، در غیر این صورت، فرد نامناسب است. حال اگر فرد زیر 30 سال است، بررسی کنید که آیا فرد زیاد غذای ناسالم می­خورد یا خیر. اگر آن شخص زیاد می­خورد، پس آن شخص نامناسب است در غیر این صورت فرد مناسب است.

مقدمه ای بر درخت تصمیم

درک درخت تصمیم

اکنون که به هر لایه نگاه می­کنیم، ویژگی خاصی را بررسی می­کنیم. این همان چیزی است که در بخش قبل صحبت کردیم که در هر لایه روی یک ویژگی خاص آزمایش می­کنیم. اکنون اجازه دهید نگاهی شهودی به این موضوع داشته باشیم که چگونه تصمیم می‌گیریم که کدام ویژگی را باید آزمایش کنیم تا به یک تقسیم بهینه برسیم.

اگر به داده‌ها نگاه کنید، هر فرد بیش از 30 سال «غذای ناسالم زیاد» را به عنوان “خیر” دارد. این بدان معنی است که این ویژگی خاص برای یک فرد بیش از 30 سال، سالم/ناسالم را از هم جدا نمی­کند. اما اگر به ویژگی “ورزش کردن” نگاه کنیم، تفاوت در بله یا خیر، برچسب سالم/ناسالم را از هم جدا می­کند. این بدان معنی است که اگر ویژگی “ورزش کردن” را بررسی کنیم، بهینه ترین تقسیم را دریافت خواهیم کرد.

اکنون برای یک فرد کمتر از 30 سال، سناریو ممکن است کمی متفاوت باشد. در این مورد، اگر جواب « غذای ناسالم زیاد» “بله” باشد، همیشه «نامناسب» است، در حالی که داده‌ها ممکن است برای نشان دادن نقش «ورزش» کافی نباشد. بنابراین، «غذای ناسالم زیاد» در واقع نقش مهم را بازی می‌کند و برای «ورزش کردن»، ما داده‌ای نداریم که تقسیم بهینه را اثبات کرده و از این رو « غذایی ناسالم زیاد» را برای تقسیم داده‌هایمان انتخاب کند.

اکنون به دلایل ریاضی در مورد چگونگی تعیین استفاده از الگوریتم می­پردازیم. ما چیزی به نام «بهره اطلاعاتی» (Information Gain (IG)) و «شاخص جینی» (Gini Index) داریم تا بفهمیم تقسیم روی کدام ویژگی‌ها به طور گسترده استفاده می‌شوند. برای بهره اطلاعاتی، آنتروپی تقسیم‌های مختلف ایجاد شده را با استفاده از ویژگی‌های متفاوتی که داریم، محاسبه می‌کنیم. آنتروپی چیزی جز تصادفی بودن نیست و بهره اطلاعاتی تفاوت آنتروپی قبل از تقسیم و بعد از تقسیم است، همچنین می­خواهیم کمترین خاصیت تصادفی بودن را بعد از تقسیم داشته باشیم و در نتیجه اطلاعات بیشتری پس از تقسیم بدست آوریم. «شاخص جینی» چیزی جز احتمال دسته بندی اشتباه یک متغیر خاص در صورت انتخاب تصادفی نیست. به زبان ساده، اگر بخواهیم بین آنها تفاوت قائل شویم، بهره اطلاعاتی سعی می­کند تصادفی بودن را کاهش دهد به این معنی که نسبت کلاس­ها در هر تقسیم از نظر احتمال برابر است. در حالی که شاخص جینی سعی می­کند تقسیم بندی را با کلاس­های خالص در گره تقسیم پس از تقسیم، انجام دهد.

 

کجا از درخت تصمیم استفاده کنیم؟

اکنون همه کسانی که این مقاله را می­خوانند باید به دنبال این باشند که کجا از درخت تصمیم استفاده کنیم؟

  • برنامه ریزی استراتژی: دانستن اینکه یک کسب و کار باید روی کدام حوزه­ها تمرکز کند.
  • برنامه ریزی محصول: درک اینکه چه ویژگی­هایی در یک محصول بر فروش محصول تأثیر می­گذارد.
  • به دلیل اهمیت ویژگی داخلی هر خصوصیت، ما از آن در امورات مالی برای درک اینکه چه ویژگی بر پیش بینی ما تأثیر می­گذارد، استفاده می­کنیم.
  • درک اینکه آیا وام داده شده به یک مشتری خاص با موفقیت برمی­گردد یا خیر.
  • درخت تصمیم قادر است هم مسائل طبقه بندی و هم رگرسیون را مدیریت کند.

 

مزایای درخت تصمیم

اکنون که فهمیدیم درخت تصمیم چیست، اجازه دهید مزایای آن را ببینیم:

  • به دلیل ساختار درختی داخلی درخت تصمیم گیری، درک بینش پشت تقسیم داده­ها آسان است.
  • به طور گسترده­ای به عنوان بخشی از داده کاوی استفاده می­شود.
  • دخالت انسان در آن بسیار کم است.
  • ویژگی­های دسته بندی و عددی را می­توان در ویژگی­های ورودی مدیریت کرد.

 

نتیجه گیری

بنابراین، به طور خلاصه، درخت تصمیم یک بعد کاملاً جدید دارد که سایر الگوریتم‌ها قادر به لمس آن نیستند و آن غیر خطی بودن ویژگی‌ها است. از آنجایی که هیچ فرض خطی وجود ندارد، بنابراین به مجموعه داده­های غیر خطی نیز پاسخ می­دهد. و درخت تصمیم، به عنوان یک ساختار فلوچارت مانند، آن را به یک الگوریتم پرکاربرد در دنیای علم داده تبدیل می­کند.

 

لینک

 

مترجم: فاطمه فریادرس

 

از این مطلب چقدر راضی بودید؟

روی ستاره کلیک کنید تا نظرتون ثبت بشه

0 / 5. تعداد رای دهندگان: 0

تا حالا امتیازی برای این مطلب ثبت نشده؛ با ثبت نظرتون مارو خوشحال می‌کنید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *