رسم و تحلیل نمودارهای هیت مپ، PCA، volcano plot و غیره

نمودارهای هیت مپ

درباره نمودارهای هیت مپ

نمودارها به ما در پیدا کردن درک صحیح از مطالعات کمک می‌کنند. ما با کشیدن نمودارها سعی می‌کنیم اطلاعات عددی را به حالتی در آوریم که درک آن برای انسان ممکن است، چراکه اطلاعات عددی صرف به ما کمکی نمی‌کنند و با مدلسازی و تحلیل ساختار این داده‌هاست که می‌توانیم درک درستی از واقعیت پشت این اعداد داشته باشیم. به همین دلیل است که در زیست‌شناسی نیز از نمودارهای مختلفی برای تحلیل اطلاعات استفاده می‌کنیم. یکی از مهمترین نمودارها، نمودارهای هیت مپ یا heatmap است. در حقیقت هدف این نمودار، ایجاد یک کلاسترینگ یا خوشه‌بندی اولیه و نمایش اطلاعات عددی به صورت رنگ است.

در شکل زیر یک هیت مپ را مشاهده می‌کنید که در بخش ستون و ردیف بخش‌های خوشه‌بندی نمایش داده شده است. البته یک هیپ مپ همیشه خوشه‌بندی نمی‌شود و تنها دیتای عددی را به صورت رنگی نشان می‌دهد. هر سلول این نمودار طیفی را نشان می‌دهد که یک مقدار عددی است. این طیف در شکل زیر از قرمز تا سبز کشیده شده است. اعداد با مقادیر زیر صفر با رنگ قرمز و بالاتر به رنگ سبز نمایش داده شده‌اند و مقادیر صفر نیز به رنگ سیاه هستند. با دیدن این نمودار می‌توانیم ببینیم که کدام یک از بخش‌ها چه مقداری دارد.

بخش خوشه‌بندی موجود در هیت مپ نیز سعی می‌کند ژن‌ها یا نمونه‌ها را کلاستر کند. کلاسترینگ به این معناست که این ژن‌ها یا نمونه‌ها حاوی اطلاعات مشابهی هستند و در یک خوشه قرار می‌گیرند. الگوریتم‌های مختلفی برای خوشه‌بندی معرفی شده‌اند که در هیت مپ از خوشه‌بندی سلسه‌مراتبی استفاده شده است. این نوع خوشه‌بندی نیز خود از الگوریتم‌های مختلفی استفاده می‌کند که بسته به معیار فاصله فرق می‌کند.

مثلا برای معیار فاصله می‌توانیم از فاصله اقلیدسی استفاده کنیم. برای خوشه‌بندی نمونه‌ها، تفاضل هر ژن را با دیگری در بین نمونه‌ها اندازه گرفته و سپس آن را به توان دو می‌رسانیم. با جمع کردن تمامی این اعداد برای ژن‌ها، از جواب نهایی جذر می‌گیریم. این جواب فاصله بین دو نمونه از هم را نشان می‌دهد. حالا هرچقدر این مقدار کم باشد، فاصله دو نمونه از هم کم بوده و احتمال حضور آن‌ها در یک کلاستر بالاتر می‌رود.

البته باید به این نکته توجه کنیم که در ابتدا چندین کلاستر کوچکتر وجود دارد که با درکنار هم قرار گرفتن یک کلاستر بزرگتر و بزرگتر ساخته می‌شود تا درنهایت تمامی داده‌ها در یک کلاستر جامع نهایی قرار بگیرد. این حالت را می‌توان در هیت مپ زیر مشاهده کرد. در نگرشی دیگری می‌توان گفت که ابتدا یک کلاستر بزرگ داشته‌ایم و برحسب شباهت بین نمونه‌ها آن را به زیرکلاسترها می‌شکنیم تا درنهایت چندین کلاستر کوچک داشته باشیم. معیار فاصله و همینطور ترکیب نمونه‌ها می‌تواند متفاوت باشد و در پکیج‌های مختلفی می‌توان آن را ورودی داد. اگر بخواهیم ژن‌ها را کلاستر کنیم نیز، از این روش می‌توان استفاده کرد.

 

نمودارهای هیت مپ

روش‌های مختلفی برای خوشه‌بندی وجود دارد که از دیگر موارد آن می‌توان به خوشه‌بندی k-means اشاره کرد که در ابتدا با رویکردی رندوم شروع می‌شود.

 

نمودارهای هیت مپ

از دیگر نمودارهایی که می‌توانیم در مطالعات زیست‌شناسی بررسی کنیم، نمودارهای PCA یا نمودارهایی است که برای کاهش ابعاد رسم می‌شوند. هدف اصلی این نمودارها نمایش داده است. داده‌های زیستی ویژگی‌های زیادی دارند. منظور از ویژگی متغیرهایی است که آن‌ها را بررسی می‌کنیم. مثلا در یک مطالعه بیانی، ما بیان چندین ژن را به صورت همزمان بررسی می‌کنیم. تمامی ژن‌های شناسایی شده ویژگی‌های ما هستند. درنهایت بتوانیم نمونه‌ها را در یک فضای سه بعدی نمایش بدهیم، اما آیا می‌توانیم اطلاعات در فضای ده هزار بعدی نمایش بدهیم؟ اینجاست که باید به دنبال روش‌های کاهش ابعاد مانند PCA یا UMAP باشیم.

روش‌های کاهش ابعاد مختلفی وجود دارد که می‌توانند خطی یا غیرخطی باشند. این روش‌ها داده‌ها را از یک فضای ویژگی به فضای دیگری مپ می‌کنند که ترکیبی از ویژگی‌های اولیه باشند. در حقیقت در روش‌های کاهش ابعاد، از ویژگی‌های اولیه انتخاب نمی‌کنیم، بلکه آن‌ها را به فضای ویژگی دیگری می‌بریم که این ویژگی‌ها ترکیب خطی از ویژگی در فضای اولیه هستند. اگر ترکیب خطی باشد، از روش‌هایی مانند PCA استفاده کرده‌ایم. پس از بردن اطلاعات به فضای دیگر، از بین این ویژگی‌ها آن‌هایی را انتخاب می‌کنیم که داده‌های ما واریانس زیادی در آن راستا داشته باشند. واریانس بالا به ما این امکان را می‌دهد که داده‌ها را در آن راستا بهتر ببینیم.

اگر داده‌ها در یک بخش تراکم بالایی داشته باشند روی هم می‌افتند و دیگر نمی‌توانیم به خوبی تفاوت‌ها را ببینیم. پس به دنبال دو سه ویژگی هستیم که واریانس داده‌ها در راستای آن بالا باشد و سپس به کمک آن ویژگی‌ها نمودارهای خود را رسم می‌کنیم. در شکل زیر خروجی یک نمودار UMAP را می‌بینید. الگوریتم توانسته است دو ویژگی مهمی را انتخاب کند که داده‌های سالم و بیمار را به خوبی از هم جدا کند.

پس خروجی ما در اینجا دو دسته است که به خوبی از هم جدا شده‌اند. باید در نظر داشت که این روش‌های کاهش ابعاد بدون در نظر گرفتن لیبل این کار را انجام داده‌اند. پس از قبل الگوریتم اطلاعی از بیمار یا سالم بودن نمونه نداشته است که بتواند نمونه‌ها را از هم جدا کند.

 

نمودارهای هیت مپ

در مهندسی از کاهش ابعاد برای مقاصد دیگری مانند کاهش ویژگی و جلوگیری از اورفیت شدن استفاده می‌کنند. حتی برای کاهش حجم یک تصویر نیز می‌توان از روش‌های کاهش ابعاد استفاده کرد. البته این رویکردها در زیست‌شناسی نیز کاربرد دارند و می‌توان به کمک آن حجم داده‌ها برای روش‌های ماشین لرنینگ را کم کرد، اما برای رسم نمودار، در این بخش تنها به این کاربرد روش‌های کاهش ابعاد توجه شده است.

کارآموزی طراحی و مدلسازی سلولی: سیستم بیولوژی

از این مطلب چقدر راضی بودید؟

روی ستاره کلیک کنید تا نظرتون ثبت بشه

4.1 / 5. تعداد رای دهندگان: 8

تا حالا امتیازی برای این مطلب ثبت نشده؛ با ثبت نظرتون مارو خوشحال می‌کنید

4 دیدگاه در “رسم و تحلیل نمودارهای هیت مپ، PCA، volcano plot و غیره

  1. کاربر ژنیران میگوید:

    آیا در مورد گراف های ژنتیک مراکز کشور همگی دارای شماره و سربرگ هستند

  2. کاربر ژنیران میگوید:

    جهت ارتباط انتوسیانین و فلانوئد با ژن های نورد بررسی از طرف ژورنال گفتن ک حتما باید ترسیم کنم این نمودار ولی نحوه ترسیم و تفسیر را بلد نیستم میشه راهنمایی فرمایید؟

    • Farbod Esfandi میگوید:

      برای ترسیم و تفسیر نمودارهای مربوط به ارتباط بین انتوسیانین، فلاونوئیدها، و ژن‌های نور (که معمولاً به عنوان ژن‌های نورد شناخته می‌شوند)، شما به داده‌هایی نیاز دارید که این ترکیبات و فعالیت ژنتیکی را در شرایط مختلف نوری نشان دهند. در اینجا یک راهنمای کلی برای این فرآیند ارائه می‌دهم:

      ۱. جمع‌آوری داده‌ها
      ابتدا، شما باید داده‌های مربوط به میزان انتوسیانین و فلاونوئیدها در نمونه‌های مختلف، همچنین فعالیت ژن‌های نورد مرتبط با پاسخ به نور را جمع‌آوری کنید. این داده‌ها ممکن است از آزمایش‌های قبلی شما یا از مطالعات منتشر شده باشند.

      ۲. تحلیل آماری
      قبل از ترسیم نمودار، ممکن است نیاز به انجام تحلیل‌های آماری داشته باشید تا ارتباط بین سطوح انتوسیانین/فلاونوئیدها و فعالیت ژن‌های نورد را مشخص کنید. می‌توانید از تست‌های همبستگی مانند پیرسون یا اسپیرمن استفاده کنید تا قدرت و جهت ارتباط بین این متغیرها را تعیین کنید.

      ۳. ترسیم نمودار
      برای ترسیم نمودار، نرم‌افزارهایی مانند Excel، GraphPad Prism، یا R را می‌توانید استفاده کنید. نمودارهای مفید برای این نوع داده‌ها عبارتند از:

      نمودارهای پراکندگی (Scatter plots): برای نشان دادن رابطه بین میزان انتوسیانین/فلاونوئیدها و فعالیت ژن‌های نورد.
      نمودارهای خطی (Line graphs): اگر داده‌ها در طول زمان یا تحت شرایط مختلف جمع‌آوری شده‌اند.
      ۴. تفسیر نمودارها
      تفسیر این نمودارها شامل تحلیل چگونگی تغییرات میزان انتوسیانین و فلاونوئیدها در پاسخ به فعالیت ژن‌های نورد است. بررسی کنید که آیا افزایش فعالیت ژن‌ها با افزایش ترکیبات فنولیک همراه است یا خیر.
      ارتباط دیده شده در نمودارها می‌تواند نشان‌دهنده مکانیسم‌های مولکولی درگیر در پاسخ‌های گیاه به نور باشد و ممکن است بینش‌هایی در مورد چگونگی تنظیم متابولیت‌های ثانویه از طریق مسیرهای نوری فراهم کند.
      ۵. ارائه یافته‌ها
      وقتی که نمودارها را ترسیم و تفسیر کردید، این یافته‌ها را در قالب مناسب برای ارائه یا انتشار در ژورنال آماده کنید. اطمینان حاصل کنید که تمامی تحلیل‌ها و نتایج به طور واضح و دقیق توضیح داده شده‌اند.

      این فرآیند به شما کمک می‌کند تا ارتباطات پیچیده بین فعالیت‌های ژنتیکی و متابولیت‌های ثانویه را درک کنید و نتایج قابل توجهی را در پایان‌نامه ارشد خود ارائه دهید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *