آنالیز غنی‌سازی با enrichr، David و GSEA و ژن انتولوژی

آنالیز غنی‌سازی یا Enrichment Analysis

درباره آنالیز غنی‌سازی

آنالیز غنی‌سازی یا Enrichment Analysis مسیری است که به محققان کمک می‌کند تا بینش مکانیستیکی درباره فهرست‌های ژنی که از قبل تولید کرده‌اند به دست آورند. این فهرست ژنی شامل ژن‌های هدف ماست که در طی فرایندهای قبلی تصمیم گرفته‌ایم تحلیل‌های خود را بر روی آن‌ها انجام دهیم تا بیشتر با عملکرد این ژن‌ها در سلول آشنا شویم.

روش انریچمنت آنالیز برای pathway، در حقیقت مسیرهای بیولوژیکی را شناسایی می‌کند که در فهرست ژنی بیش از آنچه که به طور تصادفی انتظار می‌رود غنی شده‌اند. مثلاً در نظر بگیرید دسته‌ای ژن دارید. مسلماً ژن‌های بیشتری در دیتابیس‌ها وجود دارد، اما شما می‌خواهید چند ژنی که دارید را بررسی کنید و ببینید که آیا ارتباطی با هم دارند یا خیر.

زمانی که شما این دسته ژن را با این روش تحلیل می‎کنید الگوریتم در اصل پاسخ این دسته ژن‌های شما را با حالات تصادفی مقایسه می‌کند. یعنی می‌گوید اگر یک دسته رندوم ژن بردارم و این تحلیل را انجام دهم، چقدر احتمال دارد این ژن‌ها با هم در ارتباط باشند. مسلماً یک دسته ژن رندوم، نباید ارتباط خاصی را نشان دهند و امتیاز آماری آن پایین خواهد بود.

پس اگر پاسخ شما نشان می‌دهد که ژن‌ها یک عملکرد خاص دارند و در یک مسیر فعالیت می‌کنند، این نتیجه از لحاظ آماری نیز باید امتیاز خوبی را کسب کند تا شما با اطمینان بیشتری بگویید دسته ژن‌هایی که داشته‌اید واقعاً یک رابطه معناداری با هم دارند و تصادفی انتخاب نشده‌اند.

پروتکل آنالیز غنی‌سازی دسته ژن یا مسیر را می‌توان در سه مرحله خلاصه کرد در طی آن شما در ابتدا فهرستی از ژن‌های دخیل در بیماری را به دست می‌آورید. این ژن‌ها با کمک داده‌های اومیکس به دست آمده‌اند. در مرحله بعدی شما باید به کمک الگوریتم‌های انریچمنت آنالیز دسته ژن، به‌صورت آماری داده‌های خود را بررسی کنید. در مرحله آخر نیز نتایج را باید مصور کنید تا بتوانید آن را تفسیر کنید.

 

آنالیز غنی‌سازی

نرم‌افزارهای مختلفی برای این سه قدم کار آماده شده‌اند و به‌صورت رایگان در دسترس شما هستند. از جمله این نرم‌افزارها می‌توان به g:Profiler، Gene Set Enrichment Analysis (GSEA)، Cytoscape و EnrichmentMap اشاره کرد.

در این مسیر برای تحلیل، شما به کمک نرم‌افزارهایی مثل R یا سرور گلکسی تحلیل‌های آماری را انجام داده و لیستی از ژن‌های اولیه را به دست می‌آورید. سپس این بر روی این لیست ژن‌ها باید به کمک پلتفرم‌هایی مثل g:profiler و GSEA ژن انتولوژی و آنالیز غنی‌سازی انجام شود. نتیجه حاصل نیز می‌تواند در نرم‌افزار سایتواسکیپ وارد شده و مصورسازی می‌شود. همچنین این نتایج به کمک سایتواسکیپ می‌تواند از لحاظ شبکه نیز تحلیل شود. این نرم‌افزار خود اپلیکیشن‌هایی دارد که به کمک آن‌ها می‌توانید دستورات مختلفی را اجرا کنید و از Webstore نیز دسترسی دارد. یکی از این موارد EnrichmentMap است.

شما به کمک لینک‌های زیر می‌توانید به این پلتفرم‌ها دسترسی داشته باشید:

  • g:Profiler (https://biit.cs.ut.ee/gprofiler/)
  • GSEA (http://software.broadinstitute.org/gsea/)
  • Cytoscape (http://www.cytoscape.org/)
  • EnrichmentMap (http://www.baderlab.org/Software/EnrichmentMap)

ابزارهای مختلفی برای انجام GSEA یا آنالیز غنی‌سازی دسته ژن وجود دارد. GSEA از روش‌های آماری مختلفی برای انریچمنت آنالیز استفاده می‌کند به همین دلیل برای اجرای این محاسبات به کامپیوتر احتیاج دارد. این روش استاندارد بوده و سایت‌ها و نرم‌افزارهای مختلفی هستند که از آن برای تحلیل مجموعه‌داده‌ها استفاده می‌کنند. در زیر به تعدادی از این وب‌سایت‌ها اشاره شده است:

MSigDB و Broad Institute

Molecular Signatures Database مجموعه گسترده‌ای از ژن‌ها دارد که می‌تواند در بیشتر نرم‌افزارهای GSEA استفاده شود. Broad Institute نیز به این دیتابیس متصل بوده و خود یک نرم‌افزار برای تحلیل GSEA به‌صورت آنلاین در اختیار دارد.

Enrichr

Enrichr یک ابزار معروف تحلیل غنی‌سازی دسته‌ای از ژن‌های دخیل در بیماری در پستانداران است. این ابزار کتابخانه‌های مختلفی دارد که شامل موارد زیر می‌شود:

  • کتابخانه‌هایی برای تنظیم رونویسی
  • کتابخانه‌های مسیرهای زیستی و تعاملات پروتئینی
  • هستی‌شناسی ژن
  • سلول‌های تیمارشده با دارو
  • بیان ژن‌ها در سلول‌ها و بافت‌های مختلف

از دیگر وب‌سایت‌ها و پایگاه‌داده‌های مهم که مورداستفاده قرار می‌گیرند نیز می‌توان به موارد زیر اشاره کرد:

  • DAVID
  • g:Profiler
  • Metascape
  • Genomic region enrichment of annotations tool (GREAT)
  • PlantRegMap: در حوزه گیاهی استفاده می‌شود.

هستی‌شناسی ژنی

حاشیه‌نویسی ژنی یا annotation بر اساس هستی‌شناسی ژنی یا همان Gene Ontology به ما کمک می‌کند که یک ساختار سلسله‌مراتبی را از آنچه درون سلول رخ می‌دهد داشته باشیم. در حقیقت این اطلاعات مانند یک لغت‌نامه برای ما کار می‌کند که می‌تواند درک بهتری از اجزای سلول، فرایندها و مکان آن‌ها به ما بدهد.

 

ژن انتولوژی

تلاش شده است که اطلاعات درون این لغت‌نامه منحصربه‌فرد باشد و همچنین به کمک آن بتوانیم ارتباط بین اجزا را شناسایی کنیم. به دلیل آنکه چندین اسم برای یک مفهوم وجود داشت و یا اینکه یک اسم به چندین مفهوم اطلاق می‌شد، شاهد نوعی بی‌ثباتی یا inconsistency در زبان بودیم. مشکلی که درک مفاهیم را برای ما سخت می‌کرد.

درنتیجه، هستی‌شناسی ژنی یا ژن انتولوژی قصد داشته که چنین مشکلی را حل کند و به همین دلیل ایجاد شده است. مثلاً بعضی از محققین به‌جای استفاده از سنتز گلوکز از عبارت گلوکز بیوسنتز، گلوکز فرمیشن، گلوکز آنابولیسم یا گلوکونئوجنسیس استفاده می‌کردند که همگی به تولید زیست اشاره می‌کند. این‌گونه بی‌ثباتی‌ها سبب شد که یک لغت‌نامه کلی برای این مشکل ایجاد شود تا همگی بر روی نام استفاده شده اتفاق‌نظر داشته باشد و به یک اسم یا مفهوم جامع تبدیل شود.

کاربرد دیگری که ژن انتولوژی یا هستی‌شناسی دارد این است که به کمک آن می‌توانیم مجموعه‌داده‌های بزرگ را بررسی کنیم. کاری که برای بررسی انجام می‌دادیم خوشه‌بندی بود. به کمک الگوریتم‌های بیوانفورماتیک می‌توانیم عملکردی را به این ژن‌های مشابه اختصاص دهیم تا عملکرد را بررسی کنیم.

با وجود توسعه روش‌های اومیکس، اطلاعات در سطوح مختلف به دست آمده است که باید annotation برای آن‌ها نیز انجام شود. به همین دلیل نیاز به یک روش annotation به‌صورت اتوماتیک داریم که بتواند این کار را به‌خوبی و با سرعت بیشتری انجام دهد.

علاوه بر مشکلاتی که درمورد اسم‌ها وجود داشت، بین ارگانیسم‌های متفاوت نیز تفاوت وجود دارد. مثلاً در بین ارگانیسم‌ها، به یک پروتئین مشابه نام‌های مختلفی اطلاق می‌شد که باز این موضوع نیز بر پیچیدگی ماجرا اضافه می‌کرد. هستی‌شناسی ژن یا ژن انتولوژی قصد داشته که این مشکل را نیز برطرف کند.

 

آنالیز غنی‌سازی

این حوزه به سه دسته کلی تقسیم‌بندی می‌شود. ما برای ژن‌ها و محصولات پایین‌دستی آن‌ها سه دسته اطلاعات به دست می‌آوریم که دسته اول می‌گوید در چه فرایندی دخیل است. دسته دوم اشاره می‌کند که این ژن از لحاظ مولکولی دقیقاً چه عملکردی را انجام می‌دهد، مثلاً محصول ژن به چه چیزی متصل می‌شود و اینکه چه کاری می‌کند. در دسته سوم نیز درمورد جایگاه آن در سلول صحبت می‌شود که می‌گوید مثلاً پروتئین در غشا قرار دارد یا در سیتوزول. درنتیجه ما در ژن انتولوژی سه دسته اطلاعات خواهیم داشت و یک ترم یونیک برای هرکدام از اجزا استفاده می‌شود.

فرایند بیولوژیکی (biological process) به یک هدف بیولوژیکی اشاره دارد که ژن یا محصول ژنی به ایجاد آن کمک می‌کند. یک فرایند از طریق یک یا چند مجموعه منظم از توابع مولکولی انجام می‌شود. فرایندها اغلب شامل یک دگرگونی شیمیایی یا فیزیکی هستند، به این معنا که چیزی وارد یک فرایند می‌شود و چیز متفاوتی از آن خارج می‌شود.

نمونه‌هایی از اصطلاحات فرایند بیولوژیکی (فرایندهای سطح بالا) عبارت‌اند از “رشد و نگهداری سلول” (cell growth and maintenance) یا “تبدیل سیگنال” (signal transduction). نمونه‌هایی از اصطلاحات فرایندی خاص‌تر (فرایندهای سطح پایین‌تر) عبارت‌اند از «ترجمه» (translation)، «متابولیسم پیریمیدین» (pyrimidine metabolism) یا «بیوسنتز cAMP» (cAMP biosynthesis).

عملکرد مولکولی (molecular function) به‌عنوان فعالیت بیوشیمیایی (شامل اتصال خاص به لیگاندها یا ساختارها) در یک محصول ژنی تعریف می‌شود. این سطح فقط آنچه را که انجام می‌شود بدون مشخص‌کردن مکان یا زمان وقوع رویداد توصیف می‌کند. نمونه‌هایی از اصطلاحات کاربردی گسترده عبارت‌اند از «آنزیم»، «حامل» یا «لیگاند». نمونه‌هایی از اصطلاحات کاربردی خاص‌تر عبارت‌اند از “آدنیلات سیکلاز” یا “لیگاند گیرنده Toll”.

جزء سلولی (cellular component) به مکانی در سلول اشاره دارد که یک محصول ژن در آن فعال است. این اصطلاحات درک ما از ساختار سلول یوکاریوتی را نشان می‌دهد. همان‌طور که برای دیگر هستی‌شناسی‌ها صادق است، همه اصطلاحات برای همه موجودات قابل‌استفاده نیستند. مؤلفه سلولی شامل عباراتی مانند «ریبوزوم» یا «پروتئزوم» است که مشخص می‌کند محصولات چند ژن در کجا یافت می‌شوند. همچنین این اصلاحات شامل عباراتی مانند “غشای هسته‌ای” یا “دستگاه گلژی” نیز می‌شوند.

ویژگی دیگر ژن انتولوژی یا هستی‌شناسی ژن، وجود ارتباط بین این اجزای سلولی است. فرایندها می‌توانند زیرمجموعه هم قرار بگیرند و به همین دلیل یک ساختار سلسله‌مراتبی بین آن‌ها وجود دارد. مثلاً biological process به دودسته metabolic process و cellular process تقسیم می‌شود و هرکدام از این موارد به‌مراتب ریزتر تقسیم می‌شوند. گرافی که در اینجا داریم جهت‌دار است و نودهای گراف را به‌صورت سلسله‌مراتبی به هم متصل می‌کند. نکته دیگر اینکه گراف هیچ دوری ندارد و تنها در یک‌ جهت حرکت می‌کند.

دوره کارآموزی طراحی و مدلسازی سلولی: سیستم بیولوژی

 

منبع:

Ashburner M, Ball CA, Blake JA, et al. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet. 2000;25(1):25-29. doi:10.1038/75556

Reimand, J., Isserlin, R., Voisin, V. et al. Pathway enrichment analysis and visualization of omics data using g:Profiler, GSEA, Cytoscape and EnrichmentMap. Nat Protoc 14, 482–517 (2019). https://doi.org/10.1038/s41596-018-0103-9

از این مطلب چقدر راضی بودید؟

روی ستاره کلیک کنید تا نظرتون ثبت بشه

4.1 / 5. تعداد رای دهندگان: 20

تا حالا امتیازی برای این مطلب ثبت نشده؛ با ثبت نظرتون مارو خوشحال می‌کنید