مقدمهای بر Functional Enrichment و نمودارها در R
روش های آماری برای تجزیه و تحلیل غنی سازی ابزار مهمی برای استخراج اطلاعات بیولوژیکی از آزمایش های omics هستند. اگرچه این روشها به طور گسترده برای تجزیه و تحلیل لیستهای ژن و پروتئین استفاده شدهاند، توسعه فناوریهای با کارایی بالا برای عناصر نظارتی نیازمند ابزارهای آماری و بیوانفورماتیک اختصاصی است. در اینجا، ما مجموعهای از روشهای تجزیه و تحلیل غنیسازی را برای عناصر تنظیمکننده، از جمله سایتهای CpG، miRNA ها و فاکتورهای رونویسی ارائه میکنیم.
تجزیه و تحلیل غنیسازی عملکردی، همچنین به نام آنالیز مجموعه ژن (GSA)، روشی است که به طور گسترده برای تجزیه و تحلیل نتایج تجربی با توان بالا استفاده میشود. هدف GSA کشف حاشیهنویسیهای بیولوژیکی است که بیش از حد در فهرستی از ژنها نشان داده شدهاند. این حاشیهنویسیها برای تفسیر مکانیسمهای مولکولی و فرآیندهای بیولوژیکی که با شرایط آزمایشی مورد مطالعه مرتبط هستند، استفاده میشوند.
سه نوع اصلی GSA وجود دارد:
- تجزیه و تحلیل غنیسازی منفرد (SEA) که اهمیت آماری حاشیهنویسیهای فردی یعنی مسیرها یا اصطلاحات کاربردی را در فهرستی از ژنهای کاندید مانند ژنهای بیانشده متفاوت ارزیابی میکند.
- تجزیه و تحلیل غنیسازی مجموعه ژن (GSEA). توزیع ژنهای مرتبط با یک اصطلاح معین را در کل آزمایش با ژنهایی که بر اساس معیارهای خاصی رتبهبندی شدهاند، تجزیه و تحلیل میکند.
- تجزیه و تحلیل غنیسازی مدولار (MEA) که از روابط ذاتی میان حاشیهنویسیها برای تعریف مجموعه ای از اصطلاحات مرتبط و ارزیابی اهمیت آنها با هم از طریق SEA و GSEA بهره میبرد.
بنابراین، SEA و MEA اهمیت آماری حاشیهنویسیهای عملکردی در مجموعهای از ژنها را با توجه به فهرست مرجع، معمولا کل ژنوم، ارزیابی میکنند، در حالی که GSEA نمایش بیش از حد ژنهای مرتبط با یک حاشیهنویسی دادهشده را در جایگاه بالایی تجزیه و تحلیل میکند.
فهرست رتبهبندی شده با این فرض که نه تنها تغییرات بزرگ در بیان ژن ممکن است اثرات قابلتوجهی بر عملکردهای بیولوژیکی داشته باشد، بلکه نقش ژنهای متعدد با تفاوتهای کمتر را نیز دارد. علاوه بر این، چندین ابزار بیوانفورماتیک برای انجام تحلیل غنیسازی عملکردی با استفاده از این روشها توسعه داده شدهاند.
به طور کلی، روشهای GSA برای تجزیه و تحلیل ژنها یا پروتئینها توسعه داده شدهاند، اما در دهه گذشته، تکنیکهای omics جدید مجموعه دادههای بزرگی را برای موجودیتهای بیولوژیکی دیگر مانند RNAهای کوچک، فاکتورهای رونویسی (TFs) یا مکان های متیلاسسیون تولید می کنند. امروزه، تعداد کمی از نرم افزارها وجود دارد که تجزیه و تحلیل غنی سازی را برای عناصر نظارتی پیاده سازی می کند، مانند TFTenrichr که به کاربران اجازه می دهد تا تجزیه و تحلیل غنی سازی ژن های هدف فاکتور رونویسی و methylGSA برای CpGs یا miEAA را برای miRNA ها انجام دهند.
با این وجود، بیشتر ابزارهای GSA با استفاده از حاشیهنویسیهای مبتنی بر ژن توسعه داده میشوند، بنابراین به مجموعهای از ژنهای هدف مرتبط با فهرست عناصر تنظیمکننده، که دارای یک محدودیت مهم است، به عنوان ورودی نیاز دارند. علاوه بر این، یک سوگیری در استفاده از ابزارهای تجزیه و تحلیل غنیسازی استاندارد در مجموعهای از ژنهای هدف گزارش شده است، زیرا این روشها با این فرض توسعه داده شدهاند که ژنها بهطور تصادفی از فهرست مرجع انتخاب میشوند، که ممکن است همیشه درست نباشد.
در این زمینه، یانگ و همکاران سوگیری انتخاب ژن را از آزمایشهای بیان ژن و تأثیر آن در GSA را مورد مطالعه قرار داد و روش GOseq را توسعه داد که قادر به توضیح چنین سوگیری بود. آثار منتشر شده قبلی همچنین گزارش میدهند که تعدادی از اصطلاحات غنیشده در تجزیه و تحلیل دادههای متیلاسیون یا miRNAs نیز با دادههای تصادفی شناسایی میشوند.
در این کار، ما یک ابزار تجزیه و تحلیل غنیسازی منفرد و مدولار را برای عناصر تنظیمکننده، از جمله miRNA ها، TFs و سایتهای CpG، علاوه بر ژنها و پروتئینها ایجاد کردهایم. این عملکرد در نسخه جدید Genecodis، یک برنامه کاربردی پرکاربرد در زمینه تجزیه و تحلیل غنی سازی پیاده سازی شده است.
تا جایی که ما می دانیم، این اولین برنامه کاربردی برای تجزیه و تحلیل عملکردی miRNA ها، TFs و CpG ها به همراه ژن ها و پروتئین ها در یک ابزار واحد است که سه روش آماری رایج برای تجزیه و تحلیل عملکردی عناصر تنظیمی را نیز ادغام می کند.
برنامه GeneCodis4 در https://genecodis.genyo.es موجود است.
تجزیه و تحلیل غنی سازی یک رویکرد رایج برای استخراج دانش بیولوژیکی از نتایج تجربی omics است. این روش ها به طور گسترده برای تجزیه و تحلیل لیست های ژن یا پروتئین مورد استفاده قرار گرفته اند، که GeneCodis یک ابزار به خوبی تثبیت شده است. علاوه بر این، GeneCodis امکانات جدیدی برای تجزیه و تحلیل سایر موجودات بیولوژیکی مانند miRNA ها، TFs و CpG ها ارائه می دهد.
خصوصیات عملکردی این عناصر تنظیمی معمولا از طریق ژنهای هدف آنها استنباط میشود، اما این رویکرد یک سوگیری انتخاب ژن را ثابت کرده است که تفسیر نتایج را محدود میکند.
بسیاری از ابزارهای تجزیه و تحلیل غنیسازی، یک روش مدیریت سوگیری واحد را پیادهسازی میکنند و معمولا فقط یک نوع واحد بیولوژیکی را میپذیرند، علاوه بر این، معمولا به مهارتهای بیوانفورماتیک نیاز دارند. از این رو، GeneCodis به عنوان یک ابزار وب منحصر به فرد برای SEA و MEA برای توصیف عملکردی ژن ها، پروتئین ها، miRNA ها، TFs و CpG ها ارائه می شود.
علاوه بر این، GeneCodis یکی از معدود برنامههایی است که امکان تجزیه و تحلیل غنیسازی مدولار را فراهم میکند که میتواند اطلاعات مفیدی را در تجزیه و تحلیل عناصر تنظیمکننده با سایر منابع اطلاعاتی مانند فرآیندها یا مسیرهای بیولوژیکی ارائه دهد.
GeneCodis4 در فوریه 2020 منتشر شد و از آن زمان تاکنون به طور متوسط 300 کاربر منحصر به فرد در ماه دریافت کرده است، همچنان که روند قبلی GeneCodis را به عنوان یک ابزار مرجع در زمینه GSA قرار داده است. این قابلیتهای جدید GeneCodis را به عنوان یک ابزار وب عالی قرار میدهد که برای ادغام نتایج حاصل از دیدگاههای مختلف omics و دانش، پیشرفتهترین عناصر نظارتی GSA را ارائه میکند.
همچنین بخوانید:
نویسنده: مربم آقازاده