مقدمهای بر ابزارهای شناسایی ژن در بیوانفورماتیک
شناسایی ژنها با پیشرفت در تکنیکهای زیست شناسی مولکولی و افزایش دادههای قابل دسترس در مورد ژنومیک و اطلاعات ژنومیک عملکردی به سرعت تکامل یافته است. بیوانفورماتیک به شناسایی ژنها در یک توالی DNA طولانی کمک میکند. این روش یک ژن را به سادگی با تجزیه و تحلیل دادههای توالی با استفاده از کامپیوتر مکان یابی میکند.
یکی از ضروریترین جنبههای بیوانفورماتیک، پیش بینی ژن است. پیشبینی ژن شامل مکانیابی مناطقی از DNA ژنومی است که ژنها (ژنهای کدکننده پروتئین) را کد میکنند. پیشبینی ژن یا شناسایی ژن بسیار مهم است زیرا به دانشمندان کمک میکند تا بین مناطق کدکننده و غیر کدکننده ژنوم تمایز قائل شوند، ژنها را از نظر عملکردشان توضیح دهند و تحقیقات مربوط به تشخیص، درمان و پیشگیری از بیماریهای اختلال ژنتیکی و غیره را انجام دهند.
ژنها به طور گسترده از طریق دو روش شناسایی میشوند، به عنوان مثال:
الف) جستجوهای مبتنی بر شباهت
و
ب) پیش بینی از ابتدا
در زیر به طور خلاصه به این روشها پرداخته میشود.
جستجوهای مبتنی بر شباهت
همانطور که از نام آن پیداست، این روش از شناسایی ژن، بر اساس جستجوهای مشابه توالی است. توالیهای ژنتیکی مشابهی بین EST ها (برچسبهای توالی بیان شده)، پروتئینها یا سایر ژنومها و ژنومهای ناشناخته یافت میشوند. این روش فرض میکند که اگزونها (مناطق عملکردی) به طور تکاملی نسبت به اینترونها (مناطق غیرعملکردی) حفظ میشوند.
ابزار بیوانفورماتیک رایج که بر اساس روش جستجوی شباهت است، BLAST است. سایر نرم افزارهای پرکاربرد PROCRUSTES و GeneWise هستند. این نرم افزار ژنها را با استفاده از هم ترازی جهانی یک پروتئین همولوگ برای ترجمه ORFs در یک توالی ژنومی پیش بینی میکند. با این حال، CSTfinder نرم افزاری است که از مقایسه ژنوم زوجی برای شناسایی ژنها استفاده میکند.
پیشبینی از ابتدا
این روش شناسایی ژن بر اساس ساختار ژن و جستجوهای مبتنی بر سیگنال است. پیشبینیهای ژنی از ابتدا از ساختار ژنی شناخته شده به عنوان الگویی برای تعیین ژنهای ناشناخته استفاده میکنند. این روش بر اساس دو نوع اطلاعات توالی، یعنی حسگرهای سیگنال و حسگر محتوا است. حسگرهای سیگنال شامل موتیفهای توالی کوتاه هستند، به عنوان مثال، کدونهای شروع (start codon)، کدونهای توقف (stop codon)، مکانهای اتصال (splice sites) و نقاط انشعاب (branch points).
از سوی دیگر، حسگرهای محتوا بر الگوهای یک کدون تکیه میکنند که مختص یک گونه یا به عبارت دیگر ویژگیهای متمایز اصلی موجود در ژن است و به توالیهای کدکننده اجازه میدهد تا با الگوریتم های تشخیص آماری از توالی های غیر کدکننده اطراف متمایز شوند. محققان از این روش برای تشخیص اگزون استفاده میکنند.
الگوریتمهای زیادی برای مدلسازی ساختار ژن استفاده میشوند، بهعنوان مثال، تجزیه و تحلیل تفکیک خطی، برنامهریزی پویا، مدل مارکوف پنهان، linguist methods و شبکههای عصبی. این مدلها به توسعه بسیاری از برنامههای پیش بینی ژن از ابتدا مانند FGENESH، GeneID، GeneParser، GENSCAN، GlimmerM و غیره کمک کردهاند.
ابزارهای بیوانفورماتیک مورد استفاده برای شناسایی ژن
CRAIL: یکی از شناخته شدهترین ابزارهای محاسباتی است که برای شناسایی ORF استفاده میشود. این ابزار اطلاعات مهمی مانند اتصالات اسپلایسینگ، نقاط شروع ترجمه و نمرات نواحی غیر کدکننده با 60 باز، در دو طرف اگزون فرضی را ارائه میدهد.
GLIMMER: نرم افزاری است که برای یافتن ژن در DNA میکروبی به ویژه ژنوم باکتریها و آرکیها استفاده میشود. Gene Locator و Interpolated Markov Modeler (Glimmer) از مدلهای مارکوف درونیابی شده (IMMs) برای شناسایی مناطق کدکننده و متمایز کردن آنها از DNA غیرکدکننده استفاده میکند.
GenScan: این ابزار برای شناسایی ساختارهای ژنی کامل در DNA ژنومی موجودات مختلف استفاده میشود. میتواند ساختارهای اگزون-اینترون ژنها و همچنین مکانها را در توالیهای ژنومی پیشبینی کند.
Genie: این ژن یاب بر اساس مدلهای پنهان مارکوف تعمیم یافته است و به عنوان یک پروژه مشترک توسط گروه زیست شناسی محاسباتی دانشگاه کالیفرنیا، گروه انفورماتیک ژنوم انسانی آزمایشگاه ملی لارنس برکلی و پروژه ژنوم مگس سرکه برکلی توسعه داده شد.
Gene Finder: این ابزار برای پیش بینی سایتهای اسپلایسینگ استفاده میشود. همچنین میتواند اگزونهای کدکننده پروتئین را شناسایی کند، مدلهای ژنی را بسازد و محرک و ناحیه پلی-A را تشخیص دهد.
ORF Finder: نوعی ابزار تجزیه و تحلیل گرافیکی است که میتواند ORF را به همراه ترجمه پروتئین آنها از توالیهای موجود در پایگاه داده شناسایی کند. این برنامه برای جستجوی توالیهای DNA جدید برای بخشهای بالقوه کد کننده پروتئین استفاده میشود.
Easy Gene: این ابزار برای شناسایی ژنهای پروکاریوتها استفاده میشود که نسخه فعلی آن شامل 138 موجود مختلف است. هر ژن شناسایی شده توسط Easy Gene با یک امتیاز قابل توجه (R-value) نسبت داده میشود که احتمال این را نشان میدهد که یک توالی به جای یک ژن واقعی، یکORF غیر کدکننده باشد.
Gene Publisher: این برنامه تجزیه و تحلیل خودکار دادهها را از آزمایشهای بیان ژن در چندین پلت فرم مختلف انجام میدهد. این ابزار همچنین فایلهای Affymetrix CEL یا جداول ژن را به عنوان ورودی میپذیرد و تجزیه و تحلیل عددی و آماری دقیق را انجام میدهد. نتیجه خود را با دادههای موجود در پایگاههای مختلف مرتبط میکند و در نهایت یک گزارش کلی از نتیجه به ما میدهد.
ORPHEUS: این نرم افزار برای پیش بینی ژنهای قطعات بزرگ ژنومی یا ژنومهای کامل باکتریها استفاده میشود.
HMMgene: این برنامه بر اساس مدل پنهان مارکوف است و برای پیش بینی ژنها در DNA ناشناس استفاده میشود. میتواند ژنهای کامل یا جزئی را پیشبینی کند که در نتیجه میتواند اگزونها را شناسایی کند و آنها را دقیق به هم متصل کند. همچنین میتواند کدون شروع/ توقف و ژنهای اسپلایسینگ را پیش بینی کند. برای شناسایی ژنهای مهره داران نیز استفاده میشود.
Promoter: این نرم افزار مبتنی بر شبکههای عصبی و الگوریتم ژنتیک میباشد. میتواند مکانهای شروع رونویسی پروموترهای PolII مهرهداران را در توالیهای DNA پیشبینی کند.
همچنین بخوانید:
- بیوانفورماتیک چیست؟
- آموزش RNA seq در بیوانفورماتیک
- پایگاه داده TCGA چیست؟ مجموعه داده اطلس ژنوم سرطان
- کارآموزی بیوانفورماتیک
مترجم: معصومه قریبی ششده