مقدمهای بر آنالیز داده های میکرواری
میکرواری ها مجموعهای از پروبهای DNA هستند که معمولا در موقعیتهای مشخصی به یک سطح جامد مانند یک اسلاید شیشهای متصل میشوند که میتوان قطعات نمونه DNA را به آن هیبرید کرد. کاوشگرها عموما الیگونوکلئوتیدهایی هستند که بر روی اسلایدها چاپ می شوند (Agilent) یا به صورت in situ سنتز می شوند (Affymetrix). DNA تک رشته ای نشاندار شده یا قطعات RNA آنتی سنس از یک نمونه مورد نظر به ریزآرایه DNA هیبرید می شوند. مقدار هیبریداسیون شناسایی شده برای یک پروب خاص متناسب با تعداد قطعات اسید نوکلئیک در نمونه است.
آرایه های تک کاناله یا دو کاناله؟
یکی از نکات اصلی طراحی در آزمایش ریزآرایه این است که آیا سطوح بیان هر نمونه روی ریزآرایه های جداگانه (آرایه یک رنگ) اندازه گیری شود یا اینکه سطوح بیان نسبی بین یک جفت نمونه روی یک ریزآرایه منفرد (آرایه دو رنگ) مقایسه شود. عملکرد کلی آرایه های یک رنگ و دو رنگ مشابه است.
در ریزآرایه دو کاناله، دو نمونه بیولوژیکی (نمونه آزمایش و نمونه شاهد یا مرجع) با رنگهای فلورسنت مختلف، معمولاً سیانین 3 (Cy3) و سیانین 5 (Cy5) برچسبگذاری میشوند. سپس مقادیر مساوی از cDNA نشاندار شده به طور همزمان به همان تراشه ریزآرایه هیبرید می شوند.
پس از این هیبریداسیون رقابتی، اندازهگیریهای فلورسانس بهطور جداگانه برای هر رنگ انجام میشود و فراوانی هر ژن را در یک نمونه ( نمونه آزمایش یا Cy5) نسبت به نمونه شاهد (Cy3) نشان می دهد.
داده های هیبریداسیون به عنوان نسبت سیگنال های فلورسنت Cy5/Cy3 در هر پروب گزارش می شود. در مقابل، در ریزآرایههای یک رنگ، هر نمونه برچسبگذاری شده و به یک ریزآرایه جداگانه هیبرید میشود و مقدار مطلق فلورسانس را برای هر پروب دریافت میکنیم.
محدودیت های میکرواری ها
رویکردهای مبتنی بر هیبریدیزاسیون توان عملیاتی بالایی دارند و نسبتاً ارزان هستند، اما دارای چندین محدودیت هستند که عبارتند از :
- تکیه بر دانش موجود در مورد توالی ژنوم
- سطوح بالای پس زمینه به دلیل هیبریداسیون متقابل
- محدوده دینامیکی محدود تشخیص به دلیل سیگنالهای پسزمینه
مقایسه سطوح بیان در آزمایشهای مختلف اغلب دشوار است و میتواند به روشهای نرمالسازی پیچیده نیاز داشته باشد.
آنالیز داده های میکرواری
ریزآرایه ها را می توان در بسیاری از انواع آزمایش ها از جمله ژنوتیپ، اپی ژنتیک، پروفایل ترجمه و پروفایل بیان ژن استفاده کرد.
پروفایل بیان ژن تا حد زیادی رایج ترین استفاده از فناوری ریزآرایه است. برای این نوع آزمایش می توان از هر دو ریزآرایه تک کاناله و دو کاناله استفاده کرد. فرآیند تجزیه و تحلیل داده های بیان ژن برای هر دو نوع ریزآرایه مشابه است و شامل موارد زیر می باشد:
- استخراج داده ها
- کنترل کیفیت
- نرمال سازی
- تجزیه و تحلیل بیان افتراقی ژن ها
- تفسیر بیولوژیکی نتایج
- ارسال داده ها به پایگاه داده عمومی
اکنون هر یک از این مراحل را با جزئیات بیشتری مرور خواهیم کرد.
استخراج داده ها
استخراج داده ها فرآیند تبدیل تصویر اسکن شده ریزآرایه به مقادیر قابل سنجش (محاسبه) و حاشیه نویسی (annotation) آن با شناسه ژن، نام نمونه و سایر اطلاعات مفید است.
این فرآیند اغلب با استفاده از نرم افزار ارائه شده توسط سازنده ریزآرایه انجام می شود. خروجی این فرآیند فایل های داده خام (یعنی پردازش نشده) است که می تواند در قالب باینری یا متنی باشد.
جدول زیر انواع فایل های داده خام ریزآرایه های رایج می باشد:
Manufacturer | Typical raw data format | How to open / Analysis software examples |
Affymetrix | .CEL (binary) | R packages (affy, limma, oligo…) |
Agilent | feature extraction file (tab-delimited text file per hybridisation) | R packages (e.g. limma)
Spreadsheet software (Excel, OpenOffice, etc.) |
GenePix (scanner) | .gpr (tab-delimited text file per hybridisation) | Spreadsheet software (Excel, OpenOffice, etc.) |
Illumina | .idat (binary) | R packages (e.g. illuminaio) |
txt (tab-delimited text matrix for all samples) | R packages (e.g. lumi)
Spreadsheet software (Excel, OpenOffice, etc.) |
|
Nimblegen | NimbleScan, .pair (tab-delimited text matrix for all samples) | Spreadsheet software (Excel, OpenOffice, etc.) |
پس از فرآیند استخراج داده ها، داده ها قابل تجزیه و تحلیل هستند. سازندگان آرایه اغلب نرم افزاری را برای باز کردن و تجزیه و تحلیل فایل های داده خام خود ارائه می دهند. این برنامه ها ممکن است همیشه در دسترس نباشند، ممکن است پس از چند سال منسوخ شوند، یا به اندازه کافی برای نیازهای شما انعطاف پذیر نباشند. چندین ابزار نرم افزار رایگان وجود دارد که برای پردازش های پایین دست فایل های ریزآرایه مناسب هستند. به عنوان مثال پلتفرم Galaxy، GenePattern، GeneSpring و نرم افزار آماری R.
تیم ژنومیک عملکردی در EMBL-EBI از بستههای R (oligo)، limma و lumi برای تجزیه و تحلیل دادههای ریزآرایه Affymetrix، Agilent و Illumina برای Expression Atlas استفاده میکند.
کنترل کیفیت
در Expression Atlas، کنترل کیفیت داده ها از تمام فناوری های ریزآرایه (Affymetrix، Agilent و Illumina) با استفاده از بسته arrayQualityMetrics در R انجام می شود.
کنترل کیفیت داده های ریزآرایه با بررسی بصری تصاویر ریزآرایه اسکن شده آغاز می شود تا اطمینان حاصل شود که هیچ لکه، خراش یا نواحی خالی واضحی وجود ندارد.
پس از استخراج داده ها، بستههای نرمافزاری تجزیه و تحلیل دادهها را میتوان برای ایجاد نمودارهای تشخیصی (به عنوان مثال سیگنال پسزمینه، مقادیر میانگین و درصد ژنها) برای کمک به شناسایی آرایهها، استفاده کرد.
نرمال سازی
نرمال سازی داده های ریزآرایه برای کنترل تغییرات فنی بین سنجش ها و در عین حال حفظ تنوع بیولوژیکی استفاده می شود. روش های زیادی برای نرمال سازی داده ها وجود دارد و روش های مورد استفاده به موارد زیر بستگی دارد:
نوع آرایه
طراحی آزمایش
مفروضات ساخته شده در مورد داده ها (به عنوان مثال، انتظار نمی رود اکثر ژن های ارائه شده در ریزآرایه به طور متفاوتی در گروه آزمایش نسبت به گروه کنترل بیان شوند)
و پکیج مورد استفاده برای تجزیه و تحلیل داده ها
برای Expression Atlas، دادههای ریزآرایه Affymetrix با استفاده از روش (RAM) در پکیج oligo نرمال سازی می شوند.
تجزیه و تحلیل بیان افتراقی ژن ها
هدف از تجزیه و تحلیل بیان افتراقی، شناسایی ژن هایی است که بیان آنها در شرایط مختلف متفاوت است. یک ملاحظه مهم برای تجزیه و تحلیل بیان افتراقی، تصحیح برای آزمایش چندگانه است. این یک پدیده آماری است که زمانی رخ میدهد که هزاران مقایسه (مثلاً مقایسه بیان ژنهای متعدد در شرایط چندگانه) برای تعداد کمی از نمونهها انجام شود (اکثر آزمایشهای ریزآرایه کمتر از پنج تکرار بیولوژیکی در هر شرایط دارند). این منجر به افزایش شانس نتایج مثبت کاذب می شود.
برای Expression Atlas، بسته limma که برای شناسایی ژنهای بیان شده متفاوت استفاده میشود، روشی را برای تصحیح آزمایشهای متعدد در خود جای داده است. این روش یک نسبت تغییر برابری log2 بین شرایط آزمون و کنترل و پارامترهای p-value و adjused p-value معرفی می کند که معنی داری را ارزیابی می کند.
تفسیر بیولوژیکی داده های ریزآرایه
بسیاری از روشها برای تجسم و تفسیر دادههای ریزآرایه نیز میتوانند برای آزمایشهای RNA-seq استفاده شوند.
ارسال داده ها به یک پایگاه داده ی عمومی
هنگامی که تولید دادههای ریزآرایه را به پایان رساندید، مهم است که فایلهای داده را همراه با متادیتا به یک پایگاه داده عمومی مانند ArrayExpress در BioStudies ارسال کنید. این به اطمینان از تکرارپذیری آزمایش شما کمک می کند و اکنون یکی از الزامات بسیاری از مجلات و نهادهای تأمین مالی است.
همچنین بخوانید:
نویسنده: مریم آقازاده