آموزش آنالیز داده های میکرواری و تفسیر داده ها

مقدمه‌ای بر آنالیز داده های میکرواری

میکرواری ها مجموعه‌ای از پروب‌های DNA هستند که معمولا در موقعیت‌های مشخصی به یک سطح جامد مانند یک اسلاید شیشه‌ای متصل می‌شوند که می‌توان قطعات نمونه DNA را به آن هیبرید کرد. کاوشگرها عموما الیگونوکلئوتیدهایی هستند که بر روی اسلایدها چاپ می شوند (Agilent) یا به صورت in situ سنتز می شوند (Affymetrix). DNA تک رشته ای نشاندار شده یا قطعات RNA آنتی سنس از یک نمونه مورد نظر به ریزآرایه DNA هیبرید می شوند. مقدار هیبریداسیون شناسایی شده برای یک پروب خاص متناسب با تعداد قطعات اسید نوکلئیک در نمونه است.

آرایه های تک کاناله یا دو کاناله؟

یکی از نکات اصلی طراحی در آزمایش ریزآرایه این است که آیا سطوح بیان هر نمونه روی ریزآرایه های جداگانه (آرایه یک رنگ) اندازه گیری شود یا اینکه سطوح بیان نسبی بین یک جفت نمونه روی یک ریزآرایه منفرد (آرایه دو رنگ) مقایسه شود. عملکرد کلی آرایه های یک رنگ و دو رنگ مشابه است.

آرایه های تک کاناله یا دو کاناله

در ریزآرایه دو کاناله، دو نمونه بیولوژیکی (نمونه آزمایش و نمونه شاهد یا مرجع) با رنگ‌های فلورسنت مختلف، معمولاً سیانین 3 (Cy3) و سیانین 5 (Cy5) برچسب‌گذاری می‌شوند. سپس مقادیر مساوی از cDNA نشاندار شده به طور همزمان به همان تراشه ریزآرایه هیبرید می شوند.

پس از این هیبریداسیون رقابتی، اندازه‌گیری‌های فلورسانس به‌طور جداگانه برای هر رنگ انجام می‌شود و فراوانی هر ژن را در یک نمونه ( نمونه آزمایش یا Cy5) نسبت به نمونه شاهد (Cy3) نشان می دهد.

داده های هیبریداسیون به عنوان نسبت سیگنال های فلورسنت Cy5/Cy3 در هر پروب گزارش می شود. در مقابل، در ریزآرایه‌های یک رنگ، هر نمونه برچسب‌گذاری شده و به یک ریزآرایه جداگانه هیبرید می‌شود و مقدار مطلق فلورسانس را برای هر پروب دریافت می‌کنیم.

محدودیت های میکرواری ها

رویکردهای مبتنی بر هیبریدیزاسیون توان عملیاتی بالایی دارند و نسبتاً ارزان هستند، اما دارای چندین محدودیت هستند که عبارتند از :

  • تکیه بر دانش موجود در مورد توالی ژنوم
  • سطوح بالای پس زمینه به دلیل هیبریداسیون متقابل
  • محدوده دینامیکی محدود تشخیص به دلیل سیگنال‌های پس‌زمینه

مقایسه سطوح بیان در آزمایش‌های مختلف اغلب دشوار است و می‌تواند به روش‌های نرمال‌سازی پیچیده نیاز داشته باشد.

آنالیز داده های میکرواری

ریزآرایه ها را می توان در بسیاری از انواع آزمایش ها از جمله ژنوتیپ، اپی ژنتیک، پروفایل ترجمه و پروفایل بیان ژن استفاده کرد.

پروفایل بیان ژن تا حد زیادی رایج ترین استفاده از فناوری ریزآرایه است. برای این نوع آزمایش می توان از هر دو ریزآرایه تک کاناله و دو کاناله استفاده کرد. فرآیند تجزیه و تحلیل داده های بیان ژن برای هر دو نوع ریزآرایه مشابه است و شامل موارد زیر می باشد:

  • استخراج داده ها
  • کنترل کیفیت
  • نرمال سازی
  • تجزیه و تحلیل بیان افتراقی ژن ها
  • تفسیر بیولوژیکی نتایج
  • ارسال داده ها به پایگاه داده عمومی

آنالیز داده های میکرواری

اکنون هر یک از این مراحل را با جزئیات بیشتری مرور خواهیم کرد.

استخراج داده ها

استخراج داده ها فرآیند تبدیل تصویر اسکن شده ریزآرایه به مقادیر قابل سنجش (محاسبه) و حاشیه نویسی (annotation) آن با شناسه ژن، نام نمونه و سایر اطلاعات مفید است.

استخراج داده ها

این فرآیند اغلب با استفاده از نرم افزار ارائه شده توسط سازنده ریزآرایه انجام می شود. خروجی این فرآیند فایل های داده خام (یعنی پردازش نشده) است که می تواند در قالب باینری یا متنی باشد.

جدول زیر انواع فایل های داده خام ریزآرایه های رایج می باشد:

Manufacturer Typical raw data format How to open / Analysis software examples
Affymetrix .CEL (binary) R packages (affy, limma, oligo…)
Agilent feature extraction file (tab-delimited text file per hybridisation) R packages (e.g. limma)

Spreadsheet software (Excel, OpenOffice, etc.)

GenePix (scanner) .gpr (tab-delimited text file per hybridisation) Spreadsheet software (Excel, OpenOffice, etc.)
Illumina .idat (binary) R packages (e.g. illuminaio)
txt (tab-delimited text matrix for all samples) R packages (e.g. lumi)

Spreadsheet software (Excel, OpenOffice, etc.)

Nimblegen NimbleScan, .pair (tab-delimited text matrix for all samples) Spreadsheet software (Excel, OpenOffice, etc.)

 

پس از فرآیند استخراج داده ها، داده ها قابل تجزیه و تحلیل هستند. سازندگان آرایه اغلب نرم افزاری را برای باز کردن و تجزیه و تحلیل فایل های داده خام خود ارائه می دهند. این برنامه ها ممکن است همیشه در دسترس نباشند، ممکن است پس از چند سال منسوخ شوند، یا به اندازه کافی برای نیازهای شما انعطاف پذیر نباشند. چندین ابزار نرم افزار رایگان وجود دارد که برای پردازش های پایین دست فایل های ریزآرایه مناسب هستند. به عنوان مثال پلتفرم Galaxy، GenePattern، GeneSpring  و نرم افزار آماری R.

تیم ژنومیک عملکردی در EMBL-EBI از بسته‌های R (oligo)، limma و lumi برای تجزیه و تحلیل داده‌های ریزآرایه  Affymetrix، Agilent  و Illumina برای Expression Atlas استفاده می‌کند.

کنترل کیفیت

در Expression Atlas، کنترل کیفیت داده ها از تمام فناوری های ریزآرایه (Affymetrix، Agilent و Illumina) با استفاده از بسته arrayQualityMetrics در R انجام می شود.

کنترل کیفیت داده های ریزآرایه با بررسی بصری تصاویر ریزآرایه اسکن شده آغاز می شود تا اطمینان حاصل شود که هیچ لکه، خراش یا نواحی خالی واضحی وجود ندارد.

پس از استخراج داده ها، بسته‌های نرم‌افزاری تجزیه و تحلیل داده‌ها را می‌توان برای ایجاد نمودارهای تشخیصی (به عنوان مثال سیگنال پس‌زمینه، مقادیر میانگین و درصد ژن‌ها) برای کمک به شناسایی آرایه‌ها، استفاده کرد.

کنترل کیفیت میکرواری

نرمال سازی

نرمال سازی داده های ریزآرایه برای کنترل تغییرات فنی بین سنجش ها و در عین حال حفظ تنوع بیولوژیکی استفاده می شود. روش های زیادی برای نرمال سازی داده ها وجود دارد و روش های مورد استفاده به موارد زیر بستگی دارد:

نوع آرایه

طراحی آزمایش

مفروضات ساخته شده در مورد داده ها (به عنوان مثال، انتظار نمی رود اکثر ژن های ارائه شده در ریزآرایه به طور متفاوتی در گروه آزمایش نسبت به گروه کنترل بیان شوند)

و پکیج مورد استفاده برای تجزیه و تحلیل داده ها

برای Expression Atlas، داده‌های ریزآرایه Affymetrix با استفاده از روش (RAM) در پکیج oligo نرمال سازی می شوند.

تجزیه و تحلیل بیان افتراقی ژن ها

هدف از تجزیه و تحلیل بیان افتراقی، شناسایی ژن هایی است که بیان آنها در شرایط مختلف متفاوت است. یک ملاحظه مهم برای تجزیه و تحلیل بیان افتراقی، تصحیح برای آزمایش چندگانه است. این یک پدیده آماری است که زمانی رخ می‌دهد که هزاران مقایسه (مثلاً مقایسه بیان ژن‌های متعدد در شرایط چندگانه) برای تعداد کمی از نمونه‌ها انجام شود (اکثر آزمایش‌های ریزآرایه کمتر از پنج تکرار بیولوژیکی در هر شرایط دارند). این منجر به افزایش شانس نتایج مثبت کاذب می شود.

برای Expression Atlas، بسته limma که برای شناسایی ژن‌های بیان شده متفاوت استفاده می‌شود، روشی را برای تصحیح آزمایش‌های متعدد در خود جای داده است. این روش یک نسبت تغییر برابری log2 بین شرایط آزمون و کنترل و پارامترهای p-value و adjused p-value معرفی می کند که معنی داری را ارزیابی می کند.

تفسیر بیولوژیکی داده های ریزآرایه

بسیاری از روش‌ها برای تجسم و تفسیر داده‌های ریزآرایه نیز می‌توانند برای آزمایش‌های RNA-seq استفاده شوند.

ارسال داده ها به یک پایگاه داده ی عمومی

هنگامی که تولید داده‌های ریزآرایه را به پایان رساندید، مهم است که فایل‌های داده را همراه با متادیتا به یک پایگاه داده عمومی مانند ArrayExpress در BioStudies ارسال کنید. این به اطمینان از تکرارپذیری آزمایش شما کمک می کند و اکنون یکی از الزامات بسیاری از مجلات و نهادهای تأمین مالی است.

همچنین بخوانید:

منبع

نویسنده: مریم آقازاده

از این مطلب چقدر راضی بودید؟

روی ستاره کلیک کنید تا نظرتون ثبت بشه

5 / 5. تعداد رای دهندگان: 9

تا حالا امتیازی برای این مطلب ثبت نشده؛ با ثبت نظرتون مارو خوشحال می‌کنید