تولید داده های زیستی، روش‌های ترکیب داده و Multi-Omics

تولید داده های زیستی

درباره تولید داده های زیستی، روش‌های ترکیب داده و Multi-Omics

قبل از اینکه به سراغ پیاده‌سازی روش‌های سیستم بیولوژی برویم، در ابتدا باید یک سوال زیستی داشته باشیم. این سوال زیستی هرچیزی می‌تواند باشد. مثلا ممکن است شما به دنبال شناسایی چندین ژن مهم دخیل در سرطان پانکراس باشید، یا می‌خواهید بدانید چرا دسته‌ای از بیماران مبتلا به AML، به دارو خاصی پاسخ نمی‌دهند، اما گروهی دیگر جواب خوبی می‌گیرند و درمان می‌شوند.

سوالات تنها به حوزه درمان منحصر نمی‌شود و شما می‌توانید این سوالات را در صنعت نیز بپرسید. یعنی ممکن است این سوال را داشته باشید که چطور می‌توانم تولید اتانول را در مخمر بیشینه کنم و یا اینکه چطور محیط کشت را برای سلول‌ها بهینه کنم تا رشد خوبی داشته باشند. ممکن است علاقه داشته باشید با کمترین حذف ژنی، سویه‌ای صنعتی را طراحی کنید که محصول موردنظر شما را تولید کند.

گاهی اوقات سوالات ممکن است جنبه‌های زیست‌محیطی یا کشاورزی داشته باشد. مثلا ممکن است شما علاقه‌مند باشید تغییرات میکروب‌ها را در خاک یا در ارتباط با یک گیاه بررسی کنید. شناسایی این دینامیک به شما در تولید محصول کشاورزی بهتر و بهینه‌تر کمک خواهد کرد یا اینکه می‌توانید با کنترل جمعیت باکتری‌ها، از ورود پاتوژن‌ها به محیط جلوگیری کنید. همچنین با طراحی جمعی از میکروب‌ها به کمک سیستم بیولوژی ضایعات پلاستیکی را تجزیه کنید تا از محیط زیست محافظت کنید.

 

تولید داده های زیستی

پس همین‌طور که به نظر می‌رسد، ما سوالات زیستی مختلفی را می‌توانیم طرح کنیم و مرزی برای آن وجود ندارد. قدم بعدی، تولید داده است. شاید بتوان هر سوالی را پرسید، اما آیا برای پاسخ به آن می‌توانیم داده‌های مناسبی جمع کنیم؟ اصلا داده مناسب چیست؟

دستگاه‌های زیادی برای تولید داده‌های زیستی وجود دارد. از PCR گرفته تا NGS، داده‌ای که تولید می‌شود همان داده زیستی است. یعنی شما یک کمیت زیستی را اندازه گرفته‌اید و آن را به یک عدد تبدیل کرده‌اید. پس اولین قدم شناسایی یک دستگاه مناسب برای تولید داده است. سوال بعدی که پیش می‌آید این است که چقدر باید داده تولید کنیم و اینکه آیا دستگاه‌های موجود در بازار توانایی تولید این داده را دارند؟

باید گفت که اگر به دنبال رویکرد سیستم بیولوژی هستیم، بایستی به سمت روش‌ها و دستگاه‌هایی برویم که به میزان بالایی داده تولید می‌کنند. هدف اصلی این رویکرد دوری از bias است. پس اگر بتوانیم داده‌های زیادی جمع کنیم، بدون اینکه هیچ فرض اولیه‌ای داشته باشیم، می‌توانیم تا حدی خود را از دست قضاوت رها کنیم. این دستگاه‌ها در حال پیشرفت بوده و می‌توانند در مدت زمان کوتاهی داده‌های زیادی تولید کنند، اما باز هم ما همه چیز را در مورد سلول‌ها نمی‌دانیم. پیشرفتی که نسبت به سال‌های گذشته رخ داده، حجم زیادی از داده‌ها را تولید کرده است که باید به کمک روش‌های جدید تحلیل شود. روش‌هایی که پس از جمع‌آوری داده، به ارائه نظریه می‌پردازد.

 

تولید داده های زیستی

تولید داده‌ها به کمک تکنولوژی‌های High throughput یا توان بالا، در حوزه اومیکس (Omics) قرار می‌گیرد. این داده‌ها در مراحل بعدی توسط تحلیل‌ها و مدل‌سازی مبتنی بر سیستم بیولوژی مورد بررسی قرار می‌گیرند. این داده‌ها تحت عنوان داده‌های بزرگ مقیاس، با توان بالا و داده‌های اومیکس شناخته می‌شوند.

دیتای اومیکس یا اومیک در سطوح مختلفی به دست می‌آید تا بتواند دیدی جامع از سیستم‌های زیستی به ما ارائه کند. داده‌های اومیک به کمک دستگاه‌های پیشرفته با توان بالا به دست می‌آیند که می‌تواند اطلاعاتی را در سطوح ژنوم، ترنسکریپتوم، پروتئوم، متابولوم و غیره را فراهم کند.

این مسیر با ورود تکنیک‌های ریزآرایه یا میکرواری آغاز شد که به کمک هیبریدیزاسیون پروب‌های DNA انجام می‌شد. از این روش برای بررسی پروفایل بیانی mRNA نیز استفاده می‌شود که در آن پس از استخراج، mRNA به cDNA تبدیل می‌شود تا بتوانیم آن را روی چیپ ران کنیم. سپس نتایج حاصل از میکرواری تحلیل خواهد شد.

تکنیک‌های دیگری که در اومیکس استفاده می‌شود توالی‌یابی ژنوم است که شامل نسل اول، نسل دوم و سوم و توالی‌یابی عمیق می‌شود. بررسی پلی مورفیسم تک نوکلئوتیدی، CNV و اگزون‌ها نیز اطلاعاتی را در اختیار ما قرار می‌دهد. CHiP-seq نیز ارتباط پروتئین متصل شده به ماده ژنتیک را بررسی می‌کند.

تکنیک مهم دیگر RNA-seq است که توالی‌یابی cDNA انجام می‌شود و دقت بهتری نسبت به میکرواری دارد. این روش دید کمی نیز به ما می‌دهد و واریانت‌های مختلف splicing را نیز شناسایی می کند. به همین دلیل می‌تواند جای میکرواری را در آینده بگیرد. بااین‌حال، میکرواری از این روش ارزان‎تر است. بررسی mRNAها در حوزه ترنسکریپتومیکس از  علم اومیکس قرار گرفته و بررسی می‌شود.

بررسی متیلاسیون DNA نیز در حوزه اپیژنومیکس قرار می‌گیرد. با اضافه‌شدن گروه متیل به سیتوزین، معمولاً ژن مهار شده و تنظیم بیان ژن رخ می‌دهد. روش‌های توالی‌یابی بی‌سولفیت به بررسی ژن‌های متیله‌شده در اومیکس می‌پردازد.

MicroRNAها توالی‌های کوتاهی در حدود 21 تا 25 هستند که بیان ژن را می‌تواند با مهارکردن آن تنظیم کند. به همین دلیل در تنظیم بیان ژن اثر دارد. این نوع از RNAها را نیز می‌توان به کمک روش‌های توالی‌یابی RNA-seq بررسی نمود. هرکدام از این miRNAها می‌تواند تعداد زیادی از ژن‌ها را تحت‌تأثیر قرار دهد پس اطلاعات این بخش از اومیکس نیز برای سیستم بیولوژی اهمیت دارد.

دسته دیگری از فناوری‌های اومیکس به پروتئومیکس اختصاص دارد که به پروتئین‌های سلول مربوط می‌شود تا فعالیت آن‌ها را بررسی کند. اندازه‌گیری سطوح پروتئین به کمک طیف‌سنج جرمی یا mass spectrometry انجام می‌شود. در این تکنیک، پروتئین‌ها به‌صورت گاز درآمده و در یک میدان حرکت می‌کنند. سپس بر اساس جرم مولکولی بررسی می‌شوند تا مشخص شود که از چه اسیدآمینه‌هایی تشکیل شده‌اند. به کمک این روش می‌توانیم تغییرات شیمیایی پس از ترجمه یا PTM پروتئین‌ها را نیز بررسی کنیم.

دسته دیگری از مطالعات اومیکس در حوزه متابولومیکس قرار می‌گیرد. در این روش سعی می‌شود که تمامی متابولیت‌های سلول در یک شرایط مکانی و زمانی خاص شناسایی شود. در این روش نیز مانند روش قبلی ممکن است از روش‌های طیف‌سنجی جرمی یا NMR استفاده شود. این روش به ما کمک می‌کند که تغییرات فنوتیپی را شناسایی کنیم. مثلاً ممکن است جهش در یک پروتئین خیلی جزئی باشد، اما فعالیت پروتئین را افزایش دهد. این افزایش فعالیت تنها در سطح متابولومیک خود را نشان می‎دهد یا حتی ممکن است پروتئین طی یک جهش زیاد تولید شود، اما فعالیت زیادی نداشته باشد.

اومیک در حوزه‌های دیگر مانند بررسی میکروبیوم‌ها نیز کاربرد دارد. به کمک بررسی‌های متاژنومیکس، می‌توان توالی‌های ژنتیکی میکروبیوم را مورد بررسی قرار داد و جمعیت‌های میکروبی را از نظر فراوانی و عملکرد بررسی کرد. اگر داده‌های ترنسکریپتوم در میکروبیوم بررسی شود، اصطلاحی که به آن اطلاق می‌شود، متاترنسکریپتومیکس خواهد بود.

مساله دیگری که امروزه به آن باید توجه کنیم، کنار هم گذاشتن داده‌های مختلف اومیکس است. بررسی داده‌های اومیکس در یک سطح، مثلا ژنوم، ما را از دیدگاه‌ها در سطوح دیگر دور می‌کند. همانطور که می‌دانیم، تمامی ژن‌ها بیان نمی‌شوند و ممکن است به دلایل مختلفی خاموش شوند یا میزان بیان متفاوتی بگیرند. برای یافتن این دیتا باید به سراغ ترنسکریپوم یا همان دیتا در سطح بیانی برویم. قدم‌های بعدی را نیز می‌توانیم برداریم. مثلا ممکن است هر mRNA به پروتئین تبدیل نشود، یا بررسی تغییرات متابولیت‌ها اهمیت بالایی برای درک عملکرد سلول داشته باشد.

 

تولید داده های زیستی

اینجاست که نگاه کردن به یک سطح از اومیکس کافی نیست و باید رویکرد خود را تغییر دهیم. بایستی سعی کنیم دیتا در سطوح مختلف را کنار هم بیاوریم و روش‌های multi-omics (چندین اومیکس) را توسعه دهیم. با جمع‌آوری داده‌ها در تمامی این سطوح، باید از الگوریتم‌هایی برای ترکیب این داده‌ها استفاده کنیم. جنس داده‌ها متفاوت بوده و حتی تعداد بیوملکول‌های خوانده شده متفاوت است. اینجاست که الگوریتم‌های ترکیب داده به ما کمک می‌کنند تحلیل مناسبی را ارائه داده و داده‌ها را ترکیب کنیم.

روش‌های انتخاب ویژگی feature selection و استخراج ویژگی feature extraction به ما این امکان را می‌دهند که ابعاد داده‌ها را کم کنیم، و تنها ویژگی‌هایی را برای ترکیب نگه داریم که اطلاعات خوبی درخود دارند. همچنین برای ترکیب داده‌ها می‌توان از روش‌های دیگر کاهش بعد مانند autoencoder نیز استفاده کرد که فضای ویژگی را به ابعاد کوچکتری تبدیل می‌کند. البته باید به کمک روش‌های دیگر، خروجی این روش‌ها تحلیل شود تا به یک معنای زیستی برسیم.

به کمک روش‌های مبتنی بر گراف نیز می‌توان داده‌های اومیکس را با هم ترکیب کرد. همان طور که می‌دانیم، بیوملکول‌ها با یکدیگر در مسیرهای زیستی یا pathway در ارتباط هستند. پس وقتی بتوانیم از دیتای مسیرها استفاده کنیم، می‌توانیم ارتباط داده‌های مختلف را با هم شناسایی کنیم و چندین دیتاست را با هم ترکیب کنیم.

کارآموزی طراحی و مدلسازی سلولی: سیستم بیولوژی

از این مطلب چقدر راضی بودید؟

روی ستاره کلیک کنید تا نظرتون ثبت بشه

4.2 / 5. تعداد رای دهندگان: 13

تا حالا امتیازی برای این مطلب ثبت نشده؛ با ثبت نظرتون مارو خوشحال می‌کنید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *