Аналіз сіквенсів ДНК

1. Потреби в аналізі ДНК.
2. Структура генів і сіквенси ДНК.
3. Властивості аналізу сіквенсів ДНК.
4. Інтерпретація пошуків EST.
5. Два підходи до „полювання” на гени.
6. Бібліотеки кДНК і EST.
7. Підходи до аналізу EST.
8. Бази даних ДНК і їх аналіз.
9. Приклад аналізу EST.
В цій темі буде подано мотивацію аналізу сіквенсів ДНК в порівнянні з сіквенсом білків. Введеться у концепцію ієрархії геномної інформації і транскрибованого геному. В результаті прийдемо до дискусії про експресовані фрагменти сіквенсів (Expressed Sequence Tag – EST) як одиниці даних сіквенсу. Їх отримують швидко при сіквенуванні бібліотек кДНК. кДНК отримують з допомогою зворотної транскриптази, використовуючи у якості матриці іРНК. Тут немає інтронів, тому вся отримана ДНК містить інформацію про структуру білка. Тут також розглянемо відкриття генів у контексті пошуку мішеней для ліків; маніпуляцію інформацією про сіквенси, а також оцінимо бази даних, що містять EST.
1. Потреби в аналізі ДНК
Найбільш чутливим є порівняння сіквенсів білків. Визначення далеко зв’язаних сіквенсів легше при трансляції білка внаслідок вродженості генетичного коду – з 64 кодонів (табл. 6.1) отримуємо тільки 20 різних амінокислот. Проте, таке спрощення веде до втрати інформації, яка тісно пов’язана з еволюційним процесом. Це відбувається, тому що білки є функціональною абстракцією з інформації, закодованої в ДНК. Згадаємо лише про „німі” мутації (Silent) – тобто ті мутації, які не проявляються. Тобто це зміни в ДНК, які не ведуть до заміни амінокислот на рівні білка – внаслідок вродженості генетичного коду.
Починаючи з 1960-х років, первинну структуру білка довго визначали їх хімічним сіквенуваням. З 1980-х і особливо 1990-х років даний підхід був практично витіснений сіквенуванням ДНК. Ці методи значно швидші і дешевші. На основі сіквенсів ДНК прогнозують послідовність білка. Це дало поштовх для багатьох нових аспектів досліджень. Наприклад, визначення філогенетичних зв’язків, генетичну інженерію з використанням корт-місць рестрикції, визначення структури генів через передбачення інтронів і екзонів, вивід-кодуючих білків сіквенсів через аналіз відкритих рамок зчитування (Open reading frames – OFR).
2. Структура генів і сіквенси ДНК
Спочатку слід згадати про деякі ключові поняття структури генів, які необхідні для аналізу їх структури. Вони включають, зокрема, інтрони, екзони, кодуючі послідовності (coding sequences – CDS), нетрансльовані області. Нагадаємо також про те, що гени прокаріотів не містять інтронів, тому вони простіші для аналізу.
Бази даних сіквенсів ДНК містять дані сіквенсу геномів, які включають інформацію про нетрансльовані сіквенси, інтрони і екзони, іРНК, кДНК і трансляцію. Видно, що бази даних ДНК містять широкий набір інформації і з цим треба рятуватись і розуміти, що хочеш отримати. Наприклад, у базах даних кДНК немає інформації про інтрони і екзони тощо.
Нетрансльовані області (untranslated) є у ДНК і РНК. Це ділянки сіквенсів, межуючих з кодуючими (CDS), але які не транслюються у білок. Нетрансльовані послідовності, зокрема, на 3-кінці, високоспецифічні як для гену, так і організму, з якого їх отримали.
Екзони утворюють кодуючий сіквенс. У гені 5-UTR містить промотор (наприклад, ТАТА-бокс), а 3-UTR – стоп-кодон кДНК.
Маючи сіквенс ДНК і знаючи генетичний код, можливо транслювати нуклеотидну послідовність в білок. Цей процес отримав назву концептуальної трансляції (conceptual translation). Слід розрізняти сіквенси, для яких трансляція має певний біохімічний сенс і таку, що просто виведена теоретично чи з допомогою комп’ютера. Термін „концептуально” вказує на трансляцію, проведену теоретично, без експериметральної перевірки.
У видимому сіквенсі невідомо з якої саме основи починається CDS. Тому завжди необхідно проводити так звану мети–роликову трансляцію (six-frame translation). Існує три прямі рамки з яких може початись трансляція з першої, другої чи третьої основи. Це саме стосується і зворотнього напрямку. Тому для будь-якого сіквенсу ДНК існує можливість отримати шість білкових сіквенсів (рис. 5.1.).
3. Властивості аналізу сіквенсів ДНК
Виникає запитання – яка з рамок зчитування коректна? Як правило, це найдовша рамка, яка не розривається стоп-кодоном (TGA, TAA чи TAG). Таку рамку назвали відкрита рамка зчитування (BРЗ) – (open reading frame – OFR). Знайти кінець BРЗ легше, ніж початок. Зазвичай, першим виступає кодон метіоніну, хоча й в кодуючі ділянці він зустрічається часто. Тому для визначення 5-кінців сіквенсів використовують додаткові підходи.
Для визначення потенціально кодуючої ділянки ДНК використовують кілька властивостей. Перший – використання ВРЗ достатньої довжини. Довгі ВРЗ випадково виникають рідко. У РНК стартовий кодон може межувати з сіквенсом Козака (Kozak sequence – CCGCCAUGG). На додаток, набір використовуваних кодонів може відрізнятись у кодуючих і некодуючих ділянках. Зокрема, використання кодонів для певних амінокислот варіює в залежності від виду, а правила використання кодонів не дотримуються в нетрансляційних ділянках. Тому статистика використання кодонів може бути використана для виявлення 5- і 3-нетрансльованих областей. У табл. 5.2. наведена інформація щодо варіації у виборі кодонів для певної амінокислоти різними організмами. Видно, що між ними існує істотна різниця.
На додаток, характеристика використання кодонів полягає в тому, що багато організмів демонструє загальну преференцію G чи С над А чи Т у третій позиції (wobble) кодону.
І, на кінець, у області вище стартового кодону в генах прокаріотів може знаходитись центр зв’язування рибосом. Це є потужним індикатором ВРЗ. Але найнадійнішим способом ідентифікації гену є порівняння з сіквенсом гомологічного білка.
Навіть ідентифікація інтронів та екзонів у гені ще не гарантує передбачення коректного білка. А для потенціалу білкові продукти можуть мати різну довжину, бо не всі екзони можуть бути представлені у зрілій іРНК. Суть проблеми у наявності альтернативних сплайсингових форм.
Одним із аспектів аналізу сіквенсів ДНК є процес визначення нуклеотидної послідовності клону. В експерименті з відомим сіквенсом гену необхідно перевірити чи клонована послідовність насправді ідентична опублікованій. Якщо ні – то експеримент повинен бути змінений з метою отримання коректного сіквенса. Помилки клонування можуть виникати в результаті використання некоректних праймерів при клонуванні, або використання у ланцюговій полімеразній реакції ферменту з низькою фідельністю (нагадаю, що це здатність полімерази міцно утримуватись на ДНК в процесі біосинтезу).
Клон кДНК синтезується з використанням у якості матриці іРНК. Далі він сіквенується з використанням спеціально сконструйованих праймерів до відомих олігонуклеотидів, які є у векторі клонування і які межують з вставленою ДНК. Коли праймери гібридизуються у відповідні сіквенси, вони розмножуються в полімеразній реакції з використанням вставлених сіквенсів як матриці.
Реакція зупиняється вбудовуванням дидеоксинуклеотиду (dATP, dFTP, dTTP, dCTP). Це призводить до утворення серії фрагментів різної довжини, синтез яких закінчився на різних позиціях. Отримані фрагменти розділюються на гем для визначення порядку основ у сіквенсі (рис. 5.2). За один раз неможливо повністю сіквенувати CDS. Тому шляхом множинних вирівнювань будується набір фрагментів. Цей процес називають монтажем сіквенсів (sequence assembly). Для клону монтують консенсусний сіквенс у відповідності до зважування даного для певної позиції нуклеотиду у сіквенсі. Підбираються параметри монтажу щодо числа дозволених на позицію неправильних спарювань. Наприклад, щонайменше, два прочитування на позицію на кожному ланцюзі („” і „”) дає високу надійність результатів (рис. 5.3). Сіквенування і ступінь надійності є результатом затраченого часу і терпіння. Високоякісний кінцевий сіквенс вимагає досвідченого аполітика, багато годин інтерпретації хроматографічних даних і надійної програми монтажу.
4. Інтерпретація пошуків EST
Більшість доступних зараз даних по ДНК отримані як часткові сіквенси, основну кількість яких складають ESTs. Тут ми проаналізуємо їх властивості і їх відношення до інтерпретації сіквенсів. При аналізі ESTs слід мати на увазі наступне:
Абетка EST має п’ять букв: ACGTN( N – ненадійно встановлений нуклеотид, невідомий).
Це може бути фантомний INDELs, отриманий при зсуві рамки трансляції).
EST часто є субсіквенсом іншої послідовності у базі даних.
EST може не представляти CDS будь-якого гену.
Абетка EST
Продукція EST зазвичай високоавтоматизована і типово включає флуоресцентну лазерну систему, яка читає, сіквенуючи гем. Отримані дані сіквенування завантажуються в комп’ютер для модельного аналізу з мінімальною участю людини. Хоча аналіз здійснюється дуже надійними програмами, іноді неможливо прийняти рішення про те, яка основа знаходиться у певній позиції сіквенсу. Тоді програма вставляє символ N. Проте, у відповідності до системи JUPAC можуть вставлятись інші символи, приведені в табл. 5.3. Тому сіквенс міститиме певну кількість символів N.
Нормальний рівень доброї лабораторії <5% Ns. Типово, EST має довжину 200-500 основ, але сучасні технології збільшують теоретичну довжину до 1000 основ і більше.
Вставки, делеції і зсуви рамок
У спрощеному вигляді програми ідентифікації просто виявляють піки флуоресценції чотирьох сіквенуючих реакцій у лініях на секвінуючому гелі. У нормі піки повинні бути через рівні інтервали. Проте, якщо фізичні властивості гелю чи якісь інші умови впливають на потік через нього – це може призвести до збою. Незважаючи на високу надійність програм аналізу, іноді вони або видають основу зашвидко, або зовсім не видають її. Це призводить до так званих фантомних (тіневих) INDELs. На рівні порівняння сіквенсів ДНК існують певні алгоритми вирівнювання. Вони вставляють сигнал INDEL у послідовність до якої вирівнювалась EST.
Для роботи з EST важливо враховувати можливість альтернативного сплайсингу. EST можуть бути фрагментам кількох екзонів. Проте, проблема ускладнюється, коли EST невелика і повністю попадає в певний екзон.
5. Два підходи до „полювання” на гени (hunting)
Останніми роками значні фінансові ресурси затрачені на пошук нових генів, які можуть бути пов’язані з певними хворобами. Вважається, що це дозволить розробити нові терапевтичні підходи до таких хвороб як рак шлунка, астма, нейрон-дегенеративні хвороби тощо. Є дві головні стратегії відкриття білків, які можуть бути використані як молекулярні мішені – для відкриття невеликих молекул-кілерів чи для генної терапії. Першим підходом є клонування. Тут хромосому, яка пов’язана з хворобою встановлюють, аналізуючи популяцію суб’єктів, деякі з яких мають хворобу. Коли виявляють зв’язок з певною ділянкою хромосоми, велику частину хромосоми поблизу цього гену (відому як локус) сіквенують При цьому отримують ДНК в кілька мегаоснов (mega bases). Такий локус може містити кілька десятків генів з яких тільки один може бути пов’язаний з хворобою. Дані послідовно аналізують роль кількох генів у патогенезі шляхом тривалих і трудомістких експериментів. Навіть отримання позитивного результату не гарантує, що ідентифікований ген буде доброю мішенню для лікування.
Другим, альтернативним є так званий аналіз транскриптів РНК. Він вимагає набагато менше зусиль для сіквенування і більш покладається на потужність комп’ютерних систем. Тут порівнюються профілі генів, які експресуються у хворих і здорових індивідуумів. Такий підхід є більш прямим і швидким, хоча знову ж, не гарантує відкриття доброї мішені для терапії.
Єрархія геномної інформації
Геном людини складається з приблизно 3 мільярдів пар основ (basepaites – b.р.) ДНК. З них тільки ~3% є кодуючими. Тобто лишень 3% транскрибуються і транслюються в білки. Решту геному складають області, необхідні для компактної укладки хромосом, реплікації при поділі клітин, контролю транскрипції тощо. Тому можемо мати три рівні геномної інформації:
Хромосомний геном (або просто геном) – генетична інформація загальна для кожної клітини неспецифічної стадії розвитку.
Експресований геном (або транскриптон) – частина геному, яка експресується в клітинах на специфічній стадії розвитку.
Протеон – білкові молекули, сумарна взаємодія яких надає клітині її індивідуального характеру.
Це три основні рівні, але є інші, наприклад, метаболон. Кожен з них вимагає своїх підходів, інструментів і знань. Є два підходи у вивченні геному – визначати його повністю і сфокусуватись лишень на транскрибованій і відповідно трансльованій у білки частині. Перший підхід дає інформацію про повну послідовність нуклеотидів і не залежить від стадії розвитку чи типу клітин організму. Другий – навпаки – є тканинозалежним і може змінюватись у залежності від стадії розвитку клітини. Тобто, клітини експресують різні набори генів на різних стадіях розвитку і в різних режимах функціонування. Характеристичний набір експресованих генів отримав назву профілю експресії клітини. Встановивши профіль експресії можна побідувати картину рівнів експресії генів у нормальній і зміненій клітинах.
6. Бібліотеки кДНК і ESTs
Процедура оцінки профілю експресії досить пряма. Спочатку отримують пробу клітин. Зазвичай, це найбільш складний і тривалий крок, який залежить від джерела клітин. Далі екстрагується РНК і стабілізується з використанням зворотної транскриптази. В результаті на матриці РНК отримують кДНК. Ця кДНК трансформується в бібліотеку кДНК, яку використовують для швидкого сіквенування. Із приблизно 2 млн. клонів білки вибирають на випадковій основі біля 10000 клонів, що сіквенуються. Отримані дані завантажуються в комп’ютер для подальшого аналізу.
Ідеальним вважається результат з 10000 сіквенсів кожен з довжиною 200-400 основ, які представляють частину сіквенса кожного з 10000 клонів з багатьох причин. Не всі сіквенси вдалі. Вдалі сіквенси отримали назву ESTs. Кількість клонів у бібліотеці відображає ефективність екстракції і РНК з клітин. Добрі бібліотеки містять 1млн. клонів і більше. З деякими тканинами і типами клітин важко мати справу – нерідко – це найцікавіші. Тому отримувані білки можуть бути менш репрезентативними. Дійсна кількість різних експресованих генів у клітині може становити кілька тисяч. Їх кількість варіює в залежності від типу клітин: у людини найбільш складний профіль у мозку ~15000 генів, а найпростіший – у шлунку – ~2000 генів. Слід чітко розуміти, що ми вибираємо для сіквенування випадкові клітини і випадкові групи клонів. Тому необхідно чітко розуміти, з чим маємо справу – з невеликою вибіркою від загальної кількості генів.
7. Підходи до аналізу EST
Розроблені різні підходи до аналізу ESTs для академічних і комерційних потреб. Більшість інформації щодо EST зібрано в EMBL Data Library і Gen Bank (gbEST) Постачальники інформації про EST піддають дані детальному аналізу через відносно низьку якість сіквенсів EST. TIGR забезпечує детальну інформацію про протокол.
Merck/JMA GE
У 1994 р. Mercka Co заснувала проект на базі університету м. Вашингтон для сіквенування 300000 ESTs із багатьох нормалізованих бібліотек. Вибравши нормалізовані бібліотеки, кількісна інформація у джерелах тканин підбиралась таким чином, щоб збільшити відбір різних генів. Були вибрані бібліотеки з різних типів тканин, які складають інтерес для багатьох дослідників. Після ідентифікації ліцензовані клони використовуються як реагенти в подальших молекулярно-біологічних експериментах. В результаті Merck продукує індекс лікiв, а зараз і Merck Gene Index. На травень 1997 р. у проекті було депоновано 484421 ESTs.
Incyte
Incyte Pharmacenticals Inc. продукує базy даних life Seq., в якій міститься інформація по сіквенсах бібліотек кДНК. Мета проекту – забезпечити інформацію щодо відносної кількості копій транскрибованих генів у здоровому та хворому організмі для ідентифікації можливих терапевтичних мішеней. У квітні 1998 р. Hite Seq. мала 2,5 млн. ESTs, які представляли 80000-120000 різних генів. Продукти Incyte доступні на комерційній основі і нерідко ліцензуються великими організаціями. Тут видно підхід, коли геном на інформація є джерелом прибутків. TIGR – інститут досліджень геному (The Institute for Genomic Research – TIGR) є неприбутковою дослідницькою організацією з інтересами у структурному, функціональному і порівняльному аналізі геномів і продуктів генів. У сферу об’єктів входять віруси, еубактерії, патогенні бактерії, археї і еукаріоти (рослини і тварини).
Важливим аспектом роботи TIGR є індекс генів людини (Human Gene Index – HGI). Цей індекс інтегрує результати із дослідницьких проектів геному людини, включаючи дані з gbEST, GenBank. Метою проекту є створення загальної картини на гени людини, інформацію щодо їх експресії, функції і еволюційні взаємозв’язки. Дані HGІ вільнодоступні. Тут зібрана інформація з понад 100000 ESTs, 300 кДНК бібліотек, складені з gbEST, поєднані з інформацією про нелишні транскрипти людини (non-redundant Human transcript – HT). Із використанням техніки монтажу сіквенсів (sequence assembly) створено дослідні консенсусні сіквенси людини (Tentative Human Consensus (THC/sequences)).
При підготовці даних необхідно зменшити ризик отримання даних з об’єктів, інших від людини. Наприклад, для сіквенування використовуються вектори мікробного походження. Тому в ході сіквенуваня можливе отримання „брудних” результатів. Їх необхідно відфільтрувати. Разом з видаленням „векторного” забруднення, елімінуються полі-А, полі-Т і полі-СТ-послідовності. Домовились про мінімальну довжину – 100 пар основ з менш, ніж 3% N-основ неідентифікованих точно.
TІGR використали для збирання очищених ESTs і не лишніх HTs у так звані контінгс (coatings). TIGR визначає THCs як консенсусні сіквенси, базованих на двох чи більше ESTs (і, ймовірно, НТ), які перекриваються, щонайменше, на 40 основ і містять, щонайменше, ESTs з різних тканин (TIGR Expressed Gene Anatomy Database (EGAD) містить інформацію щодо тканевої належності ESTs).
Вебсайт TІGR також дає можливість для пошуку через індекс, властивостей і замовлення клону (через АТСС – American Type Culture Collection).
8. EST у базах даних ДНК і їх аналіз
EST за своєю природою неповні і до певного ступеня неточні. Тому в бази даних, де є інформація більш точна від повних СDSs до геномних сіквенсів EST вносять фактор шуму. Позитивним же є те, що ESTs збагачують бази даних сіквенсів ДНК, додаючи часткові сіквенси, які представляють певні гени. Ці сіквенси можуть бути недоступні з інших джерел, бути кодуючими і шкодуючими.
Для аналізу EST доступні багато інструментів, частина з яких – на комерційній основі (наприклад Incyte Life Tools). Тут ми зупинимось тільки на інструментах з вільним доступом. Їх можна поділити на 3 категорії:
інструменти пошуку подібностей сіквенсів;
інструменти монтажу послідовностей;
інструменти кластеризації сіквенсів.
Теорія, на якій ґрунтується пошук подібностей сіквенсів буде проаналізована у наступному розділі. Тут ми зупинимось лишень на інструментах, пов’язаних з EST. Сучасні програми в цілому написані для роботи з EST як окремо, так і компонентом пошукових баз даних. Серія програм BLAST має варіанти, які транслюють бази даних ДНК (TBLASTN); транслюють сіквенси, що вводяться (BLASTX). (Це стосується програми BLAST). Програма FastA також забезпечує подібні можливості.
Коли пошук баз даних показав наявність кількох ESTs подібних до пробного сіквенсу, нормальні ESTs повинні бути вирівняні відносно інших з метою пошуку консенсусних сіквенсів. Зазвичай, подальший пошук з консенсусними послідовностями ідентифікує додаткові ESTs, які влаштовуються в порівняння. Цей тип інтерактивного вирівнювання сіквенсів отримав назву монтаж сіквенсів (sequence assembly). Існує кілька доступних інструментів для проведення для цього процесу. Це – Staden assembler, TIGR assembler, Prap тощо.
Для кластеризації сіквенсів існує багато програм. Взяти великий набір сіквенсів і на основі спільних послідовностей з мінімумом областей перекривання розділити їх на підгрупи або кластери. Надійний і ефективний механізм кластеризації ESTs зменшує кількість лишніх ESTs у базах даних, економить час пошуку баз даних і пошукові зусилля. Такі підходи особливо цінні, коли, наприклад, генерована велика кількість ESTs і нам необхідно встановити, скільки різних генів представлено у наборі. Принцип роботи систем кластеризації EST показаний на рис. 5.6. В одному з підходів до кластеризації використовуються відомі гени. ESTs шукаються проти широкого набору баз даних ДНК і білків, і відомі спроби сортуються в набори (їх часто називають букетоли – buckets), що представляють індивідуальні гени. Такий підхід в нормі дає групу ESTs, які не подібні до ніяких сіквенсів у базах даних. Типово, частина ESTs з даної бібліотеки, які залишаються не уподібненими після порівняння баз даних становить ~40%. Це значення буде знижуватись в міру збільшення інформації від геномних проектів.
Альтернативна стратегія кластеризації ESTs полягає у генерації консенсусних послідовностей, які представляють кожен кластер. Далі проводять пошук у базах даних, використовуючи лишень кластерні консенсусні сіквенси. Це – ідеальне рішення, оскільки воно значно знижує кількість подібних пошуків у базах даних. Проте, успіх цієї стратегії залежить від того, як надійно ESTs можуть бути кластеризовані, що, в свою чергу, залежить і від якості даних EST.
Подальші ускладнення виникають при бажанні дослідити кількість генів, представлених у бібліотеці ESTs, тому, що не всі неуподібнені ESTs можуть представляти різні гени. Треба мати на увазі дві речі. У першому випадку (рис. 5.7 (а), кластер С) може бути картований до неохарактеризованої частини гену. Охарактеризована частина якого вже порівняна з набором чи наборами ESTs (A, B). Так, 3-UTR часто неповні у статтях баз даних чи сіквенси генів можуть бути тільки частковим. У цьому випадку підрахунок невирівняних кластерів EST як представників окремого гену схилятиме підрахунок генів до більшого числа. У другому випадку (рис. 5.7 (б)) можливо, що два чи більше неуподібнені кластери можуть картуватися до різних областей того самого гену. Знову ж це може призводити до надто високого дослідженого представництва гену, якщо неуподібнені кластери враховуються незалежно.

Внимание, отключите Adblock

Вы посетили наш сайт со включенным блокировщиком рекламы!
Ссылка для скачивания станет доступной сразу после отключения Adblock!

Скачать

Рефераты по информатике 1. Потреби в аналізі ДНК. 2. Структура генів і сіквенси ДНК. 3. Властивості аналізу сіквенсів ДНК. 4. Інтерпретація пошуків EST. 5. Два підходи до

Оценок: 715 (Средняя 5 из 5)

Наверняка у вас есть товары или услуги, продажа которых приносит вам максимальную прибыль. Для быстрого старта в сети вам необходимо создание посадочной страницы (одностраничного сайта), на которой будет размещена информация о маржинальных товарах/услугах интернет магазина. За 8 лет опыта разработки конверсионных страниц мы выработали оптимальную структуру, которая позволит привлекать через landing page больше продаж. На такую структуру «одевается» ваш контент — фирменный стиль, тексты, фотографии, уникальные торговые предложения, после чего страница выходит в свет. Разработка лендинга и запуск в сети — до 7 рабочих дней. Стоит отметить, что в разработку самой посадочной страницы входит и написание копирайтером продающих текстов для вашего бизнеса, чтобы каждый посетитель страницы захотел совершить покупку именно у вас. Результат: качественно разработаная продающая посадочная страница, которая готова приносить вам новых клиентов.