Протеогеномика

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Протеогеномика — это область биологических исследований, в которой используется сочетание протеомики, геномики и транскриптомики, с целью обнаружения и идентификации пептидов. Протеогеномика применяется для идентификации новых пептидов путем сравнения спектров МС/МС (англ. Tandem mass spectrometry) с базой данных белков, которая была получена из геномной и транскриптомной информации. Протеогеномика часто относится к исследованиям, использующим протеомную информацию, полученную, например, методом масс-спектрометрии, для улучшения аннотаций генома (англ. DNA annotation).[1] Геномика изучает ДНК и генетический код целых организмов, в то время как транскриптомика имеет дело с последовательностями РНК и транскриптов. Протеомика использует тандемную масс-спектрометрию и жидкостную хроматографию для определения и изучения функций белков. Протеомика используется для обнаружения всех белков, экспрессируемых в организме, известных как его протеом.[2][3] Нерешённая проблема протеомики заключается в том, что она основывается на предположении, что современные модели генов верны и что правильные последовательности белка можно найти с помощью базы данных эталонных последовательностей; Однако это не всегда так, поскольку некоторые пептиды не могут быть найдены в базах данных. Кроме того, новые белковые последовательности могут возникать в результате мутаций. Данная проблема может быть решена с использованием протеомных, геномных и транскриптомных данных. Совместное использование методов протеомики и геномики привело к появлению протеогеномики, которая выделилась в самостоятельную область в 2004 году.[1][4][5]

Методология[править | править код]

Основная идея протеогеномного подхода заключается в идентификации пептидов путем сравнения данных МС / МС с белковыми базами данных, которые содержат предсказанные белковые последовательности. Базы данных белков создается различными способами с использованием геномных и транскриптомных данных. Ниже приведены некоторые способы создания баз данных белков:

Шестирамочные трансляции[править | править код]

Для создания базы данных, которая предсказывает белковые последовательности, могут быть использованы шесть возможных трансляций двухцепочечной молекулы ДНК. Ограничением этого метода является то, что базы данных будут очень большими из-за количества генерируемых последовательностей, большинство из которых не существуют в природе.[1]

Предсказание генов ab initio[править | править код]

В этом методе белковая основа генерируется с помощью алгоритмов предсказания генов, которые позволяют идентифицировать области, кодирующие белок. База данных, созданная таким образом, похожа на базу данных, созданную с помощью шестирамочной транскрипции, тем, что может иметь очень большой размер.[1]

Другие методы[править | править код]

Белковые БД могут также быть созданы с использованием данных РНК-секвенирования, аннотированных РНК транскриптов, и вариантов белковых последовательностей. Кроме того, существуют другие более специализированные базы данных белков, которые могут быть созданы для корректной идентификации конкретных пептидов.[1]

К другому методу идентификации белков в протеогеномике относится сравнительная протеогеномика, которая основана на сравнении протеомных данных нескольких связанных видов одновременно и использует гомологию между их белками для улучшения аннотаций с более высокой статистической достоверностью.[6][7]

Применения[править | править код]

Среди многообразных применений протеогеномики улучшение аннотации генов у различных организмов. Как известно, генная аннотация включает в себя обнаружение генов и их функций.[8] Особенно полезной протеогеномика стала в области создания и улучшения аннотаций геномов различных прокариотических организмов. Протеогеномный подход использовался в исследованиях по аннотации геномов различных микроорганизмов: Escherichia coli, различные виды бактерий родов Mycobacterium и Shewanella. [9]

Помимо улучшения аннотаций генов, протеогеномные исследования могут также предоставить ценную информацию о наличии запрограммированных сдвигов рамок считывания, удаление N-концевого остатка метионина, сигнальных пептидов, протеолиза и других посттрансляционных модификаций.[4][6]

Трудности[править | править код]

Протеогеномика может предложить методы идентификации пептидов, не имея проблемы в виде неполных и неточных белковых баз данных, с которой сталкивается протеомика; однако при использовании протеогеномного подхода возникают другие трудности.[1] Одна из самых больших проблем протеогеномики — размер генерируемых баз данных белков. Статистически, большая база данных белков с большей вероятностью приведет к неправильному сопоставлению данных из базы данных белков с данными МС/МС, эта проблема может помешать идентификации новых пептидов. Большое количество ложноположительных результатов идентификации также представляет трудность при протеогеномном подходе. Ложноположительные результаты могут возникать в результате формирования очень больших баз данных белков, где несоответствующие данные приводят к неправильной идентификации. Другой проблемой является неправильное сопоставление спектров МС/МС с данными белковой последовательности, которые соответствуют аналогичному пептиду вместо фактически присутствующего. Возможно получение данных о пептиде, расположенном в нескольких сайтах, в результате чего эти данные могут быть интерпретированы различными способами. Несмотря на эти проблемы, существуют способы уменьшить количество возникающих ошибок. Например, при работе с очень большой базой данных белков можно сравнить идентифицированные новые пептидные последовательности со всеми последовательностями в базе данных, а затем сравнить посттрансляционные модификации. Затем можно определить, представляют ли две последовательности один и тот же пептид или это два разных пептида.[1]

Примечания[править | править код]

  1. 1 2 3 4 5 6 7 Nesvizhskii, Alexey I. Proteogenomics: concepts, applications and computational strategies (англ.) // Nature Methods : journal. — 2014. — 1 November (vol. 11, no. 11). — P. 1114—1125. — doi:10.1038/nmeth.3144. — PMID 25357241. — PMC 4392723.
  2. Sajjad, Wasim; Rafiq, Muhammad; Ali, Barkat; Hayat, Muhammad; Zada, Sahib; Sajjad, Wasim; Kumar, Tanweer. Proteogenomics: New Emerging Technology // HAYATI Journal of Biosciences. — 2016. — Июль (т. 23, № 3). — С. 97—100. — doi:10.1016/j.hjb.2016.11.002.
  3. Генетика. Энциклопедический словарь. — Минск: Белорусская наука. Картель Н. А., Макеева Е. Н., Мезенко А. М.. 2011.
  4. 1 2 Gupta N., Tanner S., Jaitly N., Adkins J.N., Lipton M., Edwards R., Romine M., Osterman A., Bafna V., Smith R.D., et al. Whole proteome analysis of post-translational modifications: Applications of mass-spectrometry for proteogenomic annotation. Genome Res. 2007;17:1362-1377.
  5. Ansong, C.; Smith, R.D.; Purvine, S.O.; Lipton, M.S.; Adkins, J.N. Proteogenomics: needs and roles to be filled by proteomics in genome annotation (англ.) // Brief. Funct. Genomics Proteomics : journal. — 2008. — January (no. 7). — P. 50—62. — doi:10.1093/bfgp/eln010.
  6. 1 2 Gupta N., Benhamida J., Bhargava V., Goodman D., Kain E., Kerman I., Nguyen N., Ollikainen N., Rodriguez J., Wang J., et al. Comparative proteogenomics: Combining mass spectrometry and comparative genomics to analyze multiple genomes. Genome Res. 2008;18:1133–1142.
  7. Gallien S., Perrodou E., Carapito C., Deshayes C., Reyrat J. M., Van Dorsselaer A., Poch O., Schaeffer C., Lecompte O. ( 2009) Ortho-proteogenomics: multiple proteomes investigation through orthology and a new MS-based protocol. Genome Res 19, 128– 135.
  8. Ansong, C.; Purvine, S. O.; Adkins, J. N.; Lipton, M. S.; Smith, R. D. Proteogenomics: needs and roles to be filled by proteomics in genome annotation (англ.) // Брифинги по функциональной геномике[англ.] : journal. — 2008. — 7 March (vol. 7, no. 1). — P. 50—62. — doi:10.1093/bfgp/eln010. — PMID 18334489.
  9. Kucharova, Veronika; Wiker, Harald G. Proteogenomics in microbiology: Taking the right turn at the junction of genomics and proteomics (англ.) // Proteomics : journal. — 2014. — December (vol. 14, no. 23—24). — P. 2360—2675. — doi:10.1002/pmic.201400168. — PMID 25263021.

Ссылки[править | править код]

  • [fis.wikireading.ru/3046 Уиггинс Артур Протеомика: следующий рубеж]