Спектрально-аналитический метод поиска протяженных повторяющихся нуклеотидных последовательностей в геномах
Диссертация
Первые годы двадцать первого столетия ознаменовали начало новой эры в понимании живых систем — были ссквенированы геномы человека и основных модельных эукариотических организмов. Накопленный к настоящему времени и постоянно увеличивающийся объем генетической информации открывает возможности для проведения полномасштабных исследований на уровне целых геномов, однако при этом возникает… Читать ещё >
Содержание
- 1. Повторяющиеся структуры в геномах
- 1. 1. Классификация структур
- 1. 1. 1. Диспергированные повторы
- 1. 1. 2. Тандемные повторы
- 1. 2. Биологическое значение
- 1. 3. Основные задачи и подходы
- 1. 1. Классификация структур
- 2. Спектральный метод распознавания повторов
- 2. 1. Структурная схема метода
- 2. 2. Применение к геномам
- 2. 2. 1. Преобразование нуклеотидной последовательности в функцию-аналог
- 2. 2. 2. Восстановление нуклеотидной последовательности из функции-аналога
- 2. 2. 3. Получение спектров разложения
- 2. 2. 4. Сравнение спектров разложения
- 2. 2. 5. Точечная матрица для отображения результатов сравнения
- 2. 3. Преобразования в пространстве коэффициентов
- 3. Алгоритмы
- 3. 1. Вычисление коэффициентов разложения
- 3. 1. 1. Выбор метода разложения
- 3. 1. 2. Разложение функции по коэффициентам
- 3. 2. Маски и отображение на матрице
- 3. 3. Координаты повторов
- 3. 4. Поиск периода протяженных тандемных повторов
- 3. 5. Программная реализация
- 3. 1. Вычисление коэффициентов разложения
- 4. Тестирование и применение спектрального метода
- 4. 1. Сравнение с аналогами
- 4. 2. Тандемные повторы
- 4. 3. Инвертированные повторы
- 4. 4. Регионы синтении
Список литературы
- Wolfsberg Т. G., McEntyre J., Schuler G. D. Guide to the draft human genome//Nature. 2001. V. 409. P. 824−826.
- Collins F. S., Morgan M., Patrinos A. The Human Genome Project: lessons from large-scale biology // Science. 2003. Apr. V. 300, No. 5617. P. 286 290.
- Richard G.-F., Kerrest A., Dujon B. Comparative Genomics and Molecular Dynamics of DNA Repeats in Eukaryotes // Microbiology and molecular biology reviews MMBR. 2008. V. 72, No. 4. P. 686−727. URL: http://www.ncbi.nlm.nih.gov/pubmed/19 052 325.
- Vanin E. F. Processed pseudogenes: characteristics and evolution. // Annu Rev Genet. 1985. V. 19. P. 253−272.
- McCarrey J. R., Thomas K. Human testis-specific PGK gene lacks introns and possesses characteristics of a processed gene // Nature. 1987. V. 326, No. 6112. P. 501−505.
- Initial sequencing and analysis of the human genome / E. S. Lander, L. M. Linton, B. Birren et al. // Nature. 2001. Feb. V. 409, No. 6822. P. 860−921.
- Long E. O., Dawid I. B. Repeated genes in eukaryotes // Annu. Rev. Biochem. 1980. V. 49. P. 727−764.
- McClintock B. The origin and behavior of mutable loci in maize // Proc. Natl. Acad. Sci. U.S.A. 1950. Jun. V. 36, No. 6. P. 344−355.
- Льюин Б. Гены. M.: Мир, 1987. С. 647.
- A unified classification system for eukaryotic transposable elements. / T. Wicker, F. Sabot, A. Hua-Van et al. // Nat Rev Genet. 2007. Dec. V. 8, No. 12. P. 973−982. URL: http://dx.doi.org/10.1038/nrg2165.
- Belancio V. P., Hedges D. J., Deininger P. Mammalian non-LTR retrotrans-posons: for better or worse, in sickness and in health. // Genome Res. 2008. Mar. V. 18, No. 3. P. 343−358. URL: http://dx.doi.org/10.1101/gr.5 558 208.
- Chromosomal evolution in Saccharomyces. / G. Fischer, S. A. James, I. N. Roberts et al. // Nature. 2000. May. V. 405, No. 6785. P. 451 454. URL: http://dx.doi.org/10.1038/35 013 058.
- Initial sequencing and comparative analysis of the mouse genome / R. H. Waterston, K. Lindblad-Toh, E. Birney et al. // Nature. 2002. Dec. V. 420, No. 6915. P. 520−562.
- Молекулярная биология клетки: в трех томах. Т.1 / Б. Альберте, Д. Брей, Дж. Льюис и др. М: Мир, 1994. С. 517.
- Pritham Е. J., Putliwala Т., Feschotte С. Mavericks, a novel class of giant transposable elements widespread in eukaryotes and related to DNA viruses. // Gene. 2007. Apr. V. 390, No. 1−2. P. 3−17. URL: http://dx.doi.Org/10.1016/j.gene.2006.08.008.
- Prokopowich C. D., Gregory T. R., Crease T. J. The correlation between rDNA copy number and genome size in eukaryotes // Genome. 2003. Feb. V. 46, No. 1. P. 48−50.
- KIT S. Equilibrium sedimentation in density gradients of DNA preparations from animal tissues // J. Mol. Biol. 1961. Dec. V. 3. P. 711−716.
- Walker P. M. Origin of satellite DNA // Nature. 1971. Jan. V. 229, No. 5283. P. 306−308.
- Lohe A. R., Hilliker A. J., Roberts P. A. Mapping simple repeated DNA sequences in heterochromatin of Drosophila melanogaster // Genetics. 1993. Aug. V. 134, No. 4. P. 1149−1174.
- Sharma S., Raina S. N. Organization and evolution of highly repeated satellite DNA sequences in plant chromosomes. // Cyto-genet Genome Res. 2005. V. 109, No. 1−3. P. 15−26. URL: http://dx.doi.org/10.1159/82 377.
- Tyler-Smith C., Willard H. F. Mammalian chromosome structure. // Curr Opin Genet Dev. 1993. Jun. V. 3, No. 3. P. 390−397.
- Miklos G. Localized highly repetitive DNA sequences in verterbrate and inverterbrate genomes // Maclntyre R.J. (ed), Molecular Evolutionary Genetics. Plenum, New York. 1985. P. 241−321.
- Prakash M. Genomic Evolution. Discovery Publishing Pvt. Ltd, 2007. P. 320.
- Queller D. C., Strassmann J. E., Hughes C. R. Microsatellites and kinship // Trends Ecol. Evol. (Amst.). 1993. Aug. V. 8, No. 8. P. 285−288.
- Analysis of the largest tandemly repeated DNA families in the human genome / P. E. Warburton, D. Hasson, F. Guillem et al. // BMC Genomics. 2008. V. 9. P. 533.
- Поиск мегасателлитных тандемных повторов в геномах эукариот по оценке осцилляций кривых GC-содержания. / Р. К. Тетуев, Н. Н. На-зипова, А. Н. Панкратов и др. // Математическая биология и бион-форматика. 2010. Т. 5, № 1. С. 302.
- Bums К. Н., Boeke J. D. Great exaptations. /'/ J Biol. 2008. V. 7, No. 2. P. 5. URL: http://dx.doi.org/10.1186/jbiol66.
- Deininger P. L., Batzer M. A. Mammalian retroelements. // Genome Res. 2002. Oct. V. 12, No. 10. P. 1455−1465. URL: http://dx.doi.org/10.1101/gr.282 402.
- Feschotte C., Pritham E. J. DNA transposons and the evolution of eu-karyotic genomes. // Annu Rev Genet. 2007. V. 41. P. 331−368. URL: http://dx.doi.org/10.1146/annurev.genet.40.110 405.090448.
- Eucaryotic genome evolution through the spontaneous duplication of large chromosomal segments. / R. Koszul, S. Caburet, B. Dujon et al. // EMBO J. 2004. Jan. V. 23, No. 1. P. 234−243.
- Inversions disrupting the factor VIII gene are a common cause of severe haemophilia A. / D. Lakich, H. H. Kazazian, S. E. Antonarakis et al. // Nat Genet. 1993. Nov. V. 5, No. 3. P. 236−241. URL: http://dx.doi.org/10.1038/ngll93−236.
- Emery A. E. Emery-Dreifuss syndrome. // J Med Genet. 1989. Oct. V. 26, No. 10. P. 637−641.
- Small K., Iber J., Warren S. T. Emerin deletion reveals a common X-chromosome inversion mediated by inverted repeats. // Nature Genetics. 1997. V. 16, No. 1. P. 96−99.
- Fragile X syndrome unstable element, p (CCG)n, and other simple tandem repeat sequences are binding sites for specific nuclear proteins / R. I. Richards, K. Holman, S. Yu et al. // Hum. Mol. Genet. 1993. Sep. V. 2, No. 9. P. 1429−1435.
- Mitas M. Trinucleotide repeats associated with human disease // Nucleic Acids Res. 1997. Jun. V. 25, No. 12. P. 2245−2254.
- Toth G., Gaspari Z., Jurka J. Microsatellites in different eukaryotic genomes: survey and analysis // Genome Res. 2000. Jul. V. 10, No. 7. P. 967−981.
- Gibbs A., Mclntyre G. The diagram, a method for comparing sequences Its use with amino acid sequences // European Journal of Biochemistry. 1970. V. 16. P. 1−11.
- Sonnhammer E. L., Durbin R. A dot-matrix program with dynamic threshold control suited for genomic DNA and protein sequence analysis. // Gene. 1995. Dec. V. 167, No. 1−2. P. GC1-G10.
- OWEN: aligning long collinear regions of genomes. / A. Y. Ogurtsov, M. A. Roytberg, S. A. Shabalina et al. // Bioinformatics. 2002. Dec. V. 18, No. 12. P. 1703−1704.
- Krumsiek J., Arnold R., Rattei T. Gepard: a rapid and sensitive tool for creating dotplots on genome scale // Bioinformatics. 2007. Apr. V. 23, No. 8. P. 1026−1028.
- Needleman S. B., Wunsch C. D. A general method applicable to the search for similarities in the amino acid sequence of two proteins // J. Mol. Biol. 1970. Mar. V. 48, No. 3. P. 443−453.
- Smith T. F., Waterman M. S. Identification of common molecular subsequences // J. Mol. Biol. 1981. Mar. V. 147, No. 1. P. 195−197.
- Basic local alignment search tool / S. F. Altschul, W. Gish, W. Miller et al. // J. Mol. Biol. 1990. Oct. V. 215, No. 3. P. 40310.
- Groult R., Leonard M., Mouchard L. Speeding up the detection of evolutive tandem repeats. // Theor. Comput. Sci. 2004. V. 310, No. 1−3. P. 309−328.
- Benson G. Tandem repeats finder: a program to analyze DNA sequences // Nucleic Acids Res. 1999. Jan. V. 27, No. 2. P. 573−580.
- Benson G. Sequence alignment with tandem duplication // J. Comput. Biol. 1997. V. 4, No. 3. P. 351−367.
- Hamming R. W. Error detecting and error correcting codes // Bell System Technical Journal. NEW YORK, 1950. V. 29, No. 2. P. 147−160.
- Kolpakov R., Bana G., Kucherov G. mreps: Efficient and flexible detection of tandem repeats in DNA // Nucleic Acids Res. 2003. Jul. V. 31, No. 13. P. 3672−3678.
- Landau G. M., Schmidt J. P., Sokol D. An algorithm for approximate tandem repeats // J. Comput. Biol. 2001. V. 8, No. 1. P. 1−18.
- Sokol D., Benson G., Tojeira J. Tandem repeats over the edit distance // Bioinformatics. 2007. Jan. V. 23, No. 2. P. 30−35.
- Levenshtein V. I. Binary codes capable of correcting, deletions, insertions and reversals // Soviet Phys. Dokl. 1966. No. 10. P. 707−710.
- Smit A. F. A., Hubley R., Green P. RepeatMasker Ореп-З.О. 1996−2004. URL: http://www.repeatmasker.org.
- FORRepeats: detects repeats on entire chromosomes and between genomes / A. Lefebvre, T. Lecroq, H. Dauchel et al. // Bioinformatics. 2003. Feb. V. 19, No. 3. P. 319−326.
- REPuter: the manifold applications of repeat analysis on a genomic scale / S. Kurtz, J. V. Choudhuri, E. Ohlebusch et al. // Nucleic Acids Res. 2001. Nov. V. 29, No. 22. P. 4633^1642.
- Felsenstein J., Sawyer S., Kochin R. An efficient method for matching nucleic acid sequences // Nucleic Acids Res. 1982. Jan. V. 10, No. 1. P. 133−139.
- Benson D. C. Fourier methods for biosequence analysis // Nucleic Acids Res. 1990. Nov. V. 18, No. 21. P. 6305−6310.
- Волков В. В., Леонтьев А. Ю. Исследование симметрии генетических текстов методом Фурье-анализа // Биополимеры и клетка. 1990. Т. 6, № 6. С. 68−72.
- Spectral Repeat Finder (SRF): identification of repetitive sequences using Fourier transformation / D. Sharma, B. Issac, G. P. Raghava et al. // Bioinformatics. 2004. Jun. V. 20, No. 9. P. 1405−1412.
- Du L., Zhou H., Yan H. OMWSA: detection of DNA repeats using moving window spectral analysis // Bioinformatics. 2007. Mar. V. 23, No. 5. P. 631−633.
- PARALIGN: rapid and sensitive sequence similarity searches powered by parallel computing technology / P. E. Saeb, S. M. Andersen, J. Myrseth et al. // Nucleic Acids Res. 2005. Jul. V. 33, No. Web Server issue. P. W535−539.
- Обобщенный спектрально-аналитический метод. / Ф. Ф. Дедус, А. Ф. Дедус, С. А. Махортых и др. М.: Машиностроение, 1999.
- Панкратов А. Н. Алгебраические операции над ортогональными рядами в задачах обработки данных. Дис. канд. физ.-мат. наук: Вычислительный центр им. А. А. Дородницына РАН. 2004.
- Тетуев Р. К. Алгебра спектральных преобразований в задачах обработки данных. Дис. канд. физ.-мат. наук: Вычислительный центр им. А. А. Дородницына РАН. 2007.
- Курант Р, Гильберт Д. Методы математической физики. Т.1. Гостех-издат. М.- Л., 1951. С. 476.
- Ильин В. А. Базисы в евклидовых пространствах и ряды Фурье // Соросовский образовательный журнал. 1998. № 4. С. 95−101.
- Аналитические методы распознавания повторяющихся структур в геномах / Ф. Ф. Дедус, Л. И. Куликова, С. А. Махортых и др. // Доклады Академии Наук. 2006. Т. 411, № 5. С. 599−602.
- Recognition of the structural-functional organization of genetic sequences / R. K. Tetuev, F. F. Dedus, L. I. Kulikova et al. // Moscow University Computational Mathematics and Cybernetics. 2007. V. 31, No. 2. P. 49−53.
- Spectral analysis for identification and visualization of repeats in genetic sequences / A. Pankratov, M. Pyatkov, F. Dedus et al. // Pattern Recognition and Image Analysis. 2009. V. 19, No. 4. P. 687−692.
- Сингер В., Берг П. Гены и геномы: В 2-х т. Т. 2. Пер. с англ. М:. Мир, 1998. С. 391.
- Никифоров А. Ф., Суслов С. К., Уваров В. Б. Классические ортогональные полиномы дискретной переменной. М.: Наука, 1985. С. 215.
- Никифоров А. Ф., Скачков М. В. Методы вычисления q-полиномов // Матем. моделирование. 2001. Т. 13, № 8. С. 85−94.
- Хэмминг Р. В. Численные методы для научных работников и инженеров. Пер. с англ. М.: Наука, 1972. С. 400.
- Numerical Recipes in С. The Art of Scientific Computing. / W. Press, S. Teukolsky, W. Vetterling et al. Cambridge University Press., 1992.
- Pankratov A. N., Tetuev R. K., Pyatkov M. 1. Fast Spectral Estimation of Genetic Homology. 2010. July. Retrieved December 14, 2012. URL: http://software.intel.com/en-us/articles/fast-spectral-estimation-of-genetic-homology.
- Tetuev R. K., Nazipova N. N. Consensus of repeated region of mouse chromosome 6 containing 60 tandem copies of a complex pattern // Rep-base Reports. 2010. V. 10, No. 5. P. 776.
- ClustalW and ClustalX version 2.0 / M. A. Larkin, G. Blackshields, N. P. Brown et al. // Bioinformatics. 2007. Nov. V. 23, No. 21. P. 29 472 948.
- Pyatkov M. I., Filippov V. V., Pankratov A. N. Consensus of repeated region of rabbit chromosome 17 containing over 15 huge approximate tandem repeats. // Repbase Reports. 2012. V. 12, No. 3. P. 256.
- Pyatkov M., Pankratov A. SBARS manual. 2012. December. Retrieved January, 2013. URL: http://mpyatkov.github.com/sbars/.
- A physical map of the human Y chromosome / C. A. Tilford, T. Kuroda-Kawaguchi, H. Skaletsky et al. // Nature. 2001. Feb. V. 409, No. 6822. P. 943−945.
- Gelfand Y., Rodriguez A., Benson G. TRDB-the Tandem Repeats Database // Nucleic Acids Res. 2007. Jan. V. 35, No. Database issue. P. D80−87.
- Comparative analyses of human single- and multilocus tandem repeats / D. Ames, N. Murphy, T. Helentjaris et al. // Genetics. 2008. Jul. V. 179, No. 3. P. 1693−1704.
- Giacalone J., Friedes J., Francke U. A novel GC-rich human macrosatellite VNTR in Xq24 is differentially methylated on active and inactive X chromosomes//Nat. Genet. 1992. May. V. 1, No. 2. P. 137−143.
- A novel tandem repeat sequence located on human chromosome 4p: isolation and characterization / M. Kogi, S. Fukushige, C. Lefevre et al. // Genomics. 1997. Jun. V. 42, No. 2. P. 278−283.
- Analysis of the tandem repeat locus D4Z4 associated with facioscapulohumeral muscular dystrophy / J. E. Hewitt, R. Lyle, L. N. Clark et al. // Hum. Mol. Genet. 1994. Aug. V. 3, No. 8. P. 1287−1295.
- Human megasatellite DNA RS447: copy-number polymorphisms and interspecies conservation / Y. Gondo, T. Okada, N. Matsuyama et al. // Genomics. 1998. Nov. V. 54, No. 1. P. 3919.
- Repbase Update, a database of eukaryotic repetitive elements / J. Jurka, V. V. Kapitonov, A. Pavlicek et al. // Cytogenet. Genome Res. 2005. V. 110, No. 1−4. P. 462−167.
- Tetuev R. K., Nazipova N. N., Dedus F. F. Consensus of repeated region of rat chromosome 4 similar to mouse chromosome 6 repeated region, enclosed in the intergenic region between genes Hrhl and Atg7 // Repbase Reports. 2010. V. 8, No. 8. P. 1185.
- Identification of brain-specific and imprinted small nucleolar RNA genes exhibiting an unusual genomic organization / J. Cavaille, K. Buiting, M. Kiefmann et al. // Proc. Natl. Acad. Sci. U.S.A. 2000. Dec. V. 97, No. 26. P. 14 311−14 316.
- Inverted Alu repeats unstable in yeast are excluded from the human genome / K. S. Lobachev, J. E. Stenger, O. G. Kozyreva et al. // EM-BO J. 2000. Jul. V. 19, No. 14. P. 3822−3830.
- Genome sequence of the Brown Norway rat yields insights into mammalian evolution. / R. A. Gibbs, G. M. Weinstock, M. L. Metzker et al. // Nature. 2004. Apr. V. 428, No. 6982. P. 493−521.
- Loots G., Ovcharenko 1. ECRbase: database of evolutionary conserved regions, promoters, and transcription factor binding sites in vertebrate genomes // Bioinformatics. 2007. Jan. V. 23, No. 1. P. 122−124.
- Vladimirova A. Intel Integrated Performance Primitives Documentation. 2012. July. Retrieved January, 2013. URL: http://software.intel.com/en-us/articles/intel-integrated-performance-primitives-documentation.