Luận án tiến sĩ: Evidence combination in hidden Markov models for gene prediction

Q: Luận án "Luận án tiến sĩ: Evidence combination in hidden Markov models for gene prediction" được bảo vệ tại trường nào?

Luận án này được bảo vệ tại University of Waterloo. Năm bảo vệ: 2005.

Q: Luận án "Luận án tiến sĩ: Evidence combination in hidden Markov models for gene prediction" thuộc chuyên ngành gì?

Luận án "Luận án tiến sĩ: Evidence combination in hidden Markov models for gene prediction" thuộc chuyên ngành Khoa học máy tính. Danh mục: Khoa Học Giáo Dục.

Q: Luận án "Luận án tiến sĩ: Evidence combination in hidden Markov models for gene prediction" có bao nhiêu trang?

Luận án "Luận án tiến sĩ: Evidence combination in hidden Markov models for gene prediction" có 154 trang. Bạn có thể xem trước một phần tài liệu ngay trên trang web trước khi tải về.

Q: Cách tải luận án "Luận án tiến sĩ: Evidence combination in hidden Markov models for gene prediction" về máy như thế nào?

Để tải luận án về máy, bạn nhấn nút "Tải xuống ngay" trên trang này, sau đó hoàn tất thanh toán phí lưu trữ. File sẽ được tải xuống ngay sau khi thanh toán thành công. Hỗ trợ qua Zalo: 0559 297 239.

Bronislava Brejová

Luận án tiến sĩ: Evidence combination in hidden Markov models for gene prediction

Luận án tập trung vào kết hợp bằng chứng trong mô hình Markov ẩn (HMM) để dự đoán gen. Nâng cao độ chính xác, hiệu quả trong sinh học tính toán.

Trường ĐH

University of Waterloo

Chuyên ngành

Khoa học máy tính

Tác giả

Luan An

Thể loại

Luận án tiến sĩ

Năm xuất bản

2005

Số trang

154

Thời gian đọc

24 phút

Lượt xem

0

Lượt tải

0

Phí lưu trữ

50 Point

AUTHOR’S DECLARATION FOR ELECTRONIC SUBMISSION OF A THESIS

Abstract

Acknowledgements

List of Figures

List of Tables

1. Introduction

1.1. The problem of eukaryotic gene finding

1.1.1. Properties of protein coding genes that aid gene prediction

1.1.2. Hidden Markov models and their algorithms

1.1.2.1. Hidden Markov models for sequence annotation

1.1.2.2. The Viterbi algorithm for HMM decoding

1.1.2.3. Generalized hidden Markov models

1.2. Ab initio gene finding

1.2.1. Dynamic programming algorithms

1.2.2. The use of hidden Markov models for gene finding

1.3. Sources of additional evidence in gene finding

1.3.1. Genome comparisons

1.4. Methods for combining evidence in gene finding

1.4.1. Hidden Markov models with multiple outputs

1.4.2. Positional score modification

1.4.3. Pair hidden Markov models

1.4.4. Rule-based systems

1.5. Other sources of information

1.6. Evaluation of gene finding accuracy

2. Evidence Combination in Gene Finding

2.1. Overview of advisor architecture

2.1.1. The base hidden Markov model for gene finding

2.1.2. Advisors and the super-advisor

2.2. Combination of hidden Markov model and super-advisor

2.2.1. Linear and logarithmic opinion pool

2.2.2. Algorithm to incorporate super-advisor into HMM

2.2.3. Expressing evidence as advisors

2.3. Combination of advisors into super-advisor

2.3.1. Combining advisors to minimize distance to the super-advisor

2.3.1.1. Quadratic programming in advisor combination

2.3.1.2. Properties of advisor combination

2.3.2. Linear combination as a special case of advisor combination

2.3.3. Advisors with binary partitions and the influence of priors

2.3.4. Under-constrained advisor combination

2.3.5. Variants of advisor combination

2.3.5.1. Distance measured by Li and Log

2.3.5.2. Distance measured by relative entropy

2.3.6. Naive advisor combination

2.3.7. Experimental comparison of advisor combination methods

2.3.8. Training of advisor weights

2.3.8.1. Weights for linear combination

2.3.8.2. Weights for linear combination including some vacuous advice

2.4. Relaxing the position independence assumption

2.4.1. Selection of super-advisor positions

2.4.2. Choice of exponent

2.5. Other approaches to incomplete information

2.5.1. Dempster-Shafer theory of evidence

2.5.2. Maximum entropy principle

3. Spaced Seeds for Protein Coding Regions

3.1. Introduction to spaced seeds

3.1.1. Expressiveness of vector seeds

3.2. Identifying hits in a sequence database

3.2.1. Predicted performance of vector seeds

3.3. Probabilistic models of conserved coding regions

3.3.1. Dependencies within codon

3.4. Algorithm for computing sensitivity of vector seeds under an HMM

3.4.1. Datasets and models

3.4.2. Our models as predictors of seed performance

3.4.3. Optimal spaced seeds for homologous coding regions

3.4.4. Vector seeds for homologous coding regions

3.4.4.1. Theoretical properties of seeds

3.5. Generalized spaced seeds

3.6. Probabilistic models of alignments

4. ExonHunter: a Comprehensive Eukaryotic Gene Finder

4.1. Extended HMM for gene finding

4.2. Training and testing datasets

4.2.1. Interval representation of alignment-based advisors

4.2.2. Advisors based on protein alignments

4.2.3. Advisors based on EST alignments

4.2.4. Advisors based on genome alignments

4.2.5. Advisors based on sequence repeats

4.3. Signal and content models

4.4. Dependence on GC content

4.5. Performance on short single-gene human sequences

4.6. Performance on longer human genomic sequences

4.7. Contribution of individual advisors

4.8. Performance on the fruit fly genome

5. Conclusion

I.Phát Hiện Gen Với Mô Hình Markov Ẩn Tiên Tiến

Tài liệu này giới thiệu các kỹ thuật mới trong quá trình tìm kiếm gen trong các trình tự bộ gen. Việc xác định gen là bước thiết yếu trong chú thích bộ gen sau khi trình tự được giải mã. Độ chính xác của dự đoán gen có thể được cải thiện đáng kể. Điều này đạt được thông qua việc sử dụng bằng chứng thực nghiệm. Các bằng chứng này bao gồm sự tương đồng giữa bộ gen và cơ sở dữ liệu protein đã biết. Chúng cũng bao gồm sự bảo tồn tiến hóa của trình tự gen ở các loài khác nhau. Một khung linh hoạt được đề xuất để tích hợp nhiều nguồn bằng chứng khác nhau vào một công cụ phát hiện gen. Công cụ này dựa trên mô hình Markov ẩn (HMMs). Phương pháp này giúp xử lý thông tin bị thiếu một cách minh bạch. Nó cũng đối phó hiệu quả với tính chất không đồng nhất của các nguồn bằng chứng riêng lẻ. Công trình này đóng góp đáng kể vào lĩnh vực Bioinformatics, đặc biệt là trong Gene prediction và Gene finding.

1.1. Giới thiệu kỹ thuật dự đoán gen mới

Luận án tập trung vào việc phát triển các phương pháp tiên tiến để xác định vị trí gen trong chuỗi DNA. Phát hiện gen là một thách thức lớn trong sinh học tính toán. Các kỹ thuật truyền thống thường gặp khó khăn với độ phức tạp và lượng dữ liệu khổng lồ. Công trình này giải quyết những hạn chế đó bằng cách đưa ra các cách tiếp cận sáng tạo. Mục tiêu là nâng cao khả năng của các nhà nghiên cứu trong việc chú thích bộ gen chính xác. Điều này có ý nghĩa quan trọng cho việc hiểu chức năng sinh học và bệnh tật. Phát triển kỹ thuật mới giúp đẩy nhanh quá trình giải mã các bộ gen. Nó tạo nền tảng vững chắc cho các nghiên cứu tiếp theo về Genomics.

1.2. Nâng cao độ chính xác phát hiện gen

Độ chính xác của dự đoán gen là mục tiêu hàng đầu. Bằng chứng thực nghiệm đóng vai trò quan trọng trong việc cải thiện độ tin cậy của kết quả. Các nguồn bằng chứng như sự tương đồng với protein đã biết và sự bảo tồn tiến hóa được tích hợp. Sự kết hợp này giảm thiểu sai sót và tăng cường khả năng xác định gen chính xác. Phương pháp mới này giải quyết các vấn đề về dữ liệu không đầy đủ hoặc nhiễu. Nó mang lại một hệ thống mạnh mẽ hơn cho Gene finding. Nâng cao độ chính xác giúp tránh các chú thích sai. Điều này đảm bảo nền tảng dữ liệu đáng tin cậy cho nghiên cứu Genomics và Bioinformatics.

1.3. Vai trò HMMs trong phân tích trình tự

Mô hình Markov ẩn (HMMs) là xương sống của công cụ phát hiện gen được đề xuất. HMMs cung cấp một khung toán học mạnh mẽ để mô hình hóa các trình tự sinh học. Chúng đặc biệt hiệu quả trong việc nắm bắt các phụ thuộc chuỗi và cấu trúc tiềm ẩn. Trong Gene prediction, HMMs có thể biểu diễn các vùng mã hóa (exon) và không mã hóa (intron). Khả năng của HMMs trong việc xử lý dữ liệu trình tự đã được chứng minh rộng rãi. Việc tích hợp HMMs cho phép mô hình hóa xác suất của các trạng thái gen. Điều này dẫn đến các dự đoán chính xác hơn về vị trí và cấu trúc gen. Đây là một ứng dụng tiêu biểu của Hidden Markov Models trong Bioinformatics.

II.Tối Ưu Dự Đoán Gen Bằng Kết Hợp Bằng Chứng

Một khía cạnh then chốt của công trình này là phương pháp Kết hợp bằng chứng (Evidence combination) tiên tiến. Các nguồn bằng chứng đa dạng được biểu diễn dưới dạng các phát biểu xác suất riêng phần. Các phát biểu này cung cấp thông tin về chú thích của các vị trí trong trình tự. Việc kết hợp chúng với mô hình Markov ẩn tạo ra dự đoán gen cuối cùng. Khả năng sử dụng các phát biểu riêng phần mang lại nhiều lợi ích. Nó cho phép xử lý minh bạch các thông tin bị thiếu. Nó cũng giúp đối phó hiệu quả với tính chất không đồng nhất của các nguồn bằng chứng. Tuy nhiên, tính năng này cũng làm cho bước kết hợp trở nên phức tạp hơn. Một phương pháp mới để kết hợp các phát biểu xác suất riêng phần được trình bày. Phương pháp này được chứng minh là một phần mở rộng của các phương pháp hiện có để kết hợp các phát biểu xác suất hoàn chỉnh. Điều này cải thiện đáng kể khả năng của hệ thống trong Gene prediction.

2.1. Khung linh hoạt tích hợp bằng chứng

Khung tích hợp được thiết kế để linh hoạt xử lý nhiều loại bằng chứng. Các bằng chứng này có thể bao gồm dữ liệu homologies hoặc bảo tồn tiến hóa. Mỗi loại bằng chứng cung cấp một cái nhìn riêng về cấu trúc gen. Việc kết hợp chúng một cách thông minh cải thiện độ tin cậy. Khung này cho phép các nhà khoa học tích hợp dữ liệu từ các thí nghiệm khác nhau. Nó xây dựng một bức tranh toàn diện hơn về bộ gen. Tính linh hoạt này là chìa khóa để xử lý sự đa dạng của dữ liệu sinh học. Nó tăng cường hiệu quả tổng thể của quá trình Gene finding, một mục tiêu quan trọng trong Bioinformatics.

2.2. Xử lý thông tin thiếu với xác suất

Thường xuyên, dữ liệu sinh học chứa đựng thông tin bị thiếu hoặc không đầy đủ. Phương pháp đề xuất cho phép biểu diễn các nguồn bằng chứng dưới dạng phát biểu xác suất riêng phần. Điều này có nghĩa là hệ thống có thể hoạt động ngay cả khi không có thông tin hoàn chỉnh. Nó xử lý sự không chắc chắn một cách tự nhiên. Khả năng này rất quan trọng trong môi trường dữ liệu thực tế. Nó cho phép các thuật toán dự đoán gen vẫn hoạt động hiệu quả. Việc xử lý thông tin thiếu minh bạch là một cải tiến lớn. Nó giúp tăng tính ứng dụng của Mô hình Markov ẩn trong thực tế.

2.3. Phát triển phương pháp kết hợp độc đáo

Bước kết hợp các phát biểu xác suất riêng phần là một thách thức. Một phương pháp mới đã được phát triển để giải quyết vấn đề này. Phương pháp này không chỉ kết hợp hiệu quả thông tin. Nó còn được chứng minh là một phần mở rộng của các phương pháp kết hợp xác suất hoàn chỉnh đã có. Điều này đảm bảo tính vững chắc và tính tương thích của nó. Phương pháp này là một đóng góp quan trọng cho lý thuyết kết hợp bằng chứng. Nó cung cấp một cách tiếp cận mạnh mẽ hơn cho Gene prediction. Sự đổi mới này mở ra những con đường mới cho nghiên cứu trong HMMs và Bioinformatics nói chung.

III.Cải Thiện Công Cụ Tìm Kiếm Tương Đồng Gen

Việc sử dụng bằng chứng bảo tồn tiến hóa trình tự đòi hỏi các công cụ hiệu quả và nhạy bén. Các công cụ này cần tìm kiếm các vùng tương tự trong các trình tự rất dài. Luận án trình bày một phương pháp để cải thiện độ nhạy của các công cụ hiện có. Điều này đạt được thông qua việc mô hình hóa cẩn thận các thuộc tính trình tự. Một mô hình Markov ẩn được xây dựng. Mô hình này đại diện cho sự tương đồng điển hình giữa hai vùng mã hóa protein. Sau đó, mô hình này được sử dụng để tối ưu hóa một thành phần của thuật toán heuristic. Thành phần này được gọi là 'hạt giống phân tán' (spaced seed). Các hạt giống được phát hiện cải thiện đáng kể độ chính xác và thời gian chạy. Chúng đặc biệt hiệu quả trong việc tìm kiếm sự tương đồng ở các vùng mã hóa protein. Những cải tiến này áp dụng trực tiếp cho công cụ phát hiện gen của hệ thống. Nó là một bước tiến quan trọng trong Bioinformatics.

3.1. Tăng cường độ nhạy công cụ sinh học

Tìm kiếm các vùng tương đồng trong trình tự DNA là một nhiệm vụ phức tạp. Các công cụ hiện có thường thiếu độ nhạy cần thiết để phát hiện các mối quan hệ tiến hóa xa xôi. Phương pháp được trình bày tập trung vào việc tăng cường khả năng này. Nó giúp các nhà nghiên cứu xác định được nhiều bằng chứng hơn về sự bảo tồn gen. Độ nhạy cao hơn có nghĩa là ít gen bị bỏ sót. Điều này cực kỳ quan trọng đối với Gene finding và chú thích bộ gen chính xác. Việc cải thiện công cụ tìm kiếm giúp khai thác tối đa dữ liệu trình tự. Nó mở rộng phạm vi ứng dụng của HMMs trong phân tích đa loài.

3.2. HMMs mô hình hóa vùng mã hóa protein

Một mô hình Markov ẩn được phát triển đặc biệt để biểu diễn sự tương đồng. Mô hình này tập trung vào các vùng mã hóa protein. Vùng mã hóa protein có những đặc điểm riêng biệt trong trình tự. HMMs cho phép nắm bắt các mẫu này một cách hiệu quả. Bằng cách mô hình hóa các vùng này, hệ thống có thể nhận dạng các đoạn gen quan trọng. Nó làm được điều này ngay cả khi sự tương đồng tổng thể thấp. Việc sử dụng Hidden Markov Models ở đây minh chứng cho tính linh hoạt của chúng. Chúng có thể được tùy chỉnh cho các nhiệm vụ sinh học cụ thể. Đây là một ứng dụng sâu sắc của HMMs trong Bioinformatics để nâng cao độ chính xác của Gene prediction.

3.3. Tối ưu thuật toán hạt giống phân tán

Các hạt giống phân tán là một thành phần quan trọng trong các thuật toán tìm kiếm tương đồng nhanh. Chúng giúp tăng tốc quá trình tìm kiếm bằng cách chỉ kiểm tra một phần nhỏ của trình tự. Tuy nhiên, việc lựa chọn hạt giống tối ưu là rất quan trọng. Phương pháp mới sử dụng HMMs để tối ưu hóa các hạt giống này. Các hạt giống được tìm thấy cải thiện đáng kể hiệu suất tìm kiếm. Chúng giúp tăng độ chính xác và giảm thời gian chạy. Sự tối ưu hóa này có ảnh hưởng trực tiếp đến khả năng của công cụ Gene finding. Nó cho phép phân tích các bộ gen lớn hơn một cách hiệu quả hơn. Đây là một ứng dụng thực tiễn của HMMs để cải thiện hiệu suất tính toán.

IV.Đánh Giá Hiệu Suất Hệ Thống Dự Đoán Gen

Hiệu suất của hệ thống đề xuất và các thành phần riêng lẻ được đánh giá kỹ lưỡng. Việc đánh giá này được thực hiện trên dữ liệu từ bộ gen người và ruồi giấm. Các thử nghiệm trên hai bộ gen này cung cấp cái nhìn toàn diện về khả năng của hệ thống. Bộ gen người đại diện cho một bộ gen phức tạp với nhiều gen. Bộ gen ruồi giấm là một mô hình sinh vật quan trọng, đơn giản hơn. Kết quả đánh giá chứng minh tính hiệu quả của các kỹ thuật mới. Đặc biệt, việc sử dụng các hạt giống được tối ưu hóa đã cải thiện đáng kể độ chính xác. Chúng cũng rút ngắn thời gian chạy của tìm kiếm tương đồng trong vùng mã hóa protein. Những kết quả này củng cố tính ứng dụng và độ tin cậy của phương pháp. Nó khẳng định đóng góp của công trình vào lĩnh vực Gene prediction và Bioinformatics. Việc kiểm tra trên các bộ dữ liệu đa dạng cho thấy khả năng tổng quát hóa của phương pháp.

4.1. Kiểm tra trên bộ gen người và ruồi giấm

Hệ thống dự đoán gen được kiểm tra nghiêm ngặt trên hai bộ gen tiêu chuẩn. Bộ gen người (Homo sapiens) đại diện cho một bộ gen phức tạp với nhiều gen dài và intron lớn. Bộ gen ruồi giấm (Drosophila melanogaster) là một mô hình quan trọng trong nghiên cứu di truyền, có cấu trúc gen khác biệt. Việc đánh giá trên cả hai bộ gen này cho phép kiểm tra tính tổng quát của phương pháp. Nó đảm bảo rằng các kỹ thuật mới hoạt động hiệu quả trên các loài khác nhau. Điều này chứng minh tính ứng dụng rộng rãi của công trình. Nó củng cố vai trò của Hidden Markov Models trong phân tích gen xuyên loài.

4.2. Phân tích chi tiết thành phần hệ thống

Ngoài việc đánh giá hiệu suất tổng thể, các thành phần riêng lẻ của hệ thống cũng được phân tích chi tiết. Điều này bao gồm việc kiểm tra hiệu quả của phương pháp Kết hợp bằng chứng mới. Nó cũng bao gồm đánh giá tác động của hạt giống phân tán được tối ưu hóa. Phân tích từng phần giúp xác định điểm mạnh và điểm yếu cụ thể. Nó cung cấp thông tin quý giá cho các cải tiến trong tương lai. Sự phân tích minh bạch này đảm bảo tính khoa học của các kết quả. Nó đóng góp vào sự hiểu biết sâu sắc hơn về các yếu tố ảnh hưởng đến Gene prediction. Công trình cung cấp bằng chứng thực nghiệm về hiệu quả của các HMMs tiên tiến trong Bioinformatics.

24/03/2026

Xem trước tài liệu

Tải đầy đủ để xem toàn bộ nội dung

Luận án tiến sĩ: Evidence combination in hidden Markov models for gene prediction

Tải xuống file đầy đủ để xem toàn bộ nội dung

Tải đầy đủ (154 trang)

Trích đoạn nội dung luận án

Tải xuống để đọc toàn bộ

Evidence Combination in Hidden Markov Models for Gene Prediction by Bronislava Brejová A thesis presented to the University of Waterloo in fulfilment of the thesis requirement for the degree of Doctor of Philosophy in Computer Science Waterloo, Ontario, Canada, 2005 © Bronislava Brejové 2005 ivi Library and Archives Canada Bibliotheque et Archives Canada Published Heritage Direction du Branch Patrimoine de l'édition 395 Wellington Street 395, rue Wellington Ottawa ON K1A 0N4 Ottawa ON K1A ON4 Canada Canada Your file Votre référence ISBN: 0-494-14466-1 Our file Notre référence ISBN: 0-494-14466-1 NOTICE: AVIS: The author has granted a non- L'auteur a accordé une licence non exclusive exclusive license allowing Library permettant a la Bibliotheque et Archives and Archives Canada to reproduce, Canada de reproduire, publier, archiver, publish, archive, preserve, conserve, sauvegarder, conserver, transmettre au public communicate to the public by par télécommunication ou par I'Internet, préter, telecommunication or on the Internet, distribuer et vendre des theses partout dans loan, distribute and sell theses le monde, a des fins commerciales ou autres, worldwide, for commercial or non- sur support microforme, papier, électronique commercial purposes, in microform, et/ou autres formats. paper, electronic and/or any other formats. The author retains copyright L'auteur conserve la propriété du droit d'auteur ownership and moral rights in et des droits moraux qui protége cette these. Neither the thesis Ni la thése ni des extraits substantiels de nor substantial extracts from it celle-ci ne doivent étre imprimés ou autrement may be printed or otherwise reproduits sans son autorisation.

reproduced without the author's permission. In compliance with the Canadian Conformément a la loi canadienne Privacy Act some supporting sur la protection de la vie privée, forms may have been removed quelques formulaires secondaires from this thesis. ont été enlevés de cette these. While these forms may be included Bien que ces formulaires in the document page count, aient inclus dans la pagination, their removal does not represent il n'y aura aucun contenu manquant.

any loss of content from the thesis. Canada AUTHOR’S DECLARATION FOR ELECTRONIC SUBMISSION OF A THESIS I hereby declare that I am the sole author of this thesis. This is a true copy of the thesis, including any required final revisions, as accepted by my examiners. I understand that my thesis may be made electronically available to the public.

ii Abstract This thesis introduces new techniques for finding genes in genomic sequences. Genes are regions of a genome encoding proteins of an organism. Identification of genes in a genome is an important step in the annotation process after a new genome is sequenced. The prediction accuracy of gene finding can be greatly improved by using experimental evidence.

This evidence includes homologies between the genome and databases of known proteins, or evolutionary conservation of genomic sequence in different species. We propose a flexible framework to incorporate several different sources of such evidence into a gene finder based on a hidden Markov model. Various sources of evidence are expressed as partial probabilistic statements about the annotation of positions in the sequence, and these are combined with the hidden Markov model to obtain the final gene prediction. The opportunity to use partial statements allows us to handle missing information transparently and to cope with the heterogeneous character of individual sources of evidence.

On the other hand, this feature makes the combination step more difficult. We present a new method for combining partial probabilistic statements and prove that it is an extension of existing methods for combining complete probability statements. We evaluate the performance of our system and its individual components on data from the human and fruit fly genomes. The use of sequence evolutionary conservation as a source of evidence in gene finding requires efficient and sensitive tools for finding similar regions in very long sequences.

We present a method for improving the sensitivity of existing tools for this task by careful modeling of sequence properties. In particular, we build a hidden Markov model representing a typical homology between two protein coding regions and then use this model to optimize a component of a heuristic algorithm called a spaced seed. The seeds that we discover significantly improve the accuracy and running time of similarity search in protein coding regions, and are directly applicable to our gene finder. ill Acknowledgements I would like to thank my supervisors Ming Li and Dan Brown for their support, encouragement, and guidance.

Dan Brown carefully read many drafts of this thesis and his comments have greatly improved the presentation. Thanks to my spouse Tomds Vinai for collaborating with me on this research project and for his love, care, and support. I would also like to thank members of my committee Ian Munro, Dale Schuurmans, Mary Thompson, and Franco Preparata for their time. Special thanks to Dale Schuurmans for asking difficult questions and for many helpful discussions about machine learning.

Therese Biedl also read the thesis and provided useful comments. Thanks to many people at the University of Waterloo for inspiration, advice, encouragement and a great open atmosphere. Therese Biedl was a coauthor of my first research paper and taught me a lot in the process. Together with Erik Demaine they organized problem solving sessions that spread contagious enthusiasm for research.

Jonathan Buss and Paul Kearney have provided support during the absence of my supervisor. Also thanks to Jianwei Niu, Mike Hu, Alex Hudek, and Mirela Andronescu for being great office mates. Finally, I would like to thank my parents for their love and for encouraging my interest in science and mathematics. iv Contents 1 Introduction 1 1.1 The problem of eukaryotic gene finding.1 Properties of protein coding genes that aid gene prediction .2 Hidden Markov models and their algorithms.21 Hidden Markov models for sequence annotation.22 The Viterbi algorithm for HMM decoding.23 Generalized hidden Markov models.3 Ab imilio gene ñnding .v kg vi k k va 9 18.1 Dynamic programming algorithms .2 The use of hidden Markov models for gene finding .4 Sources of additional evidence in gene finding.

LH ng ng.4 Genome comparÌi§OnS. kg va lỗ 1.5 Other sources of information .5 Methods for combining evidence in gene finding.1 Hidden Markov models with multiple outputs.2 Positional score modification ©.3 Pair hidden Markov models .4 Rule-based systems.c c Q cu ng nà La ngà và kia 21 1.6 Evaluation of gene finding accuracy.aa la IMHaa 23 2 Evidence Combination in Gene Finding 25 2.1 Overview of advisor architecture 2. ee ee ee 25 2.1 The base hidden Markov model for gene finding.2 Advisors and the super-advisor .2 Combination of hidden Markov model and super-advisor.1 Linear and logarithmic opinion pool .2 Algorithm to incorporate super-advisor into HMM .3 Expressing evidence as advisors. uc Q H n nu ng gu ng kg va j1 2.

Combination of advisors into super-adViSOT .1 Combining advisors to minimize distance to the super-advisor.1 Quadratic programming in advisor combination .2 Properties of advisor combination .0 eee eee ee 2.1 Linear combination as a special case of advisor combination 2.2 Advisors with binary partitions and the influence of priors .3 Under-constrained advisor combination .5 Variants of advisor combination.1 Distance measured by Li and Log 2.2 Distance measured by relative entropy. HQ vn va 2.3 Naive advisor combinatiOn.4 Experimental comparison of advisor combination methods.6 Training ofadvisor welghiSs. cv kg v V T ky 2.1 Weights for linear combination .2 Weights for linear combination including some vacuous advice.8 Experiments ng THHAda.7 Addressing the independence assumption. eee ee es 2.1 Selection of super-advisor positions.2 Choice of exponent @ ©.

ch gà g va 2.4 Relaxing the position independence assumption.8 Other approaches to incomplete information.1 Dempster-Shafer theory of evidence .2 Maximum entropy principle. L c cu ng ng Q ấy và ki kg kia P' 1 n - -dd<ä đa Spaced Seeds for Protein Coding Regions 3.1 Introduction to spaced seeds. Q Q Q Q Q gu ung g v v vi A kia SP.1 Expressiveness OÍ vectOr seed§s. c c Q ch Q Q n kg g và ki v va 3.2 Identifying hits in a sequence database.3 Predicted performance of vector seeds .3 Probabilistic models of conserved coding regions .2 Dependencies within codon.

c Q rà gà Q cv v v va 3. cu kg kia 3. c Q Q Q ng vn ng và và xi nt 3.4 Algorithm for computing sensitivity of vector seeds underanHMM. cu cv cv ng 2 kg gà gi k ki v v va 3.1 Datasets and models .2 Our models as predictors of seed performance.3 Optimal spaced seeds for homologous coding regions .4 Vector seeds for homologous coding regions .1 Theoretical properties of seeds 2.

Q Q Q LH ng ng gà và va vì 3.2 Generalized spaced seeds. LG LH nu vn gà và và 96 3.3 Probabilistic models of alignments. ad đá 99 4 ExonHunter: a Comprehensive Eukaryotic Gene Finder 101 4.1 Extended HMM for gene finding. Q Q Q Q Q b Q vn ng gi v kg v vi v v.

c Q L v vn nu ngà g g g v v k va va 104 4.3 Signal and content models.4 Dependence on GC content. eee eee Woe 107 4.2 Training and testing datasets.1 Interval representation of alignment-based advisors.2 Advisors based on protein alignments .3 Advisors based on EST alignments .4 Advisors based on genome alignments .5 Advisors based on sequence repeats .1 Performance on short single-gene human sequences.2 Performance on longer human genomic sequences.3 Contribution of individual advisors.4 Performance on the fruit fly genome .aaaAŨ 129 5 Conclusion 131 vii List of Figures 1.1 Translation of a gene toa protein.2 Standard genetiC cOde. Q Q Q Q Q c LH ng ng g v v AT v và va 1.3 Example of a labeling representing gene structUT®.4 Typical signals in a multi-exon gene 2.5 A toy hidden Markov model for gene fñnding.6 Example of the topology of an HMM for gene ñnding.7 Example of a local alignment of two sequences.8 A hidden Markov model represented as a Bayesian network .9 Probabilistic model of TwinScan gene finder as a Bayesian network .10 Phylogenetic hidden Markov model.1 Overview of model architecture.2 Experimental comparison of advisor combination methods .3 Bayesian network for training weights of the naive combination method .4 Bayesian network for training weights of the improved naive combination method .1 Example of hits of a spaced seed in an alignment.2 Computation of probability of two consecutive hits of aspaced seed .3 Performance of vector seeds under the simple Bernoulli model.4 A hidden Markov model representing model ).9 A simple hidden Markov model representing the model M® ,.6 A small hidden Markov model representing the model M® .7 A hidden Markov model representing the model M¢*8) ,,.8 Graphical overview of the algorithm for computing vector seed sensitivity .9 Example of execution of the algorithm for computing vector seed sensitivity .10 Example of a trie representing sequences needed to compute the sensitivity of a L2) 0 ee 3.11 A hidden Markov model equivalent toa Markov chan .12 Several alignments of coding regions corresponding to one protein alignment.13 Comparison of real and predicted sensitivity of spaced seeds.1 Overall scheme of the HMM used in ExonHunter.2 Transitions between exon and intron statesinthe HMM .3 Topology of intron submodel .4 Geometric length distribution of human exons and introns .5 Geometric length distribution of human intergenic regions .6 Transitions between the final exon and the stop codon signalinthe HMM .7 Comparison of GC content in coding and non-coding regions .8 Interval score buckets minimizing weighted entropy .9 True positive rate of protein advisors as a function of distance from alignment boundary 113 4.10 Comparison of total alignment score and score per position in protein alignments .11 Intervals produced from alignments with one protein .12 True positive rates of exon protein advisors .13 True positive rates of intron protein advisors.14 True positive rates of EST intron advisors for different label set partitions .15 True positive rates of genome alignment advisors .0 00 ee Na 122 ix List of Tables 1.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Từ khóa liên quan

ExonHunter gene finder Eukaryotic gene prediction Hidden Markov Models Genomic evidence combination Spaced seeds optimization Sequence similarity search

Chủ đề nghiên cứu

Advanced gene finding methodologies Probabilistic modeling in bioinformatics Evidence integration for gene prediction Sequence similarity algorithms development

Câu hỏi thường gặp

Luận án "Luận án tiến sĩ: Evidence combination in hidden Markov models for gene prediction" nghiên cứu về vấn đề gì?