Luận án tiến sĩ: Enhancements to hidden Markov models for gene finding and other biological applications

Tomas Vinar

Luận án tiến sĩ: Enhancements to hidden Markov models for gene finding and other biological applications

Luận án tiến sĩ này cải tiến mô hình Markov ẩn (HMMs) để tìm gen và ứng dụng sinh học khác. Nghiên cứu tăng cường độ chính xác.

Trường ĐH

University of Waterloo

Chuyên ngành

Computer Science

Tác giả

Luan An

Thể loại

Luận án tiến sĩ

Năm xuất bản

2005

Số trang

158

Thời gian đọc

24 phút

Lượt xem

2

Lượt tải

0

Phí lưu trữ

50 Point

I.Tối ưu Mô hình Markov ẩn cho phát hiện gen hiệu quả

Luận án tập trung vào việc tăng cường khả năng của mô hình Markov ẩn (HMM). Mục tiêu chính là cải thiện quá trình phát hiện gen trong trình tự DNA. Phát hiện gen là một bước nền tảng. Nó cho phép phân tích dữ liệu trình tự DNA. Gen đóng vai trò là khuôn mẫu cho quá trình tổng hợp protein. Do đó, việc xác định chính xác vị trí gen rất quan trọng. Mô hình Markov ẩn là công cụ cốt lõi được sử dụng rộng rãi. Tuy nhiên, các mô hình hiện có vẫn còn những hạn chế. Luận án này giải quyết các giới hạn đó. Nó đề xuất ba phương pháp mới. Các phương pháp này mở rộng khả năng của HMM. Chúng giúp nắm bắt các thuộc tính thống kê của trình tự DNA tốt hơn. Mỗi phương pháp đều đối mặt với những yếu tố giới hạn cụ thể. Các yếu tố này đòi hỏi sự đánh đổi. Sự đánh đổi diễn ra giữa độ chính xác của mô hình và các ràng buộc tài nguyên. Luận án cung cấp các giải pháp tối ưu. Nó cân bằng giữa hiệu suất và tính khả thi. Kết quả giúp cải thiện đáng kể độ chính xác của dự đoán gen. Đồng thời, nó duy trì hiệu quả tính toán. Luận án tạo ra một nền tảng vững chắc. Nền tảng này cho các nghiên cứu sinh học tiếp theo.

1.1. Tầm quan trọng phát hiện gen trong phân tích DNA

Gen là những đoạn DNA thiết yếu. Chúng chứa thông tin để tổng hợp protein. Sự hiểu biết về gen là chìa khóa. Nó giải mã chức năng và cấu trúc sinh học. Phát hiện gen chính xác là bước đầu tiên quan trọng. Bước này cần thiết trong phân tích dữ liệu trình tự DNA. Các dự án bộ gen phụ thuộc vào điều này. Nó là cơ sở cho y học cá nhân hóa. Nó cũng là cơ sở cho phát triển thuốc mới. Phương pháp hiệu quả hơn cần thiết. Chúng giúp đẩy nhanh tốc độ nghiên cứu sinh học.

1.2. Nâng cao khả năng Mô hình Markov ẩn HMM

Mô hình Markov ẩn (HMM) là công cụ thống kê mạnh mẽ. Chúng được ứng dụng rộng rãi trong tin sinh học. Đặc biệt là trong phát hiện gen. Tuy nhiên, các HMM truyền thống có thể không đủ. Chúng không thể nắm bắt hết sự phức tạp của DNA. Luận án này giới thiệu các cải tiến đột phá. Các cải tiến này vượt qua giới hạn hiện tại. Chúng cho phép HMM xử lý dữ liệu sinh học tốt hơn. Các phương pháp mới tập trung vào thuộc tính thống kê. Chúng cải thiện khả năng dự đoán của mô hình. Điều này bao gồm xử lý các yếu tố hạn chế. Các yếu tố này ảnh hưởng đến độ chính xác và thời gian tính toán.

II.Cải tiến mô hình tín hiệu sinh học trong DNA

Luận án đề xuất một phương pháp tiên tiến. Phương pháp này xây dựng các mô hình tốt hơn. Chúng giúp nhận dạng tín hiệu sinh học trong trình tự DNA. Các tín hiệu này bao gồm các vị trí bắt đầu gen hoặc điểm nối exon. Các mô hình mới có khả năng đặc biệt. Chúng nắm bắt các phụ thuộc không kề. Các phụ thuộc này tồn tại trong các tín hiệu sinh học. Chúng thường bị bỏ qua bởi các phương pháp truyền thống. Việc nhận diện các mối quan hệ phức tạp này rất quan trọng. Nó giúp cải thiện đáng kể độ chính xác của dự đoán gen. Tuy nhiên, việc xây dựng các mô hình phức tạp hơn không phải không có thách thức. Yếu tố hạn chế chính là lượng dữ liệu huấn luyện. Để các mô hình này hoạt động hiệu quả, chúng cần một lượng lớn dữ liệu. Dữ liệu huấn luyện chất lượng cao rất cần thiết. Nếu lượng dữ liệu không đủ, mô hình có thể không học được. Điều này dẫn đến hiệu suất kém. Luận án thảo luận về sự đánh đổi này. Nó xem xét giữa độ phức tạp của mô hình và lượng dữ liệu sẵn có. Mục tiêu là tạo ra mô hình mạnh mẽ. Chúng vẫn giữ được tính thực tế trong ứng dụng.

2.1. Nhận dạng tín hiệu sinh học và phụ thuộc không kề

Các tín hiệu sinh học trong DNA rất phức tạp. Chúng thường chứa các phụ thuộc. Các phụ thuộc này không nằm cạnh nhau. Các HMM truyền thống thường bỏ qua chúng. Luận án phát triển mô hình mới. Chúng có thể nhận diện các phụ thuộc không kề. Điều này nâng cao khả năng phân tích. Nó giúp xác định chính xác hơn các vùng chức năng. Cụ thể, các tín hiệu bắt đầu hoặc kết thúc gen. Sự hiểu biết sâu sắc về các phụ thuộc này. Điều đó dẫn đến dự đoán gen có độ tin cậy cao hơn.

2.2. Hạn chế từ lượng dữ liệu huấn luyện sẵn có

Sự phức tạp của mô hình đòi hỏi dữ liệu. Dữ liệu huấn luyện đủ là yếu tố then chốt. Mô hình càng chi tiết, càng cần nhiều dữ liệu. Điều này giúp mô hình học các mẫu phức tạp. Nếu dữ liệu huấn luyện hạn chế. Khả năng xây dựng mô hình mạnh mẽ bị cản trở. Điều này có thể dẫn đến hiện tượng overfitting. Mô hình học quá sát dữ liệu cụ thể. Nó không khái quát hóa tốt cho dữ liệu mới. Cần một sự cân bằng hợp lý. Cân bằng giữa độ phức tạp và khả năng huấn luyện.

III.Tối ưu phân bố độ dài HMM và hiệu suất tính toán

Luận án trình bày các phương pháp mới. Các phương pháp này cải thiện việc biểu diễn phân bố độ dài trong HMM. Phân bố độ dài rất quan trọng. Nó mô tả độ dài của các vùng gen. Ví dụ như exon hoặc intron. Một biểu diễn chính xác phản ánh sinh học thực tế. Nó dẫn đến kết quả dự đoán gen đáng tin cậy hơn. Tuy nhiên, độ chính xác này đi kèm với một sự đánh đổi. Sự đánh đổi nằm ở thời gian chạy. Thời gian cần thiết để tìm gen trong các trình tự mới có thể tăng lên. Việc thiết kế phương pháp cần một sự cân bằng tinh tế. Cần đảm bảo độ chính xác đủ cao. Đồng thời, giữ thời gian tính toán ở mức chấp nhận được. Một mô hình quá chi tiết có thể làm tăng đáng kể. Điều đó làm tăng chi phí tính toán. Một mô hình quá đơn giản có thể bỏ lỡ các chi tiết quan trọng. Nó làm giảm độ chính xác. Luận án tập trung vào việc tìm kiếm điểm tối ưu này. Nó phát triển các thuật toán hiệu quả. Các thuật toán này có thể xử lý tốt các phân bố độ dài phức tạp. Chúng vẫn duy trì hiệu suất cần thiết. Điều này rất quan trọng cho các ứng dụng thực tế. Đặc biệt là trong việc xử lý các bộ gen lớn.

3.1. Đại diện phân bố độ dài chính xác trong HMM

Độ dài của các yếu tố gen thay đổi. Sự biến đổi này tuân theo các phân bố thống kê. HMM cần khả năng mô tả chúng. Việc này phải được thực hiện một cách chính xác. Luận án phát triển phương pháp mới. Chúng biểu diễn các phân bố độ dài tốt hơn. Điều này bao gồm cả các phân bố phi chuẩn. Biểu diễn chính xác nâng cao độ tin cậy. Nó làm cho dự đoán cấu trúc gen đáng tin cậy hơn. Nó giúp phân biệt rõ ràng các loại vùng gen khác nhau.

3.2. Cân bằng giữa độ chính xác và thời gian chạy thuật toán

Việc cải thiện độ chính xác luôn cần thiết. Tuy nhiên, nó không thể tách rời chi phí. Chi phí này là thời gian chạy. Đặc biệt là trong các ứng dụng quy mô lớn. Luận án xem xét cẩn thận điều này. Nó cân bằng giữa khả năng mô hình hóa và hiệu quả tính toán. Các thuật toán mới được tối ưu hóa. Chúng đảm bảo rằng việc tìm gen vẫn khả thi. Ngay cả khi xử lý lượng lớn dữ liệu. Sự cân bằng này là yếu tố then chốt. Nó quyết định tính thực tiễn của công cụ phát hiện gen.

IV.Thách thức cấu trúc liên kết HMM phức tạp trong gen

Luận án chỉ ra một khía cạnh quan trọng. Việc tạo ra các mô hình Markov ẩn với cấu trúc liên kết phức tạp có thể phản tác dụng. Điều này đúng trừ khi áp dụng các thuật toán dự đoán phức tạp hơn. Cấu trúc liên kết phức tạp thường được kỳ vọng. Chúng giúp tích hợp nhiều kiến thức sinh học hơn. Từ đó, cải thiện độ chính xác. Tuy nhiên, nghiên cứu cho thấy điều ngược lại. Các mô trúc phức tạp có thể làm giảm hiệu suất dự đoán. Điều này xảy ra nếu thuật toán giải quyết không đủ mạnh. Các thuật toán dự đoán phức tạp hơn này đòi hỏi thời gian chạy dài hơn. Trong nhiều trường hợp, bài toán dự đoán có thể trở thành NP-hard. Điều này gây ra một thách thức lớn. Việc kết hợp kiến thức sinh học tiên nghiệm vào mô hình. Mục đích là để đạt được độ chính xác cao nhất. Nó có thể dẫn đến thời gian chạy không thực tế. Do đó, cần cân nhắc kỹ lưỡng. Cân nhắc giữa độ phức tạp mô hình và khả năng tính toán. Luận án cung cấp cái nhìn sâu sắc về giới hạn này. Nó giúp các nhà nghiên cứu đưa ra lựa chọn thiết kế sáng suốt hơn. Sự hiểu biết này rất quan trọng. Nó định hình hướng phát triển các công cụ tin sinh học trong tương lai.

4.1. Cấu trúc liên kết HMM phức tạp và độ chính xác

Mô hình Markov ẩn với cấu trúc liên kết phức tạp. Chúng được thiết kế để nắm bắt các mối quan hệ sâu hơn. Tuy nhiên, sự phức tạp này có nhược điểm. Nó có thể làm giảm độ chính xác dự đoán. Đặc biệt là khi không có các thuật toán mạnh mẽ. Các thuật toán này được tối ưu hóa cho cấu trúc đó. Điều này cho thấy mối quan hệ tinh tế. Mối quan hệ giữa cấu trúc mô hình và hiệu suất thuật toán. Thiết kế HMM cần sự cẩn trọng.

4.2. Khó khăn tính toán và kiến thức sinh học tích hợp

Các thuật toán dự đoán phức tạp yêu cầu nhiều tài nguyên. Chúng thường đòi hỏi thời gian tính toán lớn. Điều này gây ra rào cản thực tế. Nhất là khi bài toán là NP-hard. Đối với phát hiện gen, điều này có ý nghĩa. Việc tích hợp kiến thức sinh học sâu rộng có thể không khả thi. Thời gian xử lý sẽ trở nên không chấp nhận được. Cần tìm giải pháp tối ưu. Giải pháp cân bằng giữa độ sâu của mô hình và hiệu quả tính toán.

V.Ứng dụng mô hình Markov ẩn cho nhiều bài toán sinh học

Các phương pháp cải tiến được trình bày không chỉ giới hạn. Chúng không chỉ áp dụng cho phát hiện gen. Chúng còn có thể được sử dụng. Chúng giải quyết các vấn đề sinh học khác. Điều này đặc biệt đúng. Đúng với những ứng dụng có trình tự đầu vào ngắn. Ví dụ bao gồm nhận dạng vị trí gắn kết protein. Hoặc dự đoán cấu trúc RNA. Khả năng ứng dụng rộng rãi này chứng minh tính linh hoạt. Nó cũng chứng minh tính hiệu quả của các cải tiến. Luận án đã xây dựng một trình tìm gen. Tên là ExonHunter. ExonHunter hoạt động như một ví dụ mô hình. Nó đánh giá và xác thực các phương pháp. ExonHunter thể hiện hiệu suất vượt trội. Nó vượt qua các chương trình phổ biến. Các chương trình này thường được sử dụng trong các dự án bộ gen. Điều này cung cấp bằng chứng cụ thể. Nó chứng minh giá trị và tiềm năng của các cải tiến HMM. ExonHunter là một công cụ mạnh mẽ. Nó là một minh chứng rõ ràng. Minh chứng cho khả năng của các mô hình HMM nâng cao. Nó giúp thúc đẩy nghiên cứu trong lĩnh vực tin sinh học.

5.1. Khả năng ứng dụng rộng rãi cho trình tự sinh học ngắn

Ngoài phát hiện gen, các cải tiến HMM mở ra cánh cửa. Chúng mở ra cho nhiều ứng dụng sinh học khác. Đặc biệt là với các trình tự đầu vào ngắn. Điều này bao gồm nhận dạng các motif chức năng. Nó cũng bao gồm phân tích các vùng điều hòa. Các phương pháp mới cung cấp công cụ linh hoạt. Chúng giúp giải quyết các thách thức khác nhau. Điều này mở rộng phạm vi ứng dụng của HMM.

5.2. Đánh giá ExonHunter Hiệu suất và vượt trội

Để chứng minh hiệu quả, một trình tìm gen đã được phát triển. Tên là ExonHunter. ExonHunter tích hợp các cải tiến của luận án. Nó được sử dụng làm ví dụ minh họa. Các thử nghiệm cho thấy hiệu suất vượt trội. ExonHunter đánh bại các chương trình tiêu chuẩn. Các chương trình này thường được dùng trong giải trình tự bộ gen. Thành công của ExonHunter xác nhận giá trị. Nó xác nhận tính thực tiễn của các phương pháp được đề xuất.

24/03/2026

Xem trước tài liệu

Tải đầy đủ để xem toàn bộ nội dung

Luận án tiến sĩ: Enhancements to hidden Markov models for gene finding and other biological applications

Tải xuống file đầy đủ để xem toàn bộ nội dung

Tải đầy đủ (158 trang)

Trích đoạn nội dung luận án

Tải xuống để đọc toàn bộ

Enhancements to Hidden Markov Models for Gene Finding and Other Biological Applications by Tomas Vinar A thesis presented to the University of Waterloo in fulfilment of the thesis requirement for the degree of Doctor of Philosophy in Computer Science Waterloo, Ontario. 2005 © Tomas Vina 2005 ivi Library and Archives Canada Bibliotheque et Archives Canada Published Heritage Direction du Branch Patrimoine de l'édition 395 Wellington Street 395, rue Wellington Ottawa ON K1A 0N4 Ottawa ON K1A ON4 Canada Canada Your file Votre référence ISBN: 0-494-14634-6 Our file Notre référence ISBN: 0-494-14634-6 NOTICE: AVIS: The author has granted a non- L'auteur a accordé une licence non exclusive exclusive license allowing Library permettant a la Bibliotheque et Archives and Archives Canada to reproduce, Canada de reproduire, publier, archiver, publish, archive, preserve, conserve, sauvegarder, conserver, transmettre au public communicate to the public by par télécommunication ou par I'Internet, préter, telecommunication or on the Internet, distribuer et vendre des theses partout dans loan, distribute and sell theses le monde, a des fins commerciales ou autres, worldwide, for commercial or non- sur support microforme, papier, électronique commercial purposes, in microform, et/ou autres formats. paper, electronic and/or any other formats. The author retains copyright L'auteur conserve la propriété du droit d'auteur ownership and moral rights in et des droits moraux qui protége cette these.

Neither the thesis Ni la thése ni des extraits substantiels de nor substantial extracts from it celle-ci ne doivent étre imprimés ou autrement may be printed or otherwise reproduits sans son autorisation. reproduced without the author's permission. In compliance with the Canadian Conformément a la loi canadienne Privacy Act some supporting sur la protection de la vie privée, forms may have been removed quelques formulaires secondaires from this thesis. ont été enlevés de cette these.

While these forms may be included Bien que ces formulaires in the document page count, aient inclus dans la pagination, their removal does not represent il n'y aura aucun contenu manquant. any loss of content from the thesis. Canada AUTHOR’S DECLARATION FOR ELECTRONIC SUBMISSION OF A THESIS I hereby declare that I am the sole author of this thesis. This is a true copy of the thesis, including any required final revisions, as accepted by my examiners.

I understand that my thesis may be made electronically available to the public. il Abstract In this thesis, we present enhancements of hidden Markov models for the problem of finding genes in DNA sequences. Genes are the parts of DNA that serve as a template for synthesis of proteins. Thus, gene finding is a crucial step in the analysis of DNA sequencing data.

Hidden Markov models are a key tool used in gene finding. Yhis thesis presents three methods for extending the capabilities of hidden Markov models to better capture the sta- tistical properties of DNA sequences. In all three, we encounter limiting factors that lead to trade-offs between the model accuracy and those limiting factors. First, we build better models for recognizing biological signals in DNA sequences.

Our new models capture non-adjacent dependencies within these signals. In this case, the main limiting factor is the amount of training data: more training data allows more complex models. Second, we design methods for better representation of length distributions in hidden Markov models, where we balance the accuracy of the representation against the running time needed to find genes in novel sequences. Finally, we show that creating hidden Markov models with complex topologies may be detrimental to the prediction accuracy, unless we use more complex prediction algorithms.

However, such algorithms require longer running time, and in many cases the prediction problem is NP-hard. For gene finding this means that incorporating some of the prior biological knowledge into the model would require impractical running times. However, we also demonstrate that our methods can be used for solving other biological problems, where input sequences are short. As a model example to evaluate our methods, we built a gene finder ExonHunter that outperforms programs commonly used in genome projects.

ill Acknowledgements I would like to thank all the people, who contributed to this thesis. Thanks to both of my supervisors Ming Li and Dan Brown. During my years of PhD studies, they provided me with tremendous amount of support and extraordinary freedom to pursue my own curiosity, yet they were always eager to work on the problems with me and give me a guidance: to Brona Brejova. my wife, my best friend.

and also my closest research collaborator. I would also like to thank members of my committee Therese Bied], Ian Munro, Burkhard Morgenstern, and Romy Shioda for their guidance and insightful comments. Special thanks to people who helped me in the beginnings of my research career by many hours spent in helpful discussions: Jonathan Badger, Haoyvong Zhang, John Tsang, and Michael Hu. Thanks to Martin Demaine and Therese Biedl, who always encouraged me to start new things, and who helped me to set up bioinformatics problem sessions.

Special thanks to Therese, under whose guidance we wrote our first research paper. Thanks to all the other people with whom I had a pleasure to co-author research papers and reports: Jonathan Buss, Erik Demaine, Chrysanne DiMarco, Mohammadtaghi Haji- aghayi, Angele Hamel, Masud Hasan, lan Harrower, Sandra Romero Hidalgo, Gina Holguin, Joe D. Horton, Alejandro Lopez-Ortiz, and Cheryl Patten. but definitely not least, I would like to thank my parents, for supporting me and encouraging me in all my endeavors.

IV To my brother, who left us early.1 Sequence Annotation and Hidden Markov Models .1 Hidden Markov Models.2 Algorithms for Decoding Hidden Markov Models.1 Computing the Most Probable State Path.3 Combining Viterbi and Posterior Decoding.3 Training Hidden Markov Models.3 Beyond Maximum Likelihood .2 Introduction to Gene Finding .1 Statistical Properties of Genes in DNA Sequences .1 Differences in k-mer Composition .2 Conserved Signal Sequences .2 Previous Work: Programs for Ab Initio Gene Finding .3 Beyond Ab Initio Gene Finding .5 Experimental Verification of Gene Predictions .1 Methods Based on Random Sampling .2 Genome-Wide Analysis .3 Prediction Driven Methods .3 Hidden Markov Models for Gene Finding.3 Start and Stop Sites 2.4 Untranslated Regions and Intergenic Region .5 Putting the Pieces Together .0 vo VI 2 Higher Order Tree Models for Signal Recognition 35 2.1 Intra-signal Dependencies and HOT Models .2 Maximum Likelihood Training of£ HOT Models.1 HOT Models and Hypergraphs .2 Finding the Optimal Topology for Tree Models .3 Minimum Spanning Directed Hypertree is NP-hard .4 Finding the Optimal HOT Topology by Integer Programming .5 Greedy Heuristic for Finding a Good HOT Topology .1 Using Generative Models as Classifiers .3 Donor Site Experiments .4 Relationship Between Model Order and the Amount of Training Data 58 2.5 Acceptor Site Experiments.6 Signal Models in Gene Finding. an 63 Length Distributions in HMMs 65 3.1 Generalized HMMs with Explicit State Duration. Distributions with Geometric Tails 2. Maximum Likelihood Training.

Decoding HMMs with Geometric-Tail Lengths.3 Decoding Geometric-Tail Distributions with Large Values oft .4 Gadgets of States.1 Phase-type Distributions .2 Gadgets of States and the Viterbi Algorithm .5 Length Distributions of Complex Sub-models.1 A Viterbi Algorithm for Boxed HMMs. Boxed HMMs with Geometric-Tail Distributions.6 Summary and Experiments.000 00004 92 Finding the Most Probable Annotation 97 4.1 Comparing Decoding by the Most Probable Path and by the Most Probable Annotation 2.2 Finding the Most Probable Annotation is NP-hard .21 Proof of Lyngsø and Pedersen.2 Layered Graphs and the BEST-LAYER-COLORING Problem.3 From Laver Colorings toHMMs .4 Constructing a Small HIM that is NP-hard to Decode .3 Computing the Most Probable Annotation .1 Most Probable Extended Annotation .2 Critical Edge Condition .3 Silent States and the Critical Edge Condition .4 Applications of the EVA .5 Generalizing the EVA and the Critical Edge Condition. ee 126 5 Implementing ExonHunter 129 5.1 Hidden Markov Model of ExonHunter.2 Common Sequence Repeats. ga g k kg va 133 5.3 Performance of ExonHunter on Human Sequences .4 Performance of ExonHunter on Fruit Fly Sequences.

xa 136 6 Conclusion 137 A Datasets and Their Preparation 139 A.1 ENCODE Gene Prediction Workshop.2 Chromosome 22 Annotated with RefSeq .3 Augustus Training Set.4 SpliceDB Collection of Splice Site Signals.5 Fruit Fly Datasets 2. gà kg kg kg va 140 Bibliography 141 vill List of Figures 1.1 Example of a hidden Markov model.2 A simple HMM topology for transmembrane protein topology prediction .3 Central dogma of molecular biology .4 Translating nucleotide sequences to protein sequences .5 Summary of biological signals important for gene finding. cà và va kg na 19 1.7 Logo of 5’ (donor) splice site.8 Logo of 3’ (acceptor) splice site 2.9 Logo of region [—20, —5] before the acceptor splice site .10 Logo of translation start signal .11 Logo of translation stop signal.12 Example of exon model.13 Example oŸ an intron model.14 Start site model. gà kg kg kg vo 30 1.15 Stop site model .16 HMM for a sequence with a single gene on the forward strand .17 HMM for a multi gene sequence with genes on both strands .1 Pairwise dependencies in human donor splice site .2 Examples of different model topologies for donor signal .3 Minimum spanning directed hypertree is NP-hard .4 Minimum spanning directed hypertree is NP-hard (cont).9 Comparison of models inferred by integer programming and a greedy algorithm 50 2.6 Graphs comparing sensitivity and specificity .7 Comparison of donor site prediction for PWM-2 and HOT-2 .8 Detail of ROC curve for second order models of donor site.

actual fraction of true positives.10 The HOT-3 model dominates IDD model of donor site.11 Specificity of donor models at 90% sensitivity with increasing amount of train- ing data 2.12 Pairwise dependencies in human acceptor splice site .1 Length distributions in Human chromosome 22.2 Approximation of length distributions by geometric distributions.3 Example of a geometric-tail distribution .4 Approximation by geometric-tail distributions .9 Alternative implementation of geometric-tail distributions .6 Generalization capacity of geometric-tail distributions .7 Geometric-tail distribution gadget for large values of f.8 Step-function approximation of length distribution.9 Gadget generating non-geometric length distribution in HMM .10 Family of distributions generated by the gadget from Figure 3.11 Gadget with geometric length distribution replaces gadget from Figure 3.12 3-periodic Markov chains used for modeling exons .13 Alternative model of intron .14 Example of boxed HMM. gà và kg kg va 3.15 Intron lengths of fruit fy.1 The most probable path is different than the most probable annotation .2 HMM A: An HMM with the multiple path problem .3 HMM B: Simplified model of HMMA .4 Comparison of different decoding methods .5 NP hardness of the most probable labeling—gadget for vertexv .6 Example of the construction of Lyngso and Pedersen (2002) .7 Illustration of the BEST-LAYER-COLORING problem .8 Overview of NP-completeness proof of BEST-LAYER-COLORING .9 Part of SAT(c, y) component corresponding to one variable.10 Example of assembly of SAT components .11 Overview of ENCODE and EQ. c c c Q Q Q r ng Q2 2 TT va 4.12 One section of component MULT(#):a —2 @(#) .14 One section of component SQUARE(z):1—— K(n)—b(z).15 Encoding formulas and assignments for HAIAI solvingSAT.16 HAIM solving SẤT”. gà gà kg kg va 4.17 HMM with critical edges.18 An HMM violating critical edge condition .19 Usefulness of silent states.20 Simplified model of ESTScan .21 Simple model of exon/intron structure 2.22 TMHMM: prediction of topology of transmembrane proteins .23 HMM requiring generalized EVA algorithm.24 An HMM with unknown decoding algorithm.

List of Tables 1.1 Standard genetic code. wc gà va 15 1.2 Correlation of 3-mer composition of sequence elements in gene finding .3 Classification of objects in union of predicted and correct objects.1 Position weight matrix for donor site .2 Finding optimal solution with CPLEX (running time).3 Characteristics of data sets used for testing of signal models .4 Specificity at various sensitivity levels and reliability score of donor site models 54 2.5 Structures inferred for structured HƠI models.6 Specifcity and reliability seore of acceptor site models.7 Performance of signal models in gene finding.1 Overview of methods for modeling length distributions .2 Performance of non-geometric length distributions on gene finding in human 94 3.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Từ khóa liên quan

Hidden Markov Models enhancements Gene finding algorithms DNA sequence analysis ExonHunter gene finder Biological signal recognition HMM HMM length distribution modeling

Chủ đề nghiên cứu

Advanced Hidden Markov Models in Bioinformatics Computational Methods for Gene Finding Optimizing HMMs for Biological Signal Recognition HMM Performance and Algorithmic Trade-offs

Câu hỏi thường gặp

Luận án "Luận án tiến sĩ: Enhancements to hidden Markov models for gene finding and other biological applications" nghiên cứu về vấn đề gì?

Luận án tiến sĩ này cải tiến mô hình Markov ẩn (HMMs) để tìm gen và ứng dụng sinh học khác. Nghiên cứu tăng cường độ chính xác.

Luận án "Luận án tiến sĩ: Enhancements to hidden Markov models for gene finding and other biological applications" được bảo vệ tại trường nào?

Luận án này được bảo vệ tại University of Waterloo. Năm bảo vệ: 2005.

Luận án "Luận án tiến sĩ: Enhancements to hidden Markov models for gene finding and other biological applications" thuộc chuyên ngành gì?

Luận án "Luận án tiến sĩ: Enhancements to hidden Markov models for gene finding and other biological applications" thuộc chuyên ngành Computer Science. Danh mục: Khoa Học Giáo Dục.

Luận án "Luận án tiến sĩ: Enhancements to hidden Markov models for gene finding and other biological applications" có bao nhiêu trang?

Luận án "Luận án tiến sĩ: Enhancements to hidden Markov models for gene finding and other biological applications" có 158 trang. Bạn có thể xem trước một phần tài liệu ngay trên trang web trước khi tải về.

Cách tải luận án "Luận án tiến sĩ: Enhancements to hidden Markov models for gene finding and other biological applications" về máy như thế nào?

Để tải luận án về máy, bạn nhấn nút "Tải xuống ngay" trên trang này, sau đó hoàn tất thanh toán phí lưu trữ. File sẽ được tải xuống ngay sau khi thanh toán thành công. Hỗ trợ qua Zalo: 0559 297 239.

Luận án liên quan

Chia sẻ tài liệu: Facebook Twitter

Mục lục chi tiết

Tóm tắt nội dung