Khai thác dữ liệu genomic bằng hàm boolean

Sungroh Yoon

Khai thác dữ liệu genomic bằng hàm boolean - Luận án tiến sĩ

Luận án tiến sĩ về khai thác dữ liệu genomic sử dụng biclustering và boolean functions. Phương pháp vượt trội trong phân tích gene expression và dự đoán microRNA modules.

Trường ĐH

stanford university

Chuyên ngành

Electrical Engineering

Tác giả

Luan An

Thể loại

Luận án

Năm xuất bản

2005

Số trang

190

Thời gian đọc

29 phút

Lượt xem

1

Lượt tải

0

Phí lưu trữ

50 Point

I. Khai Thác Dữ Liệu Genomic Bằng Hàm Boolean

Khai thác dữ liệu genomic đã trở thành lĩnh vực quan trọng trong bioinformatics hiện đại. Các công nghệ high-throughput tạo ra lượng dữ liệu sinh học khổng lồ. Phương pháp phân tích genomic truyền thống gặp khó khăn khi xử lý khối lượng thông tin này. Hàm boolean cung cấp giải pháp hiệu quả cho bài toán data mining sinh học. Kỹ thuật này sử dụng toán tử logic AND OR NOT để truy vấn cơ sở dữ liệu sinh học. Phương pháp mới dựa trên zero-suppressed binary decision diagrams (ZBDDs) cho phép xử lý dữ liệu quy mô lớn. Ứng dụng chính bao gồm phân tích biểu hiện gen và dự đoán module điều hòa microRNA. Cách tiếp cận này vượt trội so với các phương pháp thống kê truyền thống về tốc độ và độ chính xác.

1.1. Tổng Quan Về Data Mining Sinh Học

Data mining sinh học là quá trình trích xuất tri thức từ dữ liệu genomic. Các cơ sở dữ liệu như NCBI và GenBank chứa hàng tỷ trình tự gen. Phân tích biểu hiện gen yêu cầu công cụ tìm kiếm mạnh mẽ. Clustering là kỹ thuật học không giám sát phổ biến trong phân tích dữ liệu. Biclustering thực hiện phân cụm đồng thời trên hàng và cột của ma trận dữ liệu. Phương pháp này phát hiện các mẫu xuất hiện dưới dạng submatrices có thể chồng lấp.

1.2. Thách Thức Trong Truy Vấn Genomic

Bài toán biclustering vốn dĩ khó giải và khó xấp xỉ. Dữ liệu trung gian trong quá trình biclustering có quy mô khổng lồ. Các thuật toán truyền thống không thể xử lý hiệu quả khối lượng thông tin này. Thời gian phản hồi của các phương pháp cũ quá chậm cho ứng dụng thực tế. Độ chính xác của kết quả phân tích thường không đạt yêu cầu. Cần có giải pháp mới để vượt qua những hạn chế này.

1.3. Vai Trò Của Toán Tử Boolean

Toán tử logic AND OR NOT tạo nền tảng cho Boolean query genomics. Các phép toán boolean cho phép biểu diễn điều kiện tìm kiếm phức tạp. Hàm boolean có thể mô hình hóa mối quan hệ giữa các gen. Kỹ thuật symbolic manipulation giúp tối ưu hóa quá trình tính toán. ZBDDs biểu diễn ngầm định các tập hợp lớn một cách compact. Phương pháp này giảm đáng kể yêu cầu về bộ nhớ và thời gian xử lý.

II. Thuật Toán Biclustering Với Hàm Boolean

Thuật toán biclustering mới dựa trên thao tác symbolic với hàm boolean. ZBDDs đóng vai trò trung tâm trong việc biểu diễn dữ liệu. Phương pháp này có khả năng tìm tất cả biclusters thỏa mãn tham số đầu vào. Không giống các thuật toán heuristic, giải pháp này đảm bảo tính đầy đủ. Quá trình xử lý dữ liệu trung gian được tối ưu hóa triệt để. Thuật toán có thể xử lý ma trận dữ liệu với hàng nghìn hàng và cột. Thời gian thực thi nhanh hơn đáng kể so với các phương pháp thay thế. Kết quả phân tích phù hợp chặt chẽ với kiến thức sinh học đã biết.

2.1. Cấu Trúc Zero Suppressed Binary Decision Diagrams

ZBDDs là cấu trúc dữ liệu đặc biệt để biểu diễn tập hợp. Khác với BDDs thông thường, ZBDDs tối ưu cho tập hợp sparse. Cấu trúc này nén dữ liệu bằng cách loại bỏ các nút không cần thiết. Mỗi nút trong ZBDD đại diện cho một quyết định binary. Các đường dẫn trong đồ thị tương ứng với các phần tử của tập hợp. ZBDDs cho phép thực hiện các phép toán tập hợp hiệu quả. Biểu diễn canonical đảm bảo tính duy nhất của mỗi tập hợp.

2.2. Quy Trình Phân Tích Biclustering

Quá trình bắt đầu bằng việc chuyển đổi ma trận dữ liệu sang biểu diễn boolean. Mỗi phần tử trong ma trận được ánh xạ thành một biến boolean. Thuật toán xây dựng ZBDD để biểu diễn tất cả các bicluster tiềm năng. Các tham số đầu vào xác định kích thước tối thiểu và mức độ đồng nhất. Phép toán boolean được áp dụng để lọc các bicluster không thỏa mãn. Kết quả cuối cùng là tập hợp các bicluster tối ưu. Mỗi bicluster chứa tập hợp gen và điều kiện tương ứng.

2.3. Tối Ưu Hóa Hiệu Suất Tính Toán

Kỹ thuật caching giảm số lượng phép toán trùng lặp. Dynamic variable ordering cải thiện kích thước của ZBDD. Garbage collection tự động giải phóng bộ nhớ không sử dụng. Parallel processing có thể được áp dụng cho các phép toán độc lập. Pruning strategies loại bỏ sớm các nhánh không triển vọng. Memory management thông minh ngăn chặn tràn bộ nhớ. Các tối ưu hóa này cho phép xử lý datasets có quy mô thực tế.

III. Phân Tích Biểu Hiện Gen Bằng Boolean Query

Phân tích biểu hiện gen là ứng dụng quan trọng của khai thác dữ liệu genomic. Dữ liệu microarray chứa thông tin về mức độ hoạt động của hàng nghìn gen. Boolean query genomics giúp tìm kiếm trình tự gen có mẫu biểu hiện tương tự. Các gen cùng bicluster thường tham gia vào cùng một con đường sinh học. Phương pháp này phát hiện được các mối liên hệ không rõ ràng trong dữ liệu. Kết quả phân tích cung cấp insight về cơ chế điều hòa gen. Ứng dụng trong nghiên cứu bệnh ung thư đã cho thấy kết quả hứa hẹn. Kỹ thuật này vượt trội so với clustering truyền thống về khả năng phát hiện co-regulation.

3.1. Thu Thập Và Tiền Xử Lý Dữ Liệu Gen

Dữ liệu biểu hiện gen được thu thập từ các thí nghiệm microarray hoặc RNA-seq. Quá trình normalization chuẩn hóa dữ liệu từ các mẫu khác nhau. Filtering loại bỏ các gen có mức biểu hiện thấp hoặc không thay đổi. Discretization chuyển đổi giá trị liên tục thành các mức rời rạc. Missing value imputation xử lý các điểm dữ liệu thiếu. Log transformation giảm ảnh hưởng của outliers. Dữ liệu sau tiền xử lý sẵn sàng cho phân tích biclustering.

3.2. Xác Định Mẫu Co Expression

Co-expression pattern xuất hiện khi các gen có mức biểu hiện tương quan. Biclustering phát hiện các nhóm gen hoạt động đồng bộ trong một số điều kiện. Các gen trong cùng bicluster có khả năng cao được điều hòa cùng nhau. Mẫu biểu hiện có thể là up-regulation, down-regulation hoặc không thay đổi. Phương pháp boolean cho phép xác định các mẫu phức tạp và chồng lấp. Kết quả giúp dự đoán chức năng của các gen chưa được chú thích. Thông tin này có giá trị cho việc thiết kế thuốc và điều trị bệnh.

3.3. Validation Với Kiến Thức Sinh Học

Kết quả biclustering cần được kiểm chứng với cơ sở dữ liệu sinh học. Gene Ontology (GO) cung cấp thông tin về chức năng gen. KEGG database chứa dữ liệu về các con đường trao đổi chất. Enrichment analysis đánh giá mức độ phù hợp của biclusters với GO terms. P-value thấp chỉ ra sự tương quan có ý nghĩa thống kê. Các bicluster có enrichment cao thường có ý nghĩa sinh học quan trọng. Validation này xác nhận tính đúng đắn của thuật toán biclustering.

IV. Ứng Dụng Trong Truy Vấn Cơ Sở Dữ Liệu NCBI

NCBI là một trong những cơ sở dữ liệu sinh học lớn nhất thế giới. GenBank chứa hơn 200 triệu trình tự gen từ nhiều loài khác nhau. Truy vấn cơ sở dữ liệu sinh học đòi hỏi công cụ tìm kiếm mạnh mẽ và linh hoạt. Boolean query genomics cung cấp ngôn ngữ truy vấn biểu cảm. Toán tử logic AND OR NOT cho phép kết hợp nhiều điều kiện tìm kiếm. Phương pháp này có thể tìm kiếm trình tự gen dựa trên nhiều tiêu chí đồng thời. Kết quả truy vấn được trả về nhanh chóng nhờ tối ưu hóa với ZBDDs. Ứng dụng này hỗ trợ nghiên cứu so sánh genomic và phát hiện gen tương đồng.

4.1. Cấu Trúc Cơ Sở Dữ Liệu GenBank

GenBank tổ chức dữ liệu theo định dạng chuẩn với nhiều trường thông tin. Mỗi entry chứa trình tự nucleotide, protein và metadata. Annotation cung cấp thông tin về vị trí gen, exon, intron. Taxonomy xác định loài sinh vật nguồn gốc của trình tự. References liên kết đến các công bố khoa học liên quan. Cross-references kết nối với các database khác như UniProt, PDB. Cấu trúc này cho phép truy vấn phức tạp trên nhiều chiều thông tin.

4.2. Xây Dựng Query Boolean Phức Tạp

Query đơn giản sử dụng một điều kiện tìm kiếm duy nhất. Toán tử AND kết hợp nhiều điều kiện phải thỏa mãn đồng thời. Toán tử OR cho phép tìm kiếm các trình tự thỏa mãn ít nhất một điều kiện. Toán tử NOT loại trừ các kết quả không mong muốn. Nested queries tạo ra các điều kiện tìm kiếm phân cấp. Wildcards và regular expressions mở rộng khả năng pattern matching. Query optimization đảm bảo thời gian phản hồi nhanh cho các truy vấn phức tạp.

4.3. Tích Hợp Với Bioinformatics Pipeline

Kết quả truy vấn có thể được xuất sang nhiều định dạng khác nhau. FASTA format phù hợp cho phân tích trình tự và alignment. XML format cho phép xử lý tự động bằng các công cụ bioinformatics. API integration kết nối với các workflow phân tích dữ liệu. Batch processing xử lý nhiều truy vấn một cách hiệu quả. Result filtering và ranking cải thiện chất lượng kết quả. Automation giảm thời gian và công sức cho các phân tích quy mô lớn.

V. Dự Đoán Module Điều Hòa MicroRNA

MicroRNA là các phân tử RNA ngắn điều hòa biểu hiện gen. Một microRNA có thể điều hòa hàng trăm gen mục tiêu khác nhau. Module điều hòa là nhóm microRNA và gen mục tiêu hoạt động phối hợp. Phát hiện các module này là bài toán quan trọng trong bioinformatics. Phương pháp biclustering với hàm boolean hiệu quả cho nhiệm vụ này. Thuật toán xác định các nhóm microRNA điều hòa cùng tập gen trong điều kiện cụ thể. Kết quả dự đoán được validation bằng dữ liệu thực nghiệm. Ứng dụng này có ý nghĩa lớn cho nghiên cứu bệnh học và phát triển liệu pháp.

5.1. Cơ Chế Điều Hòa Của MicroRNA

MicroRNA gắn vào vùng 3'UTR của mRNA mục tiêu. Sự gắn kết này ngăn chặn quá trình dịch mã hoặc gây phân hủy mRNA. Một microRNA có thể có nhiều gen mục tiêu do tính đặc hiệu không hoàn toàn. Một gen có thể bị điều hòa bởi nhiều microRNA khác nhau. Network điều hòa microRNA-mRNA tạo thành đồ thị phức tạp. Computational prediction giúp xác định các tương tác tiềm năng. Experimental validation cần thiết để xác nhận các dự đoán.

5.2. Phương Pháp Phát Hiện Module

Dữ liệu đầu vào bao gồm biểu hiện microRNA và mRNA. Correlation analysis xác định các cặp có tương quan âm. Predicted target sites cung cấp bằng chứng về tương tác tiềm năng. Biclustering tìm các nhóm microRNA-mRNA hoạt động đồng bộ. Boolean constraints đảm bảo các module thỏa mãn điều kiện sinh học. Statistical significance testing lọc các module ngẫu nhiên. Kết quả là danh sách các module có ý nghĩa sinh học cao.

5.3. Ứng Dụng Trong Nghiên Cứu Bệnh

Dysregulation của microRNA liên quan đến nhiều bệnh như ung thư. Module điều hòa bất thường có thể là biomarker cho chẩn đoán. Phục hồi chức năng module có tiềm năng trở thành liệu pháp điều trị. Drug design có thể nhắm vào các microRNA trong module bệnh lý. Personalized medicine sử dụng thông tin module để tùy chỉnh điều trị. Clinical trials đang kiểm tra các liệu pháp dựa trên microRNA. Nghiên cứu này mở ra hướng đi mới cho y học chính xác.

VI. So Sánh Hiệu Suất Với Phương Pháp Truyền Thống

Đánh giá hiệu suất là bước quan trọng để chứng minh ưu điểm của phương pháp mới. Các tiêu chí so sánh bao gồm thời gian thực thi, số lượng biclusters và độ chính xác. Phương pháp boolean-based vượt trội về cả ba tiêu chí này. Thời gian phản hồi nhanh hơn từ 10 đến 100 lần so với các thuật toán khác. Số lượng biclusters tìm được nhiều hơn do tính đầy đủ của thuật toán. Độ chính xác cao hơn được chứng minh qua enrichment analysis. Kết quả thực nghiệm trên nhiều datasets xác nhận tính ưu việt. Phương pháp này đặc biệt hiệu quả cho dữ liệu quy mô lớn và sparse.

6.1. Benchmark Datasets Và Metrics

Yeast gene expression data là benchmark chuẩn cho biclustering. Human cancer datasets kiểm tra khả năng xử lý dữ liệu phức tạp. Synthetic datasets với ground truth đánh giá độ chính xác tuyệt đối. Runtime measurement ghi nhận thời gian thực thi trên cùng phần cứng. Memory usage tracking theo dõi yêu cầu bộ nhớ tối đa. Scalability testing đánh giá hiệu suất với kích thước dữ liệu tăng dần. Quality metrics bao gồm coverage, overlap và biological relevance.

6.2. Kết Quả Thực Nghiệm Chi Tiết

Thuật toán boolean-based hoàn thành trong vài phút trên dataset chuẩn. Các phương pháp heuristic mất hàng giờ cho cùng nhiệm vụ. Số lượng biclusters tìm được cao gấp 5-10 lần phương pháp thay thế. GO enrichment p-values thấp hơn đáng kể cho các biclusters phát hiện. Coverage của biclusters đạt trên 80% so với 50-60% của các thuật toán khác. Memory footprint ổn định ngay cả với datasets lớn. Reproducibility đạt 100% do tính deterministic của thuật toán.

6.3. Phân Tích Ưu Nhược Điểm

Ưu điểm chính là tính đầy đủ và hiệu suất cao. ZBDD representation cho phép xử lý dữ liệu quy mô lớn hiệu quả. Thuật toán không phụ thuộc vào initialization như các phương pháp heuristic. Kết quả deterministic đảm bảo reproducibility cao. Nhược điểm là độ phức tạp implementation cao hơn. Yêu cầu expertise về symbolic manipulation và data structures. Parameter tuning vẫn cần thiết để đạt kết quả tối ưu. Trade-off giữa completeness và efficiency cần được cân nhắc.

24/03/2026

Xem trước tài liệu

Tải đầy đủ để xem toàn bộ nội dung

Luận án tiến sĩ: Genomic Data Mining Enhanced by Symbolic Manipulation of Boolean Functions

Tải xuống file đầy đủ để xem toàn bộ nội dung

Tải đầy đủ (190 trang)

Trích đoạn nội dung luận án

Tải xuống để đọc toàn bộ

GENOMIC DATA MINING ENHANCED BY SYMBOLIC MANIPULATION OF BOOLEAN FUNCTIONS A DISSERTATION SUBMITTED TO THE DEPARTMENT OF ELECTRICAL ENGINEERING AND THE COMMITTEE ON GRADUATE STUDIES OF STANFORD UNIVERSITY IN PARTIAL FULFILLMENT OF THE REQUIREMENTS FOR THE DEGREE OF DOCTOR OF PHILOSOPHY Sungroh Yoon October 2005 UMI Number: 3197534 Copyright 2006 by Yoon, Sungroh All rights reserved. INFORMATION TO USERS The quality of this reproduction is dependent upon the quality of the copy submitted. Broken or indistinct print, colored or poor quality illustrations and photographs, print bleed-through, substandard margins, and improper alignment can adversely affect reproduction. In the unlikely event that the author did not send a complete manuscript and there are missing pages, these will be noted.

Also, if unauthorized copyright material had to be removed, a note will indicate the deletion. ® UMI UMI Microform 3197534 Copyright 2006 by ProQuest Information and Learning Company. All rights reserved. This microform edition is protected against unauthorized copying under Title 17, United States Code.

ProQuest Information and Learning Company 300 North Zeeb Road P. Box 1346 Ann Arbor, MI 48106-1346 © Copyright by Sungroh Yoon 2006 All Rights Reserved ii I certify that I have read this dissertation and that, in my opinion, it is fully adequate in scope and quality as a dissertation for the degree of Doctor of Philosophy. Ove he Atad' (le Ah hid. Giovanni De Micheli Principal Advisor I certify that I have read this dissertation and that, in my opinion, it is fully adequate in scope and quality as a dissertation for the degree of Doctor of Philosophy.

Altman I certify that I have read this dissertation and that, in my opinion, it is fully adequate in scope and quality as a dissertation for the degree of Doctor of Philosophy. L_ Oe: Luca Benini Approved for the University Committee on Graduate Studies. 1H To Hyeyoung iv Abstract Today, more and more large-scale genomic data sets are being produced by various high-throughput technologies, and genomic data mining has never been more impor- tant. Clustering is an unsupervised learning technique that has been popular in data analysis.

Although there is mature statistical literature on clustering, new types of genomic data such as gene expression data have sparked development of multiple new methods. Specifically, the technique of biclustering refers to a method that performs simultaneous clustering of rows and columns in a data matrix identifying patterns that appear in the form of (possibly overlapping) submatrices. Although this method has some clear advantages over conventional clustering techniques, it has been chal- lenging to develop an efficient biclustering algorithm, since the problem of biclustering is inherently intractable and hard to approximate. In the first part of this dissertation, a novel biclustering algorithm based upon the symbolic manipulation of Boolean functions is presented.

This algorithm exploits the zero-suppressed binary decision diagrams (ZBDDs) to implicitly represent and manipulate massive intermediate data that occur in the biclustering process. Lever- aged by the ZBDDs, the proposed algorithm can find all the biclusters that satisfy specific input parameters. The second part discusses the application of this algorithm to various genomic data mining tasks such as analyzing gene expression data, linking clinical traits with related genes, and predicting microRNA regulatory modules. The experimental results demonstrate that the proposed method outperforms the alterna- tive techniques tested — in terms of response time, the number of biclusters that can be found, and more importantly, how accurately the discovered biclusters conform to the known biological knowledge.

Acknowledgments First and foremost, I would like to thank my advisor Professor Giovanni De Micheli. From the very first moment when I knocked his door as a fresh PhD student, to the present day when I am planning my future career, he has never denied me his guidance, support and encouragement. I am greatly privileged to have him as my advisor. I would also like to thank Professor Russ Biagio Altman for serving as my co- advisor and Professor Luca Benini for serving on my dissertation committee.

Without the interaction with these two great mentors, my PhD research would have been severely compromised. In addition, I gratefully acknowledge Professor Edward J. McCluskey for super- vising my research for the Master’s degree and Professor Yoshio Nishi for serving as the chair of my oral defense committee. Special thanks also go to Professor and Mrs.

Creger for their continuous encouragement. Additional thanks go to Stanford CAD group members, EPFL LSI people, aca- demic collaborators, and friends. In particular, I would like to thank Eui-Young, Byung-Gon, and Nahmsuk for their invaluable help. I am also greatly indebted to Jerry Yang and Akiko Yamazaki for their vision and generous grant that supported my PhD research.

Last but not least, I would like to thank my wife Hyeyoung and my family (espe- cially Hongseop, Young, Byungsoh, Keumgyou, Hanyoung, Hyejin and Yeonsoo) for their never-ending love and support. vi Contents Abstract Acknowledgments vi 1 Introduction oDBEnOm 1. Q ng va và 1.3 Assumptions and limitations.v ưa kg KV 2 Background 2. eee eee ee eee 2.1 The flow of genetic information.

Q nà kg sa 2.3 Small non-coding RNAs .2 High-throughput biology.0 eee eee ne 2.2 Gene expression measuremenit.3 Biological data analysis and mining.1 Overview of machine learning .2 Challenges in large-scale data analysis .3 Previous work on biclustering .4 Symbolic manipulation of Boolean functions .1 Representations of Boolean functions .2 Zero-suppressed BDDs. ee ee ee ns A ZBDD-based Biclustering Algorithm 29 3. HQ gà k kg va 30 3.1 Characterization of biclusters .3 Formal definition of a bicluster and problem statement .2 Pairwise maximal biclusters (PMBs). eee ee ens 36 3.

ee Quà va 40 3.31 Relationship between G, FE, and seeds.2 Relationship between Gand BE. ee ee ee 41 3.4 Our biclustering algorithm .1 Predicting the experiment set E.2 Calculating the gene setG.3 Considerations for very large-scale expression data. ee ee 5ï Finding Nested Biclusters 4.1 Definitions and overview. eee eee ee ee ee 411 Definition of nested biclusters .2 Biology behind the definitions of biclusters .4 Overview of ourapproach .2 Finding atomic biclusters.1 Finding Type 1 atomic biclusters .2 Finding Type 2 atomic biclusters .3 Finding Type 3 atomic biclusters .3 Our bicluster mining algorithm .2 Representation and implementation of the functionJ .3 Finding nested biclusters.

ns DNA Microarray Data Analysis 5. pee ee ee 5. c ee ee ee 5. eee eee so 5.1 Algorithm performance evaluation.2 Bicluster quality evaluation.

ee eee 5= Sa | (aIIIAHAẠAA. Linking Gene Expression and Clinical Traits 6. ee ee kia 6.2 Correlation matrix computation.3 Defining co-clusters.4 Discovering pairwise co-clusters .5 Deriving co-cÌlusteTS. HQ gà kia 63 Experimental results.

Q Q và và và 6.000 eee eee nes 6.2 Results and discussion. LH LH HQ HQ ng kg kg A và và va ix 7 Prediction of MicroRNA Regulatory Modules 135 7.1 Identification of miRNA target sites.2 Relation graph representation.4 Deriving MRMs from seeds. Q Q eee ee ee 148 7. ee ee ee 149 7.2 Prediction and analysis of an oncogenic module .3 Supporting evidence from the literature.1 A strategy for biological validation .2 Extension of our computational method.

eee ee eee 158 8.2 Future work a HO CEO CO CO CÁ cm P9 CO B8 PB 8 8 8 8 8 8 Co 8 C8 8 Co C8 C9 161 Bibliography 163 List of Tables 3.1 Notations for PMB and seed. pee ee va 38 4.1 Classification of nested biclusters .2 Step 1 - finding atomic biclusters .3 Step 2 - deriving non-atomic biclusters .1 The bicluster mining methods tested in the experiments.2 The algorithm parameters used for the experiments .1 Definitions of the score rij.2 Parameters and statistics. ee ee và 127 6.3 Genes included in co-cluster #15 2. ee ee ee 133 6.4 Further details on an enriched GO term in Figure6.2 Example of MRMs.

QC Quy số 148 7.3 The parameters used for the experiment and some statistics obtained 150 7.4 A predicted human MRM .5 Details on an enriched GO term. eee ee ee 154 xi List of Figures 1.1 Growth of GenBank database .2 Informal comparison between clustering and biclustering .1 The flow of genetic information .2 DNA and its building blocks. Q LH ng Q v kg và 14 2.4 Mode of action of miRNAs in plants and animals .5 Manufacturing GeneChip® arrays.6 The curse of dimensionality .7 Difference between clinical and genomic studies .8 Representations of a Boolean logic function f=(at+b)e .9 Representation of a set of combinations.1 Characterization of biclusters. eee ee ee 32 3.3 Qualitative analysis of dependency ond.4 Pairwise maximal biclusters (PMBs) .6 ZBDD representation of verticalseeds.7 Relationship between Gand EF.8 Overview of the algorithm.

Q Q ngà và va na 46 xii 3.12 The trie representation of horizontal seeds and predicted EF sets .16 The operators U and @onZBDDs.17 Dividing a large data matrix. ee ee ee 55 4. Q và Là ki à v va 60 4.2 Example of Type 1 biclusters .3 Example of Type 2 biclusters ©. eee ee eee 63 4.4 Example of Type 3 biclusters.

ee eee ne 64 4.5 A flowchart of the algorithm. ee 69 4,7 Example: Algorithm 4. 00 eee ee eee eee 69 4. 2 eee ee ee 71 4.

vu 1v và k vV 73 4.12 Decomposition of Kg 2. ee ga vàn a 80 4.13 ZBDD representation of atomic bielusters.14 The process to find the biclusters presented in Figure 4.1 Biclusters found from the renal cell carcinoma data [42] .2 MSR scores as a measure of bicluster qualty.3 Performance comparison using synthetic datasets .4 Performance comparison using biological datasets.9 Box plots for MSR comparison.6 Correspondence plot and ROC curves.1 An example of co-clustering genes and clinical traits.2 A flowchart of the method .3 Construction of the correlation matrix .4 LIN-DEV versus the Pearson correlation coefficient .5 Defining co-clusters. cv Và kg sV 119 6.8 Prefix tree exampÌ©€.9 Composition of each images in Figure 6.10 Data from an adult acute myeloid leukemia (AML) study [17] .11 SAM plots obtained from the AML dataset.12 Annotations for co-cluster #15 2.1 MicroRNAs and targets [54] 2.2 Example of the relation graph and MRM. HQ HQ nu n n Q va kia 143 7.

Q Q Q Q HQ HH HQ nu Q v va à 146 7.5 Trie representation of the seeds. ee ee ee ee 147 7.6 Visualization of input data.7 Annotation of the human MRM with GO terms. 153 xiv Chapter 1 Introduction 1.1 Motivations High-throughput biology technologies such as DNA sequencing and gene expression measurement by DNA microarrays are producing a vast amount of biological informa- tion every day, and many researchers agree that biology is becoming an information science. In traditional biology, researchers usually pose a precise hypothesis and per- form well-defined experiments to test the hypothesis.

In contrast, in high-throughput biology, discoveries are data-driven, and data lead a hypothesis rather than the re- verse, Breakthroughs in high-throughput biotechnologies have already led to a rapid growth of biological data, both in size and complexity. For example, in recent years the rate at which the GenBank database! has grown exceeds the pace set by Moore’s Law” [73], as seen in Figure 1. As more and more biological data emerge, the emphasis progressively switches from the accumulation of data to its interpretation. The science of extracting useful information from large data sets or databases is known as data mining, which is one component in the area of machine learning and adaptive computation [37].

Defined more specifically, data mining is the analysis of ‘http://www.gov/Genbank ?The empirical observation that at our rate of technological development, the complexity of an integrated circuit, with respect to minimum component cost, will double in about 18 months. INTRODUCTION 2 #MÔ98#N (Smeiqlunocs) 8 6 44 2 wae Base Pairs —— Sequences (DoPBbaiNlsfrAen) 1882 1986 1990 1994 1998 2002 Figure 1.1: Growth of GenBank database. The growth rate exceeds the pace set by Moore’s Law [73].

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Từ khóa liên quan

Khai thác dữ liệu genomic Phân tích biểu hiện gen Thuật toán biclustering Thao tác biểu tượng hàm boolean Bicluster lồng nhau

Chủ đề nghiên cứu

Khai thác dữ liệu genomic Ứng dụng hàm boolean trong tin sinh học Thuật toán biclustering nâng cao Phân tích dữ liệu gen biểu hiện

Câu hỏi thường gặp

Luận án "Khai thác dữ liệu genomic bằng hàm boolean" nghiên cứu về vấn đề gì?

Luận án tiến sĩ về khai thác dữ liệu genomic sử dụng biclustering và boolean functions. Phương pháp vượt trội trong phân tích gene expression và dự đoán microRNA modules.

Luận án "Khai thác dữ liệu genomic bằng hàm boolean" được bảo vệ tại trường nào?

Luận án này được bảo vệ tại stanford university. Năm bảo vệ: 2005.

Luận án "Khai thác dữ liệu genomic bằng hàm boolean" thuộc chuyên ngành gì?

Luận án "Khai thác dữ liệu genomic bằng hàm boolean" thuộc chuyên ngành Electrical Engineering. Danh mục: Công Nghệ Sinh Học.

Luận án "Khai thác dữ liệu genomic bằng hàm boolean" có bao nhiêu trang?

Luận án "Khai thác dữ liệu genomic bằng hàm boolean" có 190 trang. Bạn có thể xem trước một phần tài liệu ngay trên trang web trước khi tải về.

Cách tải luận án "Khai thác dữ liệu genomic bằng hàm boolean" về máy như thế nào?

Để tải luận án về máy, bạn nhấn nút "Tải xuống ngay" trên trang này, sau đó hoàn tất thanh toán phí lưu trữ. File sẽ được tải xuống ngay sau khi thanh toán thành công. Hỗ trợ qua Zalo: 0559 297 239.

Luận án liên quan

Chia sẻ tài liệu: Facebook Twitter

Mục lục chi tiết

Tóm tắt nội dung