Luận án: Các phương pháp xây dựng ma trận biến đổi axit amin

Luận án Tiến sĩ Công nghệ thông tin: Các phương pháp xây dựng ma trận biến đổi axit amin

Luận án nghiên cứu các phương pháp xây dựng ma trận biến đổi axit amin, ứng dụng trong sinh học cấu trúc.

Trường ĐH

Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội

Chuyên ngành

Khoa học Máy tính

Tác giả

Luan An

Thể loại

Luận án Tiến sĩ

Năm xuất bản

2013

Số trang

100

Thời gian đọc

15 phút

Lượt xem

0

Lượt tải

0

Phí lưu trữ

40 Point

Lời cam đoan

Danh mục các ký hiệu và chữ viết tắt

Danh mục các bảng

Danh mục các hình vẽ, đồ thị

Danh mục các thuật toán

MỞ ĐẦU

1. BÀI TOÁN ƯỚC LƯỢNG SỰ BIẾN ĐỔI CỦA AXÍT AMIN

1.1. Giới thiệu chung

1.2. ADN và axít amin

1.3. Các phép biến đổi trên chuỗi axít amin

1.4. Sắp hàng đa chuỗi axít amin

1.5. Cây phân loài

1.6. Mô hình hoá quá trình biến đổi axít amin

1.6.1. Sự khác biệt giữa hai chuỗi tương đồng

1.6.2. Mô hình Markov cho quá trình biến đổi axít amin

1.7. Bài toán ước lượng mô hình biến đổi axít amin

1.8. Các phương pháp ước lượng mô hình biến đổi axít amin

1.8.1. Phương pháp đếm

1.8.2. Phương pháp cực đại khả năng (maximum likelihood)

1.8.3. Xây dựng cây phân loài bằng phương pháp ML

1.9. Các phương pháp so sánh hai mô hình

1.9.1. So sánh bằng việc xây dựng cây ML

1.9.2. So sánh cấu trúc cây

1.9.3. So sánh độ tương quan Pearson

1.10. Kết luận chương

2. PHƯƠNG PHÁP ƯỚC LƯỢNG NHANH MÔ HÌNH BIẾN ĐỔI AXÍT AMIN BẰNG PHƯƠNG PHÁP CỰC ĐẠI KHẢ NĂNG

2.1. Ước lượng mô hình bằng phương pháp cực đại khả năng

2.1.1. Mô tả phương pháp

2.1.2. Phân tích phương pháp

2.2. Các phương pháp chia tách dữ liệu

2.2.1. Phương pháp chia tách ngẫu nhiên

2.2.2. Phương pháp chia tách dựa theo cấu trúc cây

2.3. Nhận xét về các phương pháp chia tách sắp hàng

2.4. Kết quả thực nghiệm

2.4.1. Dữ liệu kiểm tra

2.4.2. Kết quả với bộ dữ liệu vi rút cúm

2.4.3. Kết quả với bộ dữ liệu Pfam

2.5. Kết luận chương

3. XÂY DỰNG MÔ HÌNH BIẾN ĐỔI ĐA MA TRẬN

3.1. Tính không đồng nhất của tốc độ biến đổi theo vị trí

3.2. Mô hình biến đổi đa ma trận

3.3. Thuật toán ước lượng mô hình đa ma trận

3.4. Kết quả thực nghiệm

3.4.1. Dữ liệu kiểm tra

3.4.2. Tiêu chuẩn đánh giá AIC

3.4.3. So sánh kết quả của các mô hình

3.4.4. So sánh dung lượng bộ nhớ sử dụng và thời gian chạy

3.5. Kết luận chương

4. HỆ THỐNG ƯỚC LƯỢNG MÔ HÌNH TỰ ĐỘNG

4.1. Phương pháp ước lượng nhanh

4.2. Kết quả thực nghiệm

4.2.1. Dữ liệu kiểm tra

4.2.2. Kết quả với bộ dữ liệu Pfam

4.2.3. Kết quả với bộ dữ liệu FLU

4.3. Hệ thống ước lượng mô hình tự động

4.4. Kết luận chương

5. MÔ HÌNH BIẾN ĐỔI AXÍT AMIN CHO VI RÚT CÚM

5.1. Giới thiệu về vi rút cúm và sự cần thiết của các mô hình biến đổi axít amin riêng biệt cho từng loài

5.2. Ước lượng mô hình FLU

5.3. Kết quả thực nghiệm

5.3.1. Phân tích và đánh giá mô hình

5.3.2. So sánh hiệu quả của FLU với các mô hình khác

5.3.3. Tính bền vững của mô hình

5.4. Kết luận chương

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN

TÀI LIỆU THAM KHẢO

I. Tổng quan bài toán ước lượng ma trận thay thế axit amin

Luận án tập trung vào các phương pháp xây dựng ma trận biến đổi axit amin. Ma trận này là công cụ thiết yếu trong sinh học tin toán, mô tả xác suất một axit amin biến đổi thành một axit amin khác theo thời gian tiến hóa. Luận án giải quyết các thách thức trong việc ước lượng chính xác mô hình tiến hóa protein. Dữ liệu trình tự protein ngày càng lớn đòi hỏi các phương pháp tính toán hiệu quả. Ngoài ra, sự biến đổi axit amin không đồng nhất giữa các vị trí trong chuỗi protein là một yếu tố quan trọng cần được xem xét. Các mô hình tiến hóa truyền thống thường giả định tốc độ biến đổi đồng nhất, điều này có thể không phản ánh đúng thực tế sinh học. Thời gian tính toán cho phương pháp cực đại khả năng thường rất lâu, làm hạn chế khả năng ứng dụng. Luận án đề xuất các giải pháp để cải thiện tốc độ và độ chính xác của việc xây dựng ma trận biến đổi protein, góp phần nâng cao hiệu quả của các phân tích tiến hóa phân tử và căn chỉnh trình tự.

1.1. Khái niệm và vai trò của axit amin trong protein

Axit amin là những đơn vị cấu thành cơ bản của protein, chuỗi polypeptide dài. Có 20 loại axit amin tiêu chuẩn, mỗi loại có cấu trúc hóa học và tính chất riêng. Sự sắp xếp đặc trưng của các axit amin trong trình tự protein quyết định cấu trúc không gian ba chiều và chức năng sinh học của protein. Protein tham gia vào hầu hết các quá trình sinh học, từ xúc tác phản ứng, vận chuyển chất, đến cấu trúc tế bào và truyền tín hiệu. Sự thay đổi dù nhỏ trong trình tự protein—chẳng hạn, sự thay thế một axit amin này bằng một axit amin khác—có thể dẫn đến những biến đổi đáng kể về chức năng, từ việc không ảnh hưởng gì cho đến gây ra bệnh tật nghiêm trọng. Ví dụ, bệnh thiếu máu hồng cầu hình liềm là do một sự thay thế axit amin duy nhất. Việc nghiên cứu axit amin và trình tự protein là nền tảng của sinh học phân tử và tin sinh học, giúp giải mã cơ chế hoạt động của tế bào, phát triển thuốc và hiểu biết sâu sắc hơn về sự sống. Nghiên cứu quá trình biến đổi axit amin qua thời gian là trọng tâm để hiểu tiến hóa phân tử. Các ma trận biến đổi protein cung cấp một khung định lượng cho việc này, cho phép các nhà khoa học dự đoán và phân tích các sự kiện thay thế trong lịch sử tiến hóa. Luận án này đặt nền móng cho việc cải thiện cách xây dựng các ma trận quan trọng này, từ đó nâng cao độ chính xác của các phân tích tiến hóa phân tử và căn chỉnh trình tự.

1.2. Các phương pháp mô hình hóa tiến hóa protein

Để mô tả sự biến đổi của axit amin trong trình tự protein theo thời gian tiến hóa phân tử, các nhà khoa học đã phát triển các ma trận thay thế axit amin. Những ma trận này là các bảng số liệu, trong đó mỗi giá trị đại diện cho xác suất hoặc tỷ lệ một axit amin biến đổi thành một axit amin khác. Hai loại ma trận biến đổi protein phổ biến nhất là ma trận PAM (Point Accepted Mutation) và ma trận BLOSUM (Blocks Substitution Matrix). Ma trận PAM được xây dựng bằng cách theo dõi sự thay thế axit amin trong các trình tự protein có mối quan hệ tiến hóa phân tử gần gũi. Sau đó, chúng được ngoại suy để ước tính tỷ lệ thay thế ở khoảng cách tiến hóa lớn hơn. Ngược lại, ma trận BLOSUM được tạo ra từ các khối căn chỉnh của các vùng trình tự protein được bảo tồn cao, từ đó phản ánh sự thay thế ở các khoảng cách tiến hóa khác nhau mà không cần ngoại suy. Các ma trận thay thế axit amin này là công cụ không thể thiếu trong nhiều ứng dụng tin sinh học, bao gồm căn chỉnh trình tự (Sequence Alignment), tìm kiếm cơ sở dữ liệu protein, và xây dựng cây phát sinh loài. Chúng cung cấp một cơ sở định lượng để đánh giá mức độ tương đồng giữa hai trình tự protein và suy ra mối quan hệ tiến hóa phân tử của chúng. Tuy nhiên, việc xây dựng mô hình tiến hóa chính xác vẫn là một thách thức, đặc biệt khi xem xét các bộ dữ liệu phức tạp hoặc các loài cụ thể. Cần có các phương pháp tiên tiến hơn để nắm bắt đầy đủ sự phức tạp của quá trình biến đổi axit amin.

1.3. Thách thức trong ước lượng mô hình biến đổi

Việc ước lượng chính xác mô hình tiến hóa cho ma trận thay thế axit amin đối mặt với nhiều thách thức đáng kể. Một trong những vấn đề chính là quy mô của các bộ dữ liệu trình tự protein. Với sự phát triển của công nghệ giải trình tự, lượng dữ liệu sinh học phân tử tăng lên nhanh chóng, đòi hỏi các phương pháp tính toán phải đủ hiệu quả để xử lý. Các phương pháp ước lượng mô hình tiến hóa, đặc biệt là phương pháp cực đại khả năng, thường có chi phí tính toán cao, làm giới hạn khả năng ứng dụng trên các bộ dữ liệu lớn hoặc trong các phân tích chuyên sâu. Một thách thức khác là giả định về sự đồng nhất trong mô hình tiến hóa. Nhiều ma trận biến đổi protein truyền thống giả định rằng tốc độ thay thế axit amin là như nhau trên tất cả các vị trí trong trình tự protein. Tuy nhiên, thực tế sinh học cho thấy sự biến đổi này thường không đồng nhất; một số vị trí có thể bảo tồn chặt chẽ hơn trong khi các vị trí khác lại biến đổi nhanh chóng. Giả định đồng nhất này có thể dẫn đến việc ước lượng sai lệch và ảnh hưởng đến độ chính xác của căn chỉnh trình tự và phân tích tiến hóa phân tử. Do đó, việc phát triển các phương pháp xây dựng ma trận biến đổi axit amin mới, có thể xử lý hiệu quả các bộ dữ liệu lớn và phản ánh chính xác hơn tính không đồng nhất của quá trình tiến hóa phân tử, là cực kỳ cần thiết. Luận án này nhằm giải quyết những thách thức này bằng cách đề xuất các phương pháp ước lượng nhanh và xây dựng các mô hình tiến hóa đa ma trận, mang lại cái nhìn sâu sắc hơn về sự biến đổi axit amin.

II. Phương pháp cực đại khả năng cho ma trận biến đổi

Luận án khám phá phương pháp cực đại khả năng (ML) như một công cụ chính để ước lượng ma trận biến đổi axit amin. ML cung cấp một khung thống kê mạnh mẽ, xác định các tham số ma trận sao cho khả năng quan sát dữ liệu trình tự protein là lớn nhất. Tuy nhiên, chi phí tính toán cao của ML là một rào cản. Để giải quyết vấn đề này, luận án đề xuất các kỹ thuật tăng tốc. Các kỹ thuật này bao gồm việc phân tách dữ liệu căn chỉnh trình tự thành các phần nhỏ hơn để xử lý độc lập. Việc này giúp giảm đáng kể thời gian chạy mà không làm ảnh hưởng đến độ chính xác của mô hình tiến hóa. Hiệu suất của các phương pháp này được đánh giá nghiêm ngặt trên các bộ dữ liệu sinh học phân tử thực tế, chứng minh khả năng duy trì độ chính xác cao trong khi cải thiện tốc độ đáng kể.

2.1. Ước lượng mô hình bằng cực đại khả năng

Phương pháp cực đại khả năng (Maximum Likelihood - ML) là một kỹ thuật mạnh mẽ để ước lượng các tham số của mô hình tiến hóa, bao gồm cả ma trận biến đổi axit amin. Phương pháp này tìm kiếm bộ tham số ma trận sao cho khả năng quan sát được dữ liệu trình tự protein hiện có là lớn nhất. Cụ thể, nó ước lượng tốc độ thay thế giữa các axit amin và tần số của chúng. Quá trình này đòi hỏi việc tính toán khả năng của cây phát sinh loài đã cho dựa trên căn chỉnh trình tự đa chuỗi. ML cung cấp một khuôn khổ thống kê chặt chẽ cho việc xây dựng ma trận biến đổi protein. Nó cho phép kết hợp thông tin từ căn chỉnh trình tự và cấu trúc cây tiến hóa phân tử để suy ra các tỷ lệ thay thế. Mặc dù ML mang lại độ chính xác cao, chi phí tính toán của nó thường rất lớn. Điều này đặc biệt đúng với các tập dữ liệu sinh học phân tử lớn hoặc khi cần ước lượng nhiều tham số. Sự phức tạp này là một rào cản cho việc áp dụng rộng rãi ML trong xây dựng ma trận thay thế axit amin cho các tình huống cụ thể hoặc cho các bộ dữ liệu quy mô lớn. Luận án này tìm cách cải thiện hiệu quả của phương pháp ML.

2.2. Kỹ thuật tăng tốc quá trình tính toán ma trận

Để khắc phục hạn chế về tính toán của phương pháp cực đại khả năng, luận án đề xuất các kỹ thuật tăng tốc. Một trong những trọng tâm là tối ưu hóa việc phân tách dữ liệu căn chỉnh trình tự. Thay vì xử lý toàn bộ căn chỉnh trình tự cùng một lúc, dữ liệu được chia thành các phần nhỏ hơn. Sau đó, tính toán được thực hiện độc lập trên từng phần. Kết quả từ các phần này được tổng hợp để đưa ra ước lượng cuối cùng cho ma trận biến đổi axit amin. Các phương pháp chia tách dữ liệu bao gồm chia tách ngẫu nhiên và chia tách dựa trên cấu trúc cây tiến hóa phân tử. Chia tách ngẫu nhiên đơn giản hóa việc phân bổ công việc. Chia tách dựa trên cây giữ được thông tin cấu trúc, có thể cải thiện độ chính xác. Bằng cách giảm kích thước mỗi phép tính, luận án giảm đáng kể thời gian chạy. Điều này không làm ảnh hưởng đến độ chính xác của mô hình tiến hóa. Các kỹ thuật này giúp xây dựng ma trận thay thế axit amin nhanh hơn. Chúng cho phép phân tích nhiều trình tự protein hơn với nguồn lực tính toán hạn chế. Kết quả là việc áp dụng sinh học phân tử trở nên thực tế hơn.

2.3. Đánh giá hiệu suất trên dữ liệu sinh học phân tử

Hiệu suất của các kỹ thuật tăng tốc phương pháp cực đại khả năng được đánh giá nghiêm ngặt. Việc này được thực hiện trên nhiều bộ dữ liệu sinh học phân tử khác nhau. Các bộ dữ liệu bao gồm trình tự protein từ virus cúm và cơ sở dữ liệu Pfam. Mục tiêu là xác nhận khả năng của các phương pháp mới. Chúng phải duy trì độ chính xác cao trong khi giảm thời gian tính toán cho ma trận biến đổi protein. Kết quả thực nghiệm cho thấy sự cải thiện đáng kể về tốc độ. Thời gian để ước lượng ma trận thay thế axit amin được rút ngắn đáng kể. Tuy nhiên, độ chính xác của mô hình tiến hóa được tạo ra vẫn tương đương với phương pháp ML truyền thống. Điều này chứng minh tính hiệu quả của các kỹ thuật được đề xuất. Các thử nghiệm bao gồm so sánh với các ma trận PAM và ma trận BLOSUM hiện có. Chúng cũng đánh giá khả năng của mô hình tiến hóa mới trong căn chỉnh trình tự và xây dựng cây phát sinh loài. Những phân tích này khẳng định giá trị của luận án. Nó đóng góp vào việc phát triển các công cụ tiến hóa phân tử hiệu quả hơn.

III. Xây dựng mô hình ma trận biến đổi đa chiều protein

Một hạn chế của ma trận thay thế axit amin truyền thống là giả định tốc độ biến đổi đồng nhất, điều này không phản ánh thực tế sinh học. Luận án giới thiệu mô hình biến đổi đa ma trận để giải quyết tính không đồng nhất này. Mô hình này cho phép các vị trí khác nhau trong trình tự protein có các ma trận thay thế axit amin riêng biệt, mỗi ma trận đại diện cho một tốc độ hoặc kiểu biến đổi cụ thể. Thuật toán ước lượng sử dụng phương pháp lặp để tối ưu hóa các tham số và trọng số của từng ma trận. Việc điều chỉnh thuật toán cực đại hóa kỳ vọng (EM) giúp xác định vị trí nào thuộc về ma trận nào, tạo ra một mô hình tiến hóa phức tạp hơn, phản ánh tốt hơn thực tế sinh học phân tử. So sánh thực nghiệm cho thấy mô hình đa ma trận thường vượt trội so với các mô hình truyền thống như ma trận PAM và ma trận BLOSUM, cung cấp khả năng giải thích tốt hơn cho dữ liệu trình tự protein và cải thiện độ chính xác trong căn chỉnh trình tự và suy luận cây phát sinh loài.

3.1. Tính không đồng nhất của tốc độ biến đổi axit amin

Một hạn chế của nhiều ma trận thay thế axit amin truyền thống là giả định tốc độ biến đổi đồng nhất. Chúng giả định rằng mọi vị trí trong trình tự protein biến đổi với cùng một tốc độ trung bình. Tuy nhiên, sinh học phân tử thực tế cho thấy điều này không đúng. Một số vị trí axit amin trong protein có vai trò chức năng hoặc cấu trúc quan trọng. Những vị trí này thường được bảo tồn chặt chẽ qua quá trình tiến hóa phân tử. Chúng có tốc độ biến đổi rất chậm. Ngược lại, các vị trí ít quan trọng hơn có thể tích lũy các thay đổi nhanh chóng hơn. Sự không đồng nhất về tốc độ biến đổi này là một yếu tố quan trọng. Nó ảnh hưởng đến độ chính xác của mô hình tiến hóa và căn chỉnh trình tự. Các mô hình tiến hóa đơn ma trận không thể nắm bắt được sự phức tạp này. Việc bỏ qua tính không đồng nhất có thể dẫn đến đánh giá sai lệch. Đặc biệt là khi phân tích các trình tự protein có khoảng cách tiến hóa lớn. Luận án này nhận ra và giải quyết thách thức này. Nó đề xuất một cách tiếp cận mới để xây dựng ma trận biến đổi protein phức tạp hơn.

3.2. Thuật toán ước lượng mô hình đa ma trận

Để giải quyết vấn đề tính không đồng nhất, luận án giới thiệu mô hình biến đổi đa ma trận. Mô hình này cho phép các vị trí khác nhau trong trình tự protein có các ma trận thay thế axit amin riêng biệt. Mỗi ma trận trong tập hợp đại diện cho một tốc độ biến đổi hoặc một kiểu biến đổi cụ thể. Các vị trí được phân loại vào các nhóm. Mỗi nhóm liên quan đến một ma trận. Thuật toán ước lượng sử dụng phương pháp lặp. Nó tối ưu hóa các tham số của từng ma trận và trọng số của chúng. Thuật toán cực đại hóa kỳ vọng (Expectation-Maximization - EM) được điều chỉnh. Nó được dùng để ước lượng các ma trận biến đổi protein và xác định vị trí nào thuộc về ma trận nào. Quá trình này tính toán khả năng của mô hình. Nó phân bổ các vị trí axit amin cho các ma trận khác nhau. Điều này dựa trên đóng góp của chúng vào khả năng tổng thể. Phương pháp này tạo ra một mô hình tiến hóa phức tạp hơn. Nó phản ánh tốt hơn thực tế sinh học phân tử. Mô hình đa ma trận cung cấp một cái nhìn tinh tế hơn về tiến hóa phân tử. Nó cải thiện độ chính xác trong căn chỉnh trình tự và suy luận cây phát sinh loài.

3.3. So sánh hiệu quả mô hình đa ma trận với mô hình truyền thống

Hiệu quả của mô hình biến đổi đa ma trận được so sánh với các mô hình tiến hóa truyền thống. Các mô hình truyền thống bao gồm ma trận PAM và ma trận BLOSUM đơn. Tiêu chuẩn đánh giá như Tiêu chuẩn Thông tin Akaike (AIC) được sử dụng. Chúng giúp đánh giá sự phù hợp của mô hình với dữ liệu trình tự protein. Kết quả thực nghiệm cho thấy mô hình đa ma trận thường vượt trội. Chúng cung cấp khả năng giải thích tốt hơn cho dữ liệu sinh học phân tử. Đặc biệt, mô hình đa ma trận thể hiện khả năng nắm bắt sự khác biệt trong tốc độ tiến hóa phân tử giữa các vùng. Điều này dẫn đến căn chỉnh trình tự chính xác hơn và cây phát sinh loài đáng tin cậy hơn. Ngoài ra, luận án cũng phân tích dung lượng bộ nhớ sử dụng và thời gian chạy. So sánh này cho thấy mô hình đa ma trận có thể được xây dựng một cách hiệu quả. Nó cân bằng giữa độ phức tạp của mô hình và khả năng tính toán. Kết quả chứng minh rằng việc tính đến tính không đồng nhất là cần thiết. Nó cải thiện đáng kể chất lượng của ma trận thay thế axit amin và các ứng dụng của chúng.

IV. Hệ thống tự động ước tính ma trận biến đổi axit amin

Để tối ưu hóa quá trình xây dựng ma trận thay thế axit amin, luận án đề xuất một hệ thống tự động. Hệ thống này được thiết kế để tích hợp các phương pháp ước lượng nhanh, bao gồm phương pháp cực đại khả năng đã được tăng tốc và mô hình đa ma trận. Kiến trúc hệ thống tập trung vào hiệu quả và khả năng mở rộng, có thể xử lý các bộ dữ liệu trình tự protein lớn mà không cần sự can thiệp thủ công. Khả năng tích hợp linh hoạt các phương pháp ước lượng nhanh đảm bảo rằng ma trận biến đổi axit amin có thể được xây dựng nhanh chóng, ngay cả đối với các bộ dữ liệu lớn. Hệ thống này đã được kiểm định toàn diện trên các bộ dữ liệu trình tự protein lớn từ Pfam và virus cúm. Kết quả kiểm định cho thấy hệ thống hoạt động hiệu quả, có khả năng tự động tạo ra ma trận biến đổi protein chất lượng cao trong khoảng thời gian hợp lý, hỗ trợ các phân tích sinh học phân tử và tiến hóa phân tử sâu rộng hơn.

4.1. Thiết kế kiến trúc hệ thống ước lượng tự động

Để tối ưu hóa quá trình xây dựng ma trận thay thế axit amin, luận án đề xuất một hệ thống tự động. Hệ thống này được thiết kế để tích hợp các phương pháp ước lượng nhanh. Nó bao gồm phương pháp cực đại khả năng đã được tăng tốc và mô hình đa ma trận. Kiến trúc hệ thống tập trung vào hiệu quả và khả năng mở rộng. Nó có thể xử lý các bộ dữ liệu trình tự protein lớn. Mục tiêu là giảm thiểu sự can thiệp thủ công. Thiết kế bao gồm các module riêng biệt. Module đầu vào xử lý căn chỉnh trình tự và dữ liệu cây phát sinh loài. Module ước lượng cốt lõi áp dụng các thuật toán mới. Module đầu ra cung cấp ma trận biến đổi protein đã được ước lượng. Giao diện người dùng thân thiện cũng được phát triển. Nó giúp người dùng dễ dàng cấu hình và chạy các phân tích. Hệ thống này đại diện cho một bước tiến lớn. Nó giúp tự động hóa và dân chủ hóa việc xây dựng mô hình tiến hóa tùy chỉnh. Điều này có ý nghĩa quan trọng trong sinh học phân tử và tiến hóa phân tử.

4.2. Khả năng tích hợp phương pháp ước lượng nhanh

Hệ thống tự động được thiết kế với khả năng tích hợp linh hoạt các phương pháp cực đại khả năng nhanh. Các kỹ thuật chia tách dữ liệu và tối ưu hóa tính toán được nhúng sâu vào lõi hệ thống. Điều này cho phép hệ thống xử lý hiệu quả các tác vụ tính toán chuyên sâu. Khi có một bộ dữ liệu trình tự protein mới, hệ thống tự động chọn phương pháp phù hợp. Nó sẽ tùy chỉnh các tham số để đạt được hiệu suất tối ưu. Khả năng tích hợp này đảm bảo rằng ma trận biến đổi axit amin có thể được xây dựng nhanh chóng. Ngay cả đối với các bộ dữ liệu lớn đòi hỏi nhiều tài nguyên. Hệ thống cho phép người dùng lựa chọn giữa tốc độ và độ chính xác. Điều này tùy thuộc vào yêu cầu cụ thể của phân tích tiến hóa phân tử. Việc này làm cho quá trình tạo ma trận biến đổi protein tùy chỉnh trở nên khả thi. Nó giúp các nhà nghiên cứu trong lĩnh vực sinh học phân tử có thể tạo ra mô hình tiến hóa chuyên biệt mà không tốn quá nhiều thời gian.

4.3. Kiểm định hệ thống với bộ dữ liệu trình tự protein lớn

Hệ thống tự động được kiểm định toàn diện trên các bộ dữ liệu trình tự protein lớn. Các thử nghiệm được thực hiện với dữ liệu từ Pfam và các chủng virus cúm. Mục đích là để chứng minh tính ổn định và hiệu quả của nó. Các tiêu chí đánh giá bao gồm tốc độ ước lượng, độ chính xác của ma trận biến đổi axit amin và khả năng xử lý lỗi. Kết quả kiểm định cho thấy hệ thống hoạt động hiệu quả. Nó có khả năng tự động tạo ra ma trận biến đổi protein chất lượng cao. Điều này được thực hiện trong khoảng thời gian hợp lý. Hệ thống cho thấy sự cải thiện đáng kể về thời gian so với các phương pháp thủ công hoặc không được tối ưu hóa. Điều này đặc biệt đúng khi xử lý các căn chỉnh trình tự phức tạp. Các phân tích tiến hóa phân tử trở nên dễ tiếp cận hơn. Hệ thống là một công cụ có giá trị. Nó hỗ trợ nghiên cứu sâu rộng hơn về sinh học phân tử và sự tiến hóa của protein.

V. Ứng dụng ma trận thay thế axit amin trong virus cúm

Virus cúm là một mầm bệnh có tốc độ tiến hóa phân tử nhanh chóng, đòi hỏi các ma trận biến đổi axit amin chuyên biệt. Luận án nhấn mạnh nhu cầu này, vì các ma trận chung như ma trận PAM và ma trận BLOSUM có thể không phản ánh chính xác các mẫu biến đổi đặc trưng của virus. Luận án đã phát triển và ước lượng mô hình FLU, một ma trận biến đổi axit amin chuyên biệt cho virus cúm, sử dụng các phương pháp cực đại khả năng tăng tốc và dữ liệu trình tự protein từ nhiều chủng virus cúm. Phân tích sâu về mô hình FLU đã được tiến hành, tập trung vào các đặc điểm riêng biệt của ma trận biến đổi protein này và tính bền vững của nó khi dữ liệu đầu vào thay đổi. Kết quả so sánh chi tiết cho thấy mô hình FLU vượt trội hơn so với ma trận PAM và ma trận BLOSUM trên nhiều nhiệm vụ sinh học phân tử, cải thiện độ chính xác của căn chỉnh trình tự và các cây phát sinh loài, đồng thời cung cấp hiểu biết sâu sắc hơn về tiến hóa phân tử của virus cúm.

5.1. Nhu cầu ma trận biến đổi axit amin đặc thù cho virus cúm

Virus cúm là một ví dụ điển hình về mầm bệnh có tốc độ tiến hóa phân tử nhanh chóng. Trình tự protein của virus cúm thường xuyên biến đổi để tránh hệ miễn dịch của vật chủ. Các ma trận thay thế axit amin chung như ma trận PAM và ma trận BLOSUM được xây dựng từ một tập hợp lớn các trình tự protein tổng quát. Chúng có thể không phản ánh chính xác các mẫu biến đổi đặc trưng của virus cúm. Do đó, có nhu cầu cấp thiết về ma trận biến đổi protein chuyên biệt. Các mô hình tiến hóa được tạo riêng cho virus cúm có thể cải thiện đáng kể độ chính xác của căn chỉnh trình tự. Chúng cũng nâng cao khả năng dự đoán các thay đổi kháng nguyên. Việc này rất quan trọng cho việc phát triển vắc-xin và thuốc kháng virus. Luận án này nhấn mạnh tầm quan trọng của việc xây dựng ma trận biến đổi axit amin tùy chỉnh. Đặc biệt là cho các hệ thống sinh học có tốc độ tiến hóa nhanh và các đặc điểm độc đáo. Nó mở ra hướng nghiên cứu mới trong sinh học phân tử ứng dụng.

5.2. Phân tích mô hình FLU và tính bền vững

Luận án đã phát triển và ước lượng một ma trận biến đổi axit amin chuyên biệt cho virus cúm. Nó được gọi là mô hình FLU. Mô hình này được xây dựng bằng cách sử dụng các phương pháp cực đại khả năng tăng tốc và dữ liệu trình tự protein từ nhiều chủng virus cúm. Mục tiêu là nắm bắt các mẫu thay thế axit amin đặc trưng của virus. Phân tích sâu về mô hình FLU đã được tiến hành. Nó tập trung vào các đặc điểm riêng biệt của ma trận biến đổi protein này. Tính bền vững của mô hình FLU cũng được kiểm tra. Điều này bao gồm việc đánh giá sự ổn định của các tham số khi dữ liệu đầu vào thay đổi. Các thử nghiệm cho thấy mô hình FLU có khả năng duy trì độ chính xác cao. Ngay cả khi đối mặt với dữ liệu trình tự protein mới. Điều này chứng tỏ tính ứng dụng của nó trong việc giám sát tiến hóa phân tử của virus cúm. Mô hình này cung cấp cái nhìn sâu sắc về cách axit amin biến đổi trong protein của virus. Nó hỗ trợ các nghiên cứu sinh học phân tử về dịch tễ học và phát triển vắc-xin.

5.3. Đánh giá hiệu quả mô hình FLU so với ma trận BLOSUM PAM

Hiệu quả của mô hình FLU được so sánh chi tiết với các ma trận thay thế axit amin tiêu chuẩn. Các ma trận này bao gồm ma trận PAM và ma trận BLOSUM. So sánh được thực hiện trên nhiều nhiệm vụ sinh học phân tử. Các nhiệm vụ này bao gồm căn chỉnh trình tự protein cúm và xây dựng cây phát sinh loài. Kết quả thực nghiệm cho thấy mô hình FLU vượt trội hơn. Nó cung cấp căn chỉnh trình tự chính xác hơn. Nó cũng tạo ra các cây phát sinh loài có ý nghĩa sinh học hơn. Đặc biệt, mô hình FLU cải thiện khả năng phát hiện các mối quan hệ tiến hóa phân tử xa. Nó cũng giúp phân biệt rõ ràng hơn giữa các chủng virus cúm. Điều này là do mô hình FLU phản ánh tốt hơn áp lực chọn lọc đặc thù đối với virus cúm. Việc sử dụng một mô hình tiến hóa chuyên biệt như FLU là cực kỳ quan trọng. Nó giúp nâng cao hiểu biết về tiến hóa phân tử của virus. Đồng thời, nó cũng đóng góp vào các nỗ lực kiểm soát dịch bệnh. Đây là một đóng góp đáng kể cho sinh học phân tử và y học.

08/04/2026

Xem trước tài liệu

Tải đầy đủ để xem toàn bộ nội dung

Luận án cập nhật về các phương pháp xây dựng ma trận biến đổi axít amin sinh viên vn

Tải xuống file đầy đủ để xem toàn bộ nội dung

Tải đầy đủ (100 trang)

Trích đoạn nội dung luận án

Tải xuống để đọc toàn bộ

ĐẠI HỌC QUỐC GIA ------------------------------------------ ĐẠI HỌC CÁC PHƯƠNG PHÁP XÂY DỰNG MA TRẬN BIẾN ĐẶNG ĐỔI Ị THU THAXÍT AM IỀ N HIN LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN I TOÁN NỘI SUY VÀ MẠNG NƠRON RBF 1 Hà Nội – 201 ĐẠI HỌC ------------------------------------------- CÁC PHƯƠNG PHÁP XÂY DỰNG MA TRẬN BIẾN ĐỔI AXÍT AMIN Chuyên ngành: Khoa học Máy tính Mã số: 62.01 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. Lê Sỹ Vinh 2. Lê Sĩ Quang 2 Hà Nội – 2013 Lời cam đoan Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của các đồng tác giả trước khi đưa vào luận án.

Các kết quả nêu trong luận án là trung thực và chưa từng được công bố trong các công trình khác. Tác giả 1 Lời cảm ơn Luận án được thực hiện tại Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, dưới sự hướng dẫn của TS. Lê Sỹ Vinh và TS. Tôi xin bày tỏ lòng biết ơn sâu sắc tới TS.

Lê Sỹ Vinh, TS. Lê Sĩ Quang và giáo sư Oliver Gascuel, những người đã có những định hướng giúp tôi thành công trong việc nghiên cứu của mình. Các thầy cũng đã động viên và chỉ bảo giúp tôi vượt qua những khó khăn để tôi hoàn thành được luận án này. Tôi cũng chân thành cảm ơn thầy Hoàng Xuân Huấn, thầy đã cho tôi nhiều kiến thức quý báu về nghiên cứu khoa học và cuộc sống.

Những sự chỉ bảo quý giá của các thầy đã giúp tôi hoàn thành tốt luận án này. Tôi cũng xin cảm ơn tới các Thầy, Cô thuộc Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội đã tạo mọi điều kiện thuận lợi giúp tôi trong quá trình làm nghiên cứu sinh. Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc tới gia đình và bạn bè, những người đã cho tôi điểm tựa vững chắc để tôi có được thành công như ngày hôm nay. 2 MỤC LỤC Lời cam đoan.

3 Danh mục các ký hiệu và chữ viết tắt. 7 Danh mục các bảng. 9 Danh mục các hình vẽ, đồ thị. 12 Danh mục các thuật toán.

BÀI TOÁN ƯỚC LƯỢNG SỰ BIẾN ĐỔI CỦA AXÍT AMIN. Giới thiệu chung. ADN và axít amin. Các phép biến đổi trên chuỗi axít amin.

Sắp hàng đa chuỗi axít amin. Cây phân loài. Mô hình hoá quá trình biến đổi axít amin. Sự khác biệt giữa hai chuỗi tương đồng.

Mô hình Markov cho quá trình biến đổi axít amin. Bài toán ước lượng mô hình biến đổi axít amin. Các phương pháp ước lượng mô hình biến đổi axít amin. Phương pháp đếm.

Phương pháp cực đại khả năng (maximum likelihood). Xây dựng cây phân loài bằng phương pháp ML. Các phương pháp so sánh hai mô hình. So sánh bằng việc xây dựng cây ML.

So sánh cấu trúc cây. So sánh độ tương quan Pearson. Kết luận chương. PHƯƠNG PHÁP ƯỚC LƯỢNG NHANH MÔ HÌNH BIẾN ĐỔI AXÍT AMIN BẰNG PHƯƠNG PHÁP CỰC ĐẠI KHẢ NĂNG.

Ước lượng mô hình bằng phương pháp cực đại khả năng. Mô tả phương pháp. Phân tích phương pháp. Các phương pháp chia tách dữ liệu.

Phương pháp chia tách ngẫu nhiên. Phương pháp chia tách dựa theo cấu trúc cây. Nhận xét về các phương pháp chia tách sắp hàng. Kết quả thực nghiệm.

Dữ liệu kiểm tra. Kết quả với bộ dữ liệu vi rút cúm. Kết quả với bộ dữ liệu Pfam. Kết luận chương.

XÂY DỰNG MÔ HÌNH BIẾN ĐỔI ĐA MA TRẬN. Tính không đồng nhất của tốc độ biến đổi theo vị trí. Mô hình biến đổi đa ma trận. Thuật toán ước lượng mô hình đa ma trận.

Kết quả thực nghiệm. Dữ liệu kiểm tra. Tiêu chuẩn đánh giá AIC. So sánh kết quả của các mô hình.

So sánh dung lượng bộ nhớ sử dụng và thời gian chạy. Kết luận chương. HỆ THỐNG ƯỚC LƯỢNG MÔ HÌNH TỰ ĐỘNG. Phương pháp ước lượng nhanh.

Kết quả thực nghiệm. Dữ liệu kiểm tra. Kết quả với bộ dữ liệu Pfam. Kết quả với bộ dữ liệu FLU.

Hệ thống ước lượng mô hình tự động. Kết luận chương. MÔ HÌNH BIẾN ĐỔI AXÍT AMIN CHO VI RÚT CÚM. Giới thiệu về vi rút cúm và sự cần thiết của các mô hình biến đổi axít amin riêng biệt cho từng loài.

Ước lượng mô hình FLU. Kết quả thực nghiệm. Phân tích và đánh giá mô hình. So sánh hiệu quả của FLU với các mô hình khác.

Tính bền vững của mô hình. Kết luận chương. 89 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN. 91 TÀI LIỆU THAM KHẢO.

92 6 Danh mục các ký hiệu và chữ viết tắt l Chiều dài của một sắp hàng m Số lượng chuỗi có trong một sắp hàng N Số lượng sắp hàng trong một tập các sắp hàng S Tậ hợ 20 axít amin qij Tốc độ biến đổi tức thời giữa axít amin i và axít amin j πi Tần số của axít amin i rij Hệ số hoán đổi giữa axít amin i và axít amin j α Tham số định hình của phân phối gamma A Tập các sắp hàng D Một sắ hàng đa chuỗi Da Sắ hàng đa chuỗi thứ a trong một tập các sắp hàng Di Vị trí thứ i trong sắ hàng đa chuỗi D Q Ma trận tốc độ biến đổi tức thời Π Véc tơ tần số của 20 axít amin R Ma trận hệ số hoán đổi T Cây hân loài tương ứng với sắp hàng D 7 Qk Ma trận thứ k của một mô hình đa ma trận wk Trọng số của ma trận Qk ρk Tốc độ của ma trận Qk EM Thuật toán cực đại hoá kỳ vọng (expectation maximization) ML Phương há cực đại khả năng (maximum likelihood) STT Số thứ tự RF Khoảng cách Robinson-Fould 8 Danh mục các bảng Bảng 1.1: Danh sách 64 codon. Mỗi codon mã hoá một axít amin.2: Danh sách 20 axít amin.3: Danh sách độ đột biến tương đối của 20 axít amin. Độ đột biến của Ala (A) được đặt là 100. Asn (N) và Ser (S) là 2 axít amin có độ đột biến lớn nhất còn Trp (W) và Cys (C) là 2 axít amin có độ đột biến nhỏ nhất.1: Số lượng cây nhị phân không gốc tương ứng với số chuỗi axít amin m.2: Thời gian ước lượng mô hình của phương pháp chia tách ngẫu nhiên với bộ dữ liệu vi rút cúm.

FLU Rk là mô hình ước lượng từ các sắp hàng được chia nhỏ bằng phương pháp chia tách ngẫu nhiên với ngưỡng k.3: Thời gian ước lượng mô hình của phương pháp chia tách dựa theo cấu trúc cây với bộ dữ liệu vi rút cúm. FLUk là mô hình ước lượng từ các sắp hàng được chia nhỏ bằng phương pháp chia tách dựa theo cấu trúc cây với ngưỡng k.4: So sánh kết quả các mô hình của phương pháp chia tách ngẫu nhiên trên bộ dữ liệu vi rút cúm. M1: mô hình thứ nhất; M2: mô hình thứ hai; M1-M2: Khác biệt về giá trị trung bình log-likelihood trên một vị trí giữa hai mô hình M1 và M2; M1>M2: M1 tốt hơn M2; M1<M2: M2 tốt hơn M1; T1≠T2: cây ước lượng bởi M1 và M2 có cấu trúc khác nhau.5: So sánh kết quả các mô hình của phương pháp chia tách dựa theo cấu trúc cây trên bộ dữ liệu vi rút cúm. M1: mô hình thứ nhất; M2: mô hình thứ hai; M1-M2: Khác biệt về giá trị trung bình log-likelihood trên một vị trí giữa hai mô hình M1 và M2; M1>M2: M1 tốt hơn M2; M1<M2: M2 tốt hơn M1; T1≠T2: cây ước lượng bởi M1 và M2 có cấu trúc khác nhau.6: Thời gian ước lượng mô hình của phương pháp chia tách ngẫu nhiên với bộ dữ liệu Pfam.

LGRk là mô hình ước lượng từ các sắp hàng được chia nhỏ bằng phương pháp chia tách ngẫu nhiên với ngưỡng k.7: Thời gian ước lượng mô hình của phương pháp chia tách tách dựa theo cấu trúc cây với bộ dữ liệu Pfam. LGk là mô hình ước lượng từ các sắp hàng được chia nhỏ bằng phương pháp chia tách dựa theo cấu trúc cây với ngưỡng k.8: So sánh kết quả của phương pháp chia tách ngẫu nhiên với bộ dữ liệu Pfam. M1: mô hình thứ nhất; M2: mô hình thứ hai; M1-M2: Khác biệt về giá trị trung bình log-likelihood trên một vị trí giữa hai mô hình M1 và M2; M1>M2: M1 tốt hơn M2; M1<M2: M2 tốt hơn M1; T1≠T2: cây ước lượng bởi M1 và M2 có cấu trúc khác nhau.9: So sánh kết quả của phương pháp chia dựa theo cấu trúc cây với bộ dữ liệu Pfam. M1: mô hình thứ nhất; M2: mô hình thứ hai; M1-M2: Khác biệt về giá trị trung bình log-likelihood trên một vị trí giữa hai mô hình M1 và M2; M1>M2: M1 tốt hơn M2; M1<M2: M2 tốt hơn M1; T1≠T2: cây ước lượng bởi M1 và M2 có cấu trúc khác nhau.1: So sánh log-likelihood và cấu trúc cây giữa các mô hình trên 84 sắp hàng TreeBase.2: So sánh log-likelihood và cấu trúc cây giữa các mô hình trên 300 sắp hàng HSSP.3: Kết quả so sánh dung lượng bộ nhớ sử dụng (GB) và thời gian chạy (giờ) của các mô hình với bộ dữ liệu TreeBase.1: So sánh thời gian ước lượng lại mô hình LG với hai phương pháp.

Quá trình ước lượng mô hình dừng sau 3 lần lặp.2: So sánh thời gian ước lượng lại mô hình FLU với hai phương pháp. Quá trình ước lượng mô hình dừng sau 3 lần lặp.1: Danh sách các dịch cúm lớn xảy ra với con người.2: Độ tương quan Pearson giữa mô hình FLU và 14 mô hình phổ biến hiện có. Các giá trị tương quan thấp cho thấy mô hình FLU là rất khác biệt so với các mô hình hiện có.3: Độ lệch tương đối giữa các hệ số hoán đổi của FLU so với HIVb và LG. Giá trị ở hàng "Hai lần” và cột “FLU>LG” cho biết số hệ số hoán đổi trong FLU lớn hơn ít nhất hai lần hệ số tương ứng trong LG.

Giải thích tương tự cho các ô còn lại.4: Giá trị AIC trung bình trên mỗi vị trí của FLU so với các mô hình khác (sắp xếp theo thứ tự giảm dần). FLU có giá trị AIC trung bình trên mỗi vị trí tốt nhất.5: So sánh xây dựng cây của FLU với 14 mô hình khác. Các cột 1st, 2nd, … 15th cho biết số lượng sắp hàng mà mô hình đứng ở thứ hạng tương ứng trên tổng số 15 mô hình thử nghiệm. Ví dụ, mô hình FLU đứng ở thứ hạng đầu tiên với 2499, đứng vị trí thư hai với 482 trên tổng số 3970 sắp hàng.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Câu hỏi thường gặp

Luận án "Luận án: Các phương pháp xây dựng ma trận biến đổi axit amin" nghiên cứu về vấn đề gì?

Luận án nghiên cứu các phương pháp xây dựng ma trận biến đổi axit amin, ứng dụng trong sinh học cấu trúc.

Luận án "Luận án: Các phương pháp xây dựng ma trận biến đổi axit amin" được bảo vệ tại trường nào?

Luận án này được bảo vệ tại trường đại học công nghệ, đại học quốc gia hà nội. Năm bảo vệ: 2013.

Luận án "Luận án: Các phương pháp xây dựng ma trận biến đổi axit amin" thuộc chuyên ngành gì?

Luận án "Luận án: Các phương pháp xây dựng ma trận biến đổi axit amin" thuộc chuyên ngành Khoa học Máy tính. Danh mục: Sinh Học Tiến Hóa.

Luận án "Luận án: Các phương pháp xây dựng ma trận biến đổi axit amin" có bao nhiêu trang?

Luận án "Luận án: Các phương pháp xây dựng ma trận biến đổi axit amin" có 100 trang. Bạn có thể xem trước một phần tài liệu ngay trên trang web trước khi tải về.

Cách tải luận án "Luận án: Các phương pháp xây dựng ma trận biến đổi axit amin" về máy như thế nào?

Để tải luận án về máy, bạn nhấn nút "Tải xuống ngay" trên trang này, sau đó hoàn tất thanh toán phí lưu trữ. File sẽ được tải xuống ngay sau khi thanh toán thành công. Hỗ trợ qua Zalo: 0559 297 239.

Luận án liên quan

Chia sẻ tài liệu: Facebook Twitter

Mục lục chi tiết

Tóm tắt nội dung