TIN SINH HỌC P45

Chia sẻ bởi Võ Phương Thảo | Ngày 23/10/2018 | 39

Chia sẻ tài liệu: TIN SINH HỌC P45 thuộc Bài giảng khác

Nội dung tài liệu:

KÍNH CHÀO THẦY CÔ VÀ CÁC BẠN
GIÁO VIÊN HƯỚNG DẪN: TS. NGUYỄN VĂN TOÀN
NGƯỜI THỰC HIỆN: LÊ HUỲNH QUANG KHANH
LỚP: SINH HỌC THỰC NGHIỆM K14
ĐỀ TÀI:
TRÌNH TỰ CỦA CÁC TƯƠNG ĐỒNG - XÂY DỰNG CÂY PHÁT SINH
4.1.1 So sánh trình tự từng đôi
So sánh trình tự protein là một trong những cơ sở của tin sinh học. Khả năng của chúng tôi để thực hiện nhanh chóng so sánh trình tự tự động tạo điều kiện cho tất cả mọi thứ từ giao chức năng cho một trình tự mới, để dự báo và xây dựng mô hình cấu trúc protein, để thiết kế và phân tích thí nghiệm biểu hiện gen. Theo dữ liệu chuỗi sinh học đã tích lũy được, nó đã trở nên rõ ràng rằng bản chất là bảo thủ. Một sinh hóa mới không tạo ra cho mỗi loài mới, và chức năng mới không tạo ra bởi sự xuất hiện đột ngột của các gen hoàn toàn mới. Thay vào đó, thay đổi gia tăng làm gia tăng sự đa dạng di truyền và chức năng mới. Với tiền đề này trong tâm trí, phát hiện sự tương tự giữa các trình tự cho phép bạn chuyển thông tin về một trình tự để trình tự tương tự khác hợp lý, mặc dù không phải luôn luôn tổng cộng, sự tự tin. Trước khi bạn có thể lập báo cáo so sánh trình tự protein, một sắp xếp trình tự là cần thiết.
4.1. Bối cảnh và lý thuyết
Các khái niệm cơ bản của việc lựa chọn một trình tự sắp xếp tối ưu là đơn giản. Hai chuỗi được xuất hiện lên một cách độc đoán. Chất lượng của sự kết hợp là ghi chép. Sau đó, một trình tự được di chuyển đối với các khác và sự kết hợp được ghi lại, cho đến khi sự liên kết tốt nhất được tìm thấy. Những âm thanh đơn giản về nguyên tắc không phải là ở tất cả các đơn giản trong thực tế. Chọn một liên kết tốt bằng mắt là có thể, nhưng cuộc sống là quá ngắn để làm điều đó nhiều hơn một lần hoặc hai lần. Một phương pháp tự động để tìm ra sự liên kết tối ưu của hàng ngàn lựa chọn thay thế rõ ràng là cách tiếp cận đúng, nhưng để cho phương pháp này để phù hợp và sinh học có ý nghĩa, một số câu hỏi phải được trả lời.
Sự sắp xếp nên được chấm điểm như thế nào? Một bảng chấm điểm có thể đơn giản như là 1 cho sự kết hợp và -1 cho không phù hợp, nhưng bảng chấm điểm tốt nhất cho ta dữ liệu là gì? Nên những khoảng trống được phép mở các trình tự để tạo điều kiện cho sự kết hợp tốt hơn ở nơi khác? Nếu khoảng cách được cho phép,họ cần phải ghi chép như thế nào? Với các thông số ghi chính xác, thuật toán tốt nhất cho việc tìm kiếm sự liên kết tối ưu của hai chuỗi là gì? Và khi sắp xếp một được sản xuất, là nó nhất thiết phải có ý nghĩa? Có thể một liên kết có chất lượng tương tự được sản xuất cho hai chuỗi ngẫu nhiên?
Hình 1 cho thấy những ví dụ về ba loại liên kết. Đây là ba cặp sắp xếp trình tự tạo ra bằng cách sử dụng một chương trình gọi là LALIGN. Trong mỗi sự liên kết, trình tự được so sánh, được hiển thị, một ở trên. Như vậy mà dư lượng phù hợpvới sự liên kết. Sự kết hợp giống nhau được chỉ báo với một dấu hai chấm (:) giữa các dư lượng phù hợp, trong khi tương đồng được chỉ định với một đơn chấm (.). Thông tin về sự liên kết được trình bày ở đầu trang, bao gồm nhận dạng phần trăm (số lượng các sự liên kết giống hệt nhau chia cho độ dài của liên kết) và điểm số. Cuối cùng, những khoảng trống trong một trình tự tương đối so với nhau được đại diện bằng dấu gạch ngang (-) cho từng vị trí trong đó trình tự chiếm một khoảng trống
Hình 4.1: Ba sự sắp xếp: cao điểm, thấp điểm nhưng có ý nghĩa, và ngẫu nhiên
Các liên kết đầu tiên là một điểm cao nhất: nó cho thấy một sự so sánh của hai loại protein liên quan chặt chẽ (hai phân tử hemoglobin, một từ một cá mút đá biển và một từ một cá mút đá myxin). So sánh rằng sự liên kết với so sánh thứ hai, một sự so sánh của hai loại protein xa (một lần nữa, hai phân tử hemoglobin, trong trường hợp này được lấy từ cá mút đá và gạo). Lướt qua kiểm tra cho thấy ít dư lượng hơn giống hệt nhau được chia sẻ bởi các trình tự trong sự liên kết cho điểm thấp hơn so với một điểm cao. Tuy nhiên, có nhiều điểm tương đồng hoặc thay đổi bảo thủ - những thay đổi trong đó một amino acid đã được thay thế bởi một cái khác, dư lượng hóa học tương tự.
Sự sắp xếp thứ ba là một liên kết ngẫu nhiên, so sánh giữa hai chuỗi không liên quan (hemoglobin của cá mút đá và một loại protein của con nguời liên kết retinol). Chú ý rằng, ngoài số ít các bản sắc và đột biến bảo thủ giữa hai khoảng cách lớn đã được mở ra ở cả các trình tự để đạt được sự liên kết này. Gene gia đình không có khả năng phát triển theo cách này, và cho việc thiếu giống nhau giữa các trình tự, bạn có thể kết luận rằng những protein này không liên quan.
Trong mô tả sự so sánh trình tự, một vài thuật ngữ khác nhau thường được sử dụng. Trình tự nhận dạng, trình tự giống nhau, và trình tự tương đồng là quan trọng nhất của các thuật ngữ này.
Mỗi trình tự có nghĩa là một cái gì đó hơi khác nhau, mặc dù chúng thường được sử dụng thay thế cho nhau bất kì.
* Trình tự nhận dạng đề cập đến sự xuất hiện của chính xác các acid nucleic hoặc axit amin ở vị trí tương tự trong hai chuỗi liên kết.
* Trình tự giống nhau chỉ có ý nghĩa khi thay thế, có thể được ghi theo xác suất mà chúng xảy ra. Trong các chuỗi protein, axit amin có tính chất hóa học tương tự được tìm thấy để thay thế cho nhau nhiều hơn, dễ dàng hơn so với các axit amin khác nhau. Những khuynh hướng được đại diện trong các ma trận điểm có điểm số sắp xếp thứ tự. Hai axit amin được coi là tương tự nếu có thể được thay thế cho nhau với một số điểm tích cực tỷ lệ cược đăng nhập từ một ma trận điểm (được mô tả ở phần tiếp theo).
* Trình tự tương đồng là một thuật ngữ tổng quát hơn cho biết tiến hóa giữa các trình tự. Hai chuỗi có thể được tương đồng hay không. Hai chuỗi được cho là tương đồng nếu cả hai bắt nguồn từ một chuỗi tổ tiên chung.
4.1.2 Chấm điểm ma trận
Những gì bạn thực sự muốn tìm hiểu khi đánh giá một liên kết chuỗi là có một sự liên kết cho là ngẫu nhiên, hoặc có ý nghĩa. Nếu sự liên kết có ý nghĩa, bạn muốn để đánh giá như thế nào có ý nghĩa. Bạn cố gắng để làm điều này bằng việc xây dựng một ma trận điểm. Một ma trận điểm là một bảng các giá trị mô tả xác suất của một dư lượng (amino acid) cặp xảy ra trong sự liên kết một. Các giá trị trong một ma trận điểm là logarit của tỷ số của hai xác suất.
* Một là xác suất xảy ra ngẫu nhiên của một axit amin trong một chuỗi liên kết. Giá trị này chỉ đơn giản là sản phẩm của các tần số độc lập với sự xuất hiện của mỗi của các axit amin.
* Hai là xác suất xảy ra có ý nghĩa của một cặp dư lượng trong một chuỗi liên kết.
Các xác suất này được bắt nguồn từ các mẫu sắp xếp trình tự thực tế đó được biết là có giá trị. Để sắp xếp một số điểm, các chương trình liên kết cần phải biết nếu nó là nhiều khả năng rằng một cặp cho amino acid đã xảy ra ngẫu nhiên hoặc là nó đã xảy ra như là kết quả của một sự kiện tiến hóa. Các logarit của tỷ lệ xác suất xảy ra có ý nghĩa với xác suất xảy ra ngẫu nhiên là tích cực nếu xác suất xảy ra có ý nghĩa lớn và tiêu cực nếu xác suất xảy ra ngẫu nhiên là lớn hơn. Bởi vì điểm số là logarit của tỷ lệ xác suất, họ có thể có ý nghĩa nhất để cung cấp cho một số điểm cho toàn bộ chuỗi. Những điểm tích cực hơn, những sự liên kết nhiều khả năng là đáng kể.
Hình 4.2 cho thấy một ví dụ về một ma trận BLOSUM45, một ma trận thay thế phổ biến cho các axit amin.
Ma trận thay thế cho các axit amin phức tạp bởi vì chúng phản ánh bản chất hóa học và tần số xuất hiện của các axit amin. Ví dụ, trong ma trận BLOSUM các acid glutamic (E) có một số điểm tích cực cho sự thay thế với acid aspartic (D) và cũng với glutamine (Q). Cả hai thay thế những chất hóa học bảo thủ. Aspartic acid có một chuỗi bên cấu trúc hóa học tương tự như acid glutamic, mặc dù một nhóm methyl ngắn hơn. Mặt khác, glutamine có kích thước tương tự và hóa học với axit glutamic, nhưng nó là trung tính, trong khi acid glutamic là mang điện tích âm. Điểm thay thế cho acid glutamic có dư lượng như isoleucine (I) và leucine (L) tiêu cực.
Những dư lượng có trung tính, dây chuyền bên không phân cực và chất hóa học khác nhau từ acid glutamic. Các điểm trên đường chéo của ma trận phản ánh tần số xuất hiện của mỗi axít amin.
Ví dụ, với số điểm tích cực của 15, là không chắc rằng có sự liên kết của một tryptophan hiếm (W) với tryptophan khác là trùng hợp ngẫu nhiên, trong khi các serine phổ biến hơn (S) có một số điểm tích cực chỉ 4 cho phù hợp với một serine. Điều quan trọng cần nhớ là các điểm này là logarit, có nghĩa là một sự kết hợp của hai serines xa chỉ là trùng hợp ngẫu nhiên đơn thuần.
Ma trận BLOSUM được bắt nguồn từ cơ sở dữ liệu Blocks, một tập hợp của sự sắp xếp không có chỗ trống của các vùng trình tự từ các gia đình của các protein có liên quan . Một cách tiếp cận các trình tự trong mỗi khối thành các nhóm liên quan chặt chẽ, và các tần số của sự thay thế giữa các bên trong một gia đình có nguồn gốc xác suất của một sự thay thế có ý nghĩa. Các giá trị số (ví dụ, 62) liên kết với một ma trận BLOSUM biểu thị giá trị cắt cho bước phân nhóm. Một giá trị là 62 cho thấy rằng các trình tự đã được đưa vào các nhóm tương tự nếu họ đã có hơn 62% giống hệt nhau.
Bằng cách cho phép các trình tự đa dạng hơn để được bao gồm trong mỗi cụm, các giá trị cắt thấp hơn đại diện cho quy mô thời gian dài tiến hóa. Do đó, các ma trận với các giá trị cắt thấp phù hợp với tìm kiếm các mối quan hệ xa hơn. BLOSUM62 là ma trận sắp xếp tiêu chuẩn cho sự sắp xếp không có chỗ trống. Trong khi BLOSUM50 là thường sử dụng khi tạo ra sự sắp xếp với những khoảng trống.
Ma trận điểm chấp nhận đột biến (PAM) được thu nhỏ theo mô hình của khoảng cách tiến hóa từ sự sắp xếp trình tự liên quan chặt chẽ. Một PAM "đơn vị" tương đương với một sự thay đổi trung bình trong 1% của tất cả các vị trí acid amin. Các PAM ma trận thường được sử dụng phổ biến nhất là PAM250. Tuy nhiên, so sánh các kết quả bằng cách sử dụng PAM và ma trận BLOSUM cho rằng ma trận BLOSUM tốt hơn trong việc phát hiện các điểm tương đồng sinh học đáng kể.
4.1.3 Hình phạt Gap
Nó thường cần thiết để giới thiệu những khoảng trống vào một hoặc cả hai của các trình tự được sắp xếp để tạo ra một sự liên kết có ý nghĩa giữa chúng. Hầu hết các thuật toán sử dụng một hình phạt khoảng cách để đại diện cho các giá trị của việc thêm một khoảng cách trong một sự liên kết. Việc bổ sung một khoảng cách có thể tốn kém đủ về điểm số tổng thể sắp xếp, khoảng cách sẽ chỉ mở cửa khi chúng thực sự cần thiết và không phải tất cả trong chuỗi. Hầu hết các mô hình chuỗi liên kết sử dụng hình phạt khoảng cách afin, trong đó chi phí mở một khoảng cách về trình tự là khác nhau từ các chi phí của việc mở rộng một khoảng cách đó đã được bắt đầu.
Trong hai hình phạt - hình phạt mở khoảng cách và phần mở rộng khoảng cách hình phạt - khoảng cách mở hình phạt có xu hướng mở cửa cao hơn nhiều so với hình phạt mở rộng liên kết. Xu hướng này phản ánh xu hướng cho phép chèn thêm và xoá xảy ra trên một số dư lượng tại một thời điểm.
Hình phạt khoảng cách mật thiết gắn liền với ma trận điểm đó gắn các trình tự: cặp mở tốt nhất của khoảng cách và hình phạt mở rộng đối với một ma trận điểm không nhất thiết phải làm việc với cặp khác. Điểm mở khoảng cách và -1 đối với phần mở rộng khoảng cách thường được sử dụng kết hợp với các ma trận 62 BLOSUMBLAST-gapped, trong khi BLOSUM50 sử dụng một hình phạt -12/-1.
4.1.4 Liên kết toàn cầu so với địa phương
Sự liên kết toàn cầu giả định rằng hai loại protein này về cơ bản tương tự trên toàn bộ chiều dài của nhau. Sự liên kết cố gắng để kết hợp chúng với nhau từ đầu đến cuối, mặc dù các bộ phần của sự liên kết không phải là rất thuyết phục. Các thuật toán cho sự liên kết của toàn bộ trình tự được gọi là thuật toán Needleman-Wunsch. Trong kịch bản này, một sự liên kết tối ưu là xây dựng được từ cao điểm sắp xếp của những trình tự, bước qua ma trận lập trình năng động từ trên trái sang góc dưới bên phải . Chỉ có con đường tốt nhất cho điểm có thể
được truy tìm thông qua các ma trận, dẫn đến một sự liên kết tối ưu. Một ví dụ nhỏ:

NLGPSTKDFGKISESREFDNQ
| | | | | |
QLNQLERSFGKINMRLEDALV
Một sự liên kết để tìm kiếm cho các phân đoạn của hai trình tự phù hợp cũng được gọi là sự liên kết địa phương. Không có nỗ lực để buộc các trình tự sắp xếp toàn bộ thành một liên kết, chỉ cần những bộ phần mà dường như có sự tương đồng tốt, theo một số tiêu chí. Các phiên bản của các thuật toán lập trình năng động mà thực hiện sự liên kết địa phương của hai chuỗi được gọi là giải thuật Smith-Waterman. Được đặt tên theo nhà phát minh của mình, Tiến sĩ Temple Smith và Tiến sĩ Michael Waterman, thuật toán này tương tự như các thuật toán Needleman-Wunsch, ngoại trừ một sự lựa chọn bổ sung được cho phép khi truy tìm thông qua các ma trận. Một sự liên kết của địa phương là không bắt buộc phải mở rộng từ đầu đến cuối của hai chuỗi được liên kết. Nếu số điểm tích lũy lên đến một số điểm trong chuỗi là tiêu cực, sự liên kết có thể bị hủy bỏ và một liên kết mới bắt đầu. Các liên kết cũng có thể kết thúc bất cứ nơi nào trong ma trận.
Người ta có thể nhận được:

NLGPSTKDDFGKILGPSTKDDQ
          | | | |
QNQLERSSNFGKINQLERSSNN

Bởi đến nay, các công cụ phổ biến nhất để tìm kiếm cơ sở dữ liệu trình tự là một chương trình BLAST ( Công cụ tìm kiếm). BLAST là thuật toán cốt lõi của hầu hết các máy chủ tìm kiếm trực tuyến các trình tự. Nó thực hiện các so sánh cặp trình tự, tìm kiếm các khu vực tương tự của địa phương, thay vì sắp xếp tối ưu toàn cầu giữa các trình tự toàn bộ.
4.1.5 Nhiều trình tự sắp xếp
Nhiều kỹ thuật liên kết trình tự là phổ biến nhất được áp dụng cho các trình tự của một gia đình protein lý tưởng, mà chúng là lời tuyên bố tương tự tiến hóa và cấu trúc trong số các protein được mã hóa bởi mỗi trình tự trong sự liên kết này. Chúng ta biết rằng protein có chức năng liên quan chặt chẽ tương tự như trong cả hai trình tự và cấu trúc của sinh vật và trình tự mà có xu hướng thay đổi nhanh hơn so với cơ cấu trong quá trình tiến hóa. Trong nhiều sự sắp xếp tạo ra từ chuỗi dữ liệu một mình, các khu vực tương tự trong chuỗi thường được tìm thấy trong cấu trúc là tốt. Với một kiến thức chi tiết về hóa sinh của protein, bạn có thể tạo ra một sự liên kết nhiều bằng tay. Đây là một quá trình khó nhọc. Tuy nhiên, các thách thức của sự liên kết tự động là rất khó để xác định chính xác những gì một sự liên kết tối ưu là nhiều và không thể thiết lập một tiêu chuẩn cho một sự liên kết nhiều chính xác.
Về lý thuyết, có một quá trình tiến hóa cơ bản và một sự liên kết tiến hóa chính xác được tạo ra từ bất kỳ nhóm các trình tự. Tuy nhiên, sự khác biệt giữa các trình tự có thể rất tuyệt vời trong các bộ phận của một liên kết mà không có một, giải pháp duy nhất rõ ràng được tìm thấy bởi một thuật toán sắp xếp. Những khu vực khác nhau thường có cấu trúc tương tự là tốt. Hầu hết những cái nhìn sâu sắc mà chúng ta xuất phát từ sự sắp xếp nhiều từ việc phân tích các khu vực tương tự, không phải từ nỗ lực để gắn kết các vùng rất phân tán. Các thuật toán lập trình năng động được sử dụng cho sự liên kết các cặp chuỗi về mặt lý thuyết có thể được mở rộng cho bất kỳ số lượng các trình tự. Tuy nhiên, các yêu cầu về thời gian và bộ nhớ của thuật toán này tăng theo cấp số nhân với số trình tự. Năng động, lập trình liên kết của hai chuỗi mất vài giây. Liên kết của bốn trình tự tương đối ngắn mất một vài giờ.
Ngoài ra, nó trở nên không thực tế để sắp xếp trình tự theo cách này. Các MSA là một chương trình thực hiện một thuật toán làm giảm sự phức tạp của các vấn đề lập trình năng động cho các trình tự ở nhiều mức độ nào đó. Nó có thể sắp xếp khoảng bảy chuỗi protein tương đối ngắn (200-300 amino axit) trong một khoảng thời gian hợp lý.
Một cách tiếp cận chung để liên kết nhiều trình tự là để dần dần sắp xếp các cặp trình tự. Các chiến lược tổng thể tiến bộ có thể được trình bày như sau: một cặp khởi đầu của chuỗi được chọn và liên kết, sau đó, mỗi chuỗi tiếp theo là gắn kết với sự liên kết trước đó.
Giống như các thuật toán Needleman-Wunsch và Smith-Waterman cho sự liên kết trình tự, tiến bộ liên kết là một cách thể hiện của một thuật toán heuristic. Cụ thể, đó là một thuật toán tham lam. Các thuật toán tham lam phân hủy một vấn đề thành nhiều phần, sau đó chọn giải pháp tốt nhất cho mỗi phần mà không chú ý đến các vấn đề chung. Trong trường hợp của sự liên kết tiến bộ, các vấn đề tổng thể (liên kết của nhiều trình tự) được chia ra thành một loạt các bước liên kết cặp). Bởi vì nó là một thuật toán heuristic, sự liên kết tiến bộ không được bảo đảm để tìm ra sự liên kết tốt nhất có thể. Tuy nhiên, trong thực tế nó là hiệu quả và kết quả sản xuất sinh học có ý nghĩa.
4.1.6 Nhiều trình tự sắp với ClustalW
Một chương trình thường được sử dụng cho sự liên kết trình tự nhiều tiến bộ là ClustalW. Các heuristic được sử dụng trong ClustalW là dựa trên phân tích phát sinh loài. Đầu tiên, một khoảng cách cặp ma trận cho tất cả các trình tự được liên kết được tạo ra, và một cây hướng dẫn được tạo ra bằng cách sử dụng các thuật toán láng giềng, tham gia. Sau đó, mỗi cặp chặt chẽ nhất có liên quan của các chuỗi - ngoài cùng các chi nhánh của cây - là liên kết với nhau bằng cách sử dụng chương trình năng động. Tiếp theo, mỗi liên kết mới được phân tích để xây dựng một hồ sơ trình tự. Cuối cùng, các cấu hình liên kết là liên kết với nhau hoặc với các trình tự khác (tùy thuộc vào cấu trúc liên kết của cây) cho đến khi một sự liên kết được xây dựng. Chiến lược này tạo ra sự sắp xếp hợp lý theo một loạt các điều kiện.
Nó không đơn giản, đối với các trình tự xa, nó có thể xây dựng không chính xác của sự liên kết cặp và phân tích phát sinh loài. Nhưng đối với các bộ liên tục với một số cặp dể nhận ra có liên quan, nó được xây dựng trên những thế mạnh của các phương pháp này. Cặp trình tự sắp xếp bằng cách lập trình năng động là rất chính xác cho trình tự liên quan chặt chẽ đến bất kể là các giá trị ma trận điểm hoặc hình phạt được sử dụng. Phát sinh loài phân tích tương đối rõ ràng cho các trình tự liên quan chặt chẽ. Sử dụng nhiều trình tự để tạo ra các cấu hình tăng tính chính xác của sự liên kết cặp với trình tự xa hơn. Có nhiều thông số liên quan đến nhiều sự liên kết chuỗi. Có tất nhiên, các ma trận điểm và hình phạt khoảng cách liên kết với các bước liên kết cặp.
Ngoài ra, còn có các thông số trọng mà làm thay đổi điểm sắp xếp ma trận được sử dụng trong hồ sơ trình tự và hồ sơ cá nhân.
Các thông số liên kết cặp quen thuộc và có cùng một nghĩa trong nhiều liên kết như trong sự liên kết cặp.
Các thông số liên kết bao gồm việc mở nhiều khoảng cách và hình phạt mở rộng khoảng cách cho quá trình liên kết nhiều - được sử dụng khi tinh chỉnh sắp xếp - và một sự chậm trễ tối đa cho phép, về độ dài chuỗi, bắt đầu trình tự khác nhau vào lúc bắt đầu của sự liên kết. Một trong những chẩn đoán của ClustalW rằng trong sự liên kết chuỗi protein, các ma trận điểm khác nhau được sử dụng cho mỗi liên kết dựa trên khoảng cách tiến hóa dự kiến. Nếu hai chuỗi là láng giềng gần cây, trong một ma trận điểm tối ưu hóa cho các mối quan hệ gần gũi sắp xếp chúng. Các láng giềng xa được liên kết bằng cách sử dụng các ma trận tối ưu hóa các mối quan hệ xa.
Vì vậy, khi được nhắc để lựa chọn một loạt các ma trận trong menu nhiều liên kết tham số, nó có nghĩa là chỉ rằng: sử dụng BLOSUM62 cho quan hệ gần gũi và BLOSUM45 cho mối quan hệ xa hơn, chứ không phải là ma trận điểm giống nhau cho tất cả các sắp xếp cặp. Một phương pháp heuristic mà ClustalW sử dụng là hình phạt khoảng cách có thể mở rộng cho sắp xếp hồ sơ cá nhân protein. Một khoảng cách mở bên cạnh một dư lượng kỵ nước bảo tồn có thể bị phạt nhiều hơn so với mở cửa khoảng cách bên cạnh một dư lượng ưa nước. Một khoảng cách mở quá gần với một khoảng cách khác có thể bị phạt nặng nề hơn nhiều so với một khoảng cách cô lập.
4.2 Phát sinh loài phân tích
Thông tin từ các acid nucleic và các chuỗi protein có thể được sử dụng để suy ra các mối quan hệ phát sinh loài trong số các trình tự và các sinh vật là nguồn của các trình tự. Lý do khá đơn giản - càng nhiều đột biến cần thiết để thay đổi một chuỗi thành cái khác, không liên quan nhiều hơn các trình tự và xác suất thấp hơn mà họ chia sẻ một trình tự tổ tiên chung gần đây. Ngược lại, một cặp giống nhau hơn về trình tự, việc ít hơn số lượng các thay đổi cần thiết và khả năng lớn hơn mà họ chia sẻ một trình tự tổ tiên chung gần đây. Chúng tôi có thể xây dựng một cây từ bất kỳ thiết lập liên kết của trình tự, nhưng nếu chúng tôi cố gắng để giải thích các cây để suy ra thời gian thực tế của sự khác nhau về các trình tự, chúng tôi sẽ phải giả định rằng các gen lựa chọn này không thuộc thẩm lựa chọn khác biệt, và rằng tỷ lệ thay đổi đã được tương đối ổn định.
Mặc dù các điều kiện này có thể không thường xuyên được đáp ứng, giả sử chúng cho phép dự đoán hữu ích được thực hiện. Để biết thêm kiến thức về các mối quan hệ tiến hóa so sánh giữa các sinh vật, và so sánh các gen khác nhau có thể cần thiết để cải thiện dự đoán như vậy. Các mối quan hệ phát sinh loài thường được minh họa trong một cây đồ họa. Như một cái cây là một đồ thị 2-chiều cho thấy mối quan hệ tiến hóa giữa các sinh vật hoặc trong các gen nhất định từ sinh vật riêng biệt. Cây bao gồm có các nút đại diện cho các đơn vị phân loại và chi nhánh đại diện các mối quan hệ giữa các đơn vị phân loại này. Độ dài của các ngành này thường được vẽ tỉ lệ thuận với số lượng thay đổi trình tự trong ngành. Một ví dụ về một cây như vậy phát sinh loài được đưa ra ở trên.
Ví dụ về một cây bắt nguồn từ 4 đơn vị phân loại cho thấy độ dài ngành tỷ lệ thuận với số lượng thay đổi trong các ngành.
Đối với một giải thích chính xác các đặc tính cây là cần thiết.
* Một con đường duy nhất dẫn từ nút gốc đến bất kỳ nút khác và sự chỉ đạo cho thấy thời gian tiến hóa.
* Gốc được xác định bằng cách bao gồm một đơn vị phân loại là hợp lý chắc chắn phân nhánh ra sớm hơn so với các loài khác được nghiên cứu nhưng phải liên quan đến các đơn vị phân loại còn lại.
* Nếu chúng ta không có một đơn vị phân loại để xác định gốc rễ, chúng ta có thể dự đoán các mối quan hệ bởi một cây không có rễ.
Ba loại phân tích để kiểm tra có thể xảy ra hầu hết các mối quan hệ phát sinh loài giữa các trình tự được sử dụng:
- Phương pháp  khoảng cách: Có thể lấy tất cả cặp chuỗi liên kết để xác định những cặp tương tự hoặc liên quan chặt chẽ. Những sự sắp xếp này cung cấp một thước đo về khoảng cách di truyền giữa các chuỗi. Những phép đo khoảng cách này sau đó được sử dụng để dự đoán mối quan hệ tiến hóa.
- Phương pháp  cẩn thận  tối đa: Một liên kết nhiều chuỗi được sản xuất để dự đoán thứ tự các vị trí có khả năng tương ứng. Những vị trí này sẽ xuất hiện trong cột dọc của sự liên kết nhiều chuỗi.
 Đối với mỗi vị trí phù hợp, cây phát sinh loài đó có yêu cầu số lượng nhỏ nhất của thay đổi tiến hóa để sản xuất những thay đổi trình tự quan sát được xác định. Phân tích này là tiếp tục cho mỗi vị trí trong sự liên kết chuỗi. Cuối cùng, những cây sản xuất số lượng nhỏ nhất của những thay đổi tổng thể cho tất cả các vị trítrình tự được xác định.
- Phương pháp khả năng tối đa: Như phương pháp sự cẩn thận tối đa, các phương pháp khả năng tối đa phụ thuộc khi đầu tiên có được một sự liên kết nhiều chuỗi đáng tin cậy và sau đó kiểm tra những thay đổi trong mỗi cột của sự liên kết. Trong trường hợp này, khả năng của một cây cụ thể được tính bằng cách sử dụng một mô hình dự kiến của sự thay đổi trong các cảnh quay. 
Ví dụ, tất cả các nucleotide được giả định là như nhau thường xuyên và xác suất của sự thay đổi của bất kỳ nucleotide khác được giả định là giống nhau trong mô hình Jukes-Cantor. Đối với mỗi cây có thể, khả năng của việc tìm kiếm các thay đổi trình tự thực tế tại mỗi cột trong các chuỗi liên kết được tính toán. Xác suất cho mỗi vị trí phù hợp sau đó được nhân với nhau để cung cấp một khả năng cho mỗi cây. Cây cung cấp các giá trị khả năng tối đa là cây có thể xảy ra nhất.
Một phân tích phát sinh loài theo các bước sau đây:
1. Liên kết nhiều chuỗi.
2.  Xây dựng cây.
3. Đánh giá của tín hiệu phát sinh loài trong dữ liệu và sự vững mạnh của cây tính.
VÍ DỤ:
CÁC BƯỚC XÂY DỰNG CÂY PHÁT SINH
CẢM ƠN THẦY CÔ VÀ CÁC BẠN!
* Một số tài liệu cũ có thể bị lỗi font khi hiển thị do dùng bộ mã không phải Unikey ...

Người chia sẻ: Võ Phương Thảo
Dung lượng: | Lượt tài: 1
Loại file:
Nguồn : Chưa rõ
(Tài liệu chưa được thẩm định)