Bai giang tin sinh hoc 4
Chia sẻ bởi Lê Khắc Đường |
Ngày 23/10/2018 |
57
Chia sẻ tài liệu: Bai giang tin sinh hoc 4 thuộc Bài giảng khác
Nội dung tài liệu:
1
n to
SO SÁNH CÁC TRÌNH TỰ SINH
HỌC BẰNG BLAST VÀ CLUTALX
Mục tiêu của bài học
Nắm được những nguyên tắc so sánh các trình tự sinh học
Sử dụng chương trình BLAST giúp chúng ta nhanh chóng tìm ra những trình tự sinh học tương đồng (nếu có trong các CSDL lớn như NCBI, EMBL, DDPJ…) với trình tự yêu cầu.
Cung cấp những số liệu về tỉ lệ tương đồng, nguồn gốc các trình tự tương đồng,…
Tìm kiếm trình tự sinh học
2
Bắt cặp trình tự
Sắp xếp thẳng hàng trình tự là phương pháp sắp xếp hai hoặc nhiều trình tự nhằm đạt được sự giống nhau tối đa.
Các trình tự này có thể được xen bằng các khoảng trống (thường được diễn tả bằng các gạch nối ngang) tại các vị trí có thể để làm sao tạo thành các cột giống nhau (identical) hoặc tương tự nhau (similar).
tcctctgcctctgccatcat---caaccccaaagt
|||| ||| ||||| ||||| ||||||||||||
tcctgtgcatctgcaatcatgggcaaccccaaagt
Giới thiệu môn học
3
Phương pháp này thường được dùng để nghiên cứu sự tiến hóa của các trình tự từ một tổ tiên chung, đặc biệt là các trình tự sinh học như trình tự protein hoặc trình tự DNA.
Các bắt cặp không đúng trong trình tự tương ứng với các đột biến và các khoảng trống tương ứng với phần thêm vào hoặc xóa đi.
Thuật ngữ "sắp xếp thẳng hàng trình tự" cũng chỉ quá trình tạo ra sự sắp xếp này hay tìm ra các cách sắp xếp tốt nhất trong cơ sở dữ liệu gồm các trình tự riêng biệt.
Giới thiệu môn học
4
Sắp gióng cột đôi một (Pairwise alignment)
Sắp gióng cột đôi một là phương pháp phục vụ cho việc tìm kiếm một trình tự sắp gióng cột toàn bộ hay (cục bộ) mà trùng khớp nhất của các chuỗi protein (amino acid) hay DNA (nucleic acid).
Thông thường, mục đích của nó là tìm ra (mối quan hệ) đồng đẳng của một gene hay một sản phẩm-gen trong một cơ sở dữ liệu các thông tin mẫu đã có sẵn. Thông tin này là hữu ích để trả lời một loạt các câu hỏi sinh học khác nhau.
Giới thiệu môn học
5
Ứng dụng
Một vài ví dụ về những câu hỏi mà các nhà nghiên cứu dùng BLAST để tìm câu trả lời.
Chủng loại vi khuẩn nào có các protein có liên hệ về giống loài với một loại protein khác mà có chuỗi amino-acid mà ta đã biết không?.
Chuỗi DNA mà ta vừa sắp xếp có nguồn gốc từ đâu?
Có gen nào khác dùng để mã hóa các protein có cấu trúc hay dáng dấp gần với cái mà ta vừa xác định không?.
BLAST còn được dùng kết hợp với các giải thuật khác có đòi hỏi sự so trùng chuỗi gần đúng.
Giới thiệu môn học
6
Blast
BLAST là một giải thuật để so sánh các chuỗi sinh học, như các chuỗi của các protein hay của các chuỗi DNA khác nhau.
Chúng ta dùng blast khi câu hỏi đặt ra “liệu có trình tự nào trong ngân hàng dữ liệu giống hoặc gần giống với trình tự của bạn không”?.
Giới thiệu môn học
7
Nguyên tắc trong blast
Thuật toán của BLAST có 2 phần, một phần tìm kiếm và một phần đánh giá thống kê dựa trên kết quả tìm được.
Giới thiệu môn học
8
Thu thập và lựa chọn trình tự (protein hay DNA, RNA)
Blast
Thuật toán blast
Thuật toán của BLAST có 2 phần, một phần tìm kiếm và một phần đánh giá thống kê dựa trên kết quả tìm được.
Trong phần đánh giá thống kê, BLAST dựa trên cơ sở đánh giá của một cặp trình tự để tính ra một giá trị gọi là [Bit-Score]. Giá trị càng cao chứng tỏ khả năng tương tự của các bắt cặp càng cao.
Ngoài ra BLAST tính toán một giá trị trông đợi E-Score (Expect-Score) phụ thuộc vào Bit-Score.
Giới thiệu môn học
9
Giá trị xác xuất trong blast
Giới thiệu môn học
10
Các bước tìm kiếm trong blast
Giới thiệu môn học
11
Minimum
Score (S)
Neighborhood
Score Threshold (T)
Bước 1: BLAST tìm kiếm các chuỗi con ngắn với chiều dài cố định W có tính tương tự cao
Những chuỗi con nào có số điểm lớn hơn một giá trị ngưỡng T (threshold value) thì được gọi là tìm thấy và được BLAST gọi là Hits
Bước 2: BLAST tiếp tục tìm kiếp những cặp Hits tiếp theo dựa trên cơ sở những Hit đã tìm được trong bước 1
Mở rộng so sánh các trình tự
Bước 3: Cuối cùng BLAST mở rộng những cặp Hits đã tìm được theo cả hai chiều và đồng thời đánh số điểm.
Quá trình mở rộng kết thúc khi điểm của các cặp Hits không thể mở rộng thêm nữa.
Giới thiệu môn học
12
KENFDKARFSGTWYAMAKKDPEG 50 RBP (query)
MKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin (hit)
Hit!
Mở rộng
Mở rộng
Những chuỗi con nucleotide trong blast
Giới thiệu môn học
13
Những chuỗi con này được đánh giá cho điểm dựa trên ma trận thay thế (Substitutionsmatrix) BLOSUM hoặc PAM.
Protein words
Giới thiệu môn học
14
Những chuỗi con này được đánh giá cho điểm dựa trên ma trận thay thế (Substitutionsmatrix) BLOSUM hoặc PAM.
15
Các biến thể của blast
Program query Database
1
blastn DNA DNA
1
blastp protein protein
6
blastx DNA protein
Blastn
Giới thiệu môn học
16
Megablast
Discontiguous megablast
So sánh trình tự Nhập vào với trình tự cơ sở dữ liệu
Giới thiệu môn học
17
Giới thiệu môn học
18
Megablast
Large numbers of query sequences (megablast):
Khi so sánh một số lượng lớn các chuỗi đầu vào qua chỉ một BLAST dạng dòng lệnh, "megablast" là nhanh hơn rất nhiều so với chạy BLAST nhiều lần.
Protein-protein BLAST
Chương trình này, khi đưa vào một protein truy vấn, sẽ trả về các chuỗi protein gần giống nhất từ cơ sở dữ liệu protein mà người dùng chỉ định.
Blastp
PSI-blast
PHI-blast
Giới thiệu môn học
19
Kết quả
Giới thiệu môn học
20
PSI-Blast
PHI-Blast
PSI blast Iteration 1
Giới thiệu môn học
21
Chứa đựng những vùng protein-PSI blast
Giới thiệu môn học
22
Một trong những chương trình BLAST mới nhất, chương trình này dùng để tìm kiếm các mối quan hệ xa (distant relative) của một protein.
Kết quả
Giới thiệu môn học
23
Kết quả
Giới thiệu môn học
24
Blastx
Giới thiệu môn học
25
Kết quả
Giới thiệu môn học
26
Blastx dịch mã protein từ trình tự DNA nhập vào
Phần mềm Clutalx
Clustalx là một phần mềm (giao diện window) dùng cho việc so sánh sự tương đồng của hai hay nhiều trình tự sinh học.
Clustalx mô tả kết quả bằng hệ thống màu sắc và các ký hiệu nổi bậc những nét đặc trưng trong những đoạn tương đồng.
ClustaX ngày càng trở nên hữu ích cho các nhà nghiên cứu trong việc tìm kiếm những vùng bảo tồn trên những trình tự DNA hoặc protein
Giới thiệu môn học
27
Nguyên tắc Clustalx
Thu nhận và lựa chọn tập trình tự (protein hay DNA, RNA)
Nhập các trình tự sinh học vào Clustalx
Phân tích kết quả sắp giống cột
Giới thiệu môn học
28
Thu thập và lựa chọn tập trình tự
Trước khi thực hiện việc gióng cột, phải lựa một cách cẩn thận tập trình tự mà cần giống cột.
Những trình tự này thuộc cùng một protein, DNA hay RNA và cùng tổ tiên
Tùy thuộc vào mục đích xây dựng sắp gióng cột thì ta chọn ra một số trình tự để phân tích bằng ClustalX
Ví dụ: Để phát hiện đột biến thì ta phải tìm trình tự gen của chủng hoang dại và các trình tự của gen của các chủng được cho là đột biến
Nếu muốn tìm vùng bảo tồn thì ta phải thu thập các trình tự gen cùng một họ protease A, gen độc tố LT
Giới thiệu môn học
29
Sắp giống cột bằng Clustalx
Giới thiệu môn học
30
Phân tích sự giống nhau giữa các trình tự
Giới thiệu môn học
31
Giới thiệu môn học
32
Giới thiệu môn học
33
Tin sinh học trả lời mối quan hệ họ hàng
Giới thiệu môn học
34
n to
SO SÁNH CÁC TRÌNH TỰ SINH
HỌC BẰNG BLAST VÀ CLUTALX
Mục tiêu của bài học
Nắm được những nguyên tắc so sánh các trình tự sinh học
Sử dụng chương trình BLAST giúp chúng ta nhanh chóng tìm ra những trình tự sinh học tương đồng (nếu có trong các CSDL lớn như NCBI, EMBL, DDPJ…) với trình tự yêu cầu.
Cung cấp những số liệu về tỉ lệ tương đồng, nguồn gốc các trình tự tương đồng,…
Tìm kiếm trình tự sinh học
2
Bắt cặp trình tự
Sắp xếp thẳng hàng trình tự là phương pháp sắp xếp hai hoặc nhiều trình tự nhằm đạt được sự giống nhau tối đa.
Các trình tự này có thể được xen bằng các khoảng trống (thường được diễn tả bằng các gạch nối ngang) tại các vị trí có thể để làm sao tạo thành các cột giống nhau (identical) hoặc tương tự nhau (similar).
tcctctgcctctgccatcat---caaccccaaagt
|||| ||| ||||| ||||| ||||||||||||
tcctgtgcatctgcaatcatgggcaaccccaaagt
Giới thiệu môn học
3
Phương pháp này thường được dùng để nghiên cứu sự tiến hóa của các trình tự từ một tổ tiên chung, đặc biệt là các trình tự sinh học như trình tự protein hoặc trình tự DNA.
Các bắt cặp không đúng trong trình tự tương ứng với các đột biến và các khoảng trống tương ứng với phần thêm vào hoặc xóa đi.
Thuật ngữ "sắp xếp thẳng hàng trình tự" cũng chỉ quá trình tạo ra sự sắp xếp này hay tìm ra các cách sắp xếp tốt nhất trong cơ sở dữ liệu gồm các trình tự riêng biệt.
Giới thiệu môn học
4
Sắp gióng cột đôi một (Pairwise alignment)
Sắp gióng cột đôi một là phương pháp phục vụ cho việc tìm kiếm một trình tự sắp gióng cột toàn bộ hay (cục bộ) mà trùng khớp nhất của các chuỗi protein (amino acid) hay DNA (nucleic acid).
Thông thường, mục đích của nó là tìm ra (mối quan hệ) đồng đẳng của một gene hay một sản phẩm-gen trong một cơ sở dữ liệu các thông tin mẫu đã có sẵn. Thông tin này là hữu ích để trả lời một loạt các câu hỏi sinh học khác nhau.
Giới thiệu môn học
5
Ứng dụng
Một vài ví dụ về những câu hỏi mà các nhà nghiên cứu dùng BLAST để tìm câu trả lời.
Chủng loại vi khuẩn nào có các protein có liên hệ về giống loài với một loại protein khác mà có chuỗi amino-acid mà ta đã biết không?.
Chuỗi DNA mà ta vừa sắp xếp có nguồn gốc từ đâu?
Có gen nào khác dùng để mã hóa các protein có cấu trúc hay dáng dấp gần với cái mà ta vừa xác định không?.
BLAST còn được dùng kết hợp với các giải thuật khác có đòi hỏi sự so trùng chuỗi gần đúng.
Giới thiệu môn học
6
Blast
BLAST là một giải thuật để so sánh các chuỗi sinh học, như các chuỗi của các protein hay của các chuỗi DNA khác nhau.
Chúng ta dùng blast khi câu hỏi đặt ra “liệu có trình tự nào trong ngân hàng dữ liệu giống hoặc gần giống với trình tự của bạn không”?.
Giới thiệu môn học
7
Nguyên tắc trong blast
Thuật toán của BLAST có 2 phần, một phần tìm kiếm và một phần đánh giá thống kê dựa trên kết quả tìm được.
Giới thiệu môn học
8
Thu thập và lựa chọn trình tự (protein hay DNA, RNA)
Blast
Thuật toán blast
Thuật toán của BLAST có 2 phần, một phần tìm kiếm và một phần đánh giá thống kê dựa trên kết quả tìm được.
Trong phần đánh giá thống kê, BLAST dựa trên cơ sở đánh giá của một cặp trình tự để tính ra một giá trị gọi là [Bit-Score]. Giá trị càng cao chứng tỏ khả năng tương tự của các bắt cặp càng cao.
Ngoài ra BLAST tính toán một giá trị trông đợi E-Score (Expect-Score) phụ thuộc vào Bit-Score.
Giới thiệu môn học
9
Giá trị xác xuất trong blast
Giới thiệu môn học
10
Các bước tìm kiếm trong blast
Giới thiệu môn học
11
Minimum
Score (S)
Neighborhood
Score Threshold (T)
Bước 1: BLAST tìm kiếm các chuỗi con ngắn với chiều dài cố định W có tính tương tự cao
Những chuỗi con nào có số điểm lớn hơn một giá trị ngưỡng T (threshold value) thì được gọi là tìm thấy và được BLAST gọi là Hits
Bước 2: BLAST tiếp tục tìm kiếp những cặp Hits tiếp theo dựa trên cơ sở những Hit đã tìm được trong bước 1
Mở rộng so sánh các trình tự
Bước 3: Cuối cùng BLAST mở rộng những cặp Hits đã tìm được theo cả hai chiều và đồng thời đánh số điểm.
Quá trình mở rộng kết thúc khi điểm của các cặp Hits không thể mở rộng thêm nữa.
Giới thiệu môn học
12
KENFDKARFSGTWYAMAKKDPEG 50 RBP (query)
MKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin (hit)
Hit!
Mở rộng
Mở rộng
Những chuỗi con nucleotide trong blast
Giới thiệu môn học
13
Những chuỗi con này được đánh giá cho điểm dựa trên ma trận thay thế (Substitutionsmatrix) BLOSUM hoặc PAM.
Protein words
Giới thiệu môn học
14
Những chuỗi con này được đánh giá cho điểm dựa trên ma trận thay thế (Substitutionsmatrix) BLOSUM hoặc PAM.
15
Các biến thể của blast
Program query Database
1
blastn DNA DNA
1
blastp protein protein
6
blastx DNA protein
Blastn
Giới thiệu môn học
16
Megablast
Discontiguous megablast
So sánh trình tự Nhập vào với trình tự cơ sở dữ liệu
Giới thiệu môn học
17
Giới thiệu môn học
18
Megablast
Large numbers of query sequences (megablast):
Khi so sánh một số lượng lớn các chuỗi đầu vào qua chỉ một BLAST dạng dòng lệnh, "megablast" là nhanh hơn rất nhiều so với chạy BLAST nhiều lần.
Protein-protein BLAST
Chương trình này, khi đưa vào một protein truy vấn, sẽ trả về các chuỗi protein gần giống nhất từ cơ sở dữ liệu protein mà người dùng chỉ định.
Blastp
PSI-blast
PHI-blast
Giới thiệu môn học
19
Kết quả
Giới thiệu môn học
20
PSI-Blast
PHI-Blast
PSI blast Iteration 1
Giới thiệu môn học
21
Chứa đựng những vùng protein-PSI blast
Giới thiệu môn học
22
Một trong những chương trình BLAST mới nhất, chương trình này dùng để tìm kiếm các mối quan hệ xa (distant relative) của một protein.
Kết quả
Giới thiệu môn học
23
Kết quả
Giới thiệu môn học
24
Blastx
Giới thiệu môn học
25
Kết quả
Giới thiệu môn học
26
Blastx dịch mã protein từ trình tự DNA nhập vào
Phần mềm Clutalx
Clustalx là một phần mềm (giao diện window) dùng cho việc so sánh sự tương đồng của hai hay nhiều trình tự sinh học.
Clustalx mô tả kết quả bằng hệ thống màu sắc và các ký hiệu nổi bậc những nét đặc trưng trong những đoạn tương đồng.
ClustaX ngày càng trở nên hữu ích cho các nhà nghiên cứu trong việc tìm kiếm những vùng bảo tồn trên những trình tự DNA hoặc protein
Giới thiệu môn học
27
Nguyên tắc Clustalx
Thu nhận và lựa chọn tập trình tự (protein hay DNA, RNA)
Nhập các trình tự sinh học vào Clustalx
Phân tích kết quả sắp giống cột
Giới thiệu môn học
28
Thu thập và lựa chọn tập trình tự
Trước khi thực hiện việc gióng cột, phải lựa một cách cẩn thận tập trình tự mà cần giống cột.
Những trình tự này thuộc cùng một protein, DNA hay RNA và cùng tổ tiên
Tùy thuộc vào mục đích xây dựng sắp gióng cột thì ta chọn ra một số trình tự để phân tích bằng ClustalX
Ví dụ: Để phát hiện đột biến thì ta phải tìm trình tự gen của chủng hoang dại và các trình tự của gen của các chủng được cho là đột biến
Nếu muốn tìm vùng bảo tồn thì ta phải thu thập các trình tự gen cùng một họ protease A, gen độc tố LT
Giới thiệu môn học
29
Sắp giống cột bằng Clustalx
Giới thiệu môn học
30
Phân tích sự giống nhau giữa các trình tự
Giới thiệu môn học
31
Giới thiệu môn học
32
Giới thiệu môn học
33
Tin sinh học trả lời mối quan hệ họ hàng
Giới thiệu môn học
34
* Một số tài liệu cũ có thể bị lỗi font khi hiển thị do dùng bộ mã không phải Unikey ...
Người chia sẻ: Lê Khắc Đường
Dung lượng: |
Lượt tài: 1
Loại file:
Nguồn : Chưa rõ
(Tài liệu chưa được thẩm định)