TIN SINH HỌC P65
Chia sẻ bởi Võ Phương Thảo |
Ngày 23/10/2018 |
60
Chia sẻ tài liệu: TIN SINH HỌC P65 thuộc Bài giảng khác
Nội dung tài liệu:
Phần 3: TÌM KIẾM TRÌNH TỰ TƯƠNG ĐỒNG: BLAST
Môn : Tin sinh học
Học viên: Trần Thị Quý Hòa
Lớp : Sinh học thực nghiệm k14
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
Tìm kiếm trình tự tương đồng được sử dụng để tìm kiếm một cơ sở dữ liệu trình tự protein tương đồng với một loại protein truy vấn. Các cơ sở dữ liệu protein chứa thứ tứ của 100 triệu dư lượng. Để tìm kiếm với nhiều trình tự khác nhau, thời gian nhanh chóng trở thành một vấn đề quan trọng. Vì lý do này, đã có nhiều nổ lực để sản xuất các thuật toán nhanh hơn so với lập trình năng động thẳng. Mục tiêu của các phương pháp này là để tìm kiếm như một phần càng nhỏ càng tốt, trong khi vẫn đang tìm kiếm ở tất cả các sự sắp xếp điểm cao.
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
Trong trường hợp trình tự rất giống nhau, có một số phương pháp dựa trên việc mở rộng khoa học máy tính chính xác phù hợp [1-3]. Tuy nhiên, để tìm thấy các sự hao hao giống nhau, các phương pháp chính xác này trở nên khó làm, và cách tiếp cận đề phát đã được sử dụng, loại bỏ một số độ nhạy, trong đó có những trường hợp, nơi họ có thể bỏ lỡ điểm liên kết tốt nhất. Một số kỹ thuật đề phát.
Hầu hết các chương trình phổ biến là:
•BLAST
• FastA
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
BLAST (Công cụ tìm kiếm liên kết các vùng cơ bản) là một tập hợp các chương trình tìm kiếm tương tự được thiết kế để khám phá tất cả (DNA và protein) cơ sở dữ liệu trình tự có sẵn bất kể việc truy vấn là protein hay DNA. Các chương trình BLAST đã được thiết kế cho tốc độ, với một sự loại bỏ tối thiểu của nhạy cảm với mối quan hệ thứ tự xa. BLAST sử dụng các khái niệm về một "cặp phân khúc" mà là một cặp siêu phân tử có cùng chiều dài tạo thành một liên kết không gián đoạn.
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
Thuật toán đầu tiên tìm kiếm các từ ngắn có mặt trong cả hai chuỗi, và sau đó mở rộng ở mỗi đầu để tìm thấy những phân đoạn dài nhất có mặt trong cả hai. Ý nghĩa thống kê của những cao điểm cặp phân khúc được đánh giá để xác định xem sự kết hợp là ngẫu nhiên hay không. Như vậy, điểm được giao trong một tìm kiếm BLAST có một giải thích thống kê được xác định rõ, làm cho sự liên kết thực sự dễ dàng hơn để phân biệt với nền ngẫu nhiên.
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
Làm thế nào để sử dụng BLAST
(http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/tut1.html)
Lựa chọn các chương trình BLAST
Các trang tìm kiếm BLAST cho phép bạn chọn từ một vài chương trình khác nhau.
Dưới đây là một bảng của các chương trình này.
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
blastp: So sánh truy vấn một chuỗi axit amin với một cơ sở dữ liệu trình tự protein.
blastn: So sánh một chuỗi truy vấn nucleotide với một cơ sở dữ liệu trình tự nucleotide.
blastx: So sánh một chuỗi truy vấn nucleotide dịch trong tất cả các khung đọc đối với một cơ sở dữ liệu trình tự protein. Bạn có thể sử dụng tùy chọn này để tìm các sản phẩm dịch tiềm năng của một trình tự nucleotide không rõ.
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
Tblastn: So sánh một chuỗi truy vấn protein với một cơ sở dữ liệu trình tự nucleotide tự động dịch trong tất cả các khung đọc.
Tblastx: So sánh các bản dịch sáu-khung của một chuỗi truy vấn nucleotide với các bản dịch sáu khung của một cơ sở dử liệu trình tự nucleotide. Xin lưu ý rằng chương trình tblastx không có thể được sử dụng với cơ sở dữ liệu như trên trang Web BLAST bởi vì nó được tính toán chuyên sâu.
3.2.2 DNA và protein chuỗi
Trình tự DNA: Chọn một cơ sở dữ liệu axit nucleic. Chọn trong số các sinh vật cụ thể (ví dụ như: Agrobacterium), bao gồm (ví dụ, blastn nonredundant), hoặc chuyên ngành thiết lập (ví dụ, dbEST, dbSTS, GSS, HTG) cơ sở dữ liệu và sử dụng blastn chương trình BLAST.
Trình tự Protein : Chọn một cơ sở dữ liệu protein hiện tại (ví dụ như SwissProt) sử dụng chương trình BLAST blastp.
3.2.2 DNA và protein chuỗi
Những hình ảnh cho thấy một ví dụ cho một protein. Thay vì một trình tự protein, nó cũng có thể sử dụng một chuỗi DNA.
Hình1: Pubmed nhập cảnh của epoxide hydrolase từ radiobacter AD1 Agrobacterium
3.2.2 DNA và protein chuỗi
Để thực hiện một tìm kiếm BLAST chuỗi FastA định dạng được sử dụng trong đó bao gồm một lớn hơn biểu tượng (>) theo sau bởi một dòng mô tả duy nhất và trong các dòng tiếp theo trình tự quan tâm.
Hình 2: Để sao chép và dán chuỗi vào blastp, định dạng FastA được sử dụng.
3.2.3 Kiểm tra các điểm liên kết và thống kê
Điểm số nguyên "S" của sự liên kết thường được tính bằng cách cộng điểm cho mỗi mẫu tự này đến mẫu tự khác, mẫu tự này đến vị trí vô cùng trong sự liên kết. Điểm cho mỗi vị trí của một liên kết được bắt nguồn từ một ma trận thay thế phổ biến nhất trong số này là các ma trận BLOSUM và PAM. Không giống như số điểm nguyên, bản miêu tả số điểm bit (được hiển thị ở bên phải trong cửa sổ đầu ra) cho các loại hình của hệ thống tính điểm được sử dụng, và do đó thông tin mới hơn.
3.2.3 Kiểm tra các điểm liên kết và thống kê
Điểm số bit được tính từ số điểm nguyên bằng cách bình thường với các biến số thống kê để xác định một hệ thống tính điểm. Do đó, điểm số bit từ sự sắp xếp khác nhau, thậm chí cả những người sử dụng ma trận điểm khác nhau có thể được so sánh. Số điểm càng cao sự liên kết càng cao, nhưng ý nghĩa của một sự liên kết không thể được rút ra từ số điểm đơn lẻ. Xem Thống kê dưới đây.
3.2.3 Kiểm tra các điểm liên kết và thống kê
Một vị trí mà tại đó một mẫu tự được kết hợp với một vô giá trị được gọi là một khoảng cách. Khoảng cách điểm số là tiêu cực. Kể từ khi một sự kiện đột biến duy nhất có thể gây ra chèn vào hoặc xóa nhiều hơn một dư lượng, sự hiện diện của khoảng cách là thường xuyên được gán cho ý nghĩa quan trọng hơn chiều dài của khoảng cách. Do đó khoảng cách cản trở nặng, trong khi một sự cản trở thấp hơn là gán cho mỗi dư lượng tiếp theo trong khoảng cách.
3.2.3 Kiểm tra các điểm liên kết và thống kê
Nguyên điểm
Điểm số của một liên kết, S, được tính là tổng của điểm thay thế và khoảng cách. Thay thế (không giống hệt các axit amin ở một vị trí nhất định trong một sự liên kết) điểm được đưa ra bởi nhìn lên bảng (xem PAM, BLOSUM). Khoảng cách điểm số thường được tính là tổng của G, mở L, khoảng cách bất lợi và phần mở rộng khoảng cách bất lợi. Đối với một khoảng cách của độ dài n, giá trị khoảng cách sẽ được G + Ln. Việc lựa chọn giá trị khoảng cách, G và L là thực nghiệm, nhưng nó là cách thức để lựa chọn một giá trị cao cho G (10-15) và một giá trị thấp cho L (1-2).
3.2.3 Kiểm tra các điểm liên kết và thống kê
Điểm bit
`S giá trị có nguồn gốc từ S Điểm số nguyên liên kết, trong đó các thuộc tính thống kê của hệ thống tính điểm được sử dụng đã được đưa vào bản miêu tả. Bởi vì điểm số bit đã được bình thường hoá cụ thể đến hệ thống tính điểm, nó có thể được sử dụng để so sánh điểm liên kết từ tìm kiếm khác nhau.
S `= S - (lnK/ln2)
Lambda và K là các thông số phụ thuộc vào các hệ thống tính điểm (ma trận thay thế và giá trị khoảng cách) đã sử dụng [4-6].
3.2.3 Kiểm tra các điểm liên kết và thống kê
E giá trị: giá trị kỳ vọng
Với giá trị E, tầm quan trọng của điểm số có thể được đánh giá. Nó là một phương pháp để quyết định, nếu một liên kết sinh học có ý nghĩa và đưa ra bằng chứng cho tương đồng hay chỉ là sự liên kết tốt nhất giữa hai trình tự hoàn toàn không liên quan.
Số lượng các sự sắp xếp khác nhau với số điểm tương đương hoặc tốt hơn so với S được dự kiến sẽ xảy ra trong một tìm kiếm cơ sở dữ liệu ngẫu nhiên. E thấp hơn các giá trị, quan trọng hơn số điểm.
E = mn * 2-S `
Các tham số m và n là độ dài của chuỗi truy vấn và cơ sở dữ liệu.
3.2.4 PSI-BLAST
Vị trí BLAST lặp đi lặp lại cụ thể (PSI-BLAST) đề cập đến một tính năng của 2,0 BLAST trong đó một thông tin cá nhân (hoặc vị trí cụ thể đánh dấu ma trận, PSSM) được xây dựng (tự động) từ một liên kết nhiều chạm mức điểm cao nhất trong một tìm kiếm BLAST ban đầu. PSSM được tạo ra bằng cách tính toán điểm số vị trí cụ thể cho từng vị trí trong sự liên kết. Vị trí cao bảo tồn nhận được điểm cao và vị trí yếu bảo tồn nhận được điểm gần bằng không. Thông tin cá nhân được sử dụng để thực hiện một tìm kiếm BLAST tiếp theo và kết quả của mỗi "lặp đi lặp lại" được sử dụng để tinh chỉnh thông tin cá nhân. Điều này lặp đi lặp lại tìm kiếm kết quả chiến lược tăng nhạy cảm. PSI-BLAST tìm kiếm có tiềm năng để xác định homologies yếu.
3.2.4 PSI-BLAST
Liên kết:
BLAST: http://www.ncbi.nlm.nih.gov/BLAST/
FastA: http://www.ebi.ac.uk/fasta33/index.html
Swiss-Prot: http://www.expasy.ch/sprot/sprot-top.html
Cơ sở dữ liệu NCBI: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Nucleotide
Tài liệu tham khảo
1. Chang, WI, Lawler, EL, xấp xỉ chuỗi kết hợp trong thời gian dự kiến. Kỷ yếu của Hội nghị chuyên đề thứ 31 hàng năm IEEE Khoa học máy tính Cơ sở năm 1990: p. 116-124.
2. Wu, S., Manber, U., Fast văn bản tìm kiếm các lỗi cho phép. Nghiên cứu của ACM, năm 1992. 35: p. 83-90.
3. Myers, EW, thuật toán dưới để tìm kiếm từ khóa gần đúng. Algorithmica, năm 1994. 12: p. 345-374
Tài liệu tham khảo
4. Altschul, SF, et al, Gapped BLAST và BLAST PSI: một thế hệ mới cúa chương trình tìm kiếm cơ sở dữ liệu protein. Axit nucleic Res năm 1997. 25 (17): p. 3389-402.
5. Altschul, SF và W. Gish, số liệu thống kê liên kết địa phương. Phương Pháp Enzymol, năm 1996. 266: p. 460-80.
6. Karlin, S. và SF Altschul, phương pháp đánh giá ý nghĩa thống kê các tính năng trình tự phân tử bằng cách sử dụng chương trình chấm điểm chung. Proc Natl Acad Sci U S A, 1990. 87 (6): p. 2264-8.
3.3 Các bài tập
Nhiệm vụ 3.1
Hãy tìm trình tự DNA và protein của epoxide hydrolase từ Agrobacterium tumefaciens AD1 (DNA EMBL nhập: Y12804; Protein EMBL nhập: CAA73331). Thực hiện tìm kiếm blastn, blastp và blastx và so sánh kết quả. Hãy thử sử dụng các thiết lập mặc định và các thông số thích hợp (ma trận điểm, chi phí khoảng cách, E-giá trị). So sánh kết quả của việc tìm kiếm cơ sở dữ liệu DNA và protein: bạn sẽ có được kết quả tương tự bằng cách sử dụng blastn, blastp và blastx? Bạn có thể giải thích những kết quả này không?
3.3 Các bài tập
Nhiệm vụ 3.2
Thực hiện một tìm kiếm PSI-BLAST bắt đầu với CAA73331. PSI-BLAST tìm thấy protein không? Có các loại enzyme được tìm thấy? Giải thích lý do tại sao điều này có thể được.
Môn : Tin sinh học
Học viên: Trần Thị Quý Hòa
Lớp : Sinh học thực nghiệm k14
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
Tìm kiếm trình tự tương đồng được sử dụng để tìm kiếm một cơ sở dữ liệu trình tự protein tương đồng với một loại protein truy vấn. Các cơ sở dữ liệu protein chứa thứ tứ của 100 triệu dư lượng. Để tìm kiếm với nhiều trình tự khác nhau, thời gian nhanh chóng trở thành một vấn đề quan trọng. Vì lý do này, đã có nhiều nổ lực để sản xuất các thuật toán nhanh hơn so với lập trình năng động thẳng. Mục tiêu của các phương pháp này là để tìm kiếm như một phần càng nhỏ càng tốt, trong khi vẫn đang tìm kiếm ở tất cả các sự sắp xếp điểm cao.
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
Trong trường hợp trình tự rất giống nhau, có một số phương pháp dựa trên việc mở rộng khoa học máy tính chính xác phù hợp [1-3]. Tuy nhiên, để tìm thấy các sự hao hao giống nhau, các phương pháp chính xác này trở nên khó làm, và cách tiếp cận đề phát đã được sử dụng, loại bỏ một số độ nhạy, trong đó có những trường hợp, nơi họ có thể bỏ lỡ điểm liên kết tốt nhất. Một số kỹ thuật đề phát.
Hầu hết các chương trình phổ biến là:
•BLAST
• FastA
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
BLAST (Công cụ tìm kiếm liên kết các vùng cơ bản) là một tập hợp các chương trình tìm kiếm tương tự được thiết kế để khám phá tất cả (DNA và protein) cơ sở dữ liệu trình tự có sẵn bất kể việc truy vấn là protein hay DNA. Các chương trình BLAST đã được thiết kế cho tốc độ, với một sự loại bỏ tối thiểu của nhạy cảm với mối quan hệ thứ tự xa. BLAST sử dụng các khái niệm về một "cặp phân khúc" mà là một cặp siêu phân tử có cùng chiều dài tạo thành một liên kết không gián đoạn.
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
Thuật toán đầu tiên tìm kiếm các từ ngắn có mặt trong cả hai chuỗi, và sau đó mở rộng ở mỗi đầu để tìm thấy những phân đoạn dài nhất có mặt trong cả hai. Ý nghĩa thống kê của những cao điểm cặp phân khúc được đánh giá để xác định xem sự kết hợp là ngẫu nhiên hay không. Như vậy, điểm được giao trong một tìm kiếm BLAST có một giải thích thống kê được xác định rõ, làm cho sự liên kết thực sự dễ dàng hơn để phân biệt với nền ngẫu nhiên.
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
Làm thế nào để sử dụng BLAST
(http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/tut1.html)
Lựa chọn các chương trình BLAST
Các trang tìm kiếm BLAST cho phép bạn chọn từ một vài chương trình khác nhau.
Dưới đây là một bảng của các chương trình này.
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
blastp: So sánh truy vấn một chuỗi axit amin với một cơ sở dữ liệu trình tự protein.
blastn: So sánh một chuỗi truy vấn nucleotide với một cơ sở dữ liệu trình tự nucleotide.
blastx: So sánh một chuỗi truy vấn nucleotide dịch trong tất cả các khung đọc đối với một cơ sở dữ liệu trình tự protein. Bạn có thể sử dụng tùy chọn này để tìm các sản phẩm dịch tiềm năng của một trình tự nucleotide không rõ.
3.2 Bối cảnh và lý thuyết
3.2.1 Tìm kiếm sự tương đồng
Tblastn: So sánh một chuỗi truy vấn protein với một cơ sở dữ liệu trình tự nucleotide tự động dịch trong tất cả các khung đọc.
Tblastx: So sánh các bản dịch sáu-khung của một chuỗi truy vấn nucleotide với các bản dịch sáu khung của một cơ sở dử liệu trình tự nucleotide. Xin lưu ý rằng chương trình tblastx không có thể được sử dụng với cơ sở dữ liệu như trên trang Web BLAST bởi vì nó được tính toán chuyên sâu.
3.2.2 DNA và protein chuỗi
Trình tự DNA: Chọn một cơ sở dữ liệu axit nucleic. Chọn trong số các sinh vật cụ thể (ví dụ như: Agrobacterium), bao gồm (ví dụ, blastn nonredundant), hoặc chuyên ngành thiết lập (ví dụ, dbEST, dbSTS, GSS, HTG) cơ sở dữ liệu và sử dụng blastn chương trình BLAST.
Trình tự Protein : Chọn một cơ sở dữ liệu protein hiện tại (ví dụ như SwissProt) sử dụng chương trình BLAST blastp.
3.2.2 DNA và protein chuỗi
Những hình ảnh cho thấy một ví dụ cho một protein. Thay vì một trình tự protein, nó cũng có thể sử dụng một chuỗi DNA.
Hình1: Pubmed nhập cảnh của epoxide hydrolase từ radiobacter AD1 Agrobacterium
3.2.2 DNA và protein chuỗi
Để thực hiện một tìm kiếm BLAST chuỗi FastA định dạng được sử dụng trong đó bao gồm một lớn hơn biểu tượng (>) theo sau bởi một dòng mô tả duy nhất và trong các dòng tiếp theo trình tự quan tâm.
Hình 2: Để sao chép và dán chuỗi vào blastp, định dạng FastA được sử dụng.
3.2.3 Kiểm tra các điểm liên kết và thống kê
Điểm số nguyên "S" của sự liên kết thường được tính bằng cách cộng điểm cho mỗi mẫu tự này đến mẫu tự khác, mẫu tự này đến vị trí vô cùng trong sự liên kết. Điểm cho mỗi vị trí của một liên kết được bắt nguồn từ một ma trận thay thế phổ biến nhất trong số này là các ma trận BLOSUM và PAM. Không giống như số điểm nguyên, bản miêu tả số điểm bit (được hiển thị ở bên phải trong cửa sổ đầu ra) cho các loại hình của hệ thống tính điểm được sử dụng, và do đó thông tin mới hơn.
3.2.3 Kiểm tra các điểm liên kết và thống kê
Điểm số bit được tính từ số điểm nguyên bằng cách bình thường với các biến số thống kê để xác định một hệ thống tính điểm. Do đó, điểm số bit từ sự sắp xếp khác nhau, thậm chí cả những người sử dụng ma trận điểm khác nhau có thể được so sánh. Số điểm càng cao sự liên kết càng cao, nhưng ý nghĩa của một sự liên kết không thể được rút ra từ số điểm đơn lẻ. Xem Thống kê dưới đây.
3.2.3 Kiểm tra các điểm liên kết và thống kê
Một vị trí mà tại đó một mẫu tự được kết hợp với một vô giá trị được gọi là một khoảng cách. Khoảng cách điểm số là tiêu cực. Kể từ khi một sự kiện đột biến duy nhất có thể gây ra chèn vào hoặc xóa nhiều hơn một dư lượng, sự hiện diện của khoảng cách là thường xuyên được gán cho ý nghĩa quan trọng hơn chiều dài của khoảng cách. Do đó khoảng cách cản trở nặng, trong khi một sự cản trở thấp hơn là gán cho mỗi dư lượng tiếp theo trong khoảng cách.
3.2.3 Kiểm tra các điểm liên kết và thống kê
Nguyên điểm
Điểm số của một liên kết, S, được tính là tổng của điểm thay thế và khoảng cách. Thay thế (không giống hệt các axit amin ở một vị trí nhất định trong một sự liên kết) điểm được đưa ra bởi nhìn lên bảng (xem PAM, BLOSUM). Khoảng cách điểm số thường được tính là tổng của G, mở L, khoảng cách bất lợi và phần mở rộng khoảng cách bất lợi. Đối với một khoảng cách của độ dài n, giá trị khoảng cách sẽ được G + Ln. Việc lựa chọn giá trị khoảng cách, G và L là thực nghiệm, nhưng nó là cách thức để lựa chọn một giá trị cao cho G (10-15) và một giá trị thấp cho L (1-2).
3.2.3 Kiểm tra các điểm liên kết và thống kê
Điểm bit
`S giá trị có nguồn gốc từ S Điểm số nguyên liên kết, trong đó các thuộc tính thống kê của hệ thống tính điểm được sử dụng đã được đưa vào bản miêu tả. Bởi vì điểm số bit đã được bình thường hoá cụ thể đến hệ thống tính điểm, nó có thể được sử dụng để so sánh điểm liên kết từ tìm kiếm khác nhau.
S `= S - (lnK/ln2)
Lambda và K là các thông số phụ thuộc vào các hệ thống tính điểm (ma trận thay thế và giá trị khoảng cách) đã sử dụng [4-6].
3.2.3 Kiểm tra các điểm liên kết và thống kê
E giá trị: giá trị kỳ vọng
Với giá trị E, tầm quan trọng của điểm số có thể được đánh giá. Nó là một phương pháp để quyết định, nếu một liên kết sinh học có ý nghĩa và đưa ra bằng chứng cho tương đồng hay chỉ là sự liên kết tốt nhất giữa hai trình tự hoàn toàn không liên quan.
Số lượng các sự sắp xếp khác nhau với số điểm tương đương hoặc tốt hơn so với S được dự kiến sẽ xảy ra trong một tìm kiếm cơ sở dữ liệu ngẫu nhiên. E thấp hơn các giá trị, quan trọng hơn số điểm.
E = mn * 2-S `
Các tham số m và n là độ dài của chuỗi truy vấn và cơ sở dữ liệu.
3.2.4 PSI-BLAST
Vị trí BLAST lặp đi lặp lại cụ thể (PSI-BLAST) đề cập đến một tính năng của 2,0 BLAST trong đó một thông tin cá nhân (hoặc vị trí cụ thể đánh dấu ma trận, PSSM) được xây dựng (tự động) từ một liên kết nhiều chạm mức điểm cao nhất trong một tìm kiếm BLAST ban đầu. PSSM được tạo ra bằng cách tính toán điểm số vị trí cụ thể cho từng vị trí trong sự liên kết. Vị trí cao bảo tồn nhận được điểm cao và vị trí yếu bảo tồn nhận được điểm gần bằng không. Thông tin cá nhân được sử dụng để thực hiện một tìm kiếm BLAST tiếp theo và kết quả của mỗi "lặp đi lặp lại" được sử dụng để tinh chỉnh thông tin cá nhân. Điều này lặp đi lặp lại tìm kiếm kết quả chiến lược tăng nhạy cảm. PSI-BLAST tìm kiếm có tiềm năng để xác định homologies yếu.
3.2.4 PSI-BLAST
Liên kết:
BLAST: http://www.ncbi.nlm.nih.gov/BLAST/
FastA: http://www.ebi.ac.uk/fasta33/index.html
Swiss-Prot: http://www.expasy.ch/sprot/sprot-top.html
Cơ sở dữ liệu NCBI: http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Nucleotide
Tài liệu tham khảo
1. Chang, WI, Lawler, EL, xấp xỉ chuỗi kết hợp trong thời gian dự kiến. Kỷ yếu của Hội nghị chuyên đề thứ 31 hàng năm IEEE Khoa học máy tính Cơ sở năm 1990: p. 116-124.
2. Wu, S., Manber, U., Fast văn bản tìm kiếm các lỗi cho phép. Nghiên cứu của ACM, năm 1992. 35: p. 83-90.
3. Myers, EW, thuật toán dưới để tìm kiếm từ khóa gần đúng. Algorithmica, năm 1994. 12: p. 345-374
Tài liệu tham khảo
4. Altschul, SF, et al, Gapped BLAST và BLAST PSI: một thế hệ mới cúa chương trình tìm kiếm cơ sở dữ liệu protein. Axit nucleic Res năm 1997. 25 (17): p. 3389-402.
5. Altschul, SF và W. Gish, số liệu thống kê liên kết địa phương. Phương Pháp Enzymol, năm 1996. 266: p. 460-80.
6. Karlin, S. và SF Altschul, phương pháp đánh giá ý nghĩa thống kê các tính năng trình tự phân tử bằng cách sử dụng chương trình chấm điểm chung. Proc Natl Acad Sci U S A, 1990. 87 (6): p. 2264-8.
3.3 Các bài tập
Nhiệm vụ 3.1
Hãy tìm trình tự DNA và protein của epoxide hydrolase từ Agrobacterium tumefaciens AD1 (DNA EMBL nhập: Y12804; Protein EMBL nhập: CAA73331). Thực hiện tìm kiếm blastn, blastp và blastx và so sánh kết quả. Hãy thử sử dụng các thiết lập mặc định và các thông số thích hợp (ma trận điểm, chi phí khoảng cách, E-giá trị). So sánh kết quả của việc tìm kiếm cơ sở dữ liệu DNA và protein: bạn sẽ có được kết quả tương tự bằng cách sử dụng blastn, blastp và blastx? Bạn có thể giải thích những kết quả này không?
3.3 Các bài tập
Nhiệm vụ 3.2
Thực hiện một tìm kiếm PSI-BLAST bắt đầu với CAA73331. PSI-BLAST tìm thấy protein không? Có các loại enzyme được tìm thấy? Giải thích lý do tại sao điều này có thể được.
* Một số tài liệu cũ có thể bị lỗi font khi hiển thị do dùng bộ mã không phải Unikey ...
Người chia sẻ: Võ Phương Thảo
Dung lượng: |
Lượt tài: 1
Loại file:
Nguồn : Chưa rõ
(Tài liệu chưa được thẩm định)