TIN SINH HỌC P63

Chia sẻ bởi Võ Phương Thảo | Ngày 23/10/2018 | 50

Chia sẻ tài liệu: TIN SINH HỌC P63 thuộc Bài giảng khác

Nội dung tài liệu:

PHẦN 3:
TÌM KIẾM TRÌNH TỰ
TƯƠNG ĐỒNG: BLAST.
Người hướng dẫn: TS.VÕ VĂN TOÀN
Người thực hiện: MAI THỊ HÂN
Lớp: Sinh học thực nghiệm K14
BIOINFORMATICS
Thế kỷ XX ghi nhận sự phát triển như vũ bão của khoa học và công nghệ, đã tạo ra cơ sở lý luận, vật chất và sự liên kết hỗ trợ lẫn nhau, tác động thúc đẩy sự phát triển của mọi lĩnh vực của đời sống xã hội, đặc biệt là trên lĩnh vực tin học, công nghệ internet và công nghệ sinh học.
Tin sinh học chính là sự hội tụ, hợp tác của cả ba lĩnh vực công nghệ hàng đầu: tin học – công nghệ thông tin – công nghệ sinh học, cùng cộng tác với nhau để khám phá thế giới sống
Thực tế cho thấy, từ khi tin sinh học ra đời đã thực sự trở thành công cụ nghiên cứu mới, trợ giúp đăc lực và hiệu quả, đẩy nhanh tốc độ nghiên cứu và ứng dụng công nghệ sinh học, chắp cánh cho công nghệ sinh học nói chung và sinh học nói riêng tiến lên một lầm cao mới. Nhờ thành tựu của tin sinh học, thời gian nghiên cứu được rút ngắn “ trước đây bạn phải mất nửa năm trong phòng thí nghiệm bây giờ bạn có thể dễ dàng tiết kiệm thời gian chỉ với một buổi chiều trước chiếc máy tính”
Tin sinh học có rất nhiều ứng dụng, vì thế cơ sở dữ liệu của công nghệ sinh học không chỉ dừng lại ở tập hợp các kết quả nghiên cứu thực nghiệm đơn thuần của các nhà khoa học trên khắp thế giới, mà nó còn bao gồm khả năng khái quát hóa, mô phỏng hóa thành những “đối tượng số” của thế giới sinh học sống động
Trong nhiều chương trình ứng dụng của tin sinh học, Chương trình phân tích cấu trúc tương đồng Blast là một ứng dụng vô cùng quan trọng, cho biết chính xác sự tương đồng của các Nucleotic, chuỗi AND hay protein
3.1. Cơ sở và lý thuyết
3.1.1 Tìm kiếm tương đồng
Tìm kiếm trình tự tương đồng được sử dụng để tìm kiếm một cơ sở dữ liệu trình tự cho protein tương đồng với một loại protein truy vấn. Các cơ sở dữ liệu protein hiện tại chứa thứ tự của 100 triệu dư lượng. Để tìm kiếm với nhiều trình tự khác nhau, thời gian ngắn là một vấn đề quan trọng. Vì lý do này, đã có nhiều nỗ lực để xây dựng các thuật toán nhanh hơn so với chương trình động lực tuần tự. Mục tiêu của các phương pháp này là để tìm kiếm một phần càng nhỏ càng tốt, trong khi vẫn đang tìm kiếm ở tất cả các liên kết điểm cao. Trong trường hợp trình tự rất giống nhau, có một số phương pháp dựa trên sự mở rộng khoa học máy tính phù hợp một cách chính xác [1-3]. Tuy nhiên, để tìm thấy các ghép cặp xa, những phương pháp chính xác này trở nên cứng nhắc, những phương pháp khảo sát được sử dụng, từ bỏ một số độ nhạy, trong đó có những trường hợp, chúng có thể mất sự liên kết điểm cao nhất. Một số kỹ thuật khảo sát
Hầu hết các chương trình phổ biến là: • BLAST
• FastA
Giao diện chương trình BLAST
Giao diện chương trình FastA
BLAST (Basic Local Alignment Seach Tool) là tập hợp các chương trình tìm kiếm tương đồng được thiết kế để khảo sát tất cả các cơ sở dữ liệu trình tự có sẵn (DNA và Protein) không phụ thuộc vào truy vấn là Protein hay DNA. Các chương trình BLAST đã được thiết kế tốc độ, với một sự từ bỏ tối thiểu độ nhạy với mối liên hệ trình tự xa . BLAST sử dụng các khái niệm về một "cặp phân khúc"  là một cặp trình tự phụ cùng chiều dài hình thành một liên kết liền nhau. Đầu tiên, thuật toán tìm kiếm các từ ngắn có mặt trong cả hai trình tự, và sau đó mở rộng ở mỗi đầu để tìm những phân đoạn dài nhất hiện có trong cả hai. Ý nghĩa thống kê của những cặp phân khúc điểm được đánh giá để xác định xem sự phù hợp là ngẫu nhiên hay không. Như vậy, những điểm được chỉ định trong tìm kiếm BLAST  giải thích thống kê rõ ràng, làm cho sự tương xứng thực sự dễ dàng hơn để phân biệt với nền ngẫu nhiên
Sau đó người phân tích sẽ khai thác thông tin về đặc điểm hay đặc tính đã biết của các chuỗi trong ngân hàng để dự đoán, xác định cấu trúc và đặc tính của chuỗi kiểm tra này.
Trọng tâm của kỹ thuật phân tích là tìm kiếm và xác định các vùng tương đồng nhau về cấu trúc trên các chuỗi, để xác định mức độ phân ly tương đối của chuỗi phân tích với các chuỗi khác trong ngân hàng dữ liệu. Về phương diện kỹ thuật, chương trình BLAST cho phép phát hiện sự tương đồng cấu trúc của hai mức độ là mang tính cục bộ ở một vùng hay mang tính tổng thể giữa hai chuỗi với nhau.
Khi được cung cấp một thư viện hay cơ sở dữ liệu các chuỗi đó, một tìm kiếm BLAST sẽ cho phép nhà nghiên cứu tìm kiếm các chuỗi con giống với chuỗi có sẵn mà ta quan tâm. Ví dụ, tiếp sau việc khám phá ra các gen mà trước đây chưa biết ở chuột (loại mus musculus), một nhà khoa học sẽ thường thực thi một tìm kiếm BLAST trên genome người để tìm kiếm xem liệu con người có mang các gen giống vậy không; BLAST sẽ xác định các chuỗi nào trong genome người mà giống với gen chuột dựa trên sự giống nhau của chuỗi
* Trình tự tương đồng là một thuật ngữ tổng quát cho biết sự tiến hóa giữa các trình tự để xác định hai chuỗi có thể được gọi là tương đồng hay không? Hai chuỗi được cho là tương đồng nếu cả hai bắt nguồn từ một chuỗi tổ tiên chung. Mối quan hệ tổ tiên càng gần gũi thì sự tương đồng càng lớn.
Người ta phải thừa nhận rằng tương đồng không có nghĩa giống nhau. Tương đồng có một định nghĩa chính xác: có chung một nguồn gốc tiến hóa. Như vậy, tương đồng là một mô tả có tính bản chất của mối quan hệ giữa hai hoặc nhiều điều.
Vậy trình tự tương đồng là gì?
Để chạy, BLAST cần đầu vào là 2 chuỗi: một là chuỗi cần phân tích (hay còn gọi là chuỗi đích) và một cơ sở dữ liệu chuỗi. BLAST sẽ tìm kiếm các chuỗi con trong chuỗi cần phân tích mà giống với các chuỗi con trong cơ sở chuỗi dữ liệu. Thông thường, khi sử dụng, chuỗi cần phân tích là nhỏ hơn rất nhiều so với cơ sở dữ liệu, ví dụ: chuỗi cần phân tích có thể chỉ gồm 1 nghìn nucleotide trong khi cơ sở dữ liệu chuỗi có hàng tỉ nucleotide.
BLAST tìm kiếm những bắt cặp trình tự có điểm số cao giữa chuỗi cần phân tích và các chuỗi trong cơ sở dữ liệu bằng cách sử dụng phương pháp dựa trên kinh nghiệm (heuristic) để có thể có tìm được kết quả gần tốt bằng với giải thuật Smith-Waterman. Thuật toán bắt cặp trình tự tối ưu của Smith-Waterman là quá chậm khi tìm kiếm trong một cơ sở dữ liệu gen quá lớn như Ngân Hàng Gen (GenBank).
Bởi vậy, giải thuật BLAST dùng một hướng tiếp cận heuristic, dù ít chính xác hơn Smith-Waterman nhưng lại cho tốc độ nhanh hơn gấp 50 lần. Tốc độ và sự chính xác tương đối của BLAST là những cải tiến kĩ thuật quan trọng của các chương trình BLAST và những điều đó cho thấy lí do vì sao công cụ này lại là công cụ tìm kiếm phổ biến nhất trong tin sinh học.
Làm thế nào để sử dụng BLAST
(http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/tut1.html
Bước 1: Lựa chọn chương trình BLAST
Các trang tìm kiếm BLAST cho phép bạn chọn từ các chương trình khác nhau.
Dưới đây là một bảng của các chương trình này.
Blastp: So sánh cấu trúc chuỗi amino axit cần phân tích với cấu trúc chuỗi protein trong cơ sở dữ liệu.
Blastn: So sánh cấu trúc chuỗi nucleotide cần phân tích với cấu trúc chuỗi nuleotide trong cơ sở dữ liệu.
Blastx: So sánh cấu trúc chuỗi nucleotide cần phân tích dưới dạng được dịch đầy đủ với một cấu trúc protein trong cơ sở dữ liệu. Bạn có thể sử dụng phương án này để tìm sản phẩm dịch có thể có của một trình tự nucleotide không rõ.
Tblastn: So sánh một cấu trúc chuỗi protein dược địch mã bảo toàn từ trình tự chuỗi nucleotide trong cơ sở dữ liệu.
Tblastx: So sánh cấu trúc chuỗi nucleotide cần phân tích với cấu trúc chuỗi nucleotide trong cơ sở dữ liệu. Xin lưu ý rằng chương trình tblastx không thể được sử dụng với cơ sở dữ liệu nr trên trang BLAST Web bởi vì nó được tính toán chuyên sâu.
3.1.2. Phương pháp tìm kiếm chuỗi tương đồng bằng chương trình BLAST
Thao tác cơ bản khi sử dụng chương trình phân tích cấu trúc chuỗi tương đồng BLAST gồm các bước chính sau:
Bước 2: Nhập dữ liệu
Chương trình xử lý trực tuyến BLAST cho phép nhập dữ liệu chuỗi phân tích trực tuyến dạng ký tự qua bàn phím hay nhập dữ liệu đã được viết theo một trong 3 ngôn ngữ là “” FASTA sequence format, “Identifiers” và “Bare sequence”
Bước 3: Đặt vùng phân tích “Set Subsequence”
Trong mục này, người phân tích phải cung cấp thông tin vị trí trên đoạn chuỗi cần phân tích bàng hai giá trị số chỉ vị trí giới hạn đầu cuối đoạn chuối ấy. Trong trường hợp cần phân tích toàn chuỗi, dữ liệu nhập sẽ có dạng From I to length.
Bước 4 Lựa chọn ngân hàng dữ liệu “choose databases”
Trong bước lựa chọn này, người phân tích phải xác định nhóm dữ liệu cụ thể của ngân hàng dữ liệu được chỉ định làm đối tượng so sánh. Thao tác lựa chọn này được thực hiện bằng cách dùng chuột đánh dấu vào một trong các mảng cấu trúc chuỗi, trong cửa sổ giao tiếp “choose databases”, tương ứng với đối tượng chuỗi cần phân tích
Chọn cơ sở dữ liệu
Ví dụ với chương trình blastp
Bước 5: Gửi yêu cầu xử lí
Sau khi nhập hết dữ liệu, người phân tích nhấn lệnh “BLAST” để gửi tin đi. Sau khoảng thời gian chờ đợi ngắn, chương trình BLAST sẽ phục hồi yêu cầu với dạng giao diện như :
Phần đầu hiển thị kết quả sơ bộ dạng đồ họa hình ảnh màu sắc của các chuỗi tương đồng cao nhất.
Phần tiếp theo hiển thị kết quả dạng kí tự tóm tắt kết quả
Phần cuối cùng hiển thị kết quả cụ thể khi so sánh
Ví dụ, tiếp sau việc khám phá ra các gen mà trước đây chưa biết ở chuột (loại mus musculus), một nhà khoa học sẽ thường thực thi một tìm kiếm BLAST trên genome người để tìm kiếm xem liệu con người có mang các gen giống vậy không; BLAST sẽ xác định các chuỗi nào trong genome người mà giống với gen chuột dựa trên sự giống nhau của chuỗi.
Hiển thị kết quả sơ bộ dạng đồ họa hình ảnh màu sắc của các chuỗi tương đồng cao nhất.
Hiển thị kết quả dạng kí tự tóm tắt kết quả
Hiển thị kết quả cụ thể khi so sánh
3.1.3. Ý nghĩa:
BLAST là một trong những chương trình được sử dụng rộng rãi nhất trong tin sinh học, có lẽ là vì nó giúp giải quyết một vấn đề cơ bản và giải thuật tập trung vào tốc độ hơn tính chính xác.
Nó tập trung vào tốc độ vì đó là quyết định đến tính thực tiễn của giải thuật do cơ sở dữ liệu về genome người là cực kì lớn, mặc dù các giải thuật về sau có thể nhanh hơn.
* Ứng dụng BLAST trong việc xây dựng cây phát sinh chủng loài: Thông tin từ các nucleotit và các chuỗi protein có thể được sử dụng để suy ra mối quan hệ phát sinh loài. Bởi vì cần nhiều đột biến nhỏ tích lũy thành đột biến lớn để có thể thay đổi chuỗi này thành chuỗi khác. Vì vậy một cặp so sánh giống nhau hơn về trình tự hay có ít hơn các thay đổi có thể cho thấy chúng có tổ tiên gần nhau hơn. Do vậy chúng ta có thể xây dựng được cây phát sinh chủng loại
3.1.4 Trình tự DNA và protein
Trình tự DNA: Chọn một cơ sở dữ liệu acid nucleic hiện hành. Chọn trong số các sinh vật, cụ thể: (ví dụ như Agrobacterium), bao gồm (ví dụ, blastn nonredundant), hoặc thiết lập các chuyên ngành (ví dụ, dbEST, dbSTS, GSS, HTG) cơ sở dữ liệu và chương trình BLAST sử dụng blastn.
Trình tự Protein: Chọn một cơ sở dữ liệu protein hiện tại (ví dụ như SwissProt) sử dụng blastp của chương trình BLAST.
Những hình ảnh cho thấy một ví dụ cho protein. Thay vì một chuỗi protein nó cũng có thể sử dụng một trình tự DNA.
Hình. 1: Pubmed-nhập cảnh của các hydrolase epoxit từ Agrobacterium radiobacter AD1
Để thực hiện một tìm kiếm BLAST trình tự FastA định dạng được sử dụng trong đó bao gồm một biểu tượng lớn hơn (>) theo sau là một dòng mô tả và trong các dòng tiếp theo trình tự quan tâm.
Hình2: Để sao chép và dán trình tự vào blastp, sử dụng định dạng FastA
3.1.5 Kiểm tra các điểm liên kết và thống kê
Điểm số raw "S" của sự liên kết thường được tính bằng tổng điểm cho vị trí  mỗi chữ cái, chữ cái vô nghĩa  trong liên kết. Điểm cho mỗi vị trí của một liên kết được bắt nguồn từ một ma trận thay thế, phổ biến nhất trong số này là các ma trận BLOSUM và PAM. Không giống như số điểm raw, điểm bit (được hiển thị ở bên phải trong cửa sổ ) cho các loại hình của hệ thống tính điểm được sử dụng, nên thông tin mới hơn. Điểm số bit được tính từ số điểm raw bằng cách chuẩn hóa với các biến số thống kê để xác định một hệ thống tính điểm. Do đó, điểm số bit từ sự liên kết khác nhau, thậm chí cả những người sử dụng ma trận điểm khác nhau có thể được so sánh. Số điểm càng cao  sự liên kết càng tốt , nhưng ý nghĩa của một sự liên kết không thể được rút ra chỉ từ số điểm. Xem Thống kê dưới đây. Một vị trí mà tại đó một chữ cái được kết hợp với một vô giá trị được gọi là một khoảng cách. Điểm số khoảng trống là âm. Kể từ khi một sự kiện đột biến đơn lẻ có thể gây ra sự chèn vào hoặc xóa nhiều hơn một dư lượng, sự hiện diện của khoảng trống thường xuyên có ý nghĩa quan trọng hơn chiều dài của khoảng trống. Do đó khoảng trống bị phạt nặng nề, trong khi một hình phạt nhẹ hơn là các dư lượng sau trong khoảng trống
Điểm số RAW
Điểm số của một liên kết, S, được tính là tổng điểm thay thế và khoảng cách. Thay thế (các axit amin khác nnhau ở một vị trí nhất định trong một liên kết ) điểm được đưa ra bởi tìm kiếm trên bảng (xem PAM, BLOSUM). Điểm số khoảng trống thường được tính là tổng của G, hình phạt đoạn mở, và L, hình phạt  khoảng trống mở rộng khoảng . Đối với một khoảng trống chiều dài n, hao tốn khoảng trống sẽ là G + Ln. Việc lựa chọn  hao phí khoảng cách, G và L là thực nghiệm, nhưng nó là cách để lựa chọn một giá trị cao cho G (10-15) và một giá trị thấp cho L (1-2).
Điểm số bit
  Giá trị có S’ có nguồn gốc từ liên kết raw điểm S, trong đó các thuộc tính thống kê của hệ thống tính điểm được sử dụng đã được đưa vào bảng. Bởi vì điểm số bit đã được chuẩn hoá liên quan đến hệ thống tính điểm, có thể được sử dụng để so sánh điểm liên kết từ tìm kiếm khác nhau. S `=  S - (lnK/ln2)
Lambda và K là các thông số phụ thuộc vào hệ thống tính điểm (ma trận  thay thế và hao tổn khoảng cách) sử dụng [06/04].
Giá trị E: giá trị mong đợi

Với giá trị E, ý nghĩa của điểm số có thể được đánh giá. Nó là một phương pháp để quyếtđịnh, liệu một liên kết sinh học có ý nghĩa và đưa ra bằng chứng cho tương đồng hay chỉ là sự liên kết tốt nhất giữa hai trình tự hoàn toàn không liên quan.
Số lượng các liên kết khác nhau với số điểm tương đương hoặc tốt hơn so với S được dự kiến ​​sẽ xảy ra trong một tìm kiếm cơ sở dữ liệu bằng sự lựa chọn.
Giá trị E càng thấp , số điểm càng có ý nghĩa
E = mn * 2-S `
Các tham số m và n là độ dài của trình tự truy vấn và cơ sở dữ liệu.
3.2.6 PSI-BLAST
Vị trí cụ thể lặp lại  BLAST (PSI-BLAST) đề cập đến một tính năng của 2,0 BLAST trong đó một dữ liệu (hoặc vị trí ma trận ghi điểm số cụ thể , PSSM) được xây dựng (tự động ) từ một đa liên kết của mức điểm cao nhất trong một tìm kiếm BLAST. PSSM sinh ra bởi cách tính toán vị trí điếm số cụ thể cho mỗi vị trí trong liên kết..Vị trí bảo tồn cao nhận được điểm cao và  vị trí bảo tồn yếu nhận được điểm gần bằng không. Dữ liệu được sử dụng để thực hiện một tìm kiếm BLAST tiếp theo và kết quả của mỗi "lặp đi lặp lại" được sử dụng để tinh chỉnh dữ liệu. Cách tìm kiếm lặp đi lặp lại làm  tăng độ nhạy  của tìm kiếm  PSI-BLAST  có khả năng thậm chí để xác định các tương đồng yếu.
Liên kết:
BLAST: http://www.ncbi.nlm.nih.gov/BLAST/
FastA: http://www.ebi.ac.uk/fasta33/index.html
Swiss-Prot: http://www.expasy.ch/sprot/sprot-top.html
NCBI databases:
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Nucleotide
Swiss-Prot: http://www.expasy.ch/sprot/sprot-top.html
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Nucleotide
Tài liệu tham khảo:
1. Chang, W. I., Lawler, E. L., Approximate string matching in sublinear expected time. Proceedings of the 31st Annual IEEE Symposium on Foundations Computer Science, 1990: p. 116-124.
2. Wu, S., Manber, U., Fast text searching allowing errors. Comunications of the ACM, 1992. 35: p. 83-90.
3. Myers, E. W., A sublinear algorithm for approximate keyword searching. Algorithmica, 1994. 12: p. 345-374.
4. Altschul, S. F., et al., Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res, 1997. 25(17): p. 3389-402.
5. Altschul, S. F. and W. Gish, Local alignment statistics. Methods Enzymol, 1996. 266: p. 460-80.
6. Karlin, S. and S. F. Altschul, Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes. Proc Natl Acad Sci U S A, 1990. 87(6): p. 2264-8.
3.2. Bài tập

3.1 Lấy DNA và trình tự protein của epoxide hydrolase từ Agrobacterium tumefaciens AD1 (DNA EMBL: Y12804; Protein EMBL: CAA73331). Thực thiện tìm kiếm blastn, blastp và blastx và so sánh kết quả. Cố gắng sử dụng cài đặt mặc định và thông số phù hợp (điểm số, ma trận, hao phí khoảng trống, Giá trị E). So sánh với kết quả của CSDL tìm kiếm DNA và Protein: Bạn có được cùng kết quả với blastn, blastp và blastx không? Hãy giải thích kết quả?

3.2. Thực hiện một tìm kiếm PSI-BLAST bắt đầu với CAA73331. PSI-BLAST tìm thấy protein nào? Có loại enzyme nào khác được tìm thấy không? Giải thích lý do tại sao?
Bài 3.1. Protein : CAA73331
Protein : CAA73331
Protein : CAA73331
Protein : CAA73331
Protein : CAA73331
DNA : Y12804
DNA : Y12804 (làm tương tự như trên với trình tự dưới đây)
3.2. Thực hiện một tìm kiếm PSI-BLAST bắt đầu với CAA73331.
3.2. Thực hiện một tìm kiếm PSI-BLAST bắt đầu với CAA73331.
3.2. Thực hiện một tìm kiếm PSI-BLAST bắt đầu với CAA73331.
CẢM ƠN THẦY VÀ CÁC BẠN ĐÃ LẮNG NGHE
* Một số tài liệu cũ có thể bị lỗi font khi hiển thị do dùng bộ mã không phải Unikey ...

Người chia sẻ: Võ Phương Thảo
Dung lượng: | Lượt tài: 1
Loại file:
Nguồn : Chưa rõ
(Tài liệu chưa được thẩm định)