Tin sinh học
Chia sẻ bởi Phan Thi Duyen |
Ngày 23/10/2018 |
67
Chia sẻ tài liệu: Tin sinh học thuộc Bài giảng khác
Nội dung tài liệu:
CHƯƠNG 2- TÌM KIẾM DỮ LIỆU SINH HỌC
BIOINFORMATIC
CHƯƠNG 2- TÌM KIẾM DỮ LIỆU SINH HỌC
I. Cơ sở dữ liệu sinh học và các ngân hàng dữ liệu sinh học
1.1. Khái quát chung về cơ sở dữ liệu sinh học
Cơ sở dữ liệu sinh học (CSDL) là các thông tin về trình tự acid nucleotide (ADN, ARN), trình tự acid amin của các phân tử Protein, thông tin về cấu trúc và trình tự nucleotit của một số genom, mô hình cấu trúc không gian của các đại phân tử.
Các thông tin này được sắp xếp và lưu trữ bởi một hệ thống máy tính rất mạnh của các ngân hàng dữ liệu sinh học: NCBI, EMBL, DDBJ và PDB.
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
1.2. Các cơ sở dữ liệu sinh học
Hiện nay có các cơ sở dữ liệu và ngân hàng dữ liệu sinh học lớn của thế giới:
NCBI ( National Centre for Biotechnology Information)
EMBL (European Molecular Biology Laboratory )
DDBJ ( DNA Data Bank of Japan)
PDB (Protein Data Bank)
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
(Online Mendelian Inheritance in Man)
một cơ sở dữ liệu của các gen; các rối loạn di truyền và
các tính trạng của các loài động vật
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
1.2.3- CSDL -DDBJ (DNA Data Bank of Japan)
1.2.4- CSDL -DDBJ (DNA Data Bank of Japan)
1.3. Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleoitde và protein
1.3.1. Cơ sở dữ liệu về nucleotit(nucleotide databases):
GenBank : Tập hợp tất cả các trình tự nucleotit axit amin hiện có.
GenBank (là một phần của International Nucleotit Sequense database collaboration bao gồm ở DDBJ,EMBL,NCBI) là cơ sở dữ liệu trình tự di truyền của NIH. Chẳng hạn chúng ta có thể xem bản ghi cho 1 gen của Saccharomyces cerevisiea thì GenBank đã cung cấp đầy đủ. Cứ sau 2 tháng, 1 phiên bản update được đưa ra.
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
1.3-Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleotide và protein
1.3.1- Cơ sở dữ liệu về nucleotide (nucleotide database)
1.3.1.1-Ngân hàng gen
(http://www.ncbi.nlm.nih.gov/Genbank/GenbankOverview.html)
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
1.3-Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleotide và protein
1.3.1- Cơ sở dữ liệu về nucleotide (nucleotide database)
1.3.1.2-Cơ sở dữ liệu nucleotide EMBL:http://www.ebi.ac.uk/embl/index.html
1.3-Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleotide và protein
1.3.1- Cơ sở dữ liệu về nucleotide (nucleotide database)
1.3.1.3-DNA Data Bank of Japan(DDBJ):http://www.ddbj.nig.ac.jp/
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
1.3-Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleotide và protein
1.3.2- Cơ sở dữ liệu về protein
1.3.2.1-UniProt (Universal Protein Resource)
http://www.uniprot.org/
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
1.3-Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleotide và protein
1.3.2- Cơ sở dữ liệu về protein
1.3.2.1-Protein database (NCBI)
http://www.ncbi.nlm.nih.gov./structure/MMDB/mmdb.shtml
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
1.3-Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleotide và protein
1.3.3-CSDL Cấu trúc protein
1.3.3.1-Protein data bank (PDB) http://www.rcsb.org/pdb/Molecular
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
1.3-Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleotide và protein
1.3.3-CSDL Cấu trúc protein
1.3.3.2-Protein data bank (PDB)
http://www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
1.3-Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleotide và protein
1.3.4- Cơ sở dữ liệu cho toàn bộ gen (Genomic datasebase )
Trong giữa thập niên 1970, các phương pháp để cô lập các trình tự DNA đã được thành lập và ý tưởng lập bản đồ toàn bộ bộ gien đã nảy sinh. Một số loài sinh học (virus, vi khuẩn E. coli, nấm men, ruồi giấm) sau đó đã được nghiên cứu mạnh mẽ.
Một số trang web cung cấp thông tin về trình tự sắp xếp nucleotit của các gen đã được nghiên cứu như:
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
Toàn bộ hệ gen (NCBI) (Whole genomes (NCBI)) http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome
Toàn bộ bộ gen của vi sinh vật (TIGR) (Whole microbial genomes (TIGR) )
http://www.tigr.org/tigr-scripts/CMR2/CMRGenomes.spl
Chưa hoàn chỉnh bộ gen (TIGR)(Unfinished genomes (TIGR) )
http://tigrblast.tigr.org/ufmg/
Cơ sở dữ liệu đa hình đơn(Database of Single Nucleotide Polymorphisms )
http://www.ncbi.nlm.nih.gov/SNP/ Nucleotide
Gen đột biến ở người (Human Gene Mutations)
http://www.uwcm.ac.uk/uwcm/mg/hgmd0.html
1.3-Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleotide và protein
1.3.4- Cơ sở dữ liệu cho toàn bộ gen (Genomic datasebase )
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
http://www.ncbi.nih.gov/entrez/query.fcgi?db=genome
1.3-Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleotide và protein
1.3.4- Cơ sở dữ liệu cho toàn bộ gen (Genomic datasebase )
1.3.4.1-Whole genomes (NCBI)
http://www.ncbi.nih.gov/entrez/query.fcgi?db=genome
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
1.3-Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleotide và protein
1.3.4- Cơ sở dữ liệu cho toàn bộ gen (Genomic datasebase )
1.3.4.2-Toàn bộ bộ gen của vi sinh vật (TIGR) (Whole microbial genomes (TIGR)
http://www.tigr.org/tigr-scripts/CMR2/CMRGenomes.spl
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
Biết được trình tự sắp xếp của một gen bất kì so sánh với dữ liệu trong ngân hàng gen.từ đó xác định được đoạn ADN đó của sinh vật nào(tìm kiếm trình tự tương đồng)
Biết được trình tự sắp xếp nucleotit của một đoạn ADN ta suy ra được trình tự các axit amin tương ứng trên mạch Polipeptide nếu đoạn ADN mã hóa.(Dịch mã 1 phân tử ADN ra trình tự axit amin).
Biết được trình tự gen của một gen(chẳng hạn như gen ung thư) người ta có thể phát hiện sớm bằng PCR, lai ADN để ngăn chặn, điều trị.
Từ các trình tự nucleotit có thể thiết kế những cặp mồi để nhân bản các đoạn gen này cho những mục đích khác nhau, cũng như xác định mức độ hoạt động của gen đó trong những điều kiện phức tạp
Xác định đột biến, sự sắp xếp về trình tự nucleotit trong cùng một sản phẩm gen, có ý nghĩa trong nghiên cứu tiến hóa và ứng dụng thực tiễn
Về mặt phân loại sinh học, đối với những gen bảo thủ cao, mang tính đặc thù cho loài, ví dụ gen mã hóa cho mARN. Dựa vào những gen này mà người ta so sánh trình tự nucleotide các loài với nhau để xác định mối quan hệ họ hàng.
Từ trình tự nucleotit của một phân tử ADN có thể nhận biết bản đồ các vị trí nhận biết của các enzim cắt hạn chế. Điều này có ý nghĩa trong công nghệ ADN tái tổ hợp, một trong những ứng dụng quan trọng là chuyển gen để tạo ra những sinh vật hoàn toàn mới như các vi khuẩn, tế bào nấm men, từ đó đưa ra sản xuất công nghiệp các sản phẩm Protein, enzim.
Từ trình tự aa của một phân tử protein có thể dự đoán được trình tự nucleotit của gen mã hóa.
Từ trình tự của các aa trong phân tử protein hoặc enzim nào đó, chúng ta có thể so sánh với các protein hoặc enzim cùng chức năng ở các loài khác để biết được thành phần axit amin nào quan trọng.
2.1.1- Similarity&Homology
Đây là công cụ phân tích mức độ giống nhau và tương đồng giữa các trình tự.
Các công cụ như FASTA, BLAST, MPSRCH và SCANPS. Dạng tìm kiếm kết quả trả về email cũng được phát triển.
Hai chương trình thường được dùng để tìm kiếm, so sánh mức độ giống nhau và mức độ tương đồng suy diễn là BLAST và FASTA
2.1.1- Similarity&Homology
2.1.2- Phân tích chức năng của protein
2.1.4- Phân tích trình tự
2.2.1-Các công cụ phân tích trình tự
BIOINFORMATIC
CHƯƠNG 2- TÌM KIẾM DỮ LIỆU SINH HỌC
I. Cơ sở dữ liệu sinh học và các ngân hàng dữ liệu sinh học
1.1. Khái quát chung về cơ sở dữ liệu sinh học
Cơ sở dữ liệu sinh học (CSDL) là các thông tin về trình tự acid nucleotide (ADN, ARN), trình tự acid amin của các phân tử Protein, thông tin về cấu trúc và trình tự nucleotit của một số genom, mô hình cấu trúc không gian của các đại phân tử.
Các thông tin này được sắp xếp và lưu trữ bởi một hệ thống máy tính rất mạnh của các ngân hàng dữ liệu sinh học: NCBI, EMBL, DDBJ và PDB.
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
1.2. Các cơ sở dữ liệu sinh học
Hiện nay có các cơ sở dữ liệu và ngân hàng dữ liệu sinh học lớn của thế giới:
NCBI ( National Centre for Biotechnology Information)
EMBL (European Molecular Biology Laboratory )
DDBJ ( DNA Data Bank of Japan)
PDB (Protein Data Bank)
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
(Online Mendelian Inheritance in Man)
một cơ sở dữ liệu của các gen; các rối loạn di truyền và
các tính trạng của các loài động vật
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
1.2.3- CSDL -DDBJ (DNA Data Bank of Japan)
1.2.4- CSDL -DDBJ (DNA Data Bank of Japan)
1.3. Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleoitde và protein
1.3.1. Cơ sở dữ liệu về nucleotit(nucleotide databases):
GenBank : Tập hợp tất cả các trình tự nucleotit axit amin hiện có.
GenBank (là một phần của International Nucleotit Sequense database collaboration bao gồm ở DDBJ,EMBL,NCBI) là cơ sở dữ liệu trình tự di truyền của NIH. Chẳng hạn chúng ta có thể xem bản ghi cho 1 gen của Saccharomyces cerevisiea thì GenBank đã cung cấp đầy đủ. Cứ sau 2 tháng, 1 phiên bản update được đưa ra.
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
1.3-Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleotide và protein
1.3.1- Cơ sở dữ liệu về nucleotide (nucleotide database)
1.3.1.1-Ngân hàng gen
(http://www.ncbi.nlm.nih.gov/Genbank/GenbankOverview.html)
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
1.3-Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleotide và protein
1.3.1- Cơ sở dữ liệu về nucleotide (nucleotide database)
1.3.1.2-Cơ sở dữ liệu nucleotide EMBL:http://www.ebi.ac.uk/embl/index.html
1.3-Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleotide và protein
1.3.1- Cơ sở dữ liệu về nucleotide (nucleotide database)
1.3.1.3-DNA Data Bank of Japan(DDBJ):http://www.ddbj.nig.ac.jp/
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
1.3-Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleotide và protein
1.3.2- Cơ sở dữ liệu về protein
1.3.2.1-UniProt (Universal Protein Resource)
http://www.uniprot.org/
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
1.3-Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleotide và protein
1.3.2- Cơ sở dữ liệu về protein
1.3.2.1-Protein database (NCBI)
http://www.ncbi.nlm.nih.gov./structure/MMDB/mmdb.shtml
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
1.3-Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleotide và protein
1.3.3-CSDL Cấu trúc protein
1.3.3.1-Protein data bank (PDB) http://www.rcsb.org/pdb/Molecular
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
1.3-Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleotide và protein
1.3.3-CSDL Cấu trúc protein
1.3.3.2-Protein data bank (PDB)
http://www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
1.3-Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleotide và protein
1.3.4- Cơ sở dữ liệu cho toàn bộ gen (Genomic datasebase )
Trong giữa thập niên 1970, các phương pháp để cô lập các trình tự DNA đã được thành lập và ý tưởng lập bản đồ toàn bộ bộ gien đã nảy sinh. Một số loài sinh học (virus, vi khuẩn E. coli, nấm men, ruồi giấm) sau đó đã được nghiên cứu mạnh mẽ.
Một số trang web cung cấp thông tin về trình tự sắp xếp nucleotit của các gen đã được nghiên cứu như:
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
Toàn bộ hệ gen (NCBI) (Whole genomes (NCBI)) http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome
Toàn bộ bộ gen của vi sinh vật (TIGR) (Whole microbial genomes (TIGR) )
http://www.tigr.org/tigr-scripts/CMR2/CMRGenomes.spl
Chưa hoàn chỉnh bộ gen (TIGR)(Unfinished genomes (TIGR) )
http://tigrblast.tigr.org/ufmg/
Cơ sở dữ liệu đa hình đơn(Database of Single Nucleotide Polymorphisms )
http://www.ncbi.nlm.nih.gov/SNP/ Nucleotide
Gen đột biến ở người (Human Gene Mutations)
http://www.uwcm.ac.uk/uwcm/mg/hgmd0.html
1.3-Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleotide và protein
1.3.4- Cơ sở dữ liệu cho toàn bộ gen (Genomic datasebase )
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
http://www.ncbi.nih.gov/entrez/query.fcgi?db=genome
1.3-Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleotide và protein
1.3.4- Cơ sở dữ liệu cho toàn bộ gen (Genomic datasebase )
1.3.4.1-Whole genomes (NCBI)
http://www.ncbi.nih.gov/entrez/query.fcgi?db=genome
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
1.3-Các cơ sở dữ liệu cho việc tìm kiếm các trình tự nucleotide và protein
1.3.4- Cơ sở dữ liệu cho toàn bộ gen (Genomic datasebase )
1.3.4.2-Toàn bộ bộ gen của vi sinh vật (TIGR) (Whole microbial genomes (TIGR)
http://www.tigr.org/tigr-scripts/CMR2/CMRGenomes.spl
Chương II. TÌM KIẾM CƠ SỞ DỮ LIỆU SINH HỌC
Biết được trình tự sắp xếp của một gen bất kì so sánh với dữ liệu trong ngân hàng gen.từ đó xác định được đoạn ADN đó của sinh vật nào(tìm kiếm trình tự tương đồng)
Biết được trình tự sắp xếp nucleotit của một đoạn ADN ta suy ra được trình tự các axit amin tương ứng trên mạch Polipeptide nếu đoạn ADN mã hóa.(Dịch mã 1 phân tử ADN ra trình tự axit amin).
Biết được trình tự gen của một gen(chẳng hạn như gen ung thư) người ta có thể phát hiện sớm bằng PCR, lai ADN để ngăn chặn, điều trị.
Từ các trình tự nucleotit có thể thiết kế những cặp mồi để nhân bản các đoạn gen này cho những mục đích khác nhau, cũng như xác định mức độ hoạt động của gen đó trong những điều kiện phức tạp
Xác định đột biến, sự sắp xếp về trình tự nucleotit trong cùng một sản phẩm gen, có ý nghĩa trong nghiên cứu tiến hóa và ứng dụng thực tiễn
Về mặt phân loại sinh học, đối với những gen bảo thủ cao, mang tính đặc thù cho loài, ví dụ gen mã hóa cho mARN. Dựa vào những gen này mà người ta so sánh trình tự nucleotide các loài với nhau để xác định mối quan hệ họ hàng.
Từ trình tự nucleotit của một phân tử ADN có thể nhận biết bản đồ các vị trí nhận biết của các enzim cắt hạn chế. Điều này có ý nghĩa trong công nghệ ADN tái tổ hợp, một trong những ứng dụng quan trọng là chuyển gen để tạo ra những sinh vật hoàn toàn mới như các vi khuẩn, tế bào nấm men, từ đó đưa ra sản xuất công nghiệp các sản phẩm Protein, enzim.
Từ trình tự aa của một phân tử protein có thể dự đoán được trình tự nucleotit của gen mã hóa.
Từ trình tự của các aa trong phân tử protein hoặc enzim nào đó, chúng ta có thể so sánh với các protein hoặc enzim cùng chức năng ở các loài khác để biết được thành phần axit amin nào quan trọng.
2.1.1- Similarity&Homology
Đây là công cụ phân tích mức độ giống nhau và tương đồng giữa các trình tự.
Các công cụ như FASTA, BLAST, MPSRCH và SCANPS. Dạng tìm kiếm kết quả trả về email cũng được phát triển.
Hai chương trình thường được dùng để tìm kiếm, so sánh mức độ giống nhau và mức độ tương đồng suy diễn là BLAST và FASTA
2.1.1- Similarity&Homology
2.1.2- Phân tích chức năng của protein
2.1.4- Phân tích trình tự
2.2.1-Các công cụ phân tích trình tự
* Một số tài liệu cũ có thể bị lỗi font khi hiển thị do dùng bộ mã không phải Unikey ...
Người chia sẻ: Phan Thi Duyen
Dung lượng: |
Lượt tài: 1
Loại file:
Nguồn : Chưa rõ
(Tài liệu chưa được thẩm định)