TIN SINH HỌC P34

Chia sẻ bởi Võ Phương Thảo | Ngày 23/10/2018 | 47

Chia sẻ tài liệu: TIN SINH HỌC P34 thuộc Bài giảng khác

Nội dung tài liệu:

CƠ SỞ DỮ LIỆU SINH HỌC VÀ
CÁC NGÂN HÀNG CƠ SỞ DỮ LIỆU

1.1. Khái quát chung về cơ sở dữ liệu sinh học
Cơ sở dữ liệu sinh học (CSDL) trong chương này chủ yếu đề cập đến các thông tin về trình tự axit nucleic (ADN, ARN), trình tự axit amin của các phân tử protein, thông tin về cấu trúc và giải phẫu của một số genom, mô hình cấu trúc không gian của các đại phân tử.
Các thông tin này được sắp xếp và lưu trữ bởi một hệ thống các máy chủ rất mạnh của 3 ngân hàng gen lớn nhất thế giới là NCBI, EMBL và DDBJ.
Từ trình tự axit amin có thể dự đoán được cấu trúc ba chiều, vị trí hoạt động (domain) của phân tử protein, enzym đó.
Ngày nay, việc phát hiện sự tương đồng hay sự có mặt của phân tử protein có thể được thực hiện bằng các kỹ thuật hiện đại như khối phổ. Tuy nhiên việc xác định trình tự các axit amin là không thể thiếu được.
1.2. CSDL của các ngân hàng gen
Cả 3 CSDL lớn nhất (NCBI, EMBL và DDBJ) đều có đầy đủ thông tin cơ bản về các CSDL trên. Tuy nhiên mỗi ngân hàng có một cách phân loại và tổ chức các loại dữ liệu khác nhau. Trong phạm vi bài giảng, chương này chỉ đề cập đến những CSDL chính, được sử dụng thường xuyên.
1.2.1. CSDL của EMBL/EBI
a/ CSDL tài liệu (Literature Databases)
Medline: Bao quát tất cả các lĩnh vực của y học, chăm sóc bệnh nhân, nha khoa, thú y, hệ thống chăm sóc sức khỏe và khoa học tiền lâm sàng.
Omim: Di truyền Mendel ở người (Online Mendelian Inheritance in Man -OMIM) là một tập hợp của các gen và các rối loạn di truyền.
Patent Abstracts: Các bản tóm tắt có liên quan đến CNSH của các ứng dụng mô hình lấy từ các sản phẩm dữ liệu của European Patent Office (EPO).
Taxonomy: CSDL phân loại của ISDC (International Sequence Database Collaboration) chứa các tên của các sinh vật được trình bày dưới dạng CSDL trình tự.
b/ CSDL Microarray (Microarray Databases)
ArrayExpress: Một CSDL cho microarry dựa vào dữ liệu biểu hiện gen.
Miame : Thông tin tối thiểu về một thí nghiệm microarry (Minimum Information About a Microarray Experiment (MIAME).
Công nghệ microarry tận dụng các nguồn trình tự được tạo ra từ các dự án xác định trình tự genom để trả lời câu hỏi là các gen nào đang được biểu hiện ở một dạng tế bào nhất định của một sinh vật ở một thời gian nhất định trong những điều kiện nhất định
c/ CSDL Nucleotide (Nucleotide Databases)
CSDL trình tự nucleotide của EMBL là một thành viên các nước châu Âu trong 3 CSDL lớn nhất thế giới. Có thể truy cập vào hàng trăm trình tự genom hoàn chỉnh cùng với các sản phẩm protein dịch mã nhờ máy chủ của EBI.
ASD: CSDL phân cắt nảy sinh (Alternative Splicing Database) chứa dữ liệu về các exon phân cắt phát sinh cùng với các thông tin bổ sung đi kèm. Dự án ASD nhằm hiểu rõ hơn về cơ chế cắt ghép nảy sinh ở quy mô genome.
ATD: CSDL đa dạng về các bản phiên mã nảy sinh (Alternate Transcript Diversity Database ATD) chứa dữ liệu về các bản phiên mã trong đó mỗi bản phiên mã được mô tả cho một dạng cắt ghép nảy sinh và sự polyadenyl hóa nảy sinh (alternative polyadenylation).
EMBL-Align database: CSDL so sánh nhiều trình tự.
EMBL-Bank: Ngân hàng EMBL còn được gọi là CSDL trình tự nucleotide EMBL, đóng góp vào nguồn trình tự nucleotide sơ cấp của châu Âu.
EMBL CDS: là một CSDL của trình tự nucleotide của trình tự mã hóa (CDS coding sequence)
Ensembl: Mô tả tự động của các genome eukaryote.
Genomes Server: một cái nhìn tổng quan của các genom hoàn chỉnh ở EBI. Những trang web này cho phép truy cập với một số lượng lớn các genom hoàn chỉnh.
Genome Reviews: CSDL genom được chỉnh sửa bao gồm các phiên bản chính xác của các mục tra cứu (entry) genom hoàn chỉnh từ CSDL trình tự nucleotide của EMBL/GenBank/DDBJ
Karyn`s Genomes: thu thập và mô tả một số trình tự genom.
IMGT/HLA: CSDL di truyền miễn dịch, bao gồm CSDL IMGT/HLA của phức hệ phù hợp tổ chức (MHC). CSDL di truyền miễn dịch IMGT/LIGM bao gồm CSDL IMGT/LIGM của các Ig và các thụ thể tế bào T.
IPD: CSDL đa hình miễn dịch (Immuno Polymorphism Database IPD), bao gồm các gen đa hình của hệ thống miễn dịch, chẳng hạn như KIR, HPA và MHC không phải của người.
LGICdb: CSDL các chất gắn các kênh Ion (Ligand Gated Ion Channel Database)
Mutations: Dự án CSDL sự đa hình trình tự (Sequence variation database project)
Parasites: CSDL genome ký sinh (Parasite Genome databases).
d/ CSDL protein (Protein Databases)
EBI đã phát triển và duy trì một số CSDL protein có liên quan với nhau. Danh sách của các dự án và CSDL:
CluSTr: Đề xuất một sự phân loại tự động của UniProtKB/Swiss-Prot + UniProtKB/TrEMBL.
CSA: Tập hợp các vị trí xúc tác (Catalytic Site Atlas) là một nguồn của các vị trí xúc tác và các gốc được tìm thấy ở các enzym bằng cách sử dụng CSDL cấu trúc.
GO: Các trang của hiệp hội Gene Ontology của EBI.
GOA: Cung cấp các thông tin về sản phẩm gen vào nguồn GO.
HPI: Các proteomic của người ban đầu (Human Proteomics Initiative) là một khởi xướng bởi SIB và EBI để mô tả tất cả các trình tự đã biết của người theo tiêu chuẩn chất lượng của UniProtKB/Swiss-Prot.
IntAct: Là một CSDL đi kèm với hệ thống phân tích, nó cung cấp một giao diện truy vấn và một module để phân tích các dữ liệu.
IntEnz: CSDL liên quan giữa các enzym (Integrated relational Enzyme database) chứa các dữ liệu enzym được chứng nhận bởi hội đồng định tên (Nomenclature Committee) với mục đích là để tạo ra một CSDL các enzym có mối quan hệ đơn.
InterPro: CSDL là một sự kết hợp của nguồn tài liệu trích dẫn cho các họ proein, các domain và các vị trí hoạt động.
IPI: (International Protein Index) một hệ thống proteom không dư thừa (non-redundant) được xây dựng từ UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, Ensembl và RefSeq.
PANDIT: là một bộ các chương trình so sánh trình tự và xây dựng cây phân loại.
Proteome Analysis: Phân tích so sánh và thống kê các proteom của các sinh vật.
UniProt: Nguồn Protein phổ biến cho các trình tự protein và trung tâm của các CSDL protein cho các ngân hàng CSDL khác.
UniProt Archive: Một phần trình tự protein được trích ra từ CSDL công khai chỉ chứa các trình tự protein.
UniProt/UniRef Features clustering of similar sequences to yield a representative subset of sequences. This produces very fast search times.
UniProtKB/Swiss-Prot: CSDL trình tự protein được mô tả, một phần của UniProtKB.
UniProtKB/TrEMBL: Một CSDL protein được tạo ra bằng máy tính, là một phần của UniProtKB.
e/ CSDL Proteomic (Proteomic Databases)
EBI đã phát triển và lưu giữ một số lượng lớn các CSDL liên quan proteom. Dưới đây là một số CSDL proteom.
ChEBI (Chemical Entities of Biological Interest ChEBI): một từ điển của các phân tử nhỏ (small molecular ).
IntAct : Cung cấp một hệ thống CSDL mở, sẵn có và các công cụ phân tích cho các dữ liệu tương tác protein.
IntEnz (Integrated relational Enzyme database IntEnz) sẽ chứa dữ liệu enzym được hội định tên quốc tế (Nomenclature Committee) xác nhận. Mục tiêu là để tạo ra một CSDL quan hệ enzym đơn.
IUPHAR CSDL thụ thể đại diện cho tất cả các lĩnh vực của dược học theo nghĩa rộng nhất của nó từ lý thuyết cho đến lâm sàng ở quy mô thế giới.
PRIDE (PRoteomics IDEntifications database) cho phép đăng ký (submit) dữ liệu protein ở dạng PRIDE XML.
f/ CSDL cấu trúc (Structure Databases)
EBI đã phát triển và duy trì một số lượng các CSDL có liên quan đến cấu trúc của các đại phân tử. Trong đó quan trọng nhất là (Macromolecular Structure Database MSD).
DALI: Thư mục cấu trúc domain của các protein.
MSD: CSDL cấu trúc các đại phân tử (MSD), bao gồm các công cụ tìm kiếm PDB.
MSDchem: Thư viện hóa học của các thành phần hóa học tìm thấy trong PDB.
MSDlite: Cung cấp các công cụ dễ dàng truy cập vào PDB.
MSDtarget: Máy chủ chung cấp các công cụ tìm kiếm
RESID: CSDL các protein cải biến là một tập hợp các cấu trúc và mô tả cho cấccỉ biến bao gồm đầu amino, carboxyl tận cùng…
Reactome: CSLD chính xác về các quá trình sinh học ở cơ thể người. Reactome sẽ không chỉ hữu ích đối với các nhà sinh học nói chung như là một cuốn sách về sinh học trực tuyến mà còn có ích đối với các nhà tin sinh học phát hiện ra các con đường sinh học mới.
BioModels: CSDL của các mô hình sinh học cho phép các nhà sinh học lưu giữ, tìm kiếm và công bố các mô hình toán học trong lĩnh vực sinh học.
1.2.2. CSDL của NCBI
a/ CSDL tài liệu (Literature Database)
Bookshelf: Tìm kiếm những thông tin cơ bản hoặc các chủ đề nghiên cứu mới, miễn phí, có một phần ở PubMed.
PubMed: Bất kỳ ai đều có thể truy cập vào, chứa phần tóm tắt của hơn 15.000.000 kết quả nghiên cứu trong lĩnh vực sinh y học.
PubMed Central: Là một tạp chí khoa học sự sống, kết hợp với hệ thống Enztrez, PMC cho phép truy cập tự do và không hạn chế với hơn 160 tạp chí khoa học sự sống.
Online Mendelian Inheritance in Man (OMIM): Với hơn 15.000 đăng mục, OMIM được duy trì bởi tiến sỹ Victor A. McKusick và cộng sự (đại học Johns Hopkins), đăng tải một hệ thống các bệnh di truyền và liên tục được update.
Online Mendelian Inheritance in Animals (OMIA): Là một CSDL của các gen, các rối loạn di truyền và các tính trạng của các loài động vật.
Journals: Tìm kiếm các CSDL tạp chí cho phép kết nối (link) các tạp chí với hệ thống Entrez kể cả CSDL di truyền.
b/ CSDL Nucleotide (Nucleotide databases)
GenBank: Tập hợp tất cả các trình tự nucleotide và axit amin hiện có
GenBank® là CSDL trình tự di truyền của NIH. Có khoảng 51.674.486.881 base trong 46.947.388 bản trình tự trong các nhánh của GenBank và 53.346.605.784 base trong 10.276.161 bản ghi trình tự ở nhánh WGS vào 8/2005.
Chẳng hạn, chúng ta có thể xem bản ghi cho một gen của Saccharomyces cerevisiae thì GenBank đã cung cấp đầy đủ. Cứ sau 2 tháng, một phiên bản update được đưa ra.
GenBank là một phần của (International Nucleotide Sequence Database Collaboration) bao gồm ở DDBJ, EMBL và NCBI. Ba tổ chức này trao đổi dữ liệu với nhau hàng ngày.
Trong lần công bố gần đây nhất, INSDC cho biết CSDL trình tự DNA đã vượt quá 100 Gb. GenBank là một thành viên quan trọng đóng góp cho mức này và tất nhiên đó là kết quả đóng góp của rất nhiều các nhà khoa học trên toàn thế giới.

dbEST (data base of Expressed Sequence Tags): Theo Nature Genetics 4:332-3; 1993 thì dbEST là một tập hợp của các trình tự đeo thẻ hoặc các trình tự ngắn, duy nhất lấy từ mRNA (cDNA). dbEST cũng là một nhánh của GenBank.
dbGSS (data base of Genome Survey Sequences): cũng là một nhánh của GenBank nhưng khác với dbEST là hầu hết các trình tự đều có nguồn gốc từ genomic chứ không phải là cDNA (mRNA). Nhánh dbGSS chứa các dạng dữ liệu sau:
Single - pass genom sequence
Các trình tự tận cùng của cosmid/BAC/YAC
Các trình tự Alu PCR
Các trình tự transposon được đeo thẻ (transposon –tagged).

dbSNP (data base of Single-base Nucleotide Polymorphism): là CSDL các đa hình do sự thay thế hoặc thêm, bớt một nucleotide.
RefSeq: CSDL của các trình tự tra cứu không có sự dư thừa (non-redundant reference sequence) bao gồm: các đoạn contig DNA genom, các mRNA, các protein của các gen đã biết.
dbSTS (data base of sequence tagged sites): CSDL của các vị trí trình tự được đeo thẻ hoặc các trình tự ngắn thường chỉ có mặt một lần duy nhất trong genom.
UniSTS: là một cơ sở dữ liệu toàn diện của các STS (các vị trí đánh dấu trình tự) được lấy từ các bản đồ STS và các thí nghiệm khác.
UniGene: Tập hợp của các trình tự EST và các trình tự mRNA có chiều dài đầy đủ được nhóm vào các cụm và mỗi cụm đại diện cho một gene duy nhất được biết hoặc gene người được mô tả cùng với bản đồ và những thông tin về quá trình biểu hiện gen.
dbHTG (data base of high-throughput genom sequence): tập hợp của các trình tự genom thu được từ các trung tâm xác định trình tự genom.
HomoloGene: Sử dụng để so sánh trình tự nucleotide giữa hai sinh vật để đánh giá mức độ ortholog giả định.
MGC: (Mamalian Gene Collection) cung cấp các dòng đầy đủ chiều dài các khung đọc mở (full-length open reading frame FL-ORF) cho người, chuột nhắt và chuột cống.
PopSet: PopSet là một hệ thống các trình tự DNA được thu thập để phân tích mối quan hệ tiến hóa của một quần thể.
RefSeq: Cung cấp hệ thống các trình tự: DNA, các loại RNA và sản phẩm protein để nghiên cứu các sinh vật.
TPA: Third Party Annotation (TPA) Sequence: Được thiết kế để thu hút các kết quả thực nghiệm và hỗ trợ cho những người đăng ký mô tả, giải thích về trình tự mà người đăng ký không xác định được trực tiếp nhưng có thể lấy từ dữ liệu sơ cấp của GenBank.
RHdb: là một cơ sở dữ liệu của các dữ liệu thô được sử dụng trong việc thiết kế các bản đồ lai phóng xạ. Nó bao gồm các dữ liệu STS, điểm số, các điều kiện thí nghiệm và các tra cứu chéo.
c. CSDL Protein (Protein Databases) 3D Domains: Bao gồm các trình tự và cấu trúc 3 chiều của các domain trong các phân tử protein.
Proteins: Tập hợp các CSDL trình tự protein
RefSeq: Cung cấp một CSDL không dư thừa (non-redundant) bao gồm DNA, RNA và Protein.
PROW: CSDL về protein trên Web (Protein Reviews on the Web PROW) ...
d/ Cơ sở dữ liệu cấu trúc (Structure Databases) 3D Domain
MMDB (Molecular Modeling Database) : CSDL mô hình cấu trúc phân tử 3D, bao gồm các protein và các polynucleotide. MMDB chứa hơn 28.000 cấu trúc và được liên kết với phần còn lại của CSDL ở NCBI, bao gồm các trình tự, các trích dẫn, phân loại học, và các trình tự và cấu trúc lân cận.
Conserved Domains: Tập hợp các CSDL về các vùng domain bảo thủ của các protein, họ protein.
e/ Cơ sở dữ liệu hệ thống học (Taxonomy Databases)
Cơ sở dữ liệu hệ thống học (Taxonomy database) chứa tên của các sinh vật có mặt trong cơ sở dữ liệu di truyền với ít nhất một trình tự nucleotide hoặc protein. NCBI cung cấp một hệ thống hệ thống phân loại cùng với các đơn vị phân loại (taxa).
f/ Cơ sở dữ liệu genom (genome database)
Các nhiễm sắc thể ung thư: Cancer Chromosomes: 3 cơ sở dữ liệu NCI/NCBI SKY?M-FISH và CGH.
COGs (Clusters of Orthologous Groups of proteins): Nhóm của các nhóm Orthologous của protein được dẫn xuất từ việc so sánh trình tự protein được mã hóa thành các genom hoàn chỉnh, đại diện cho các dòng giống chủ yếu của phân loại hệ thống học.
Cơ sử dữ liệu các gen: Gene: Các gen được lưu trữ trong một hệ thống, để truy cập có thể sử dụng các công cụ như Entrez Gene.
Cơ sở dữ liệu của các dự án giải trình tự: Genome Project: Các trình tự hoàn tất, đang ở giai đoạn lắp ráp hoặc đang tiến hành đều được lưu trữ trong một hệ thống. Chúng ta có thể sử dụng công cụ Entrez Genome Project để truy cập.
Genomes: Các nguồn genom đặc thù từng loại sinh vật: Chứa toàn bộ genom của hơn 1000 sinh vật gồm những genom hoàn chỉnh và đang tiến hành: Aspergillus, Bacteria, Bee, Cat, Chickent, Cow, Dog, các bào quan của eukaryote, Frog, Fruit fly, Human, Mosquito, Mouse, Pig, plant genome, rat, Retrovirus, Sheep, Viral Genomes, Yeast, Zebrafish...
g/ Cơ sở dữ liệu hệ thống học
Cơ sở dữ liệu hệ thống học (Taxonomy database) chứa tên của các sinh vật có mặt trong cơ sở dữ liệu di truyền với ít nhất một trình tự nucleotide hoặc protein. NCBI cung cấp một hệ thống hệ thống phân loại cùng với các đơn vị phân loại (taxa).
h/ Cơ sử dữ liệu cấu trúc (Structure Databases)
MMDB (Molecular Modeling Database): CSDL mô hình phân tử chứa các cấu trúc 3D của đại phân tử, bao gồm các protein và các polynucleotide. MMDB chứa hơn 28,000 cấu trúc và nó được kết nối với phần còn lại của NCBI bao gồm các trình tự, trích dẫn, hệ thống phân loại và các trình tự và cấu trúc liên quan.
GEO Datasets: CSDL này lưu giữ các gen biểu hiện (Gene Expression Omnibus GEO)
SAGE: Để hỗ trợ cho việc sử dụng công cộng và công bố các dữ liệu gen biểu hiện (serial analysis of gene expression SAGE), NCBI gần đây đã chỉnh sửa lại website này.
SAGEmap là một nguồn dữ liệu SAGE cho yêu cầu truy vấn, thu nhân và phân tích các dữ liệu SAGE từ một loài sinh vật bất kỳ. Tất cả các dữ liệu có mặt trong website này có thể được truy cập từ các kho lưu trữ của GEO (Gene Expression Omnibus).
k/ Cơ sở dữ liệu hóa học (Chemical Databases)
Các phản ứng, test..
Danh sách các chất hóa học
Danh sách các hợp chất
1.3. Các công cụ tìm kiếm, phân tích các CSDL
1.3.1. Công cụ của EMBL/EBI
a/ Similarity & Homology: Công cụ phân tích mức độ giống nhau và tương đồng giữa các trình tự.
Các công cụ như: Fasta, Blast, MPsrch và Scanps. Dạng tìm kiếm và kết quả trả về qua email cũng được phát triển.
Hai chương trình có thể được sử dụng để tìm kiếm, so sánh mức độ giống nhau và mức độ tương đồng suy diễn là BLAST or Fasta.
Công cụ tìm kiếm DNA và Protein chung
Các công cụ tìm kiếm chuyên biệt cho Protein
Các công cụ tìm kiếm chuyên biệt cho DNA
b/ Protein Functional Analysis: Phân tích chức năng của protein
Một trong những nghiên cứu phân tích chức năng của protein là phát hiện các vùng hoạt động đặc trưng (motif) trong các trình tự protein. Phần này cung cấp các công cụ sử dụng để xác định chức năng của protein với nhiều phương pháp và CSDL khác nhau. Dịch vụ quan trọng nhất trong phần này là InterProscan cùng kết hợp với rất nhiều phương pháp khác trong một giao diện rất dễ sử dụng.
c/ Proteomic Services
Bao gồm các phương thức truy cập vào các dịch vụ proteomic do EBI cung cấp. Trong đó quan trọng nhất là máy chủ UniProt DAS nó cho phép các nhà nghiên cứu trình bày kết quả nghiên cứu của mình dưới dạng mô tả của UniProtKB/Swiss-Prot.
d/ Sequence Analysis: Phân tích trình tự
Sử dụng rất nhiều phương pháp tin sinh học để xác định chức năng sinh học, cấu trúc của các gen và protein mà chúng mã hóa.
Các công cụ như Transeq có thể giúp xác định các vùng mã hóa protein của một trình tự DNA. ClustalW được sử dụng để so sánh trình tự DNA hoặc protein để làm sáng tỏ mối quan hệ cũng như nguồn gốc tiến hóa của chúng.
Các công cụ phân tích do EBI cung cấp:
e/ Phân tích cấu trúc (Structural Analysis): Việc xác định cấu trúc 2D/3D của một protein là một công việc quan trọng nhất khi nghiên cứu chức năng của nó. Người sử dụng sẽ tìm thấy rất nhiều dịch vụ giúp cho việc phân tích cấu trúc do EBI cung cấp. Một trong những công cụ đó là DALI. và MSDfold. Công cụ của MSDfold hoặc DALI cho phép xác định cấu trúc protein cần nghiên cứu và so sánh nó với các cấu trúc trong PDB (Protein Data Bank).
f/ Các công cụ khác
1.3.2. Công cụ của NCBI
a/ Các công cụ phân tích trình tự
Cluster of Orthologous Groups (COGs): Một hệ thống của các họ gen từ các genom hoàn chỉnh.
Gene Expression Omnibus (GEO): Kho dữ liệu gen biểu hiện và các nguồn trực tuyến cho việc thu nhận các dữ liệu gen biểu hiện.
HomoloGene: So sánh các trình tự nucleotide giữa các cặp sinh vật để xác định các gen ở các loài khác nhau được tiến hóa từ một gen tổ tiên chung do quá trình phân loài và chúng thường vẫn giữ được nguyên chức năng trong quá trình tiến hóa.
CSDL các vùng bảo thủ (Conserved Domain Database CDD): Tập hợp các bản so sánh trình tự (sequence alignment) và các profile của các vùng bảo thủ của các phân tử protein trong quá trình tiến hóa phân tử.
Tập hợp các gen động vật có vú (Mammalian Gene Collection MGC): Một nỗ lực mới của NIH để thu được các nguồn cDNA với chiều dài đầy đủ.
Clone Registry: Một CSDL được sử dụng bởi sự tham gia của các trung tâm trình tự genom người và chuột để lưu giữ những dòng được lựa chọn từ việc đọc trình tự, các dòng đang được đọc trình tự và các dòng đã hoàn tất và được lưu giữ ở GenBank
Trace Archive: Được phát triển để lưu giữ các dữ liệu trình tự thô được tạo ra từ các dự án xác định trình tự.
Tìm khung đọc mở (ORF Finder): Một công cụ phân tích hiện thị dưới dạng đồ hoạ cho phép tìm các khung đọc mở của một đoạn trình tự hoặc một trình tự có trong CSDL.
VecScreen: Một công cụ cho phép xác định các đoạn trình tự nucleotide mà có thể là của vector, các vùng linker hoặc các điểm khởi đầu sao chép (origin) trước khi sử dụng các công cụ phân tích trình tự hoặc đăng ký trình tự.
Electronic-PCR (e-PCR): Có thể được sử dụng để so sánh một trình tự truy vấn (query sequence) với các vị trí trong trình tự đánh dấu (sequence-tagged sites) để tìm ra một vị trí bản đồ có thể cho trình tự truy vấn.
b/ Tìm kiếm trình tự giống nhau (Sequence Similarity Searching)
BLAST Homepage: Cho phép truy cập vào chương trình và công cụ BLAST (Basic Local Alignment Search Tool), các trợ giúp…
BLink: Trình bày các kết quả tìm kiếm của BLAST đối với mỗi trình tự protein trong CSDL protein Entrez.
Network-Client BLAST: cho phép tiếp cận các công cụ tìm kiếm BLAST của NCBI. Blastcl3 có thể tìm tất cả các trình tự trong file FASTA và tạo ra một hay nhiều các bản so sánh trình tự dưới dạng text hoặc HTML.
Stand-alone BLAST: Chương trình có thể sử dụng sau khi download và cài đặt vào trong máy tính cá nhân.
c/ Hệ thống đơn vị phân loại (Taxonomy)
Taxonomy Browser: Công cụ cho phép tìm kiếm các CSDL taxonomy của NCBI
Taxonomy BLAST: Các nhóm công cụ BLAST sắp xếp các nguồn sinh vật theo CSDL Taxonomy của NCBI.
TaxTable: Bảng tóm tắt các dữ liệu taxon của BLAST và các mối quan hệ của sinh vật với nhau thông qua dạng đồ hoạ màu.
ProtTable: Cung cấp một bảng tóm tắt các vùng mã hóa protein trong một gene
TaxPlot: Cung cấp các dạng quan sát genom giống nhau (three-way view of genome similarities).
d/ Đăng ký trình tự (Sequence Submission)
Sequin: Một công cụ đăng ký trình tự bao gồm cả ORF finder, một công cụ để sửa chữa và xem trình tự.
BankIt: Đăng ký một hay nhiều trình tự một lúc thông qua WWW.

e/ Tìm kiếm các thuật ngữ (Text Term Searching)
Entrez: Truy cập vào các dữ liệu trình tự protein và DNA từ hơn 100000 sinh vật cùng với các cấu trúc protein 3D, các thông tin và bản đồ gen và PubMed MEDLINE.
LinkOut: Một dịch vụ đăng ký để tạo ra các đường kết nối từ các bài báo, tạp chí hoặc các dữ liệu sinh học trong Entrez với các nguồn trang Web bên ngoài.
Citation Matcher: Cho phép tìm các ID của PubMed hoặc các UID của MEDLINE của bất kỳ bài báo nào trong CSDL PubMed.
f/ Các công cụ cho thể hiện cấu trúc 3D và các kết quả tìm kiếm trình tự giống nhau (Tools for 3d structure display and similarity searching)
CD-Search: Dịch vụ tìm kiếm các vùng bảo thủ (Conserved Domain Search Service (CD-Search) có thể được sử dụng để xác định các vùng bảo thủ có mặt trong các trình tự protein.
Cn3D: Công cụ cho phép hiển thị các trình tự và cấu trúc 3D cho các CSDL NCBI.
Domain Architecture Retrieval Tool: Displays the functional domains that make up a protein and lists proteins with similar domain architectures.
VAST Search: Dịch vụ tìm kiếm cấu trúc tương đồng, so sánh cấu trúc protein của mọt cấu trúc protein mới xác định với các CSDL MMDB/PDB.
g/ CSDL bản đồ (MAPS)
Truy cập tới các dạng bản đồ vật lý và di truyền khác nhau.
Công cụ quan sát bản đồ (Map Viewer): Cung cấp công cụ quan sát bản đồ nhiễm sắc thể của hơn 17 loài sinh vật. Map Viewer trình bày một hoặc nhiều bản đồ đã được so sánh với nhau dựa trên các chỉ thị và các gen, đối với bản đồ trình tự dựa vào mức độ giống nhau giữa các trình tự. Hiện nay, có các bản đồ của Arabidopsis, Ruồi giấm (fruit fly), người (human), bản đồ tương đồng của người và chuột, sốt rét, muỗi, chuột, giun tròn (nemato), chuột (rat), Zebrafish…
* Một số tài liệu cũ có thể bị lỗi font khi hiển thị do dùng bộ mã không phải Unikey ...

Người chia sẻ: Võ Phương Thảo
Dung lượng: | Lượt tài: 1
Loại file:
Nguồn : Chưa rõ
(Tài liệu chưa được thẩm định)