Tin sinh học trong phát triển thực vật

Chia sẻ bởi Phạm Thị Thanh Hà | Ngày 18/03/2024 | 11

Chia sẻ tài liệu: tin sinh học trong phát triển thực vật thuộc Sinh học

Nội dung tài liệu:

Trước đây chừng ba thập niên, các nhà sinh học tập trung tìm hiểu cấu trúc và chức năng của từng gen. Đến năm 1980 một thành phần tiên phong trong giới khoa học thấy rằng nếu cùng hợp sức, họ có thể giải mã toàn bộ genome của sinh vật thay vì xem xét từng gen riêng lẻ. Và các chương trình giải mà bộ gen ra đời
Nhìn chung, chương trình giả mã bộ gen gồm có ba giai đoạn chính:
Phân nhỏ bộ gen và tạo dòng từng “mảnh”
Giải trình tự từng dòng
Xắp xếp các trình tự đó cho đến khi hoàn tất trình tự bộ gen
Đóng góp cơ bản vào thành công của các chương trình bộ gen là sự phát triển của một số công cụ đặc biệt – các hệ thống thiết bị tự động từ tạo dòng, tách chiết AND, điện di…nhưng quan trrọng hơn cả là máy giả trình tự tự động. Để có khái niệm về khối lượng công việc phải tiến hành và vai trò của các công cụ sử dụng, chúng ta hãy thử xem xét bộ gen người (chứa khoảng 3.109 cặp base). Để tránh sai sót thì một trình tự (khoảng 600 cặp base) cần được đọc lặp lại 10 lần, như vậy để giải mã bộ gen người cần tới 50 triệu lần đọc nếu tính cả tỉ lệ thất bại là 20%. Hiện nay việc giải trình tự với khoảng 200 máy tính, trung bình có thể giải mã bộ gen một đông vật có vú (1.109 cặp base) trong khoảng từ 1 đến 2 năm. Các vecto mang các đoạn ngắn chèn có kích thước lớn như BAC (Bacterial Artificial Chlorosome), YAC ( Yeast Artificial Chlorosome)… cũng là những công cụ không thể thiếu.









Hình 1. Các bước giải mã bộ gen
Việc giải trình tự được tiến hành theo 1 trong 2 phương pháp:
Giải trình tự theo kiểu WGS (Whole Genome Shotgun), chủ trương giải trình tự trước, lập bản đồ sau. Trước tiên người ta giải trình tự các dòng lấy từ thư viện bộ gen. Các trình tự này sẽ được xắp xếp dựa trên các phần trùng nhau để lập nên các contig ( từ contigous có nghĩa là kế cận) là các trình tự lớn hơn, kết quả của sự sắp xếp các dòng, tiếp đến là các supercontig, cuối cùng là bản đồ gen. Chiến lược này đặc biệt hữu ích trên các bộ gen vi khuẩn do các do có kích thích nhỏ và ít trình tự lặp lại

Giải trình tư theo kiểu Odered Clone (sắp xếp thứ tự các dòng) thì chủ trương “lập bản đồ trước , giải trình tự sau”. Trước tiên, người ta so sánh các bản đồ giới hạn (restriction map) của các dòng để tím các trình tự trùng nhau trên bộ gen. Kết quả của công việc này là bản đồ vật lý (physical map) gồm toàn bộ các dòng được sắp xếp thứ tự và bao phủ toàn bộ gen. Tiếp đến, người ta giải trình tự các dòng này theo nguyên tắc của WGS. Cuối cùng, các trình tự này sẽ được sắp xếp lại theo bản đồ vật lý đã được xác định trước đó.












Hình 2. Phương pháp WGS Hình 3. Phương pháp Odered Clone
I. Bioinformatics (tin sinh học)
1. Khái niệm
Bioinformatics là một lĩnh vực khoa học sử dụng công nghệ của các ngành: Tin học, toán học ứng dụng, khoa học máy tính, trí tuệ nhân tạo, hoá hoc… để giải quyết các vấn đề về sinh học
Bioinformatics có thể được định nghĩa như khoa học nghiên cứu trữ lượng thông tin của bộ gen thông qua phân tích các trình tự bộ gen bằng phần mềm máy tính, mà trước đây vào giữa thập niên 1980, đã được gọi là phân tích dữ liệu về chuỗi trong sinh học” (Nguyên văn: “The term bioinformatics is used to encompass almost all computer applications in biological sciences, but was originally coined in the mid-1980s for the analysis of biological sequence data.” - trích “Introduction to Bioinformatics“, Prentice-Hall 1999 [Longman Higher Education









Hình 4. Quá trình giải trình tự bộ gen và lưu trữ thông tin trong máy vi tính

2. Lược sử phát triển
2.1. Tin sinh học cổ điển
Thông tin về trật tự sắp xếp, và thành phần của các monomer (nucleotide, acid amin) trong một macromolecule (DNA và protein) gọi là chuỗi thông tin trong sinh học (biological sequence data). Và khi mà số lượng thông tin về chuỗi quá lớn, thì người ta nghĩ đến việc dùng máy tính để lưu trữ, thu thập, phân tích, và dự đoán các thành phần cấu trúc này của các phân tử sinh học (biomolecule) khác. DNA và protein được biễu diễn dưới dạng chuỗi của các kí tự trong bảng chữ cái. Nhờ thế, thông tin về trật tự chuỗi có thể được lưu trữ
* Một số tài liệu cũ có thể bị lỗi font khi hiển thị do dùng bộ mã không phải Unikey ...

Người chia sẻ: Phạm Thị Thanh Hà
Dung lượng: | Lượt tài: 1
Loại file:
Nguồn : Chưa rõ
(Tài liệu chưa được thẩm định)