Bai moi
Chia sẻ bởi Bùi Văn Tạo |
Ngày 25/04/2019 |
47
Chia sẻ tài liệu: bai moi thuộc Tin học 10
Nội dung tài liệu:
TỔNG QUAN VỀ DATA MINING
Giới thiệu về khám phá tri thức
Trong vài chục năm gần đây cùng với sự phát triển mạnh mẽ của kỹ thuật công nghệ cũng như nhu cầu lưu trữ thông tin dẫn đến trữ lượng dữ liệu được lưu trữ không ngừng tăng theo. Những cơ sở dữ liệu rất lớn ra đời, có những cơ sở dữ liệu lên đến cỡ Gigabyte và thậm chí cả Terabyte. Nếu bạn có trong tay một kho cơ sở dữ liệu cũng có nghĩa bạn có trong tay một kho tri thức.Nhưng vấn đề đặt ra là làm thế nào bạn có thể trích lọc được những thông tin, tri thức từ một kho dữ liệu với rất nhiều thông tin về các lĩnh vực khác nhau. Để giải quyết vấn đề đó thì kỹ thuật khám phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases- KDD) đã ra đời.Khám phá tri thức trong cơ sở dữ liệu (KDD) là lĩnh vực liên quan đến các ngành như: xác suất thống kê, học máy, trực quan hóa dữ liệu, tính toán song song,…Trong đó quá trình KDD có thể chia thành các bước thực hiện như sau:
Bước 1: Trích chọn dữ liệu: Ở bước này các dữ liệu liên quan trực tiếp đến nhiệm vụ của quá trình KDD sẽ được thu thập từ các nguồn dữ liệu ban đầu.
Bước 2: Tiền xử lý dữ liệu: có nhiệm vụ làm sạch, loại bỏ nhiễu, rút gọn và rời rạc hóa dữ liệu.
Bước 3: Biến đổi dữ liệu: nhằm chuẩn hóa và làm mịn dữ liệu để chuyển dữ liệu về dạng thuận lợi nhất phục vụ cho việc khai phá.
Bước 4: Data mining: dùng các kỹ thuật phân tích để khai thác dữ liệu, trích chọn các mẫu thông tin cần thiết,… Công đoạn này được xem là mất thời gian nhất và cũng là quan trọng nhất trong quá trình KDD.
Bước 5: Đánh giá và biểu diễn tri thức: Các thông tin và mối liên hệ giữa chúng vừa khám phá trong công đoạn trước được biểu diễn dưới các dạng trực quan đồng thời được đánh giá theo những tiêu chí nhất định.
Khai phá dữ liệu và các khái niệm liên quan
Data mning là một công đoạn trong quá trình khám phá tri thức trong cơ sở dữ liệu. Và Data mining cũng là một khâu quan trọng nhất trong quá trình khám phá tri thức trong cơ sở dữ liệu. Nhiệm vụ của Data mining là khai thác thông tin, tri thức có tính tiềm ẩn và hữu ích trong tập Cơ sở dữ liệu lớn nhằm cung cấp thông tin cần thiết cho các lĩnh vực sản xuất, khinh doanh, và nghiên cứu,… Các kết quả nghiên cứu cùng với những ứng dụng thành công của việc khai phá tri thức cho thấy Data mining là một lĩnh vực đầy tiềm năng và bền vững. Data mining đã giả được bài toàn khó đó là làm thế nào để có thể trích lọc được các thông tin, tri thức hữu ích từ một tập Cơ sở dữ liệu lớn. và khẳng định sự ưu việt của mình so với các công cụ phân tích dữu liệu truyền thông. Hiện nay, Data mining đã được ứng dụng ngày càng rộng dãi trong nhiều lĩnh vực như: Thương mại, Tài chính, Điều trị y học, Viễn thông, Tin – Sinh,…
Khái niệm khai phá dữ liệu
Do sự phát triển mạnh mẽ của Data mining về phạm vi các lĩnh vực ứng dụng trong thực tế và các phương pháp tìm kiếm lên có rất nhiều khài niệm khác nhau về Data mining. Ở đây em xin nêu ra một định nghĩa gắn gọn và dễ hiểu về Data mining như sau:
Data mining là một quá trình tìm kiếm, chắt lọc các chi thức mới, tiềm ẩn, hữu dụng trong tập dữ liệu lớn.
Các kỹ thuật tiếp cận trong khai phá cữ liệu
Các kỹ thuật áp dụng trong Data mining phần lớn được kế thừa từ các lĩnh vực như: Cơ sở dữ liệu (Database), Học máy (Machine learning), Trí tuệ nhân tạo, Xác suất thống kê,… vì vậy ta có hai hướng tiếp cận sau đây:
Theo quan điểm của học máy, các kỹ thuật trong Data mining gồm:
Học có giám sát (Supervised learning): Là quá trình gán nhãn lớp cho các đối tượng trong tập dữ liệu dựa trên một bộ các đối tượng huấn luyện và các thông tin về nhãn lớp đã biết.
Học không giám sát (Unsupervised learning): Là quá trình phân chia một tập dữ liệu thành các lớp hay cụm (cluster) dữ liệu tương tự nhau mà chưa biết trước các thông tin về nhãn lớp.
Học nửa giám sát (Semi-Supervised learning): Là quá trình chia một tập dữ liệu thành các lớp con dựa trên một số thông tin bổ trợ cho trước.
Theo các lớp bài toán cần giải quyết, các kỹ thuật trong Data mining gồm:
Phân lớp và dự đoán (Classification and Prediction): đưa một đối tượng vào một trong các
Giới thiệu về khám phá tri thức
Trong vài chục năm gần đây cùng với sự phát triển mạnh mẽ của kỹ thuật công nghệ cũng như nhu cầu lưu trữ thông tin dẫn đến trữ lượng dữ liệu được lưu trữ không ngừng tăng theo. Những cơ sở dữ liệu rất lớn ra đời, có những cơ sở dữ liệu lên đến cỡ Gigabyte và thậm chí cả Terabyte. Nếu bạn có trong tay một kho cơ sở dữ liệu cũng có nghĩa bạn có trong tay một kho tri thức.Nhưng vấn đề đặt ra là làm thế nào bạn có thể trích lọc được những thông tin, tri thức từ một kho dữ liệu với rất nhiều thông tin về các lĩnh vực khác nhau. Để giải quyết vấn đề đó thì kỹ thuật khám phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases- KDD) đã ra đời.Khám phá tri thức trong cơ sở dữ liệu (KDD) là lĩnh vực liên quan đến các ngành như: xác suất thống kê, học máy, trực quan hóa dữ liệu, tính toán song song,…Trong đó quá trình KDD có thể chia thành các bước thực hiện như sau:
Bước 1: Trích chọn dữ liệu: Ở bước này các dữ liệu liên quan trực tiếp đến nhiệm vụ của quá trình KDD sẽ được thu thập từ các nguồn dữ liệu ban đầu.
Bước 2: Tiền xử lý dữ liệu: có nhiệm vụ làm sạch, loại bỏ nhiễu, rút gọn và rời rạc hóa dữ liệu.
Bước 3: Biến đổi dữ liệu: nhằm chuẩn hóa và làm mịn dữ liệu để chuyển dữ liệu về dạng thuận lợi nhất phục vụ cho việc khai phá.
Bước 4: Data mining: dùng các kỹ thuật phân tích để khai thác dữ liệu, trích chọn các mẫu thông tin cần thiết,… Công đoạn này được xem là mất thời gian nhất và cũng là quan trọng nhất trong quá trình KDD.
Bước 5: Đánh giá và biểu diễn tri thức: Các thông tin và mối liên hệ giữa chúng vừa khám phá trong công đoạn trước được biểu diễn dưới các dạng trực quan đồng thời được đánh giá theo những tiêu chí nhất định.
Khai phá dữ liệu và các khái niệm liên quan
Data mning là một công đoạn trong quá trình khám phá tri thức trong cơ sở dữ liệu. Và Data mining cũng là một khâu quan trọng nhất trong quá trình khám phá tri thức trong cơ sở dữ liệu. Nhiệm vụ của Data mining là khai thác thông tin, tri thức có tính tiềm ẩn và hữu ích trong tập Cơ sở dữ liệu lớn nhằm cung cấp thông tin cần thiết cho các lĩnh vực sản xuất, khinh doanh, và nghiên cứu,… Các kết quả nghiên cứu cùng với những ứng dụng thành công của việc khai phá tri thức cho thấy Data mining là một lĩnh vực đầy tiềm năng và bền vững. Data mining đã giả được bài toàn khó đó là làm thế nào để có thể trích lọc được các thông tin, tri thức hữu ích từ một tập Cơ sở dữ liệu lớn. và khẳng định sự ưu việt của mình so với các công cụ phân tích dữu liệu truyền thông. Hiện nay, Data mining đã được ứng dụng ngày càng rộng dãi trong nhiều lĩnh vực như: Thương mại, Tài chính, Điều trị y học, Viễn thông, Tin – Sinh,…
Khái niệm khai phá dữ liệu
Do sự phát triển mạnh mẽ của Data mining về phạm vi các lĩnh vực ứng dụng trong thực tế và các phương pháp tìm kiếm lên có rất nhiều khài niệm khác nhau về Data mining. Ở đây em xin nêu ra một định nghĩa gắn gọn và dễ hiểu về Data mining như sau:
Data mining là một quá trình tìm kiếm, chắt lọc các chi thức mới, tiềm ẩn, hữu dụng trong tập dữ liệu lớn.
Các kỹ thuật tiếp cận trong khai phá cữ liệu
Các kỹ thuật áp dụng trong Data mining phần lớn được kế thừa từ các lĩnh vực như: Cơ sở dữ liệu (Database), Học máy (Machine learning), Trí tuệ nhân tạo, Xác suất thống kê,… vì vậy ta có hai hướng tiếp cận sau đây:
Theo quan điểm của học máy, các kỹ thuật trong Data mining gồm:
Học có giám sát (Supervised learning): Là quá trình gán nhãn lớp cho các đối tượng trong tập dữ liệu dựa trên một bộ các đối tượng huấn luyện và các thông tin về nhãn lớp đã biết.
Học không giám sát (Unsupervised learning): Là quá trình phân chia một tập dữ liệu thành các lớp hay cụm (cluster) dữ liệu tương tự nhau mà chưa biết trước các thông tin về nhãn lớp.
Học nửa giám sát (Semi-Supervised learning): Là quá trình chia một tập dữ liệu thành các lớp con dựa trên một số thông tin bổ trợ cho trước.
Theo các lớp bài toán cần giải quyết, các kỹ thuật trong Data mining gồm:
Phân lớp và dự đoán (Classification and Prediction): đưa một đối tượng vào một trong các
* Một số tài liệu cũ có thể bị lỗi font khi hiển thị do dùng bộ mã không phải Unikey ...
Người chia sẻ: Bùi Văn Tạo
Dung lượng: |
Lượt tài: 0
Loại file:
Nguồn : Chưa rõ
(Tài liệu chưa được thẩm định)