Quá trình khai phá dữ liệu
Chia sẻ bởi Trần Văn Khánh |
Ngày 01/05/2019 |
203
Chia sẻ tài liệu: Quá trình khai phá dữ liệu thuộc Power Point
Nội dung tài liệu:
PHÂN TÍCH QUÁ TRÌNH KHAI PHÁ DỮ LIỆU
ĐỀ TÀI
CHÀO MỪNG THẦY CÔ VÀ CÁC BẠN ĐÃ ĐẾN VỚI ĐỀ TÀI CỦA NHÓM 2
DATA MINING: KHAI PHÁ DỮ LIỆU
NỘI DUNG CỦA ĐỀ TÀI GỒM 4 PHẦN
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
PHẦN 4: CÁC ỨNG DỤNG TIỀM NĂNG
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
Trong phần 1 này chúng ta cần nắm rõ các vấn đề sau:
Động cơ của việc khai phá dữ liệu?
Khai phá dữ liệu là gì?
Khai phá dữ liệu có lợi ích gì?
Quá trình phát triển của khai phá dữ liệu
DATA MINING: KHAI PHÁ DỮ LIỆU
1.Động cơ của việc khai phá dữ liệu
Trong một vài thập kỉ nay,khả năng tạo sinh và lưu trữ dữ liệu của con người đã tăng lên cực kì nhanh. Lượng dữ liệu khổng lồ phải lưu trữ đã dẫn đến một đòi hỏi cấp bách cho những kĩ thuật mới,những công cụ tự động mới giúp con người một cách thông minh trong việc chuyển đổi một lượng lớn dữ liệu thành thông tin hữu ích và tri thức => Khai phá dữ liệu ra đời.
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
2..Khai phá dữ liệu là gì?
=> Khai phá dữ liệu là
* Trích rút những thông tin h?u ích,chua bi?t,ti?m ?n trong kh?i d? li?u l?n.
* Phân tích d? li?u bán t? d?ng.
* Gi?i thích d? li?u trên các t?p d? li?u l?n.
DATA MINING: KHAI PHÁ DỮ LIỆU
Như chúng ta đã biết,khai phá dữ liệu là việc trích rút tri thức một
cách tự động và hiệu quả từ một khối DL lớn.
Có một số nhà nghiên cứu còn gọi "Khai phá dữ liệu là phát hiện
tri thức".
Ơ đây ta có thể coi khai phá dữ liệu là cốt lõi của quá trình phát hiên
tri thức.
Và như vậy, ta có mô hình của quá trình phát hiện tri thức như sau:
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
Cơ sở dữ liệu
Làm sạch dữ liệu
Kho dữ liệu
Dữ liệu thích hợp
Khai phá dữ liệu
Đánh giá mẫu
Tri thức
Lựa chọn
Tích hợp dữ liệu
Hình 2: QUÁ TRÌNH PHÁT HIỆN TRI THỨC
PHẦN 1: KHÁI NIỆM CHUNGVỀ KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
Trong dó:
Làm sạch dữ liệu(Data cleaning): Là loại bỏ nhiễu và dữ liệu không nhất quán.
Tích hợp dữ liệu(Data intergation):Dữ liệu của nhiều nguồn có thể được tổ hợp lại.
Lựa chọn dữ liệu(Data selection): Những dữ liệu thích hợp với nhiệm vụ phân tích được trích rút từ CSDL.
Chuyển đổi dữ liệu(Data transformation): Dữ liệu được chuyển đổi hay được hợp nhất về dạng thích hợp cho việc khai phá.
Khai phá dữ liệu(Data mining): Đây là một tiến trình cốt yếu trong đó các phương pháp thông minh được áp dụng nhằm trích ra các mẫu dữ liệu.
Đánh giá mẫu(Pattem evaluation): Dựa trên một số độ đo nào đó xác định lợi ích thực sự,độ quan trọng của các mẫu biểu diễn tri thức.
Biểu diễn tri thức(Knowledge presentation): Ơ giai đoạn này,các kĩ thuật biểu diễn và hiển thịỉti thức được sử dụng để đưa tri thức đã lấy ra được cho người dùng.
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
Việc khai phá dữ liệu có thể được tiến hành trên một lượng lớn dữ liệu có
trong các CSDL,các kho dữ liệu hoặc trong các loại lưu trữ thông tin khác.
Giao diện đồ hoạ cho người dùng
Đánh giá mẫu
Máy khai phá dữ liệu
Máy chủ cơ sở dữ liệu hay kho DL
Làm sạch và tích hợp dữ liệu
Cơ sở dữ liệu
Kho dữ liệu
Cơ sở tri thức
KIẾN
TRÚC
CỦA
MỘT
HỆ
KHAI
PHÁ
ĐIỂN
HÌNH
Hình 1:
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
Trong đó:
Máy chủ CSDL hay kho dữ liệu: Máy chủ này có trách nhiệm lấy được
Những dữ liệu thích hợp dựa trên yêu cầu khai phá của người dùng.
Cơ sở tri thức: Là miền tri thức được dùng để tìm kiếm hay dánh giá độ quan
trọng của các hình mẫu kết quả.
Máy khai phá dữ liệu: Là tập các modun để thực hiện công việc.
Đánh giá mẫu: Bộ phận này tương tác với các modun khai phá dữ liệuđể tập
trung vào việc duyệt tìm các mẫu được quan tâm.
Giao diện đồ hoạ cho người dùng: Bộ phận này cho phép người dùng giao tiếp
với hệ thống khai phá dữ liệu.
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
Cung cấp hỗ trợ ra quyết định
Dự báo
Khái quát dữ liệu
3.Lợi ích của khai phá dữ liệu?
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
4. Quá trình phát triển của cơ sở dữ liệú dữ liệu dẫn đến sự phát triển của Khai phá dữ liệu.
Nhng nm 1960: Tp hỵp D liƯu, s to thnh c s d liƯu, IMS v mng DBMS.
Nhng nm 1970: M hnh d liƯu c quan hƯ, s thi hnh DBMS c quan hƯ
Nhng nm 1980: RDBMS, tr tríc cho d liƯu nhng m hnh ( M rng - c quan hƯ, OO, suy diƠn..)
DBMS híng ng dơng ( Khng gian, khoa hc, k nghƯ..)
Nhng nm 1990: Khai m D liƯu, s lu kho D liƯu, nhng c s d liƯu a phng tiƯn, v nhng c s d liƯu Mng
Nhng nm 2000: Qun l v khai m d liƯu dng khai m D liƯu víi mt s a dng (cđa) nhng ng dơng.
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
Tổng quát chung nhiệm vụ của một hệ khai phá dữ liệu có thể được phân chia thành 2 loại: Mô tả và Dự đoán.
Mô tả là biểu thị các đặc điểm chung của dữ liệu trongCSDL.
Dự đoán nhằm thực hiện suy luận trên dữ liệu hiện có để đưa ra dự đoán.
DATA MINING: KHAI PHÁ DỮ LIỆU
Các chức năng này được thể hiện qua
1.Đặc trưng hóa và phân biệt:
Đặc trưng hoálà việc tổng kết toàn bộ các đặc điểm hay các tính chất
chung của một lớp dữ liệu đích. Dữ liệu đó tương ứng với một lớp do
ngườidùng đặc tả bằng một câu truy vấn CSDL
Có một số phương phát để tổng kết và biểu thị đặc trưng dữ liệu một cách hiệu quả. Chẳng hạn thao tác rool-up của hệ phân tích trựctuyến(OLAP) dữ liệu dạng khốicó thể được dùng để thực hiện tổng kết theo một chiều cụthể dưới sự điều khiển của người dùng.
Dữ liệu trả về của quá trình đặc trưng hoá có thể được biểu diễn những khuôn dạng khác nhau.
PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
2. Phân tích sự kết hợp
Là khám phá ra các luật kết hợp trong một tập lớn dữ liệu. Các luật kết hợp thể hiện mối quan hệ giữa các giá trị thuộc tính mà ta nhận thấy đựơc từ tần suất xuất hiện cùng với nhau.
Các luật kết hợp được khám phá từ một tập lớn các bản ghi giao dịch trong kinh doanh và những luật có ý nghĩa có thể giúp cho các nhà doanh nghiệp ra quyết định.
PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
3. Phân lớp và dự đoán
Phân lớp là quá trình tìm một tập các mô hình(hoặc các chức năng) mô tả và phân biệt các lớp dữ liệu. Các mô hình này sẽ được sử dụng cho mục đích dự đoán về lớp của một số đối tượng.
Việc xây dụng mô hình dựa trên sự phân tích một tập các dữ liệu huấn luyện.một mô hình như vậy có thể được biểu diễn trongnhiều dạng: luật phân lớp(ÌF-THEN),cây quyết định,công thức toán hay mạng nơron..
Sự dự đoán cũng bao gồm việc xác định khuynh hướng phân loại dựa trên những dữ liệu hiện có.
Để phân lớp và dự đoán,có thể cần thực hiện trước một sự phân tích thích hợp. Sự phân tích đó nhằm xác định những thuộc tính không tham gia vào quá trình phân lớp và dự đoán,chúng sẽ bị loại trừ sau bước này.
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
4. Phân cụm
Không giống như phân lớp và dự đoán,phân cụm sẽ phân tích các đôi
tượng dữ liệu khi chưa biết nhãn của lớp,nghĩa là nhãn lớp không tồn tại
trong quá trình huấn luyện dữ liệu.
Phân cụm có thể được sử dụng để đưa ra những nhãn lớp.
Sự phân cụm có mục đích nhóm các đối tượng lại theo nguyên tắc: Các
đối tượng trong cùng một nhóm giống nhau ở mức cao nhất và các đối
tượng khác nhóm có mức giống nhau ít nhất.
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
5. Phân tích phần tử ngoài cuộc
Một cơ sở dữ liệu có thể chứa các đối tượng dữ liệu không tuân theo mô
hình dữ liệu.những đối tượng như vậy gọi là phần tử ngoài cuộc.
Hầu hết các phương pháp khai phá dữ liệu đêu coi phần tử ngoài cuộc là
nhiễu và loại bỏ chúng. Tuy nhiên trong một số ứng dụng nào đó như
phát hiện nhiễu chẳng hạn,các sựviệc hiếm khi xảy ra lại được quan tâm
hơn những gì thường xuyên gặp phải.
Sự phân tích dữ liệu ngoài cuộc xem như là sự khai phá các phần tử ngoài
cuộc.
DATA MINING: KHAI PHÁ DỮ LIỆU
Có một số phương pháp để phát hiện phần tử ngoài cuộc:
Dùng các test mang tính thống kê trên cơ sở một giả thiết về phân phối
dữ liệu hay một mô hình xác suất cho dữ liệu.
Dùng các độ đo khoảng cách,theo đó các đối tượng có một khoảng cách
đáng kểđến cụm bất kì khác được xem là phần tử ngoài cuộc.
Dùng các phương pháp dựa trên độ lệch để kiểm tra sự khác nhau trong những
đặc trưng chính của các đối tượng trong một nhóm.
PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
Với hai đích chính của khai phá dữ liệu là Dự đoán (Prediction) và Mô tả (Description), người ta thường sử dụng các phương pháp sau cho khai phá dữ liệu:
-Phân loại (Classification): Kh¸m ph¸ (cña) mét ®o¸n tríc häc hµm mµ Ph©n lo¹i mét tiÕt môc d÷ liÖu vµo trong mét trong sè vµi líp ®Æt s½n.
- Hồi qui (Regression): Kh¸m ph¸ (cña) mét sù dù ®o¸n häc hµm, mµ vÏ b¶n ®å mét tiÕt môc d÷ liÖu tíi mét biÕn dù ®o¸n gi¸ trÞ thùc tÕ.
- Phân nhóm (Clustering):Mét nhiÖm vô miªu t¶ chung mµ trong (c¸i) ®ã Mét t×m kiÕm ®Ó x¸c ®Þnh Mét tËp hîp h÷u h¹n (cña) nh÷ng ph¹m trï hoÆc nh÷ng bã m« t¶ d÷ liÖu.
- Tổng hợp (Summarization): Mét nhiÖm vô miªu t¶ bæ sung mµ kÐo theo nh÷ng ph¬ng ph¸p ®Ó t×m thÊy mét sù m« t¶ gän cho mét tËp hîp ( HoÆc TËp con) (Cña) d÷ liÖu.
PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
-Mô hình ràng buộc (Dependency modeling): KÕt qu¶ t×m kiÕm (mµ) mét ®Þa ph¬ng m« h×nh mµ m« t¶ nh÷ng PhÇn phô thuéc quan träng gi÷a nh÷ng biÕn hoÆc gi÷a nh÷ng gi¸ trÞ (cña) mét ®Æc tÝnh trong mét tËp hîp d÷ liÖu hoÆc trong mét tËp hîp bé phËn cña mét d÷ liÖu.
- Dò tìm biến đổi và độ lệch (Change and Deviation Dectection): ViÖc kh¸m ph¸ (c¸i) quan träng nhÊt thay ®æi trong tËp hîp d÷ liÖu.
PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
-
Quan hệ
Giao tác
Huớng đối tượng
Huớng đối tượng, quan hệ
Active
Không gian
Thời gian
Text, XML
Multi-media
Heterogeneous
Legacy
Inductive
WWW
etc.
Những CSDL cần khai phá
PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
Tiến trình khai phá dữ liệu(1)
Nghiên cứu lĩnh vực
Rút gọn / chiều
Tạo tập dữ liệu đầu vào
Tiền xử lý/ làm sạch, mã hóa
Chọn tác vụ Khai thác dữ liệu
PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
Chọn các thuật giải KTDL
Biểu diễn tri thức
KTDL: Tìm kiếm tri thức
Đánh giá mẫu tìm được
Sử dụng các tri thức vừa khám phá
Tiến trình khai phá dữ liệu(2)
PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 4: CÁC ỨNG DỤNG TIỀM NĂNG
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 4: CÁC ỨNG DỤNG TIỀM NĂNG
Phân tích và quản lý thị trường
Quản lý và phân tích rủi ro
Quản lý và phân tích các sai hỏng
Khai thác Web
Khai thác văn bản (text mining)
Etc.
DATA MINING: KHAI PHÁ DỮ LIỆU
Các cơ sở dữ liệu lớn
- Số chiều lớn
- Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện không còn phù hợp.
- Dữ liệu bị thiếu hoặc nhiễu
- Quan hệ giữa các trường phức tạp
- Giao tiếp với người sử dụng và kết hợp với các tri thức đã có.
- Tích hợp với các hệ thống khác...
PHẦN 4: CÁC ỨNG DỤNG TIỀM NĂNG
Bên cạnh những úng dụng tiềm năng quan trọng đó,khai phá dữ liệu còn
đứng trước những thách thức như:
.
DATA MINING: KHAI PHÁ DỮ LIỆU
Tóm lược
Khai phaự dửừ lieọu : Việc khám phá thú vị tạo mẫu từ những số lượng lớn (của) Dữ liệu
Một sự tiến hóa tự nhiên (của) công nghệ cơ sở dữ liệu, trong lớn yêu cầu, với những ứng dụng rộng.
Một quá trình KDD bao gồm sự dọn dẹp dữ liệu,sự hợp nhất dữ liệu,sự chọn lọc dữ liệu, sự biến đổi, khai mỏ dữ liệu, sự đánh giá mẫu, và sự biểu diễn kiến thức
Khai phaự thể được thực hiện trong một sự đa dạng (của) những kho chứa thông tin.
Những tính hoạt động khai phaự Dữ liệu : Sự đặc trưng, sự phân biệt, hiệp hội, sự phân loại, sự xếp nhóm, sự phân tích ngoài và khuynh hướng.v.v..
DATA MINING: KHAI PHÁ DỮ LIỆU
ĐỀ TÀI CỦA NHÓM 2 ĐẾN ĐÂY XIN KẾT THÚC !
MỘT LẦN NỮA THAY MẶT NHÓM TÔI XIN CHÂN THÀNH
CẢM ƠN THẦY CÔ VÀ CÁC BẠN ĐÃ NHIỆT TÌNH ỦNG HỘ
XIN CHÂN THÀNH CẢM ƠN !
ĐỀ TÀI
CHÀO MỪNG THẦY CÔ VÀ CÁC BẠN ĐÃ ĐẾN VỚI ĐỀ TÀI CỦA NHÓM 2
DATA MINING: KHAI PHÁ DỮ LIỆU
NỘI DUNG CỦA ĐỀ TÀI GỒM 4 PHẦN
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
PHẦN 4: CÁC ỨNG DỤNG TIỀM NĂNG
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
Trong phần 1 này chúng ta cần nắm rõ các vấn đề sau:
Động cơ của việc khai phá dữ liệu?
Khai phá dữ liệu là gì?
Khai phá dữ liệu có lợi ích gì?
Quá trình phát triển của khai phá dữ liệu
DATA MINING: KHAI PHÁ DỮ LIỆU
1.Động cơ của việc khai phá dữ liệu
Trong một vài thập kỉ nay,khả năng tạo sinh và lưu trữ dữ liệu của con người đã tăng lên cực kì nhanh. Lượng dữ liệu khổng lồ phải lưu trữ đã dẫn đến một đòi hỏi cấp bách cho những kĩ thuật mới,những công cụ tự động mới giúp con người một cách thông minh trong việc chuyển đổi một lượng lớn dữ liệu thành thông tin hữu ích và tri thức => Khai phá dữ liệu ra đời.
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
2..Khai phá dữ liệu là gì?
=> Khai phá dữ liệu là
* Trích rút những thông tin h?u ích,chua bi?t,ti?m ?n trong kh?i d? li?u l?n.
* Phân tích d? li?u bán t? d?ng.
* Gi?i thích d? li?u trên các t?p d? li?u l?n.
DATA MINING: KHAI PHÁ DỮ LIỆU
Như chúng ta đã biết,khai phá dữ liệu là việc trích rút tri thức một
cách tự động và hiệu quả từ một khối DL lớn.
Có một số nhà nghiên cứu còn gọi "Khai phá dữ liệu là phát hiện
tri thức".
Ơ đây ta có thể coi khai phá dữ liệu là cốt lõi của quá trình phát hiên
tri thức.
Và như vậy, ta có mô hình của quá trình phát hiện tri thức như sau:
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
Cơ sở dữ liệu
Làm sạch dữ liệu
Kho dữ liệu
Dữ liệu thích hợp
Khai phá dữ liệu
Đánh giá mẫu
Tri thức
Lựa chọn
Tích hợp dữ liệu
Hình 2: QUÁ TRÌNH PHÁT HIỆN TRI THỨC
PHẦN 1: KHÁI NIỆM CHUNGVỀ KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
Trong dó:
Làm sạch dữ liệu(Data cleaning): Là loại bỏ nhiễu và dữ liệu không nhất quán.
Tích hợp dữ liệu(Data intergation):Dữ liệu của nhiều nguồn có thể được tổ hợp lại.
Lựa chọn dữ liệu(Data selection): Những dữ liệu thích hợp với nhiệm vụ phân tích được trích rút từ CSDL.
Chuyển đổi dữ liệu(Data transformation): Dữ liệu được chuyển đổi hay được hợp nhất về dạng thích hợp cho việc khai phá.
Khai phá dữ liệu(Data mining): Đây là một tiến trình cốt yếu trong đó các phương pháp thông minh được áp dụng nhằm trích ra các mẫu dữ liệu.
Đánh giá mẫu(Pattem evaluation): Dựa trên một số độ đo nào đó xác định lợi ích thực sự,độ quan trọng của các mẫu biểu diễn tri thức.
Biểu diễn tri thức(Knowledge presentation): Ơ giai đoạn này,các kĩ thuật biểu diễn và hiển thịỉti thức được sử dụng để đưa tri thức đã lấy ra được cho người dùng.
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
Việc khai phá dữ liệu có thể được tiến hành trên một lượng lớn dữ liệu có
trong các CSDL,các kho dữ liệu hoặc trong các loại lưu trữ thông tin khác.
Giao diện đồ hoạ cho người dùng
Đánh giá mẫu
Máy khai phá dữ liệu
Máy chủ cơ sở dữ liệu hay kho DL
Làm sạch và tích hợp dữ liệu
Cơ sở dữ liệu
Kho dữ liệu
Cơ sở tri thức
KIẾN
TRÚC
CỦA
MỘT
HỆ
KHAI
PHÁ
ĐIỂN
HÌNH
Hình 1:
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
Trong đó:
Máy chủ CSDL hay kho dữ liệu: Máy chủ này có trách nhiệm lấy được
Những dữ liệu thích hợp dựa trên yêu cầu khai phá của người dùng.
Cơ sở tri thức: Là miền tri thức được dùng để tìm kiếm hay dánh giá độ quan
trọng của các hình mẫu kết quả.
Máy khai phá dữ liệu: Là tập các modun để thực hiện công việc.
Đánh giá mẫu: Bộ phận này tương tác với các modun khai phá dữ liệuđể tập
trung vào việc duyệt tìm các mẫu được quan tâm.
Giao diện đồ hoạ cho người dùng: Bộ phận này cho phép người dùng giao tiếp
với hệ thống khai phá dữ liệu.
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
Cung cấp hỗ trợ ra quyết định
Dự báo
Khái quát dữ liệu
3.Lợi ích của khai phá dữ liệu?
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
4. Quá trình phát triển của cơ sở dữ liệú dữ liệu dẫn đến sự phát triển của Khai phá dữ liệu.
Nhng nm 1960: Tp hỵp D liƯu, s to thnh c s d liƯu, IMS v mng DBMS.
Nhng nm 1970: M hnh d liƯu c quan hƯ, s thi hnh DBMS c quan hƯ
Nhng nm 1980: RDBMS, tr tríc cho d liƯu nhng m hnh ( M rng - c quan hƯ, OO, suy diƠn..)
DBMS híng ng dơng ( Khng gian, khoa hc, k nghƯ..)
Nhng nm 1990: Khai m D liƯu, s lu kho D liƯu, nhng c s d liƯu a phng tiƯn, v nhng c s d liƯu Mng
Nhng nm 2000: Qun l v khai m d liƯu dng khai m D liƯu víi mt s a dng (cđa) nhng ng dơng.
PHẦN 1: KHÁI NIỆM CHUNG VỀ KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
Tổng quát chung nhiệm vụ của một hệ khai phá dữ liệu có thể được phân chia thành 2 loại: Mô tả và Dự đoán.
Mô tả là biểu thị các đặc điểm chung của dữ liệu trongCSDL.
Dự đoán nhằm thực hiện suy luận trên dữ liệu hiện có để đưa ra dự đoán.
DATA MINING: KHAI PHÁ DỮ LIỆU
Các chức năng này được thể hiện qua
1.Đặc trưng hóa và phân biệt:
Đặc trưng hoálà việc tổng kết toàn bộ các đặc điểm hay các tính chất
chung của một lớp dữ liệu đích. Dữ liệu đó tương ứng với một lớp do
ngườidùng đặc tả bằng một câu truy vấn CSDL
Có một số phương phát để tổng kết và biểu thị đặc trưng dữ liệu một cách hiệu quả. Chẳng hạn thao tác rool-up của hệ phân tích trựctuyến(OLAP) dữ liệu dạng khốicó thể được dùng để thực hiện tổng kết theo một chiều cụthể dưới sự điều khiển của người dùng.
Dữ liệu trả về của quá trình đặc trưng hoá có thể được biểu diễn những khuôn dạng khác nhau.
PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
2. Phân tích sự kết hợp
Là khám phá ra các luật kết hợp trong một tập lớn dữ liệu. Các luật kết hợp thể hiện mối quan hệ giữa các giá trị thuộc tính mà ta nhận thấy đựơc từ tần suất xuất hiện cùng với nhau.
Các luật kết hợp được khám phá từ một tập lớn các bản ghi giao dịch trong kinh doanh và những luật có ý nghĩa có thể giúp cho các nhà doanh nghiệp ra quyết định.
PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
3. Phân lớp và dự đoán
Phân lớp là quá trình tìm một tập các mô hình(hoặc các chức năng) mô tả và phân biệt các lớp dữ liệu. Các mô hình này sẽ được sử dụng cho mục đích dự đoán về lớp của một số đối tượng.
Việc xây dụng mô hình dựa trên sự phân tích một tập các dữ liệu huấn luyện.một mô hình như vậy có thể được biểu diễn trongnhiều dạng: luật phân lớp(ÌF-THEN),cây quyết định,công thức toán hay mạng nơron..
Sự dự đoán cũng bao gồm việc xác định khuynh hướng phân loại dựa trên những dữ liệu hiện có.
Để phân lớp và dự đoán,có thể cần thực hiện trước một sự phân tích thích hợp. Sự phân tích đó nhằm xác định những thuộc tính không tham gia vào quá trình phân lớp và dự đoán,chúng sẽ bị loại trừ sau bước này.
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
4. Phân cụm
Không giống như phân lớp và dự đoán,phân cụm sẽ phân tích các đôi
tượng dữ liệu khi chưa biết nhãn của lớp,nghĩa là nhãn lớp không tồn tại
trong quá trình huấn luyện dữ liệu.
Phân cụm có thể được sử dụng để đưa ra những nhãn lớp.
Sự phân cụm có mục đích nhóm các đối tượng lại theo nguyên tắc: Các
đối tượng trong cùng một nhóm giống nhau ở mức cao nhất và các đối
tượng khác nhóm có mức giống nhau ít nhất.
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
5. Phân tích phần tử ngoài cuộc
Một cơ sở dữ liệu có thể chứa các đối tượng dữ liệu không tuân theo mô
hình dữ liệu.những đối tượng như vậy gọi là phần tử ngoài cuộc.
Hầu hết các phương pháp khai phá dữ liệu đêu coi phần tử ngoài cuộc là
nhiễu và loại bỏ chúng. Tuy nhiên trong một số ứng dụng nào đó như
phát hiện nhiễu chẳng hạn,các sựviệc hiếm khi xảy ra lại được quan tâm
hơn những gì thường xuyên gặp phải.
Sự phân tích dữ liệu ngoài cuộc xem như là sự khai phá các phần tử ngoài
cuộc.
DATA MINING: KHAI PHÁ DỮ LIỆU
Có một số phương pháp để phát hiện phần tử ngoài cuộc:
Dùng các test mang tính thống kê trên cơ sở một giả thiết về phân phối
dữ liệu hay một mô hình xác suất cho dữ liệu.
Dùng các độ đo khoảng cách,theo đó các đối tượng có một khoảng cách
đáng kểđến cụm bất kì khác được xem là phần tử ngoài cuộc.
Dùng các phương pháp dựa trên độ lệch để kiểm tra sự khác nhau trong những
đặc trưng chính của các đối tượng trong một nhóm.
PHẦN 2: CÁC CHỨC NĂNG CỦA KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
Với hai đích chính của khai phá dữ liệu là Dự đoán (Prediction) và Mô tả (Description), người ta thường sử dụng các phương pháp sau cho khai phá dữ liệu:
-Phân loại (Classification): Kh¸m ph¸ (cña) mét ®o¸n tríc häc hµm mµ Ph©n lo¹i mét tiÕt môc d÷ liÖu vµo trong mét trong sè vµi líp ®Æt s½n.
- Hồi qui (Regression): Kh¸m ph¸ (cña) mét sù dù ®o¸n häc hµm, mµ vÏ b¶n ®å mét tiÕt môc d÷ liÖu tíi mét biÕn dù ®o¸n gi¸ trÞ thùc tÕ.
- Phân nhóm (Clustering):Mét nhiÖm vô miªu t¶ chung mµ trong (c¸i) ®ã Mét t×m kiÕm ®Ó x¸c ®Þnh Mét tËp hîp h÷u h¹n (cña) nh÷ng ph¹m trï hoÆc nh÷ng bã m« t¶ d÷ liÖu.
- Tổng hợp (Summarization): Mét nhiÖm vô miªu t¶ bæ sung mµ kÐo theo nh÷ng ph¬ng ph¸p ®Ó t×m thÊy mét sù m« t¶ gän cho mét tËp hîp ( HoÆc TËp con) (Cña) d÷ liÖu.
PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
-Mô hình ràng buộc (Dependency modeling): KÕt qu¶ t×m kiÕm (mµ) mét ®Þa ph¬ng m« h×nh mµ m« t¶ nh÷ng PhÇn phô thuéc quan träng gi÷a nh÷ng biÕn hoÆc gi÷a nh÷ng gi¸ trÞ (cña) mét ®Æc tÝnh trong mét tËp hîp d÷ liÖu hoÆc trong mét tËp hîp bé phËn cña mét d÷ liÖu.
- Dò tìm biến đổi và độ lệch (Change and Deviation Dectection): ViÖc kh¸m ph¸ (c¸i) quan träng nhÊt thay ®æi trong tËp hîp d÷ liÖu.
PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
-
Quan hệ
Giao tác
Huớng đối tượng
Huớng đối tượng, quan hệ
Active
Không gian
Thời gian
Text, XML
Multi-media
Heterogeneous
Legacy
Inductive
WWW
etc.
Những CSDL cần khai phá
PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
Tiến trình khai phá dữ liệu(1)
Nghiên cứu lĩnh vực
Rút gọn / chiều
Tạo tập dữ liệu đầu vào
Tiền xử lý/ làm sạch, mã hóa
Chọn tác vụ Khai thác dữ liệu
PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
Chọn các thuật giải KTDL
Biểu diễn tri thức
KTDL: Tìm kiếm tri thức
Đánh giá mẫu tìm được
Sử dụng các tri thức vừa khám phá
Tiến trình khai phá dữ liệu(2)
PHẦN 3: CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 4: CÁC ỨNG DỤNG TIỀM NĂNG
DATA MINING: KHAI PHÁ DỮ LIỆU
PHẦN 4: CÁC ỨNG DỤNG TIỀM NĂNG
Phân tích và quản lý thị trường
Quản lý và phân tích rủi ro
Quản lý và phân tích các sai hỏng
Khai thác Web
Khai thác văn bản (text mining)
Etc.
DATA MINING: KHAI PHÁ DỮ LIỆU
Các cơ sở dữ liệu lớn
- Số chiều lớn
- Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện không còn phù hợp.
- Dữ liệu bị thiếu hoặc nhiễu
- Quan hệ giữa các trường phức tạp
- Giao tiếp với người sử dụng và kết hợp với các tri thức đã có.
- Tích hợp với các hệ thống khác...
PHẦN 4: CÁC ỨNG DỤNG TIỀM NĂNG
Bên cạnh những úng dụng tiềm năng quan trọng đó,khai phá dữ liệu còn
đứng trước những thách thức như:
.
DATA MINING: KHAI PHÁ DỮ LIỆU
Tóm lược
Khai phaự dửừ lieọu : Việc khám phá thú vị tạo mẫu từ những số lượng lớn (của) Dữ liệu
Một sự tiến hóa tự nhiên (của) công nghệ cơ sở dữ liệu, trong lớn yêu cầu, với những ứng dụng rộng.
Một quá trình KDD bao gồm sự dọn dẹp dữ liệu,sự hợp nhất dữ liệu,sự chọn lọc dữ liệu, sự biến đổi, khai mỏ dữ liệu, sự đánh giá mẫu, và sự biểu diễn kiến thức
Khai phaự thể được thực hiện trong một sự đa dạng (của) những kho chứa thông tin.
Những tính hoạt động khai phaự Dữ liệu : Sự đặc trưng, sự phân biệt, hiệp hội, sự phân loại, sự xếp nhóm, sự phân tích ngoài và khuynh hướng.v.v..
DATA MINING: KHAI PHÁ DỮ LIỆU
ĐỀ TÀI CỦA NHÓM 2 ĐẾN ĐÂY XIN KẾT THÚC !
MỘT LẦN NỮA THAY MẶT NHÓM TÔI XIN CHÂN THÀNH
CẢM ƠN THẦY CÔ VÀ CÁC BẠN ĐÃ NHIỆT TÌNH ỦNG HỘ
XIN CHÂN THÀNH CẢM ƠN !
* Một số tài liệu cũ có thể bị lỗi font khi hiển thị do dùng bộ mã không phải Unikey ...
Người chia sẻ: Trần Văn Khánh
Dung lượng: |
Lượt tài: 0
Loại file:
Nguồn : Chưa rõ
(Tài liệu chưa được thẩm định)