Ứng dụng phương pháp phân loại văn bản Naive Bayes vào việc xây dựng chương trình mail client với khả năng lọc thư rác tự động

Chia sẻ bởi Phạm Thị Thơm | Ngày 29/04/2019 | 76

Chia sẻ tài liệu: Ứng dụng phương pháp phân loại văn bản Naive Bayes vào việc xây dựng chương trình mail client với khả năng lọc thư rác tự động thuộc Bài giảng khác

Nội dung tài liệu:

Đề tài : Ứng dụng phương pháp phân loại văn bản Naive Bayes vào việc xây dựng chương trình mail client với khả năng lọc thư rác tự động
Giáo viên hướng dẫn : PGS.TS Nguyễn Đăng Tộ
KS Nguyễn Mạnh Hiển
Sinh viên thực hiện : Phạm Thị Thơm
Lớp : 43TH
TRƯỜNG ĐẠI HỌC THỦY LỢI
KHOA CÔNG NGHỆ THÔNG TIN
NHIỆM VỤ ĐỒ ÁN
Xây dựng một chương trình mail client hoàn chỉnh với khả năng lọc thư rác tự động bằng giải thuật phân loại văn bản Naive Bayes.
1
Nghiên cứu giải thuật phân loại văn bản Naive Bayes. Ứng dụng giải thuật đó cho phân loại thư rác.
2
Sử dụng các giao thức truyền nhận mail SMTP(truyền mail), POP3, IMAP4(nhận mail).
3
Cài đặt chương trình bằng ngôn ngữ java cho ứng dụng mail client chạy trên các máy khách.
4
NỘI DUNG BÁO CÁO
Tổng quan về thư rác và sự cần thiết phải lọc thư rác.
Giải thuật phân loại văn bản Naive Bayes.
Các giao thức truyền nhận mail và ngôn ngữ lập trình java.
Các tính năng và kết quả thực thi chương trình.
Nhận xét và hướng phát triển chương trình.
Kết luận.
TỔNG QUAN VỀ THƯ RÁC
Thư rác(spam) đang là một vấn nạn lớn với người sử dụng Email hiện nay.
Con số thống kê về sự tăng trưởng của spam:
Những người sử dụng email nhận được khoảng 110 bức thư không mong muốn hàng tuần.
Hàng ngày có hơn 50% thư điện tử được gửi đi là thư rác.
Radicati Group dự đoán rằng tỉ lệ spam sẽ chiếm 70% tổng số mail vào năm 2007
07
70
GIẢI THUẬT NAIVE BAYES
Naive Bayes coi xác suất xuất hiện của các từ trong một văn bản là độc lập thống kê.
Cơ sở của phương pháp này dựa trên định lí Bayes trong xác suất.
Cần tính xác suất để một văn bản rơi vào các lớp văn bản khác nhau.
Tài liệu cần phân loại sẽ được gán cho lớp văn bản nào có xác suất lớn nhất.
CÔNG THỨC TÍNH XÁC SUẤT CỦA GIẢI THUẬT BAYES
Xác suất để một tài liệu di thuộc vào lớp văn bản ck
Xác suất hậu nghiệm cao nhất
Lớp của di =
CÔNG THỨC NAIVE BAYES CHO PHÂN LOẠI EMAIL
Ý tưởng dựa trên xác suất xuất hiện của một từ hay cụm từ trên một lớp mail.
Xác suất một email là thư rác:

Trong đó :
c1 là lớp thư rác, c2 là lớp thư hợp lệ
x là một email bất kì
Công thức tính P(x|ci)
P(x|ci) = P(w1|ci)*P(w2|ci)*…*P(wn|ci)

Trong đó:
P(wk|ci) là xác suất xuất hiện của từ wk trong lớp văn bản ci (k=1n; i=1,2)

BIỂU DIỄN TỪ KHÓA (ĐẶC TRƯNG)
content
Đếm và loại spamword
Loại stopword
Tách từ đơn
Tập từ khóa
(đặc trưng)
sender
subject
content
Tập spamword
KẾT HỢP PHÂN LOẠI THƯ RÁC THEO TIÊU ĐỀ VÀ ĐỊA CHỈ
Khả năng của một email là thư rác là:
Nếu xác suất Bayes tính được vượt quá ngưỡng đặt ra (xác suất kinh nghiệm).
Tiêu đề của email nằm trong tập tiêu đề thư rác.
Địa chỉ người gửi email nằm trong danh sách địa chỉ của những người gửi thư rác.
GIỚI THIỆU VỀ CÁC GIAO THỨC CHUYỂN NHẬN MAIL
SMTP: Chuyển thư từ client đến server hoặc giữa các server với nhau.
POP3: Lấy thư từ server về client.
IMAP4: Lấy thư từ server về client nhưng vẫn để lại một bản sao trên server.
MÔ HÌNH GỬI NHẬN THƯ ĐIỆN TỬ
SMTP
SMTP
POP3
POP3
User 1
User 2
Gửi nhận thư qua Internet
SƠ ĐỒ LỌC THƯ RÁC BẰNG GIẢI THUẬT NAIVE BAYES
SPAM
HAM
Bayes filter
Mô hình lọc thư kết hợp
CHƯƠNG TRÌNH MAIL CLIENT
Được viết bằng ngôn ngữ Java
Giao diện thân thiện dễ sử dụng
Các chức năng
Chức năng của một MailClient
Chức năng lọc thư rác
NHỮNG KẾT QUẢ ĐẠT ĐƯỢC
Chương trình thực thi trên máy khách hỗ trợ đầy đủ các giao thức cơ bản về mail là SMTP, POP3, IMAP4.
Thông tin về người sử dụng được mã hóa đảm bảo tính bảo mật cao.
Chương trình chạy trên mọi hệ điều hành khác nhau
CÁC CHỨC NĂNG CỦA MỘT MAIL CLIENT
Nhận, gửi và đọc email
Các chức năng trả lời, chuyển tiếp, sao chép, xoá, di chuyển,… một email
Chức năng tạo sổ địa chỉ
Chức năng cấu hình lại cơ sở dữ liệu
Chức năng thay đổi giao diện của hệ thống và một số chức năng khác
CHỨC NĂNG LỌC THƯ RÁC
Lọc thư rác bằng giải thuật Naive Bayes
Lọc thư rác theo tiêu đề
Lọc thư rác theo địa chỉ
ỨNG DỤNG CHƯƠNG TRÌNH TRONG HỆ THỐNG WRU
Hệ thống mail.wru.edu.vn là hệ thống mail của trường Đại Học Thủy Lợi
Giao thức sử dụng để gửi thư : SMTP
Giao thức nhận thư : POP3
Máy chủ mailserver : mail.wru.edu.vn
Hòm thư thử nghiệm : [email protected]
GIAO DIỆN CHÍNH CỦA CHƯƠNG TRÌNH
CHỨC NĂNG CẤU HÌNH LẠI DỮ LIỆU
MENU CHỨA CÁC TÙY CHỌN LỌC THƯ RÁC
CHỨC NĂNG TẠO SỔ ĐỊA CHỈ
HẠN CHẾ VÀ HƯỚNG PHÁT TRIỂN
Hiện tại chương trình mới thử nghiệm trên các hòm thư của wru.
Tiếp tục hoàn thiện chương trình để ứng dụng cho các dịch vụ thư điện tử hiện nay.
Xét đến nội dung của các file đính kèm khi phân loại thư rác.
Xây dựng bộ lọc Bayes trên Mail server để phục vụ đa người dùng.
LỜI CẢM ƠN
Em xin chân thành cảm ơn PGS.TS Nguyễn Đăng Tộ, KS Nguyễn Mạnh Hiển đã nhiệt tình giúp đỡ em trong suốt thời gian hoàn thành đồ án.
Xin cảm ơn ThS Nguyễn Thanh Tùng, KS Bùi Văn Huyến và Trung tâm Tin học đã tạo điều kiện giúp đỡ em về máy móc và kĩ thuật để em hoàn thành đồ án.
Cảm ơn gia đình và bạn bè đã giúp đỡ em cả về vật chất lẫn tinh thần trong suốt thời gian qua.
Xin chân thành cảm ơn thầy cô và các bạn đã chú ý lắng nghe!
* Một số tài liệu cũ có thể bị lỗi font khi hiển thị do dùng bộ mã không phải Unikey ...

Người chia sẻ: Phạm Thị Thơm
Dung lượng: | Lượt tài: 5
Loại file:
Nguồn : Chưa rõ
(Tài liệu chưa được thẩm định)