Đồ án Phân cụm tập kết quả tìm kiếm web dựa vào tập thô dung sai

Mục lục

CHƯƠNG 1 5

VẤN ĐỀ TÌM KIẾM THÔNG TIN TRÊN WEB 5

1.1. Máy truy tìm Web 5

1.1.1. Web Crawler 6

1.1.2. Document Index (lập chỉ mục tài liệu) 6

1.1.3. Document Cache(lưu trữ tài liệu) 7

1.1.4. Document Ranking 7

1.1.5. Query Processor(bộ xử lý truy vấn) 7

1.1.6. Presentation interface(giao diện trình bày) 7

2.1. Trình bày kết quả tìm kiếm của máy truy tìm Web Google 8

CHƯƠNG II 10

PHÂN CỤM TẬP KẾT QUẢ TÌM KIẾM WEB DỰA VÀO TẬP THÔ DUNG SAI 10

2.1. Khái niệm phân cụm 10

2.2. Phân cụm tập kết quả tìm kiếm Web 10

2.2.1. Khái niệm 10

2.2.2. Phép đo độ tương tự 11

2.2.3. Đặc điểm 12

2.2.4. Hiệu quả 13

2.2.5. Yêu cầu 13

2.3. Lý thuyết tập thô 14

2.3.1. Giới thiệu 14

2.3.2. Quan hệ không thể phân biệt 15

2.3.3. Hàm thuộc thô 16

2.3.4. Định nghĩa Hệ thông tin 16

2.3.5. Không gian xấp xỉ tổng quát (Generalized approximation spaces) 18

2.4. Mô hình tập thô dung sai (TRSM) 20

2.4.1. Không gian tolerance của các từ 20

2.4.2. Biểu diễn tài liệu 22

3. Phương pháp trọng số mở rộng đối với xấp xỉ trên 22

Chương III Giải thuật phân cụm tập kết quả tìm kiếm web 24

3.1. Giải thuật 24

3.1.1. Tiền xử lý snippet 24

3.1.2. Trích chọn những từ đặc trưng của mỗi snippet 26

3.1.3. Sinh lớp tolerance 28

3.1.4. Giải thuật phân cụm K-means 30

3.1.5. Tạo nhãn cho mỗi nhóm 33

3.2. Một số thuật toán phân cụm không giám sát 33

3.2.1. Phương pháp phân hoạch 33

3.2.2. Phương pháp phân cấp 34

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC

TIN KHUYẾN MÃI

  • Thư viện tài liệu Phong Phú

    Hỗ trợ download nhiều Website

  • Nạp thẻ & Download nhanh

    Hỗ trợ nạp thẻ qua Momo & Zalo Pay

  • Nhận nhiều khuyến mãi

    Khi đăng ký & nạp thẻ ngay Hôm Nay

NẠP THẺ NGAY