Giáo trình Giới thiệu về máy tìm kiếm ASPseek và đề xuất giải pháp song song hóa

Mục lục Mục lục .1Chương 1. Tổng quan vềkhai phá dữliệu Web và máy tìm kiếm. .41.1. Khai phá dữliệu Web.41.1.1. Tổng quan vềkhai phá dữliệu Web. .41.1.2 Các bài toán được đặt ra trong khai phá Web.51.1.3 Các lĩnh vực của khai phá dữliệu Web .61.1.3.1 Khai phá nội dung Web (Web content mining):. 6 1.1.3.2. Khai phá cấu trúc web (web structure mining): . 6 1.1.3.3 Khai phá sửdụng web (web usage mining). . 7 1.1.4. Khó khăn.71.1.4.1 Web dường nhưquá lớn đểtổchức thành kho dữliệu phục vụDataming . 7 1.1.4.2. Độphức tạp của trang Web lớn hơn rất nhiều so với những tài liệu văn bản truyền thống khác . 8 1.1.4.3. Web là một nguồn tài nguyên thông tin có độthay đổi cao . 8 1.1.4.4. Web phục vụmột cộng đồng người dùng rộng lớn và đa dạng. 8 1.1.4.5. Chỉmột phần rất nhỏcủa thông tin trên Web là thực sựhữu ích. 9 1.1.5. Thuận lợi .91.2 Tổng quan vềmáy tìm kiếm.91.2.1 Nhu cầu: .91.2.2 Cơchếhoạt động của máy tìm kiếm. .101.2.3 Cấu trúc điển hình của một máy tìm kiếm.11Chương 3. Tổng quan vềxửlý song song. .343.1 Máy tính song song .343.1.2 Phân loại máy tính song song .353.1.2.1 Phân loại dựa trên cơchế điều khiển chung. . 35 3.1.2.2 Cách phân loại dựa trên sựtương tác giữa các BXL. . 37 3.2 Mô hình lập trình song song.383.2.1 Mô hình nhiệm vụ- kênh liên lạc .383.2.1.1 Đặc điểm mô hình nhiệm vụ-kênh liên lạc. 38 3.2.1.2 Đặc điểm của mô hình nhiệm vụ- kênh liên lạc. . 39 3.2.2 Mô hình chia sẻbộnhớchung. .403.3. Hiệu năng của xửlý song song .403.3.1 Khảnăng tăng tốc độtính toán: .403.3.3 Cân bằng tải .433.3.4 Sựbếtắc.44 3.4 Môi trường lập trình song song.453.4.1 Mô hình MPI (Message PassingInterface). .463.4.2 PVM (Parallel Virtual Machine). .463.4.3 So sánh giữa MPI và PVM. .463.5 Giao thức truyền thông điệp MPI.47Chương 2: Giới thiệu vềmodule Crawler trong các máy tìm kiếm. .132.1 Tổng quan:.132.2 Cấu trúc cơbản của một crawler.152.2.1 Frontier.162.2.2 History và kho chứa trang web. .172.2.3 Tải các trang web (fetching). .182.2.4 Duyệt nội dung (parsing). .192.2.4.1. Quá trình lấy ra và chuẩn hóa các URL. 20 2.2.4.2 Loại bỏcác từdừng và chuyển các dạng thức của từsang dạng gốc. . 21 2.2.4.3 Xây dựng cây các thẻHTML . 21 2.3 Các crawler đa luồng (Multi-threaded crawlers). .222.4. Các thuật toán crawling.242.4.1 Thuật toán Naïve tốt nhất đầu tiên.242.4.2 Thuật toán SharkSearch. .252.4.3 Crawler có trọng tâm (focused crawler). .262.3.4 Các crawler tập trung theo ngữcảnh (context focused crawler). .272.4. Các tiêu chuẩn đánh giá các crawler .292.4.1 Độquan trọng của trang web. .292.4.2 Các phân tích tổng hợp.31Chương 4. Giới thiệu vềmáy tìm kiếm ASPseek và đềxuất giải pháp song song hóa. .504.1 Giới thiệu chung vềmáy tìm kiếm ASPseek. .504.1.1 Một sốtính năng của ASPseek. .504.1.2 Các thành phần của ASPseek.51a. Module đánh chỉsố(indexing). . 51 b. Module tìm kiếm (searchd). 52 c. Module tìm kiếm s.cgi. . 52 4.2 Cấu trúc cơsởdữliệu trong máy tìm kiếm ASPseek. .524.2.1 Cấu trúc một sốbảng chính trong cơsởdữliệu của ASPseek. .534.2.2 Cấu trúc một sốfile nhịphân trong cơsởdữliệu của ASPseek .564.2.2.1 Cấu trúc các file nhịphân trong thưmục xxw: . 56 4.3 Tìm hiểu vềviệc thực thi quá trình crawler trong module index của máy tìm kiếm VietSeek. .60 4.3.1Quá trình crawler trong ASPseek. .604.3.2 Đềxuất giải pháp song song hóa .634.3.2.1 Giải pháp song song hóa. 63 4.3.2.2 Cơchếphân công công việc giữa các bộxửlý. . 65 4.3.2.3 Tổng hợp kết quảsau quá trình song song: . 65 4.3.2.4 Vấn đềtương tranh giữa các bộxửlý: . 66 4.3.2.5 Đánh giá giải pháp song song hóa. . 664.3.3. Tài liệu tham khảo:.68Phụlục: Một sốhàm bổsung trong Môđun indexing song song hóa

Mục lục

Mục lục .1

Chương 1. Tổng quan vềkhai phá dữliệu Web và máy tìm kiếm. .4

1.1. Khai phá dữliệu Web.4

1.1.1. Tổng quan vềkhai phá dữliệu Web. .4

1.1.2 Các bài toán được đặt ra trong khai phá Web.5

1.1.3 Các lĩnh vực của khai phá dữliệu Web .6

1.1.3.1 Khai phá nội dung Web (Web content mining):. 6

1.1.3.2. Khai phá cấu trúc web (web structure mining): . 6

1.1.3.3 Khai phá sửdụng web (web usage mining). . 7

1.1.4. Khó khăn.7

1.1.4.1 Web dường nhưquá lớn đểtổchức thành kho dữliệu phục vụDataming . 7

1.1.4.2. Độphức tạp của trang Web lớn hơn rất nhiều so với những tài liệu văn bản

truyền thống khác . 8

1.1.4.3. Web là một nguồn tài nguyên thông tin có độthay đổi cao . 8

1.1.4.4. Web phục vụmột cộng đồng người dùng rộng lớn và đa dạng. 8

1.1.4.5. Chỉmột phần rất nhỏcủa thông tin trên Web là thực sựhữu ích. 9

1.1.5. Thuận lợi .9

1.2 Tổng quan vềmáy tìm kiếm.9

1.2.1 Nhu cầu: .9

1.2.2 Cơchếhoạt động của máy tìm kiếm. .10

1.2.3 Cấu trúc điển hình của một máy tìm kiếm.11

Chương 3. Tổng quan vềxửlý song song. .34

3.1 Máy tính song song .34

3.1.2 Phân loại máy tính song song .35

3.1.2.1 Phân loại dựa trên cơchế điều khiển chung. . 35

3.1.2.2 Cách phân loại dựa trên sựtương tác giữa các BXL. . 37

3.2 Mô hình lập trình song song.38

3.2.1 Mô hình nhiệm vụ- kênh liên lạc .38

3.2.1.1 Đặc điểm mô hình nhiệm vụ-kênh liên lạc. 38

3.2.1.2 Đặc điểm của mô hình nhiệm vụ- kênh liên lạc. . 39

3.2.2 Mô hình chia sẻbộnhớchung. .40

3.3. Hiệu năng của xửlý song song .40

3.3.1 Khảnăng tăng tốc độtính toán: .40

3.3.3 Cân bằng tải .43

3.3.4 Sựbếtắc.44

3.4 Môi trường lập trình song song.45

3.4.1 Mô hình MPI (Message PassingInterface). .46

3.4.2 PVM (Parallel Virtual Machine). .46

3.4.3 So sánh giữa MPI và PVM. .46

3.5 Giao thức truyền thông điệp MPI.47

Chương 2: Giới thiệu vềmodule Crawler trong các máy tìm kiếm. .13

2.1 Tổng quan:.13

2.2 Cấu trúc cơbản của một crawler.15

2.2.1 Frontier.16

2.2.2 History và kho chứa trang web. .17

2.2.3 Tải các trang web (fetching). .18

2.2.4 Duyệt nội dung (parsing). .19

2.2.4.1. Quá trình lấy ra và chuẩn hóa các URL. 20

2.2.4.2 Loại bỏcác từdừng và chuyển các dạng thức của từsang dạng gốc. . 21

2.2.4.3 Xây dựng cây các thẻHTML . 21

2.3 Các crawler đa luồng (Multi-threaded crawlers). .22

2.4. Các thuật toán crawling.24

2.4.1 Thuật toán Naïve tốt nhất đầu tiên.24

2.4.2 Thuật toán SharkSearch. .25

2.4.3 Crawler có trọng tâm (focused crawler). .26

2.3.4 Các crawler tập trung theo ngữcảnh (context focused crawler). .27

2.4. Các tiêu chuẩn đánh giá các crawler .29

2.4.1 Độquan trọng của trang web. .29

2.4.2 Các phân tích tổng hợp.31

Chương 4. Giới thiệu vềmáy tìm kiếm ASPseek và đềxuất giải pháp song

song hóa. .50

4.1 Giới thiệu chung vềmáy tìm kiếm ASPseek. .50

4.1.1 Một sốtính năng của ASPseek. .50

4.1.2 Các thành phần của ASPseek.51

a. Module đánh chỉsố(indexing). . 51

b. Module tìm kiếm (searchd). 52

c. Module tìm kiếm s.cgi. . 52

4.2 Cấu trúc cơsởdữliệu trong máy tìm kiếm ASPseek. .52

4.2.1 Cấu trúc một sốbảng chính trong cơsởdữliệu của ASPseek. .53

4.2.2 Cấu trúc một sốfile nhịphân trong cơsởdữliệu của ASPseek .56

4.2.2.1 Cấu trúc các file nhịphân trong thưmục xxw: . 56

4.3 Tìm hiểu vềviệc thực thi quá trình crawler trong module index của máy tìm

kiếm VietSeek. .60

4.3.1Quá trình crawler trong ASPseek. .60

4.3.2 Đềxuất giải pháp song song hóa .63

4.3.2.1 Giải pháp song song hóa. 63

4.3.2.2 Cơchếphân công công việc giữa các bộxửlý. . 65

4.3.2.3 Tổng hợp kết quảsau quá trình song song: . 65

4.3.2.4 Vấn đềtương tranh giữa các bộxửlý: . 66

4.3.2.5 Đánh giá giải pháp song song hóa. . 66

4.3.3.

Tài liệu tham khảo:.68

Phụlục: Một sốhàm bổsung trong Môđun indexing song song hóa

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC

TIN KHUYẾN MÃI

  • Thư viện tài liệu Phong Phú

    Hỗ trợ download nhiều Website

  • Nạp thẻ & Download nhanh

    Hỗ trợ nạp thẻ qua Momo & Zalo Pay

  • Nhận nhiều khuyến mãi

    Khi đăng ký & nạp thẻ ngay Hôm Nay

NẠP THẺ NGAY