Báo cáo Đề tài Nghiên cứu phương pháp phân cụm từ sử dụng phương pháp phân tích nhóm dựa trên đồ thị dendrogram – Ứng dụng nâng cao hiệu quả phân loại văn bản tiếng Việt tự động

CHƯƠNG 2

XÂY DỰNG HỆ THỐNG NHẬN DẠNG VĂN BẢN

2.1. MÔ TẢ BÀI TOÁN

Trên cơ sở giới thiệu và phân tích các ưu nhược điểm của các

phương pháp học máy, chúng tôi đã chọn phương pháp học có giám

sát máy vector hỗ trợ (SVM) dựa trên phương pháp phân cụm từ đồ

thị Dendrogram và Wikipedia để phân loại văn bản tiếng Việt. Kết

quả phân cụm từ đồ thị Dendrogram và Wikipedia được sử dụng

nhằm rút gọn vector thuộc tính của máy vector hỗ trợ (SVM).

2.2. CẤU TRÚC HỆ THỐNG

Hệ thống bao gồm các chương trình sau:

- Chương trình tiền xử lý dữ liệu Wikipedia trước khi tiến hành đưa

vào tính toán.

- Chương trình xây dựng ma trận P thể hiện tần số xuất hiện chung

của các cặp từ trên cùng một trang Wikipedia.

- Chương trình xây dựng đồ thị dendogram từ ma trận P tần số xuất

hiện chung.

Chương trình chính được xây dựng để thực hiện các chức năng sau:

phân cụm (hiển thị kết quả qua xây dựng đồ thị Dendrogram và tiến

hành phân cụm), xây dựng mô hình phân loại và tiến hành phân loại

văn bản tiếng Việt.

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC

TIN KHUYẾN MÃI

  • Thư viện tài liệu Phong Phú

    Hỗ trợ download nhiều Website

  • Nạp thẻ & Download nhanh

    Hỗ trợ nạp thẻ qua Momo & Zalo Pay

  • Nhận nhiều khuyến mãi

    Khi đăng ký & nạp thẻ ngay Hôm Nay

NẠP THẺ NGAY