CHƯƠNG 2
XÂY DỰNG HỆ THỐNG NHẬN DẠNG VĂN BẢN
2.1. MÔ TẢ BÀI TOÁN
Trên cơ sở giới thiệu và phân tích các ưu nhược điểm của các
phương pháp học máy, chúng tôi đã chọn phương pháp học có giám
sát máy vector hỗ trợ (SVM) dựa trên phương pháp phân cụm từ đồ
thị Dendrogram và Wikipedia để phân loại văn bản tiếng Việt. Kết
quả phân cụm từ đồ thị Dendrogram và Wikipedia được sử dụng
nhằm rút gọn vector thuộc tính của máy vector hỗ trợ (SVM).
2.2. CẤU TRÚC HỆ THỐNG
Hệ thống bao gồm các chương trình sau:
- Chương trình tiền xử lý dữ liệu Wikipedia trước khi tiến hành đưa
vào tính toán.
- Chương trình xây dựng ma trận P thể hiện tần số xuất hiện chung
của các cặp từ trên cùng một trang Wikipedia.
- Chương trình xây dựng đồ thị dendogram từ ma trận P tần số xuất
hiện chung.
Chương trình chính được xây dựng để thực hiện các chức năng sau:
phân cụm (hiển thị kết quả qua xây dựng đồ thị Dendrogram và tiến
hành phân cụm), xây dựng mô hình phân loại và tiến hành phân loại
văn bản tiếng Việt.
<p>MỤC LỤC</p> <p>MỤC LỤC . 2</p> <p>BẢNG DANH MỤC CÁC THUẬT NGỮ VIẾT TẮT . 5</p> <p>BẢNG DANH MỤC CÁC HÌNH VẼ . 6</p> <p>BẢNG DANH MỤC CÁC BẢNG BIỂU . 9</p ...
<p>MỤC LỤC</p> <p>1. Giới thiệu tổng quan .3</p> <p>2. Mục tiêu thực hiện đề tài .3</p> <p>3. Nội dung thực hiện đề tài.4</p> <p>4. Tóm tắt nội dung khóa lu ...
<p>Phổ biến nhất hiện nay là sử dụng ngôn ngữ C để lập</p> <p>trình cho Arduino và phần mếm để nạp chương trình cho vi</p> <p>điều khiển này là Arduino IDE đư ...
<p>MỞ ĐÀU</p> <p>1. Đặt vấn đề</p> <p>Phương pháp mạ điện nickel được ứng dụng rộng rài trong còng nghiệp đê tạo ra nliừng sàn pliâm bao phủ bề mặt nickel bền ...
<p>Lịch sử phát triển của ngôn ngữ ký hiệu nói chung và ngôn</p> <p>ngữ ký hiệu tiếng Việt nói riêng đã trải qua nhiều giai đoạn thăng</p> <p>trầm. Từ thế kỉ ...
Hỗ trợ download nhiều Website
Hỗ trợ nạp thẻ qua Momo & Zalo Pay
Khi đăng ký & nạp thẻ ngay Hôm Nay