Khóa luận Nhận biết các loại thực thể trong văn bản tiếng Việt nhằm hỗ trợ web ngữ nghĩa và tìm kiếm hướng thực thể

Mục lục Lời cảm ơn .iTóm tắt . iiMục lục . iiiBảng từviết tắt . vMở đầu .1Chương 1. Bài toán nhận diện loại thực thể. 31.1. Trích chọn thông tin . 31.2. Bài toán nhận biết các loại thực thể. 41.3. Mô hình hóa bài toán nhận biết các loại thực thể. 51.4. Ý nghĩa của bài toán nhận biết các loại thực thể. 6Chương 2. Các hướng tiếp cận giải quyết bài toán nhận biết các loại thực thể. 82.1. Hướng tiếp cận thủcông . 82.2. Các mô hình Markov ẩn (HMM) . 92.2.1. Tổng quan vềcác mô hình HMM . 92.2.2. Giới hạn của các mô hình Markov ẩn . 102.3. Mô hình Markov cực đại hóa Entropy (MEMM) . 112.3.1. Tổng quan vềmô hình Markov cực đại hóa Entropy (MEMM) . 112.3.2. Vấn đề“label bias” . 132.4. Tổng kết chương . 14Chương 3. Conditional Random Field (CRF) . 153.1. Định nghĩa CRF . 153.2. Nguyên lý cực đại hóa Entropy . 163.2.1. Độ đo Entropy điều kiện . 173.2.2. Các ràng buộc đối với phân phối mô hình . 173.2.3. Nguyên lý cực đại hóa Entropy . 183.3. Hàm tiềm năng của các mô hình CRF . 193.4. Thuật toán gán nhãn cho dữliệu dạng chuỗi . 203.5. CRF có thểgiải quyết được vấn đề‘label bias’ . 223.6. Tổng kết chương . 22Chương 4. Ước lượng tham sốcho các mô hình CRF . 23 4.1. Các phương pháp lặp . 244.1.1. Thuật toán GIS . 264.1.2. Thuật toán IIS . 274.2. Các phương pháp tối ưu số(numerical optimisationmethods) . 284.2.1. Kĩthuật tối ưu sốbậc một . 284.2.2. Kĩthuật tối ưu sốbậc hai. 294.3. Tổng kết chương . 30Chương 5. Hệthống nhận biết các loại thực thểtrong tiếng Việt . 315.1. Môi trường thực nghiệm . 315.1.1. Phần cứng . 315.1.2. Phần mềm . 315.1.3. Dữliệu thực nghiệm . 315.2. Hệthống nhận biết loại thực thểcho tiếng Việt . 315.3. Các tham sốhuấn luyện và đánh giá thực nghiệm . 325.3.1. Các tham sốhuấn luyện . 325.3.2. Đánh giá các hệthống nhận biết loại thực thể. 335.3.3. Phương pháp “10-fold cross validation” . 345.4. Lựa chọn các thuộc tính . 345.4.1. Mẫu ngữcảnh vềtừvựng . 355.4.2. Mẫu ngữcảnh thểhiện đặc điểm của từ. 355.4.3. Mẫu ngữcảnh dạng regular expression . 365.4.4. Mẫu ngữcảnh dạng từ điển . 365.5. Kết quảthực nghiệm . 375.5.1. Kết quảcủa 10 lần thửnghiệm . 375.5.2. Lần thực nghiệm cho kết quảtốt nhất . 375.5.3. Trung bình 10 lần thực nghiệm . 425.5.4. Nhận xét . 42Kết luận . 43Phụlục: Output của hệthống nhận diện loại thực thểtiếng Việt . 45Tài liệu tham khảo . 48

Mục lục

Lời cảm ơn .i

Tóm tắt . ii

Mục lục . iii

Bảng từviết tắt . v

Mở đầu .1

Chương 1. Bài toán nhận diện loại thực thể. 3

1.1. Trích chọn thông tin . 3

1.2. Bài toán nhận biết các loại thực thể. 4

1.3. Mô hình hóa bài toán nhận biết các loại thực thể. 5

1.4. Ý nghĩa của bài toán nhận biết các loại thực thể. 6

Chương 2. Các hướng tiếp cận giải quyết bài toán nhận biết các loại thực thể. 8

2.1. Hướng tiếp cận thủcông . 8

2.2. Các mô hình Markov ẩn (HMM) . 9

2.2.1. Tổng quan vềcác mô hình HMM . 9

2.2.2. Giới hạn của các mô hình Markov ẩn . 10

2.3. Mô hình Markov cực đại hóa Entropy (MEMM) . 11

2.3.1. Tổng quan vềmô hình Markov cực đại hóa Entropy (MEMM) . 11

2.3.2. Vấn đề“label bias” . 13

2.4. Tổng kết chương . 14

Chương 3. Conditional Random Field (CRF) . 15

3.1. Định nghĩa CRF . 15

3.2. Nguyên lý cực đại hóa Entropy . 16

3.2.1. Độ đo Entropy điều kiện . 17

3.2.2. Các ràng buộc đối với phân phối mô hình . 17

3.2.3. Nguyên lý cực đại hóa Entropy . 18

3.3. Hàm tiềm năng của các mô hình CRF . 19

3.4. Thuật toán gán nhãn cho dữliệu dạng chuỗi . 20

3.5. CRF có thểgiải quyết được vấn đề‘label bias’ . 22

3.6. Tổng kết chương . 22

Chương 4. Ước lượng tham sốcho các mô hình CRF . 23

4.1. Các phương pháp lặp . 24

4.1.1. Thuật toán GIS . 26

4.1.2. Thuật toán IIS . 27

4.2. Các phương pháp tối ưu số(numerical optimisationmethods) . 28

4.2.1. Kĩthuật tối ưu sốbậc một . 28

4.2.2. Kĩthuật tối ưu sốbậc hai. 29

4.3. Tổng kết chương . 30

Chương 5. Hệthống nhận biết các loại thực thểtrong tiếng Việt . 31

5.1. Môi trường thực nghiệm . 31

5.1.1. Phần cứng . 31

5.1.2. Phần mềm . 31

5.1.3. Dữliệu thực nghiệm . 31

5.2. Hệthống nhận biết loại thực thểcho tiếng Việt . 31

5.3. Các tham sốhuấn luyện và đánh giá thực nghiệm . 32

5.3.1. Các tham sốhuấn luyện . 32

5.3.2. Đánh giá các hệthống nhận biết loại thực thể. 33

5.3.3. Phương pháp “10-fold cross validation” . 34

5.4. Lựa chọn các thuộc tính . 34

5.4.1. Mẫu ngữcảnh vềtừvựng . 35

5.4.2. Mẫu ngữcảnh thểhiện đặc điểm của từ. 35

5.4.3. Mẫu ngữcảnh dạng regular expression . 36

5.4.4. Mẫu ngữcảnh dạng từ điển . 36

5.5. Kết quảthực nghiệm . 37

5.5.1. Kết quảcủa 10 lần thửnghiệm . 37

5.5.2. Lần thực nghiệm cho kết quảtốt nhất . 37

5.5.3. Trung bình 10 lần thực nghiệm . 42

5.5.4. Nhận xét . 42

Kết luận . 43

Phụlục: Output của hệthống nhận diện loại thực thểtiếng Việt . 45

Tài liệu tham khảo . 48

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC

TIN KHUYẾN MÃI

  • Thư viện tài liệu Phong Phú

    Hỗ trợ download nhiều Website

  • Nạp thẻ & Download nhanh

    Hỗ trợ nạp thẻ qua Momo & Zalo Pay

  • Nhận nhiều khuyến mãi

    Khi đăng ký & nạp thẻ ngay Hôm Nay

NẠP THẺ NGAY