Luận văn Nhận dạng tiếng nói tiếng việt - Tìm hiểu và ứng dụng

MỤC LỤC DANH SÁCH HÌNH VẼ.4MỞ ĐẦU .6Chương 1 TỔNG QUAN .81.1 Nhận dạng.81.2 Nhận dạng tiếng nói .91.2.1 Xửlý âm thanh.91.2.2 Phân loại nhận dạng tiếng nói .101.2.2.1 Nhận dạng từliên tục và nhận dạng từcách biệt .101.2.2.2 Nhận dạng phụthuộc người nói và độc lập người nói .111.2.3 Hệthống nhận dạng tiếng nói tự động.131.2.4 Lý thuyết nhận dạng tiếng nói .141.2.4.1 Rút trích vector đặc trưng.151.2.4.2 Phân lớp.17Chương 2 XỬLÝ TIẾNG NÓI RÚT TRÍCH VECTOR ĐẶC TRƯNG .212.1 Xửlý tiếng nói.212.1.1 Lấy mẫu tín hiệu .212.1.2 Bộlọc tín hiệu .222.1.3 Dò tìm điểm cuối (end-point detection).242.2 Rút trích đặc trưng.262.2.1 Các bước rút trích đặc trưng .272.2.1.1 Làm rõ tín hiệu .272.2.1.2 Phân đoạn thành các khung .272.2.1.3 Lấy cửa sổ.282.2.2 Các dạng đặc trưng tiếng nói .332.2.2.1 Biến đổi tín hiệu sang miền tần số.332.2.2.2 Đặc trưng năng lượng.352.2.2.3 Đặc trưng MFCC.362.2.2.4 Đặc trưng LPC .392.2.2.5 Đặc trưng tần sốcơbản.42Chương 3 MÔ HÌNH MARKOV ẨN .493.1 Mô hình Markov ẩn .493.2 Ứng dụng Mô hình Markov vào nhận dạng tiếng nói .513.2.1 Thuật toán tiến .523.2.2 Thuật toán lùi .533.2.3 Phương pháp tìm chuỗi trạng thái tối ưu .543.2.4 Thuật toán Viterbi .553.2.5 Ước lượng Baum-Welch.583.3 Cấu trúc ngôn ngữvà mô hình nhận dạng theo âm vị.603.3.1 Cấu trúc ngôn ngữ.603.3.2 Mô hình âm vị.633.3.3 Tha âm vị(allophones) .63 3.3.4 Nhận xét .65Chương 4 HMM TOOLKIT .674.1 Cấu trúc tập tin trong HTK .694.1.1 Cấu trúc tập tin vector đặc trưng HTK .694.1.2 Cấu trúc tập tin mô hình HMM .714.1.3 Cấu trúc tập tin đánh nhãn dữliệu .754.1.4 Cấu trúc tập tin văn phạm .784.2 Nhận dạng nguyên từ.814.3 Nhận dạng theo mô hình âm vị.85Chương 5 ỨNG DỤNG: ĐIỀU KHIỂN XE TỰ ĐỘNG BẰNG TIẾNG NÓI .885.1 Thửnghiệm nhận dạng tiếng nói Tiếng Việt .895.1.1 Nhận dạng tĩnh (offline).895.1.1.1 Dùng vector đặc trưng dạng LPCEPSTRA_E_D.895.1.1.2 Dùng vector đặc trưng dạng LPCEPSTRA_E_D_A .895.1.1.3 Dùng vector đặc trưng dạng MFCC_0_D .895.1.1.4 Dùng vector đặc trưng dạng MFCC_0_D_A .905.1.1.5 Dùng vector đặc trưng dạng MFCC_0_D_A_Z.905.1.2 Nhận dạng thời gian thực (online) .915.1.2.1 Nhận dạng theo mô hình âm vịdùng MFCC_0_D_A_Z.915.1.2.2 Nhận dạng nguyên từdùng MFCC_0_D_A_Z .925.2 Ứng dụng nhận dạng tiếng nói .93KẾT LUẬN .96TÀI LIỆU THAM KHẢO .98Phụlục MỘT SỐCÔNG CỤTRONG HTK .99

MỤC LỤC

DANH SÁCH HÌNH VẼ.4

MỞ ĐẦU .6

Chương 1 TỔNG QUAN .8

1.1 Nhận dạng.8

1.2 Nhận dạng tiếng nói .9

1.2.1 Xửlý âm thanh.9

1.2.2 Phân loại nhận dạng tiếng nói .10

1.2.2.1 Nhận dạng từliên tục và nhận dạng từcách biệt .10

1.2.2.2 Nhận dạng phụthuộc người nói và độc lập người nói .11

1.2.3 Hệthống nhận dạng tiếng nói tự động.13

1.2.4 Lý thuyết nhận dạng tiếng nói .14

1.2.4.1 Rút trích vector đặc trưng.15

1.2.4.2 Phân lớp.17

Chương 2 XỬLÝ TIẾNG NÓI RÚT TRÍCH VECTOR ĐẶC TRƯNG .21

2.1 Xửlý tiếng nói.21

2.1.1 Lấy mẫu tín hiệu .21

2.1.2 Bộlọc tín hiệu .22

2.1.3 Dò tìm điểm cuối (end-point detection).24

2.2 Rút trích đặc trưng.26

2.2.1 Các bước rút trích đặc trưng .27

2.2.1.1 Làm rõ tín hiệu .27

2.2.1.2 Phân đoạn thành các khung .27

2.2.1.3 Lấy cửa sổ.28

2.2.2 Các dạng đặc trưng tiếng nói .33

2.2.2.1 Biến đổi tín hiệu sang miền tần số.33

2.2.2.2 Đặc trưng năng lượng.35

2.2.2.3 Đặc trưng MFCC.36

2.2.2.4 Đặc trưng LPC .39

2.2.2.5 Đặc trưng tần sốcơbản.42

Chương 3 MÔ HÌNH MARKOV ẨN .49

3.1 Mô hình Markov ẩn .49

3.2 Ứng dụng Mô hình Markov vào nhận dạng tiếng nói .51

3.2.1 Thuật toán tiến .52

3.2.2 Thuật toán lùi .53

3.2.3 Phương pháp tìm chuỗi trạng thái tối ưu .54

3.2.4 Thuật toán Viterbi .55

3.2.5 Ước lượng Baum-Welch.58

3.3 Cấu trúc ngôn ngữvà mô hình nhận dạng theo âm vị.60

3.3.1 Cấu trúc ngôn ngữ.60

3.3.2 Mô hình âm vị.63

3.3.3 Tha âm vị(allophones) .63

3.3.4 Nhận xét .65

Chương 4 HMM TOOLKIT .67

4.1 Cấu trúc tập tin trong HTK .69

4.1.1 Cấu trúc tập tin vector đặc trưng HTK .69

4.1.2 Cấu trúc tập tin mô hình HMM .71

4.1.3 Cấu trúc tập tin đánh nhãn dữliệu .75

4.1.4 Cấu trúc tập tin văn phạm .78

4.2 Nhận dạng nguyên từ.81

4.3 Nhận dạng theo mô hình âm vị.85

Chương 5 ỨNG DỤNG: ĐIỀU KHIỂN XE TỰ ĐỘNG BẰNG TIẾNG NÓI .88

5.1 Thửnghiệm nhận dạng tiếng nói Tiếng Việt .89

5.1.1 Nhận dạng tĩnh (offline).89

5.1.1.1 Dùng vector đặc trưng dạng LPCEPSTRA_E_D.89

5.1.1.2 Dùng vector đặc trưng dạng LPCEPSTRA_E_D_A .89

5.1.1.3 Dùng vector đặc trưng dạng MFCC_0_D .89

5.1.1.4 Dùng vector đặc trưng dạng MFCC_0_D_A .90

5.1.1.5 Dùng vector đặc trưng dạng MFCC_0_D_A_Z.90

5.1.2 Nhận dạng thời gian thực (online) .91

5.1.2.1 Nhận dạng theo mô hình âm vịdùng MFCC_0_D_A_Z.91

5.1.2.2 Nhận dạng nguyên từdùng MFCC_0_D_A_Z .92

5.2 Ứng dụng nhận dạng tiếng nói .93

KẾT LUẬN .96

TÀI LIỆU THAM KHẢO .98

Phụlục MỘT SỐCÔNG CỤTRONG HTK .99

TÀI LIỆU LUẬN VĂN CÙNG DANH MỤC

TIN KHUYẾN MÃI

  • Thư viện tài liệu Phong Phú

    Hỗ trợ download nhiều Website

  • Nạp thẻ & Download nhanh

    Hỗ trợ nạp thẻ qua Momo & Zalo Pay

  • Nhận nhiều khuyến mãi

    Khi đăng ký & nạp thẻ ngay Hôm Nay

NẠP THẺ NGAY