Phát hiện phoneme lớp rộng trong tiếng Anh Mỹ

Zhimin Xie

Phát hiện phoneme lớp rộng trong tiếng Anh Mỹ - Luận án tiến sĩ

Luận án tiến sĩ về phát hiện phoneme trong tiếng Anh Mỹ. Xây dựng bộ phát hiện dùng đặc trưng âm thanh và thuật toán SVM, HMM với độ chính xác cao trên dữ liệu liên tục và môi trường nhiễu.

Trường ĐH

The University of Chicago

Chuyên ngành

Computer Science

Tác giả

Luan An

Thể loại

luận án

Năm xuất bản

2006

Số trang

134

Thời gian đọc

21 phút

Lượt xem

0

Lượt tải

0

Phí lưu trữ

40 Point

I. Phát Hiện Phoneme Lớp Rộng Trong Tiếng Anh

Nghiên cứu phát hiện phoneme lớp rộng trong tiếng Anh Mỹ đại diện cho một hướng tiếp cận mới trong xử lý ngôn ngữ nói. Thay vì nhận dạng từng âm vị riêng lẻ, phương pháp này phân loại phoneme thành các nhóm chính dựa trên đặc trưng âm học. Các phoneme tiếng Anh Mỹ được chia thành bảy nhóm: nguyên âm, bán nguyên âm, âm mũi, âm thì thầm, âm xát/âm tắc xát, âm tắc/âm bật, và im lặng. Năm nhóm chính (nguyên âm, bán nguyên âm, âm mũi, âm xát, âm tắc) được nghiên cứu chi tiết. Hệ thống sử dụng các bộ phát hiện dựa trên đặc trưng âm thanh cho mỗi nhóm phoneme. Kết quả được so sánh với hệ thống dựa trên mô hình âm thanh HMM. Thử nghiệm được thực hiện trên dữ liệu TIMIT và NTIMIT, bao gồm cả môi trường có nhiễu. Phương pháp kết hợp HMM và SVM mang lại hiệu suất vượt trội, mở ra hướng mới cho phiên âm tự động và nhận dạng âm vị trong các ứng dụng thực tế.

1.1. Mục Tiêu Nghiên Cứu Phân Loại Phoneme

Mục tiêu chính là xây dựng hệ thống phát hiện các nhóm phoneme với độ chính xác cao. Nghiên cứu tập trung vào việc sử dụng đặc trưng âm học tĩnh thay vì mô hình thống kê phức tạp. Các bộ phát hiện được thiết kế riêng cho từng nhóm phoneme dựa trên đặc điểm âm học đặc trưng. Phương pháp này giúp giảm độ phức tạp tính toán và tăng khả năng giải thích kết quả. Hệ thống cần hoạt động ổn định trong môi trường có nhiễu và điều kiện không thuận lợi.

1.2. Ý Nghĩa Của Phát Hiện Lớp Rộng

Phát hiện phoneme lớp rộng đơn giản hóa quá trình nhận dạng âm vị phức tạp. Thay vì xử lý hàng chục phoneme riêng lẻ, hệ thống chỉ cần phân biệt vài nhóm chính. Cách tiếp cận này phù hợp với cấu trúc âm học tự nhiên của ngôn ngữ. Các phoneme trong cùng nhóm chia sẻ đặc trưng âm học tương tự, giúp tăng độ tin cậy phát hiện. Phương pháp này cũng dễ dàng mở rộng sang các ngôn ngữ khác như tiếng Quan Thoại.

1.3. Phạm Vi Ứng Dụng Thực Tiễn

Hệ thống phát hiện phoneme lớp rộng có nhiều ứng dụng trong xử lý ngôn ngữ nói. Phiên âm tự động được cải thiện nhờ độ chính xác cao hơn trong nhận dạng âm vị. Công nghệ này hỗ trợ phát triển hệ thống nhận dạng giọng nói trong môi trường nhiễu. Các ứng dụng học ngôn ngữ tận dụng khả năng phân tích âm học chi tiết. Hệ thống cũng hữu ích cho nghiên cứu ngôn ngữ học và âm vị học ứng dụng.

II. Phát Hiện Nguyên Âm Dựa Trên Đặc Trưng Âm Học

Bộ phát hiện nguyên âm sử dụng hai đặc trưng âm học cơ bản: tính tuần hoàn và năng lượng. Tính tuần hoàn phản ánh dao động đều đặn của dây thanh quản khi phát nguyên âm. Năng lượng âm thanh cao là đặc điểm nổi bật của các nguyên âm so với phụ âm. Hệ thống đạt tỷ lệ lỗi tổng 86.4% trên dữ liệu TIMIT liên tục. Hiệu suất ổn định ngay cả trong môi trường có nhiễu trắng cộng. Độ chính xác tương đương hoặc vượt hệ thống dựa trên mô hình âm thanh HMM. Bộ phát hiện nhỏ gọn này chứng minh hiệu quả của đặc trưng âm học đơn giản. Phương pháp này giảm đáng kể yêu cầu tài nguyên tính toán. Kết quả cho thấy khả năng phát hiện nguyên âm mạnh mẽ trong nhiều điều kiện khác nhau.

2.1. Đặc Trưng Tính Tuần Hoàn

Tính tuần hoàn là đặc trưng quan trọng nhất để nhận dạng nguyên âm. Nguyên âm có dạng sóng tuần hoàn rõ ràng do dao động dây thanh quản. Hệ thống đo lường tính tuần hoàn thông qua phân tích tự tương quan tín hiệu. Giá trị cao của tính tuần hoàn chỉ ra sự hiện diện của nguyên âm. Đặc trưng này phân biệt nguyên âm với âm xát và âm tắc không có tính tuần hoàn.

2.2. Đặc Trưng Năng Lượng Âm Thanh

Nguyên âm thường có năng lượng cao hơn hầu hết các phụ âm. Năng lượng được tính toán trên khung tín hiệu ngắn trong miền thời gian. Kết hợp với tính tuần hoàn, năng lượng tạo nên bộ phát hiện hiệu quả. Ngưỡng năng lượng được điều chỉnh để tối ưu hóa độ chính xác phát hiện. Đặc trưng này đơn giản nhưng mang lại kết quả ấn tượng.

2.3. Hiệu Suất Trong Môi Trường Nhiễu

Bộ phát hiện nguyên âm hoạt động ổn định với nhiễu trắng cộng. Thử nghiệm trên TIMIT với nhiễu cho kết quả tương tự dữ liệu sạch. Tính tuần hoàn và năng lượng vẫn phân biệt được nguyên âm trong điều kiện khó khăn. Độ bền vững này chứng minh tính thực tiễn của phương pháp. Hệ thống phù hợp cho ứng dụng trong môi trường thực tế với nhiễu nền.

III. Phát Hiện Âm Xát Với Máy Vector Hỗ Trợ

Phát hiện âm xát sử dụng máy vector hỗ trợ (SVM) kết hợp nhiều đặc trưng âm học khác nhau. Âm xát đặc trưng bởi tiếng ồn rít do luồng khí qua khe hẹp. Các đặc trưng phân biệt bao gồm phổ tần số cao, entropy Wiener và MFCC. SVM học cách phân loại dựa trên tập dữ liệu huấn luyện TIMIT. Hệ thống đạt độ chính xác 90.8% và tỷ lệ lỗi tổng 90.8%. Kết quả này tương đương với hệ thống dựa trên mô hình âm thanh HMM truyền thống. Nhiều bộ phát hiện được xây dựng với các tổ hợp đặc trưng khác nhau. So sánh cho thấy đặc trưng nào hiệu quả nhất cho nhận dạng âm xát. Phương pháp landmark detection với đặc trưng phân biệt cũng được khảo sát. Cách tiếp cận này mở ra hướng mới trong phát hiện âm xát chính xác.

3.1. Đặc Trưng Âm Học Của Âm Xát

Âm xát có năng lượng tập trung ở tần số cao do tiếng ồn ma sát. Phổ tần số của âm xát khác biệt rõ ràng so với nguyên âm và âm mũi. Entropy Wiener đo mức độ nhiễu của tín hiệu âm thanh. MFCC (mel-frequency cepstral coefficients) mô tả đặc tính phổ chi tiết. Kết hợp các đặc trưng này tạo vector đầu vào cho SVM.

3.2. Máy Vector Hỗ Trợ Cho Phân Loại

SVM là công cụ học máy mạnh mẽ cho bài toán phân loại nhị phân. Hệ thống huấn luyện SVM phân biệt âm xát với các phoneme khác. Kernel RBF được sử dụng để xử lý dữ liệu không tuyến tính. Tham số SVM được tối ưu hóa qua cross-validation trên dữ liệu huấn luyện. Phương pháp này cho độ chính xác cao hơn các bộ phân loại đơn giản.

3.3. So Sánh Với Hệ Thống HMM

Bộ phát hiện SVM đạt hiệu suất tương đương hệ thống HMM. Độ chính xác 90.8% là kết quả ấn tượng cho phát hiện âm xát. SVM có ưu điểm về tốc độ huấn luyện và dự đoán. Hệ thống HMM phức tạp hơn nhưng không mang lại lợi ích rõ rệt. Kết quả chứng minh hiệu quả của đặc trưng âm học kết hợp SVM.

IV. Phát Hiện Âm Tắc Qua Đặc Trưng Năng Lượng

Âm tắc được phát hiện dựa trên ba đặc trưng chính: năng lượng tổng, năng lượng trên 3kHz và entropy Wiener. Âm tắc bao gồm giai đoạn im lặng (closure) và bật hơi (burst). Giai đoạn im lặng có năng lượng rất thấp do luồng khí bị chặn hoàn toàn. Giai đoạn bật hơi có năng lượng đột ngột tăng cao, đặc biệt ở tần số cao. SVM được huấn luyện với ba đặc trưng này để phân loại âm tắc. Hệ thống đạt độ chính xác 93.2% và tỷ lệ lỗi tổng 19%. Đây là kết quả tốt nhất trong các nhóm phoneme được nghiên cứu. Năng lượng trên 3kHz đặc biệt hữu ích cho phát hiện âm tắc vô thanh. Entropy Wiener giúp phân biệt âm tắc với các loại im lặng khác. Phương pháp này vượt trội hơn hệ thống HMM trong nhiều trường hợp thử nghiệm.

4.1. Cấu Trúc Âm Học Của Âm Tắc

Âm tắc có cấu trúc hai giai đoạn đặc trưng: closure và burst. Giai đoạn closure là khoảng im lặng khi luồng khí bị chặn. Giai đoạn burst là tiếng nổ khi luồng khí được giải phóng đột ngột. Năng lượng thấp sau đó tăng đột ngột là dấu hiệu nhận dạng âm tắc. Cấu trúc này khác biệt rõ ràng với các nhóm phoneme khác.

4.2. Đặc Trưng Năng Lượng Tần Số Cao

Năng lượng trên 3kHz là chỉ số quan trọng cho âm tắc. Giai đoạn burst tạo ra năng lượng mạnh ở tần số cao. Đặc trưng này phân biệt âm tắc vô thanh như /p/, /t/, /k/. Tỷ lệ năng lượng cao/thấp cũng được sử dụng trong phân tích. Đặc trưng này ít bị ảnh hưởng bởi nhiễu tần số thấp.

4.3. Entropy Wiener Trong Phân Tích Âm Tắc

Entropy Wiener đo mức độ hỗn loạn của tín hiệu âm thanh. Giai đoạn closure có entropy thấp do năng lượng yếu. Giai đoạn burst có entropy cao hơn do tính chất bùng nổ. Đặc trưng này giúp phân biệt âm tắc với khoảng im lặng tự nhiên. Kết hợp với năng lượng tạo bộ phát hiện mạnh mẽ.

V. Thách Thức Với Âm Mũi Và Bán Nguyên Âm

Bộ phát hiện dựa trên đặc trưng âm học tĩnh cho âm mũi và bán nguyên âm không đạt hiệu suất như mong đợi. Âm mũi có đặc điểm trung gian giữa nguyên âm và phụ âm. Bán nguyên âm như /w/, /y/ có tính chất chuyển tiếp phức tạp. Đặc trưng tĩnh không nắm bắt được động lực học của các phoneme này. Phân tích chi tiết lỗi phát hiện tiết lộ các vấn đề cụ thể. Âm mũi thường bị nhầm với nguyên âm do có tính tuần hoàn. Bán nguyên âm khó phân biệt vì đặc tính thay đổi nhanh theo ngữ cảnh. Những thách thức này dẫn đến phát triển phương pháp mới. Kết hợp HMM và SVM được đề xuất để xử lý đặc trưng động. Cách tiếp cận này mở ra hướng nghiên cứu cho nhận dạng âm vị tổng quát hơn.

5.1. Đặc Điểm Âm Học Của Âm Mũi

Âm mũi có cộng hưởng đặc biệt do luồng khí qua khoang mũi. Chúng có tính tuần hoàn như nguyên âm nhưng năng lượng thấp hơn. Formant của âm mũi có vị trí đặc trưng khác nguyên âm. Đặc trưng tĩnh khó phân biệt âm mũi với nguyên âm mũi hóa. Cần xem xét biến đổi theo thời gian để nhận dạng chính xác.

5.2. Tính Chất Chuyển Tiếp Của Bán Nguyên Âm

Bán nguyên âm có đặc tính thay đổi nhanh chóng. Chúng xuất hiện trong quá trình chuyển từ phụ âm sang nguyên âm. Formant di chuyển liên tục trong thời gian ngắn. Đặc trưng tĩnh không mô tả được quá trình chuyển tiếp này. Cần phương pháp động để nắm bắt biến đổi formant.

5.3. Phân Tích Lỗi Phát Hiện

Lỗi chèn (insertion) xảy ra khi âm mũi bị nhận nhầm. Lỗi xóa (deletion) phổ biến với bán nguyên âm ngắn. Ngữ cảnh phoneme xung quanh ảnh hưởng lớn đến độ chính xác. Phân tích cho thấy cần xem xét chuỗi phoneme thay vì điểm riêng lẻ. Kết quả này dẫn đến phát triển phương pháp kết hợp HMM-SVM.

VI. Kết Hợp HMM Và SVM Cho Phát Hiện Phoneme

Phương pháp kết hợp HMM và SVM được đề xuất để xử lý đặc trưng động. HMM mô hình hóa chuỗi thời gian và biến đổi của phoneme. SVM phân loại dựa trên đặc trưng được trích xuất từ HMM. Cách tiếp cận này tận dụng ưu điểm của cả hai phương pháp. HMM nắm bắt động lực học và ngữ cảnh của phoneme. SVM cung cấp khả năng phân loại mạnh mẽ với biên quyết định tối ưu. Hệ thống kết hợp đạt kết quả thỏa mãn cho tất cả nhóm phoneme. Đặc biệt hiệu quả với âm mũi và bán nguyên âm khó phát hiện. Phương pháp này có thể mở rộng cho ứng dụng nhận dạng giọng nói tổng quát. Kết quả thử nghiệm cho thấy tiềm năng lớn của cách tiếp cận lai. Hệ thống vượt trội hơn HMM thuần túy trong nhiều trường hợp thử nghiệm.

6.1. Vai Trò Của HMM Trong Hệ Thống

HMM mô hình hóa chuỗi quan sát âm thanh theo thời gian. Mô hình âm thanh HMM học được biến đổi của phoneme từ dữ liệu. Xác suất chuyển trạng thái nắm bắt động lực học phoneme. HMM tạo ra biểu diễn trung gian cho SVM xử lý. Phương pháp này kết hợp sức mạnh mô hình hóa chuỗi của HMM.

6.2. Vai Trò Của SVM Trong Phân Loại

SVM phân loại dựa trên đặc trưng từ HMM và đặc trưng âm học. Khả năng xử lý không gian nhiều chiều của SVM rất hữu ích. Biên quyết định tối ưu giúp phân biệt các nhóm phoneme khó. SVM giảm lỗi phân loại so với quyết định dựa chỉ HMM. Kết hợp này tạo hệ thống mạnh mẽ và linh hoạt.

6.3. Khả Năng Mở Rộng Của Phương Pháp

Phương pháp HMM-SVM áp dụng được cho nhiều bài toán nhận dạng giọng nói. Hệ thống có thể mở rộng sang nhận dạng từ và câu liên tục. Cách tiếp cận này phù hợp với các ngôn ngữ khác ngoài tiếng Anh. Kiến trúc linh hoạt cho phép tích hợp đặc trưng mới. Phương pháp mở ra hướng nghiên cứu mới trong xử lý ngôn ngữ nói.

24/03/2026

Xem trước tài liệu

Tải đầy đủ để xem toàn bộ nội dung

Luận án tiến sĩ: Broad class phoneme detection

Tải xuống file đầy đủ để xem toàn bộ nội dung

Tải đầy đủ (134 trang)

Trích đoạn nội dung luận án

Tải xuống để đọc toàn bộ

THE UNIVERSITY OF CHICAGO BROAD CLASS PHONEME DETECTION A DISSERTATION SUBMITTED TO THE FACULTY OF THE DIVISION OF THE PHYSICAL SCIENCES IN CANDIDACY FOR THE DEGREE OF DOCTOR OF PHILOSOPHY DEPARTMENT OF COMPUTER SCIENCE BY ZHIMIN XIE CHICAGO, ILLINOIS DECEMBER 2006 UMI Number: 3240138 INFORMATION TO USERS The quality of this reproduction is dependent upon the quality of the copy submitted. Broken or indistinct print, colored or poor quality illustrations and photographs, print bleed-through, substandard margins, and improper alignment can adversely affect reproduction. In the unlikely event that the author did not send a complete manuscript and there are missing pages, these will be noted. Also, if unauthorized copyright material had to be removed, a note will indicate the deletion.

® UMI UMI Microform 3240138 Copyright 2007 by ProQuest Information and Learning Company. All rights reserved. This microform edition is protected against unauthorized copying under Title 17, United States Code. ProQuest Information and Learning Company 300 North Zeeb Road P.

Box 1346 Ann Arbor, MI 48106-1346 To my parents and my wife. ABSTRACT We categorize American English phonemes into several groups: vowel, semi-vowel, nasal, whisper, fricative/affricative, closure/stop, silence and some special phonemes (/q/ and /dx/), among which five main groups (vowel, semi-vowel, nasal, fricative, stop) are fur- ther examined. Thereafter, we construct several detectors based on acoustic features for each phoneme group and compare them with HMM-based systems by testing on contin- uous speech data, TIMIT, and some data in unfavorable environments, like TIMIT with additive noise, and NTIMIT. To detect vowels, a compact vowel detector based only on two acoustic features, peri- odicity and energy, is implemented.

It performs with 86.4% total error rate. Even under some adverse environments, it still works stably. To detect fricatives, several detectors based on SVMs using different acoustic features are constructed and a typical performance of one of these has 90.8% as accuracy and total error rate, respectively. Whereas for stops, features of total energy, energy above 3kHz and Wiener entropy are employed into SVMs and the detector obtains accuracy of 93.2% and total error rate of 19.

All of these results are comparable with or even better than HMM-based systems. However, detectors based on static acoustic features for nasals and semi-vowels do not perform as well as expected. By examining the details of the errors, the associated detection problems are revealed, and inspire a new approach to detection. To deal with non-static features, we propose a combination of HMMs and SVMs for detection of phoneme groups and obtain satisfactory results.

We believe that this method can also be extended for more general speech recognition applications. ili ACKNOWLEDGEMENTS I would like to thank Partha Niyogi for motivating me to think about problems in speech recognition and giving me support through my research with knowledge, advice and re- sources. I really appreciate his guidance and encouragement in designing the speech recog- nition system, which is presented in this thesis. I would also like to thank him for being flexible and understanding during my doctoral research work.

I am very grateful to John Goldsmith and Gina-Anne Levow, who gave instructive suggestions on my research and also kindly served as my committee members. Thanks to Dinoj Surendran for vital assistance on the testing framework and providing many other resources and insightful discussions. Many of my friends have given me strength through these years. I would like to thank Jing Liu, Xuehai Zhang, Yu Hu, Jing Cao, and Vikas Sindhwani.

Last and most important, I offer my deepest thanks to my parents and wife. Without their persistent and tremendous support, I could not have come all the way through this far. iv TABLE OF CONTENTS ABSTRACT ili ACKNOWLEDGEMENTS IV LIST OF FIGURES Vili LIST OF TABLES 1 INTRODUCTION 1. HH HQ kg gà kg 1.2 Statistically Based Recognition.3 Knowledge Based Recognition and Our Approach.3 TIMIT with Additive White Noise.

ee ee ee 2.2 American English Phonemes .3 HMM-based Automatic Speech RecogmzefT. Q Q Q Q HH hà na 3 VOWEL DETECTION AND CLASSIFICATION 3. n n ng k kg kg Nà kg 3. ch HQ kg gà ta 3.

HQ HH Hà ah va 3. HH ee ees 3. Q Q Q HH HQ ng kg kg k kA 3. LH HQ HQ ko 3.6 Performance by Category.1 Insertion Errors by CategOTY.2 Deletion Errors by ContextPhonemes.6 Q Q Q Q HH HH ga kia 3.

Q Q Q Q HQ HH HH gà kg kg ki vo 3. co HH na 3. ch gà kh hà ki ha 3.1 Application to Mandarin Chinese. ee ee ki ha FRICATIVE DETECTION 4.

0 c c Q Q Q LH ng và hà k kg VN ki na 443 FricativeFeatires. LH ha kg ki kg ng 4.4 Landmark Detection with Distinctive Featires.5 SVMs with Distinctive Features. Q Q HQ HH HH hà ở 46. - CO Q ky Q2 va 46.

c c Q Q c LH ng gu và kg kg ki xa STOP DETECTION — TT TŨẶỮẶ. c c c Q LH Q Q ng cv Q k vn V k kg kg 53 StopFeatres. c Q Q Q Q HH HH hà kh kh kg 5.4 Stop Detection with Distinctive Featres. 1 ee kg na 5.

và ke Ha 5. DD NASAL, SEMIVOWEL AND OTHER PHONEMES 6. kh HaHgHaa na.3 Nasal Detection with Distinctive Features .5 Problems with Nasal Detection. và và kg k kh kia 62.22 Performance Based on Acoustic Features.

HH HH hà gà kh kg 6. HQ HH He kh ha 6. Q Q Q Q HH HH gà kg gà ky 7 HYBRID OF HMMS AND SVMS 100 7.1 Probabilistic Outputs forSVMs. ee ee ee 100 7.

Front-ends for HMM-basedSystems. es 106 8 DISCUSSION AND CONCLUSIONS 109 8. va 111 A THE PHONEMES USED IN TIMIT/NTIMIT AND SPHINX AUTOMATIC SPEECH SYSTEM 113 REFERENCES 116 LIST OF FIGURES 2.1 White noise example. The sentence is sa2, “Don’t ask me to carry an oily rag like that.” by a female speaker,faks0.2 Example of spectrogram.

The sentence is sa2, “Don’t ask me to carry an oily rag like that” by a female speaker,faks0.3 Sphinx2 HMM topology. Q QQ HH HH so 13 2.4 3-state no-skip HMM topology.1 Examples of vowel sounds (top: /iy/, /ae/; bottom: /uw/, /er/) .2 Waveform and periodicity of /eh/and/z/. ee ee ee ee 22 3.3 Example of convex hull algorithm .4 Vowel landmark detecionmethod.5 Vowel detection example. The sentence is si2016, “Heave on those ropes; the boat’s come unstuck.” The segments with ’P’ are resultant periodic seg- ments from the first step.

The final detected vowel landmarks are labeled by ’L’, while asterisks indicate possible false landmarks without the first step of periodicity segmentation.6 Another vowel detection example. The sentence is sx49, “At twilight on the twelfth day we’ll have chablis.” The segments with ’P’ are resultant periodic segments from the first step. The final detected vowel landmarks are labeled by ’L’, while asterisks indicate possible false landmarks without the first step of periodicity segmentation.7 Histogram and CDF of vowel pitchperiod.8 Histogram and CDF of vowel duraion.9 Histogram and CDF of vowel periodiclty.10 Histogram and CDF of vowelenergy. ee ee ee 32 3.11 ROC curves for the vowel detector using different energy and periodicity peak-to-dip threshold values.

The asterisk denotes the reference vowel de- tectOl, 5.12 Degradation of totaÌ errOrTafl@S.13 Example of spectrogram. The sentence is sa2, “Don’t ask me to carry an oily rag like that.” by a female speaker, faks0.14 Periodicity of an utterance under different noise environments. The sen- tence is si2016, ”Heave on those ropes; the boat’s come unstuck.1 Spectrograms of some fricatives (top: /s/, /sh/; bottom: /dh/,/v/) .2 Example of features. The utterance is ”She spouted a mouthful of water into the ait” ©.3 Performance of landmark detection.

Stars are performances of Sphinx sys- tems. Solid line with crosses is the performance of the first method. Dashed line with circles is the performance of the second combination method.4 Performance of SVMs. Circle and diamond are performances of Sphinx2 and Sphinx3.

Plus signs with solid line are SVMs using 5 features before and after post-processing. Crosses with dashed line are SVMs using multi- frames of the five features before and after post-processing. Asterisks with dotted lines are SVMs using Mel scale bands before and after post-processing.5 Performance of SVMs based on multiple frames of Mel scale band ratios and other distinctive features before post-processing.6 Spectrograms of /v/ and /dh/. The left graph is /eh/-/v/-/er/ in “never”, and the right is /n/-/dh/-/ix/in “in the’, 2.7 Degradation of deletion and insertion error rates in fricative detection .1 Waveforms and spectrograms of some stops (/k/,/d/) .3 ROC curves of stop deteCHOn.4 Degradation of deletion and insertion error rates in stop detection.1 Spectrograms of some nasals.

From left to right, they are /m/ in /iy/-/m/- /del/ , /n/ in /ow/-/n/-/ae/, and /ng/ in /ih/-/ng/-/gcl/, 6 ww .2 Spectrograms of some semivowels. The top are /r/ in /eh/-/r/-/iy/, and /1/ in /g/-/M-/ay/. The bottom are /w/ in /axr/-/w/-/ao/, and /y/ in /b/-//-/ux/.3 Spectrograms of some whispers. The top left is /hh/ in “her”, the top right is /hh/ in “his”, the bottom left is /hv/ in “she had”, and the bottom right is /hv/in “and haggard”.4 Spectrograms of some flapped stops.

The top-left is /uw/-/dx/-/ih/ in “suit in”, the top-right is /ux/-/dx/-/ux/ in “beautiful”, the bottom-left is /ay/-/dx/- /ax/ in “coincided”, and the bottom-right is /ay/-/dx/-/ax/ in “idly”.5 Spectrograms of some glottal stops. The top-left is /er/-/q/-/ao/, the top- right is /iy/-/q/-/ae/, the bottom-left is /ix/-/q/-/kcl/, and the bottom-right is Isilence/-/q/-/eh/. ee 98 LIST OF TABLES 2.1 The number of speakers, utterances, and phonemes in TIMIT.2 The number of speakers, utterances, and phonemes in NTIMIT .1 Category of vowels by articulatory description.2 Category of vowels by acoustic features. ee ee ee ee 16 3.3 Duration, periodicity and energy of all the phoneme groups from TIMIT training dataset ©.4 Duration, periodicity and energy for each category of vowels in TIMIT training dataset 26.5 Parameter setting for the baseline detector.6 Performance of detection .7 Detection accuracy in each category ofvowels.8 Category of insertion errors.9 Deletion errors by left context categorles.10 Deletion errors by right context categories.

ee eee ees 39 3.11 Periodicity and segmentation of vowels under different environments.12 Performance of the baseline vowel detector after adaptation.13 Performance on switchboard .14 Performance on Mandarin .15 Performance of syllable detection .16 Variations of second formants of/ae/andñy/(.17 Performance of classification at different locations.18 Performance of vowel classification .1 Some acoustic features of different phoneme groups.2 Performance example of landmark detection.3 Performance of our detectors and Sphinx systems.4 Deletion errors by individual fricaives.5 Insertion errors of fricative detection by category .1 Performance of stop detection ©. ee ee es 78 5.2 Deletion errors by individual stops. ee ee ee es 78 5.3 Duration of individual stops ©. ee ee ee 79 5.4 Insertion errors of stop detection by category .1 Performance of nasal detection on distinctivefeatues.2 Insertion errors of nasal detection.3 Duration of all the phoneme groups from TIMIT training dataset .4 Performance of semivowel detection .5 Insertion errors of semivowel đetecion.

ee ee 93 X 71 Performance of the hybrid model.2 Performance improvement of the hybrid model on vowels, nasals, and semivowels 2. 1 HQ Q HH gà gà gà k K kg 105 7.3 Confusion matrix of the hybrdmodel.1 Motivation We will address the problem of pure speech recognition [41]. Pure speech recognition is the task of obtaining a complete or adequate phonological representation directly from the speech signal based purely on the acoustics and additional knowledge of the phonologi- cal aspects of the language, with no linguistic cues from any higher level (i. syntactic, semantic, or pragmatic) modules.

This problem is not artificial and rather at the heart of spoken language processing. We are also motivated by three considerations on the way of pursuing approaches for pure speech recognition.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Từ khóa liên quan

Luận án tiến sĩ khoa học máy tính Phát hiện phoneme tiếng Anh Mỹ Nhận dạng giọng nói tự động Đặc trưng âm học và SVM Mô hình Hidden Markov Phát hiện nguyên âm âm xát

Chủ đề nghiên cứu

Phát hiện phoneme lớp rộng Ứng dụng học máy nhận dạng giọng nói So sánh mô hình HMM và SVM Nghiên cứu ngữ âm tính toán

Câu hỏi thường gặp

Luận án "Phát hiện phoneme lớp rộng trong tiếng Anh Mỹ" nghiên cứu về vấn đề gì?

Luận án tiến sĩ về phát hiện phoneme trong tiếng Anh Mỹ. Xây dựng bộ phát hiện dùng đặc trưng âm thanh và thuật toán SVM, HMM với độ chính xác cao trên dữ liệu liên tục và môi trường nhiễu.

Luận án "Phát hiện phoneme lớp rộng trong tiếng Anh Mỹ" được bảo vệ tại trường nào?

Luận án này được bảo vệ tại The University of Chicago. Năm bảo vệ: 2006.

Luận án "Phát hiện phoneme lớp rộng trong tiếng Anh Mỹ" thuộc chuyên ngành gì?

Luận án "Phát hiện phoneme lớp rộng trong tiếng Anh Mỹ" thuộc chuyên ngành Computer Science. Danh mục: Trí Tuệ Nhân Tạo.

Luận án "Phát hiện phoneme lớp rộng trong tiếng Anh Mỹ" có bao nhiêu trang?

Luận án "Phát hiện phoneme lớp rộng trong tiếng Anh Mỹ" có 134 trang. Bạn có thể xem trước một phần tài liệu ngay trên trang web trước khi tải về.

Cách tải luận án "Phát hiện phoneme lớp rộng trong tiếng Anh Mỹ" về máy như thế nào?

Để tải luận án về máy, bạn nhấn nút "Tải xuống ngay" trên trang này, sau đó hoàn tất thanh toán phí lưu trữ. File sẽ được tải xuống ngay sau khi thanh toán thành công. Hỗ trợ qua Zalo: 0559 297 239.

Luận án liên quan

Chia sẻ tài liệu: Facebook Twitter

Mục lục chi tiết

Tóm tắt nội dung