Ngôn ngữ hình ảnh trong xử lý ngôn ngữ tự nhiên

Christine M. Keuper

Luận án tiến sĩ: Ngôn ngữ hình ảnh Tropes - Christine M. Keuper

Luận án tiến sĩ về xử lý ngôn ngữ tự nhiên và ngôn ngữ hình ảnh. Đề xuất mô hình dựa trên tổ chức não bộ để hiểu ẩn dụ, chuyên dụ và tropes trong ngôn ngữ.

Trường ĐH

Nova Southeastern University

Chuyên ngành

Computer and Information Sciences

Tác giả

Luan An

Thể loại

Luận án

Năm xuất bản

2007

Số trang

350

Thời gian đọc

53 phút

Lượt xem

0

Lượt tải

0

Phí lưu trữ

60 Point

I. Ngôn Ngữ Hình Ảnh Trong Xử Lý Ngôn Ngữ Tự Nhiên

Ngôn ngữ hình ảnh đóng vai trò quan trọng trong xử lý ngôn ngữ tự nhiên hiện đại. Các phép tu từ như ẩn dụ, hoán dụ, và nói giảm nói tránh tạo nên sự phong phú của ngôn ngữ con người. Máy tính gặp khó khăn khi diễn giải các biểu đạt này. Não bộ con người xử lý chúng một cách tự nhiên. Sự khác biệt này đặt ra thách thức lớn cho các nhà nghiên cứu NLP. Mô hình ngôn ngữ truyền thống tập trung vào cấu trúc ngữ pháp. Chúng bỏ qua các khía cạnh tri giác và chức năng của ngôn ngữ. Các mô hình vision-language models mới kết hợp thông tin hình ảnh với văn bản. Multimodal learning cho phép máy tính hiểu ngôn ngữ theo cách toàn diện hơn. Computer vision cung cấp khả năng nhận diện đối tượng và cảnh quan. Visual embeddings tạo ra biểu diễn số cho các khái niệm trừu tượng.

1.1. Thách Thức Của Ngôn Ngữ Hình Ảnh

Các mô hình máy tính sớm thất bại khi gặp phép tu từ. Shakespeare viết 'Night's candles are burnt out' - ngọn nến của đêm đã tắt. Máy tính không hiểu 'candles' ám chỉ các vị sao. Bộ não con người xử lý ý nghĩa này ngay lập tức. Sự khác biệt này xuất phát từ cách tổ chức tri thức. Mô hình truyền thống chỉ mô phỏng thùy thái dương trái. Vùng não này xử lý ngôn ngữ mệnh đề. Các vùng não khác xử lý hình ảnh và cảm giác. Image-text alignment giúp kết nối các biểu diễn này. Visual question answering yêu cầu hiểu cả ngôn ngữ và hình ảnh.

1.2. Vai Trò Của Phân Loại Não Bộ

Não bộ tổ chức tri thức theo nhiều chiều. Phân loại phân loại học xếp các khái niệm theo cấp bậc. Phân loại bộ phận mô tả mối quan hệ phần-tổng thể. Phân loại chủ đề nhóm các từ theo ngữ cảnh. Phân loại tri giác dựa trên đặc điểm cảm quan. Phân loại chức năng nhóm các từ theo mục đích sử dụng. Scene understanding yêu cầu tích hợp tất cả các loại phân loại này. Object detection cung cấp nền tảng cho phân loại tri giác. CLIP kết nối biểu diễn hình ảnh với biểu diễn văn bản. Image captioning tạo mô tả ngôn ngữ từ nội dung hình ảnh.

1.3. Giả Định Về Thiết Bị Tiếp Nhận Ngôn Ngữ

Các mô hình truyền thống giả định não bộ sử dụng thiết bị tiếp nhận ngôn ngữ dựa trên ngữ pháp. Giả định này ảnh hưởng đến thiết kế hệ thống NLP. Nghiên cứu về tiếp nhận ngôn ngữ của trẻ em cho thấy điều khác. Ngữ pháp chỉ xuất hiện vào năm thứ ba. Trẻ em học ngôn ngữ qua trải nghiệm đa giác quan. Computer vision và multimodal learning phản ánh quá trình này tốt hơn. Visual embeddings mô phỏng cách não bộ mã hóa thông tin cảm quan.

II. Cấu Trúc Phân Loại Trong Mô Hình Ngôn Ngữ

Mô hình ngôn ngữ mới kết hợp nhiều loại phân loại khác nhau. Cấu trúc phân loại học và bộ phận xuất hiện trong hầu hết các mô hình. Phân loại chủ đề, tri giác và chức năng tái tạo cách não bộ tổ chức tri thức. Từ không còn xuất hiện ở một vị trí duy nhất. Danh từ và tính từ được định nghĩa bởi đặc điểm tri giác. Chúng xuất hiện trong các phân loại tri giác. Danh từ và động từ được định nghĩa bởi đặc điểm chức năng. Chúng xuất hiện trong các phân loại chức năng. Vision-language models tạo ra các kết nối này một cách tự động. Image-text alignment đảm bảo tính nhất quán giữa các biểu diễn. Scene understanding yêu cầu tích hợp nhiều loại phân loại. Object detection cung cấp thông tin cho phân loại tri giác. Visual embeddings mã hóa các mối quan hệ này thành vector số.

2.1. Phân Loại Tri Giác Và Chức Năng

Phân loại tri giác nhóm các từ theo đặc điểm cảm quan. Màu sắc, hình dạng, kết cấu tạo nên các nhóm này. Phân loại chức năng nhóm các từ theo cách sử dụng. Công cụ, phương tiện, đồ dùng thuộc các nhóm chức năng khác nhau. Computer vision trích xuất các đặc điểm tri giác từ hình ảnh. Visual embeddings biểu diễn các đặc điểm này dưới dạng số. CLIP học cách kết nối mô tả văn bản với đặc điểm hình ảnh. Image captioning tạo mô tả dựa trên các phân loại này. Multimodal learning kết hợp thông tin từ nhiều nguồn.

2.2. Mở Rộng Qua Kết Nối Ẩn Dụ

Kết nối tenor-vehicle mở rộng các phân loại tri giác và chức năng. Ẩn dụ tạo cầu nối giữa các miền khái niệm khác nhau. 'Time is money' kết nối miền thời gian với miền tiền tệ. Vision-language models học các kết nối này từ dữ liệu. Image-text alignment giúp xác định các ẩn dụ hình ảnh. Visual question answering kiểm tra khả năng hiểu ẩn dụ. Scene understanding yêu cầu diễn giải các yếu tố ẩn dụ trong cảnh. Object detection cung cấp thông tin cơ bản cho việc này.

2.3. Phân Loại Chủ Đề Và Hoán Dụ

Phân loại chủ đề nhóm các từ theo ngữ cảnh và tình huống. Nhà hàng, bệnh viện, trường học tạo nên các chủ đề khác nhau. Hoán dụ dựa vào các mối quan hệ trong cùng chủ đề. 'The White House announced' sử dụng địa điểm thay cho người. Multimodal learning giúp xác định ngữ cảnh chủ đề. Computer vision nhận diện các yếu tố trong cảnh. Scene understanding tích hợp thông tin để hiểu chủ đề. Visual embeddings mã hóa mối quan hệ giữa các yếu tố. CLIP kết nối mô tả văn bản với cảnh hình ảnh tương ứng.

III. Vai Trò Của Bộ Phân Loại Ngôn Ngữ Học

Bộ phân loại xuất hiện trong nhiều ngôn ngữ trên thế giới. Tiếng Nhật sử dụng 'hon' để chỉ đối tượng dài và mỏng. Tiếng Swahili có hệ thống bộ phân loại phức tạp. Ngôn ngữ ký hiệu Mỹ (ASL) sử dụng bộ phân loại hình ảnh rõ ràng. Các bộ phân loại này đánh dấu rõ ràng các đặc điểm tri giác và chức năng. Chúng giúp xác định các phân loại không được đánh dấu trong tiếng Anh. Computer vision có thể trích xuất các đặc điểm này từ hình ảnh. Visual embeddings biểu diễn các đặc điểm phân loại dưới dạng vector. Object detection nhận diện đối tượng thuộc các loại khác nhau. Image-text alignment kết nối bộ phân loại với biểu diễn hình ảnh. Vision-language models học cách sử dụng các đặc điểm này. Multimodal learning tích hợp thông tin từ nhiều nguồn ngôn ngữ.

3.1. Bộ Phân Loại Tri Giác Được Đánh Dấu

ASL sử dụng hình dạng tay để phân loại đối tượng. Các đối tượng phẳng, tròn, dài có bộ phân loại riêng. Tiếng Nhật dùng các từ khác nhau để đếm các loại đối tượng. Tiếng Swahili có tiền tố danh từ chỉ hình dạng và kích thước. Computer vision trích xuất các đặc điểm hình dạng tương tự. Visual embeddings mã hóa thông tin về hình dạng và kích thước. Object detection phân loại đối tượng theo đặc điểm hình ảnh. CLIP học kết nối giữa mô tả hình dạng và hình ảnh thực tế. Scene understanding sử dụng thông tin phân loại này để diễn giải cảnh.

3.2. Bộ Phân Loại Chức Năng Trong Ngôn Ngữ

Bộ phân loại chức năng nhóm đối tượng theo cách sử dụng. Công cụ, phương tiện, đồ dùng ăn uống có bộ phân loại riêng. Tiếng Nhật phân biệt các loại phương tiện giao thông. ASL sử dụng chuyển động để chỉ chức năng. Multimodal learning kết hợp thông tin hình ảnh và chức năng. Visual question answering kiểm tra hiểu biết về chức năng đối tượng. Image captioning mô tả cả hình dạng và chức năng. Vision-language models học mối quan hệ giữa hình thức và chức năng. Image-text alignment đảm bảo mô tả chính xác về cả hai khía cạnh.

3.3. Phân Loại Dựa Trên Thần화 Trong Ngôn Ngữ

Một số ngôn ngữ có phân loại dựa trên niềm tin thần thoại. Tiếng Dyirbal phân loại theo giới tính thần thoại. Tiếng Pháp và Đức có giới tính ngữ pháp. Tiếng Anh vẫn giữ dấu vết của hệ thống này. Computer vision không trực tiếp xử lý các phân loại văn hóa này. Visual embeddings có thể học các mẫu từ dữ liệu. Multimodal learning kết hợp thông tin ngôn ngữ và hình ảnh. CLIP học các kết nối văn hóa từ dữ liệu huấn luyện. Scene understanding cần xem xét bối cảnh văn hóa.

IV. Xử Lý Các Loại Phép Tu Từ Chính

Bốn loại phép tu từ chính là ẩn dụ, hoán dụ, nói giảm nói tránh và mỉa mai. Mỗi loại yêu cầu cách xử lý khác nhau trong NLP. Ẩn dụ dựa vào kết nối giữa các miền khái niệm. Hoán dụ sử dụng mối quan hệ trong cùng một chủ đề. Nói giảm nói tránh dựa vào cấu trúc phân loại học và bộ phận. Mỉa mai đòi hỏi hiểu biết về ngữ cảnh và ý định. Vision-language models cung cấp công cụ mới để xử lý các phép tu từ này. Computer vision giúp hiểu các ẩn dụ hình ảnh. Multimodal learning kết hợp nhiều nguồn thông tin. Visual embeddings tạo ra biểu diễn phong phú cho các khái niệm. Image-text alignment đảm bảo tính nhất quán giữa ngôn ngữ và hình ảnh. Scene understanding cung cấp ngữ cảnh cho diễn giải. Object detection xác định các yếu tố cụ thể trong cảnh.

4.1. Xử Lý Ẩn Dụ Qua Phân Loại Tri Giác

Ẩn dụ mở rộng phân loại tri giác và chức năng. 'Night's candles' kết nối ngọn nến với ngôi sao. Cả hai đều phát sáng trong bóng tối. Computer vision trích xuất đặc điểm ánh sáng từ hình ảnh. Visual embeddings mã hóa các đặc điểm chung này. CLIP học kết nối giữa các đối tượng có đặc điểm tương tự. Image-text alignment giúp xác định các ẩn dụ trong văn bản. Vision-language models tạo ra các kết nối ẩn dụ mới. Multimodal learning kết hợp thông tin từ nhiều giác quan. Scene understanding cung cấp ngữ cảnh cho ẩn dụ.

4.2. Hoán Dụ Và Phân Loại Chủ Đề

Hoán dụ dựa vào mối quan hệ trong cùng chủ đề. 'The crown' đại diện cho vua hoặc nữ hoàng. Cả hai đều thuộc chủ đề hoàng gia. Scene understanding xác định các yếu tố trong cùng ngữ cảnh. Object detection nhận diện các đối tượng liên quan. Visual embeddings mã hóa mối quan hệ giữa chúng. Image captioning mô tả các yếu tố trong cảnh. Multimodal learning tích hợp thông tin để hiểu hoán dụ. Computer vision cung cấp thông tin hình ảnh về ngữ cảnh. Visual question answering kiểm tra hiểu biết về mối quan hệ.

4.3. Nói Giảm Nói Tránh Và Cấu Trúc Phân Cấp

Nói giảm nói tránh sử dụng cấu trúc phân loại học và bộ phận. 'Wheels' đại diện cho toàn bộ xe hơi. Bánh xe là bộ phận của xe. Object detection xác định các bộ phận của đối tượng. Computer vision phân tích mối quan hệ phần-tổng thể. Visual embeddings mã hóa cấu trúc phân cấp. CLIP học kết nối giữa phần và tổng thể. Scene understanding diễn giải ý nghĩa trong ngữ cảnh. Image-text alignment đảm bảo hiểu đúng mối quan hệ. Vision-language models xử lý các cấp độ trừu tượng khác nhau.

V. Tích Hợp Mô Hình Đa Phương Thức Hiện Đại

Các mô hình đa phương thức hiện đại kết hợp văn bản và hình ảnh. CLIP là một trong những mô hình tiên phong trong lĩnh vực này. Nó học kết nối giữa hình ảnh và mô tả văn bản. Vision-language models mở ra khả năng mới cho NLP. Chúng xử lý ngôn ngữ hình ảnh tốt hơn các mô hình truyền thống. Computer vision cung cấp thông tin hình ảnh phong phú. Visual embeddings tạo ra không gian biểu diễn chung. Image-text alignment đảm bảo tính nhất quán giữa các phương thức. Multimodal learning khai thác sức mạnh của cả hai nguồn thông tin. Scene understanding tích hợp nhiều loại thông tin. Object detection cung cấp nền tảng cho phân tích cảnh. Visual question answering kiểm tra khả năng hiểu tích hợp. Image captioning tạo ra mô tả ngôn ngữ từ hình ảnh.

5.1. CLIP Và Học Biểu Diễn Chung

CLIP học biểu diễn chung cho hình ảnh và văn bản. Mô hình sử dụng học contrastive để kết nối hai phương thức. Hình ảnh và mô tả tương ứng được đưa gần nhau trong không gian vector. Hình ảnh và mô tả không tương ứng bị đẩy xa. Visual embeddings tạo ra từ quá trình này rất mạnh mẽ. Chúng nắm bắt cả thông tin hình ảnh và ngữ nghĩa. Computer vision trích xuất đặc điểm từ hình ảnh. Mô hình ngôn ngữ xử lý văn bản. Multimodal learning kết hợp cả hai luồng thông tin. Image-text alignment là mục tiêu chính của huấn luyện.

5.2. Visual Question Answering Cho Ngôn Ngữ Hình Ảnh

Visual question answering yêu cầu hiểu cả câu hỏi và hình ảnh. Hệ thống phải diễn giải ngôn ngữ hình ảnh trong câu hỏi. 'What time of day is shown?' có thể hỏi về hình ảnh hoàng hôn. Scene understanding phân tích các yếu tố trong cảnh. Object detection xác định các đối tượng liên quan. Visual embeddings mã hóa thông tin từ cả hai nguồn. Vision-language models tích hợp thông tin để trả lời. Computer vision cung cấp thông tin hình ảnh chi tiết. Multimodal learning kết hợp với xử lý ngôn ngữ. Image-text alignment đảm bảo hiểu đúng câu hỏi.

5.3. Image Captioning Và Tạo Mô Tả

Image captioning tạo mô tả ngôn ngữ tự nhiên từ hình ảnh. Hệ thống phải nhận diện đối tượng và mối quan hệ. Nó cũng phải sử dụng ngôn ngữ hình ảnh phù hợp. Object detection xác định các yếu tố trong cảnh. Scene understanding phân tích bố cục và ngữ cảnh. Visual embeddings mã hóa thông tin hình ảnh. Vision-language models tạo ra văn bản mô tả. Computer vision cung cấp thông tin đầu vào. Multimodal learning tối ưu hóa quá trình tạo mô tả. Image-text alignment đảm bảo mô tả chính xác và tự nhiên.

VI. Ứng Dụng Và Hướng Phát Triển Tương Lai

Mô hình dựa trên não bộ cho ngôn ngữ hình ảnh có nhiều ứng dụng. Dịch máy cải thiện khi xử lý ẩn dụ và hoán dụ. Hệ thống hỏi đáp hiểu ngôn ngữ tự nhiên tốt hơn. Tạo văn bản tự động sử dụng ngôn ngữ phong phú hơn. Vision-language models mở ra khả năng mới. Chúng kết nối thế giới hình ảnh với ngôn ngữ. Computer vision cung cấp thông tin về thế giới vật lý. Multimodal learning tích hợp nhiều nguồn tri thức. Visual embeddings tạo ra biểu diễn phong phú. Image-text alignment đảm bảo tính nhất quán. Scene understanding cung cấp ngữ cảnh. Object detection xác định các yếu tố cụ thể. Visual question answering kiểm tra hiểu biết tích hợp. Image captioning tạo ra mô tả tự nhiên. CLIP và các mô hình tương tự tiếp tục phát triển.

6.1. Cải Thiện Dịch Máy Với Ngôn Ngữ Hình Ảnh

Dịch máy truyền thống gặp khó khăn với phép tu từ. Ẩn dụ và hoán dụ thường bị dịch sai. Mô hình mới sử dụng phân loại tri giác và chức năng. Chúng hiểu ý nghĩa đằng sau ngôn ngữ hình ảnh. Vision-language models cung cấp ngữ cảnh hình ảnh. Computer vision giúp hiểu các ẩn dụ hình ảnh. Visual embeddings mã hóa ý nghĩa sâu hơn. Multimodal learning kết hợp thông tin từ nhiều nguồn. Image-text alignment đảm bảo dịch chính xác. CLIP cung cấp biểu diễn đa ngôn ngữ và đa phương thức.

6.2. Hệ Thống Hỏi Đáp Thông Minh Hơn

Hệ thống hỏi đáp cần hiểu ngôn ngữ tự nhiên. Người dùng thường sử dụng ẩn dụ và hoán dụ. Mô hình dựa trên não bộ xử lý tốt hơn. Scene understanding cung cấp ngữ cảnh cho câu hỏi. Object detection xác định các yếu tố liên quan. Visual question answering tích hợp thông tin hình ảnh. Vision-language models hiểu cả ngôn ngữ và hình ảnh. Computer vision cung cấp thông tin bổ sung. Visual embeddings mã hóa tri thức phong phú. Multimodal learning tối ưu hóa hiệu suất. Image-text alignment đảm bảo trả lời chính xác.

6.3. Tạo Văn Bản Sáng Tạo Và Tự Nhiên

Tạo văn bản tự động đang ngày càng phát triển. Ngôn ngữ hình ảnh làm văn bản sinh động hơn. Mô hình mới tạo ra ẩn dụ và hoán dụ phù hợp. Image captioning cung cấp mô tả phong phú. Vision-language models học từ văn bản sáng tạo. Computer vision cung cấp cảm hứng từ hình ảnh. Visual embeddings mã hóa các khái niệm trừu tượng. Multimodal learning kết hợp nhiều nguồn tri thức. CLIP và các mô hình tương tự mở ra khả năng mới. Scene understanding cung cấp ngữ cảnh cho sáng tạo. Object detection xác định các yếu tố để mô tả. Image-text alignment đảm bảo văn bản nhất quán và tự nhiên.

24/03/2026

Xem trước tài liệu

Tải đầy đủ để xem toàn bộ nội dung

Luận án tiến sĩ: Understanding the figurative language of tropes in natural language processing using a brain-based organization for ontologies

Tải xuống file đầy đủ để xem toàn bộ nội dung

Tải đầy đủ (350 trang)

Trích đoạn nội dung luận án

Tải xuống để đọc toàn bộ

1 Understanding the Figurative Language of Tropes in Natural Language Processing Using a Brain-based Organization for Ontologies by Christine M. Keuper A dissertation submitted in partial fulfillment of the requirements for the degree of Doctor of Philosophy Graduate School of Computer and Information Sciences Nova Southeastern University 2007 UMI Number: 3244325 Copyright 2007 by Keuper, Christine M. All rights reserved. UMI Microform 3244325 Copyright 2007 by ProQuest Information and Learning Company.

All rights reserved. This microform edition is protected against unauthorized copying under Title 17, United States Code. ProQuest Information and Learning Company 300 North Zeeb Road P. Box 1346 Ann Arbor, MI 48106-1346 2 We hereby certify that this dissertation, submitted by Christine M.

Keuper, conforms to acceptable standards and is fully adequate in scope and quality to fulfill the disser- tation requirements for the degree of Doctor of Philosophy. _____________________________________________ ________________ Michael Laszlo, Ph. Date Chairperson of Dissertation Committee _____________________________________________ ________________ James Cannady, Ph. Date Dissertation Committee Member _____________________________________________ ________________ Amon Seagull, Ph.

Date Dissertation Committee Member Approved: _____________________________________________ ________________ Edward Lieblein, Ph. Date Dean, Graduate School of Computer and Information Sciences Graduate School of Computer and Information Sciences Nova Southeastern University 2007 Understanding the Figurative Language of Tropes in Natural Language Processing Using a Brain-based Organization for Ontologies by Christine M. Keuper 2007 Look, love, what envious streaks Do lace the severing clouds in yonder east; Night's candles are burnt out, and jocund day Stands tiptoe on the misty mountain tops. “Romeo and Juliet,” Shakespeare Language communication is the successful interpretation of the speaker’s communicative intent.

When Shakespeare writes, we see the intent in Romeo’s words, but it is lost again when we attempt to express it using a computer model for language; a model with an ability to handle tropes (metaphor, metonymy, synecdoche and irony) is needed. The goal of this model is to correctly interpret the nouns that occur within these tropes. Early computer language models had not worked well when they encountered tropes, yet the brain handled them easily. These early models concentrated on the language functions of the left temporal lobes of the brain; perhaps the models worked poorly because they had limited themselves to modelling only the parts of the brain that handled propositional language.

The designs of these models were also influenced by the assumption that the human brain understood language using a grammar-based Language Acquisition Device. In examining human language acquisition however, grammar does not even show up until the third year. In addition to the common taxonomic and mereologic structures that occur in most language models, the current model also recreates the brain’s thematic, perceptual and functional categorizations. Words no longer occur at a single location: words defined by their perceptual features, whether nouns or adjectives, occur within perceptual categoriza- tions, and those defined by functional features, whether nouns or verbs, occur within functional categorizations.

Tenor-vehicle connections then expand these perceptual and functional categories with metaphor. Words occurring within thematic categories are used to understand metonymy; and words occurring in the taxonomic and mereologic struc- tures are used to understand synecdoche. Classifiers, such as the Japanese hon, indicate membership in a category. Marked percep- tual and functional classifiers in ASL, Japanese and Swahili made it easier to identify the occurrences of unmarked perceptual and functional categories in English.

Likewise, the mythos-based categories in Dyirbal, French and German made the remnants of mythos- based categories still occurring in English understandable. This is one or two pages, page iii or pages iii and iv. The page number(s) should not be printed. The abstract should be written in the past tense.

It should contain the problem statement, method(s) employed, results/findings, conclusions, and recommendations. It Acknowledgments To do successful research, you don’t need to know everything, you just need to know one thing that isn’t known. Art Schawlow I wish to make these acknowledgments in chronological order. To my mother who was there with love and support my entire life.

She is missed now that she is gone. To my father, who had a career in the military that started at 16, who went back to high school and graduated with me, and then went on to college at the same time I did, and graduated with a college diploma the same year I did as well. He is also missed. To my daughter Francie, who was still an infant when this journey began, the day I went across town to the Polytechnic University in San Luis Obispo, California and became part of a very small group of women who wanted to study engineering amongst the thousands of men there.

She taught me about child language acquisition, she was a joyful part of my life and gave me a reason to get up every morning, and she was emotional support to me many years later when we were both in graduate school at the same time. To my older brother Robert who followed me to the university, also to study engineering, but who died after developing a fatal cancer. He always believed in me. To my youngest brother Phillip, who I raised from infancy, who is also no longer here.

To my younger sister Karen, who was always a safety net for me. To my professors at Cal Poly: To Dr. Peter Litchfield, who taught me experimental psychology methodology. Barbara Cook, who taught me cultural anthropology.

Robert Lint, my linguistics professor, for the wonderful sense of déjà vu that occurred when I walked into my first compiler design class, for all of the questions he asked, some of which I am still trying to answer here many years after his death. Jay Bayne, my advisor, and Dr. Emile Attala, my thesis advisor, for encouraging my love of computer science, and all of the fantastical directions I wanted to go with the computer. To Lisa Krasna, who let me adopt and raise her deaf, autistic son, Jeremy.

To Jeremy, who taught me what I didn’t know, and who has become a great joy in my life in his adulthood. Edward Ritvo, for his medical research that opened the doors for Jeremy, and for introducing me to Bill Christopher. To Bill Christopher, who also has an adopted, autistic son, Ned, and who introduced me to Dr. Art Schawlow and his wife Aurelia, who had an autistic son, Artie.

To Art and Aurelia who encouraged me to continue the development of the methodology I used to teach Jeremy language, and who also both encouraged me to continue my studies in computer science. They are both missed. To Alan Alda, who encouraged me to continue development of the sign language dictionary I was working on, and who encouraged me to return to graduate school. Graham Chalmers, my friend and advisor of many years.

To Mark Lucas and Scott Simon, who were always there with new language features for the development environment. John Bonvillian, whose emails helped me refine my thoughts and theories about language models. Bill Stokoe, who spent years encouraging me via email to continue with my linguistic and computer science studies, and who I finally met in person shortly before his death. Jerry Keuper who, after hearing I was interested in computational linguistics, sent me a copy of his book on Chinese idiom as well as a few chapters of a book he was writing on Spanish idiom, and who also called me on my first day as a new doctoral student at Nova to encourage me.

Stokoe and Keuper are both missed as well. To my daughter Meagan, who is now away at college studying industrial design, for her love and support, and for as a young child being proud to tell her friends that her mother was studying for a “doctorette.” And finally last, but certainly not least, to my professors at Nova Southeastern University, all of whom supplied me with a quality education. Rollie Guild, who started working with me when I was a new student at Nova, directing my early research. Lee Leitner, who continued after Dr.

Guild’s death, helping me take a vague idea and start to turn it into a dissertation. To my dissertation committee, Dr. Michael Laszlo, Dr. James Cannady and Dr.

Amon Seagull, for their interminable patience, and for the excellent direction and feedback they provided me with while working on this dissertation. Table of Contents Abstract. iii List of Tables. x List of Figures.

4 Can Something “Not in the Real World” be Represented in a Classic Taxonomy? 4 Can There be More than One Conceptual System?. 5 Can an Interlingua Represent Concepts Independent of Language?. 9 The Autonomy Hypothesis and the Lexical Independence Hypothesis. 10 Pre- and Post-editing to Resolve Ambiguity.

Relevance, Significance, and Brief Review of the Literature. 12 Early Attempts at Machine Translation of Natural Language. 13 Is There a Language Acquisition Device?. 15 The Development of Tropes.

18 Perceptual Conceptualization and Lexicalization. 20 Basic-level Perceptual Categorization, Prototypes, and Radial Structures. 25 Perceptual Categorization in Navaho, Japanese, and ASL. 29 Morphology and Categorization.

38 Arbitrary “one criterion” Categorization and Ad-hoc Categorization. 43 Mythos-based Categorization in Dyirbal. 48 Part-whole Hierarchies Across Languages. 52 Contrastive Ambiguity and Taxonomic Categorization.

52 Taxonomic Categorization in German. 53 Category Markedness and Taxonomic Ambiguity. 64 Where’s the Syntax?. 69 The Proposed Model.

70 Paradigm and Syntagm. 74 Time Metaphor and Orientational Metaphor. 80 Tenor-vehicle Metaphor. 87 Mereologic and Taxonomic Ambiguity.

90 Mereologic and Taxonomic Synecdoche. 92 Chunking, Idiom, and Irony. 97 Grammatical Inflection in Idiom. 98 Thematic-and Function-based Metonymy.

99 Format for Presenting Results. 99 Evaluation of the Results. 106 Brain Structure Modules. 109 The Right Anterior Temporal Lobe Module.

111 Idioms and Collocations. 112 Agglutinative and Derivational Languages. 114 The Right Frontal Lobe Module. 117 vi Switching Conceptual Systems.

117 The Left Anterior Temporal Lobe Module. 118 Grammatical Inflection and Function Words. 118 The Right Posterior Temporal Lobe Module. 120 Perceptual Categorization and Perceptual Classifiers.

120 Time and Orientational Metaphor. 134 Thematic Categorization and Metonymy. 136 The Left Motor Cortex Module. 137 Functional Categorization and Contrastive Ambiguity.

138 Functional Categorization and Complementary Ambiguity. 139 Verb-Noun Pairs and Subject-Verb-Object Groupings. 145 Retention of S-V-O in Broca’s Aphasia. 146 Verb Loss in ALS.

147 The Left Posterior Temporal Lobe Module. 147 Hierarchical Categorization and Hierarchical Ambiguity. 147 Mereology-based Interlingua. 149 Mereology-based Synecdoche.

150 Taxonomy-based Synecdoche. 153 The Right Motor Cortex Module. 155 Functional Categorization and Tenor-vehicle Metaphor. 156 The Left Frontal Lobe Module.

157 The Impact of “Not Implemented”. 159 Comparison to Language Acquisition, Aphasiology, and Autism Models. 160 Comparison to Learning Models. 160 Comparison to Propositional Models.

160 Comparison to Grammatical Models. 161 Comparison to Statistical Models. 162 Comparison to Interlingual Models. 163 Comparison to Cruse’s Examples of Taxonomic Ambiguity.

163 Comparison to Pustejovsky’s Contrastive & Complementary Ambiguity. 163 Comparison to Examples of Functional Ambiguity. 164 Comparison to Examples in Fillmore’s Case Theory. 165 Comparison to Jackendoff’s Examples of Thematic-based Metonymy.

167 Comparison to Chandler’s Examples of Synecdoche. 168 Comparison to Examples of Tenor-vehicle Metaphor. 169 Comparison to Narayanan’s Examples of Metaphor. 169 Comparison to Lakoff’s Examples of Classifiers and Categorization.

172 vii Comparison to Lakoff’s Examples of Ontological Metaphor. 173 Summary of the Results. Conclusions, Implications, Recommendations, and Summary. 177 Evaluation of Error.

178 Limitations of the Findings. 189 Computer Models of Mental Processes. Some History of Computers and Natural Language. 192 Rule-based Direct Translations.

193 Corpus-based Systems—Statistical Methods and Example-based Translation. 195 Knowledge-based Systems. 197 The Triad of Impairment. 197 The Rates of Autism in Neurocutaneous Disorders.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Từ khóa liên quan

Xử lý ngôn ngữ tự nhiên Ngôn ngữ hình ảnh Trope ngôn ngữ Mô hình dựa não bộ Ontology ngôn ngữ Giải quyết sự mơ hồ NLP

Chủ đề nghiên cứu

Ngôn ngữ hình ảnh xử lý tự nhiên Mô hình ngôn ngữ dựa não bộ Ontology trong xử lý ngôn ngữ Giải quyết sự mơ hồ trong NLP

Câu hỏi thường gặp

Luận án "Ngôn ngữ hình ảnh trong xử lý ngôn ngữ tự nhiên" nghiên cứu về vấn đề gì?

Luận án tiến sĩ về xử lý ngôn ngữ tự nhiên và ngôn ngữ hình ảnh. Đề xuất mô hình dựa trên tổ chức não bộ để hiểu ẩn dụ, chuyên dụ và tropes trong ngôn ngữ.

Luận án "Ngôn ngữ hình ảnh trong xử lý ngôn ngữ tự nhiên" được bảo vệ tại trường nào?

Luận án này được bảo vệ tại Nova Southeastern University. Năm bảo vệ: 2007.

Luận án "Ngôn ngữ hình ảnh trong xử lý ngôn ngữ tự nhiên" thuộc chuyên ngành gì?

Luận án "Ngôn ngữ hình ảnh trong xử lý ngôn ngữ tự nhiên" thuộc chuyên ngành Computer and Information Sciences. Danh mục: Trí Tuệ Nhân Tạo.

Luận án "Ngôn ngữ hình ảnh trong xử lý ngôn ngữ tự nhiên" có bao nhiêu trang?

Luận án "Ngôn ngữ hình ảnh trong xử lý ngôn ngữ tự nhiên" có 350 trang. Bạn có thể xem trước một phần tài liệu ngay trên trang web trước khi tải về.

Cách tải luận án "Ngôn ngữ hình ảnh trong xử lý ngôn ngữ tự nhiên" về máy như thế nào?

Để tải luận án về máy, bạn nhấn nút "Tải xuống ngay" trên trang này, sau đó hoàn tất thanh toán phí lưu trữ. File sẽ được tải xuống ngay sau khi thanh toán thành công. Hỗ trợ qua Zalo: 0559 297 239.

Luận án liên quan

Chia sẻ tài liệu: Facebook Twitter

Tóm tắt nội dung

I. Ngôn Ngữ Hình Ảnh Trong Xử Lý Ngôn Ngữ Tự Nhiên

1.1. Thách Thức Của Ngôn Ngữ Hình Ảnh

1.2. Vai Trò Của Phân Loại Não Bộ

1.3. Giả Định Về Thiết Bị Tiếp Nhận Ngôn Ngữ

II. Cấu Trúc Phân Loại Trong Mô Hình Ngôn Ngữ

2.1. Phân Loại Tri Giác Và Chức Năng

2.2. Mở Rộng Qua Kết Nối Ẩn Dụ

2.3. Phân Loại Chủ Đề Và Hoán Dụ

III. Vai Trò Của Bộ Phân Loại Ngôn Ngữ Học

3.1. Bộ Phân Loại Tri Giác Được Đánh Dấu

3.2. Bộ Phân Loại Chức Năng Trong Ngôn Ngữ

3.3. Phân Loại Dựa Trên Thần화 Trong Ngôn Ngữ

IV. Xử Lý Các Loại Phép Tu Từ Chính

4.1. Xử Lý Ẩn Dụ Qua Phân Loại Tri Giác

4.2. Hoán Dụ Và Phân Loại Chủ Đề

4.3. Nói Giảm Nói Tránh Và Cấu Trúc Phân Cấp

V. Tích Hợp Mô Hình Đa Phương Thức Hiện Đại

5.1. CLIP Và Học Biểu Diễn Chung

5.2. Visual Question Answering Cho Ngôn Ngữ Hình Ảnh

5.3. Image Captioning Và Tạo Mô Tả

VI. Ứng Dụng Và Hướng Phát Triển Tương Lai

6.1. Cải Thiện Dịch Máy Với Ngôn Ngữ Hình Ảnh

6.2. Hệ Thống Hỏi Đáp Thông Minh Hơn

6.3. Tạo Văn Bản Sáng Tạo Và Tự Nhiên

Từ khóa và chủ đề nghiên cứu

Từ khóa liên quan

Chủ đề nghiên cứu

Luận án liên quan