Phân tích cú pháp sơ bộ
Phân tích cú pháp sơ bộ (gọi tắt là phân tích sơ bộ hay còn gọi là phân tích ngữ pháp mức thấp, cách gọi nôm na là phân tích cú pháp nông, tiếng Anh: shallow parsing, chunking) là cách phân tích một câu với việc đầu tiên là xác định các bộ phận cấu thành của câu (danh từ, động từ, tính từ, v.v.) và sau đó liên kết chúng với các đơn vị bậc cao hơn có ý nghĩa ngữ pháp rời rạc (chẳng hạn như nhóm danh từ hoặc cụm danh từ, nhóm động từ, vân vân).
Các thuật toán phân tách cơ bản nhất chỉ đơn giản là kết nối các thành phần cấu thành trên cơ sở các mẫu tìm kiếm cơ bản (ví dụ: như được đặc tả bởi các biểu thức chính quy). Trong khi đó, các phương pháp tiếp cận cấp cao sử dụng học máy (bộ phân loại, mô hình chủ đề, v.v.) có thể xem xét đến thông tin theo ngữ cảnh và do đó tạo ra các phân tách phản ánh tốt hơn các mối quan hệ ngữ nghĩa giữa các thành phần cấu thành cơ bản.[1] Các phương pháp nâng cao hơn này xoay quanh vấn đề: sự kết hợp của các thành phần cơ bản có thể có các ý nghĩa ở mức cao hơn khác nhau tùy theo ngữ cảnh của câu.
Tham khảo
[sửa | sửa mã nguồn]- ^ Jurafsky, Daniel; Martin, James H. (2000). Speech and Language Processing. Singapore: Pearson Education Inc. tr. 577–586.
Đọc thêm
[sửa | sửa mã nguồn]- “NP Chunking (State of the art)”. Association for Computational Linguistics. Truy cập ngày 30 tháng 1 năm 2016.
- Abney, Steven (1991), Parsing By Chunks (PDF), Kluwer Academic Publishers, tr. 257–278 Đã bỏ qua tham số không rõ
|book-title=
(trợ giúp).
Liên kết ngoài
[sửa | sửa mã nguồn]- Apache OpenNLP Apache OpenNLP includes a chunker.
- GATE General Architecture for Text Engineering General Architecture for Text Engineering includes a chunker.
- Natural Language Toolkit chunking
- Illinois Shallow Parser Shallow Parser Demo