Đơn giản hóa văn bản
Giao diện
Đơn giản hóa văn bản là một hoạt động được dùng trong lĩnh vực xử lý ngôn ngữ tự nhiên để thay đổi, nâng cao, phân loại hoặc xử lý một corpus văn bản mà con người có thể đọc theo cách ngữ pháp và cấu trúc văn xuôi được đơn giản hóa đi rất nhiều, trong khi vẫn giữ ý nghĩa và thông tin trong đó.
Đơn giản hóa văn bản là một lĩnh vực nghiên cứu quan trọng, bởi vì các ngôn ngữ tự nhiên của con người chứa lượng lớn các từ vựng và cấu trúc kết hợp phức tạp mà không dễ xử ký thông qua quá trình tự động hóa. Về các khía cạnh giảm sự đa dạng ngôn ngữ, nén ngữ nghĩa (semantic compression) có thể được sử dụng để giới hạn và đơn giản hóa một tập hợp các từ dùng trong các văn bản cho trước.
Xem thêm
[sửa | sửa mã nguồn]- Paraphrasing (computational linguistics)
- Controlled natural language
- Lexical simplification
- Lexical substitution
- Nén ngữ nghĩa
- Text normalization
- Simplified Technical English
- Basic English
Tham khảo
[sửa | sửa mã nguồn]- Wei Xu, Chris Callison-Burch and Courtney Napoles. "Problems in Current Text Simplification Research". In Transactions of the Association for Computational Linguistics (TACL), Volume 3, 2015, Pages 283–297.
- Advaith Siddharthan. "Syntactic Simplification and Text Cohesion". In Research on Language and Computation, Volume 4, Issue 1, Jun 2006, Pages 77–109, Springer Science, the Netherlands.
- Siddhartha Jonnalagadda, Luis Tari, Joerg Hakenberg, Chitta Baral and Graciela Gonzalez. Towards Effective Sentence Simplification for Automatic Processing of Biomedical Text. In Proc. of the NAACL-HLT 2009, Boulder, USA, June. [1]