Ngữ liệu văn bản

Ngữ liệu văn bản (tiếng Anh: text corpus) là một tập hợp lớn các văn bản có cấu trúc (thông thường được lưu giữ dạng điện toán và đã xử lý).^[1]^[2]

Một kho ngữ liệu có thể gồm những văn bản bằng một thứ tiếng (ngữ liệu đơn ngữ) hay nhiều thứ tiếng (ngữ liệu đa ngữ). Kho ngữ liệu đa ngữ có thể được sắp xếp theo dạng đối chiếu, gọi là kho ngữ liệu song song. Để có ích hơn cho việc nghiên cứu ngôn ngữ, các kho ngữ liệu thường được đánh dấu. Một ví dụ là việc gán nhãn từ loại (part-of-speech tagging hay là POS-tagging), trong đó các từ được gán nhãn danh từ, động từ, tính từ và nhiều loại từ khác.

Tham khảo

^ What is a corpus? What is corpus linguistics?^{[liên kết hỏng]}, Technische Universität Chemnitz.
^ Language Corpora, The University of Queensland.

Xem thêm

Concordance (publishing)
Corpus linguistics
Linguistic Data Consortium
Xử lý ngôn ngữ tự nhiên
Natural Language Toolkit
Parallel text
Máy truy tìm dữ liệu: có thể truy cập "ngữ liệu web".
Speech corpus
Translation memory
Treebank
Zipf's law

Liên kết ngoài

ACL SIGLEX Resource Links: Text Corpora Lưu trữ 2013-08-13 tại Wayback Machine
Developing Linguistic Corpora: a Guide to Good Practice
Free samples (not free), web-based corpora (45-425 million words each): American (COCA, COHA, TIME), British (BNC), Spanish, Portuguese
Intercorp Building synchronous parallel corpora of the languages taught at the Faculty of Arts of Charles University.
Sketch Engine: Open corpora with free access
TS Corpus - A Turkish Corpus freely available for academic research.
Turkish National Corpus - A general-purpose corpus for contemporary Turkish Lưu trữ 2015-04-02 tại Wayback Machine
Corpus of Political Speeches, publicly accessible with speeches from United States, Hong Kong, Taiwan, and China, provided by Hong Kong Baptist University Library
Russian National Corpus Lưu trữ 2019-04-14 tại Wayback Machine

Bài viết này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn.

[1] What is a corpus? What is corpus linguistics?^{[liên kết hỏng]}, Technische Universität Chemnitz.

[2] Language Corpora, The University of Queensland.

[1]

[2]

x t s Xử lý ngôn ngữ tự nhiên
Thuật ngữ chung	Hiểu ngôn ngữ tự nhiên Ngữ liệu văn bản Ngữ liệu tiếng nói Từ dừng Mô hình túi từ AI-đầy đủ N-gram (Bigram, Trigram)
Khai thác văn bản	Phân đoạn văn bản Gán nhãn từ loại Phân tích cú pháp sơ bộ Compound-term processing Collocation extraction Stemming Lemmatisation Nhận dạng thực thể có tên Coreference Phân tích tình cảm Khai phá khái niệm Phân tích cú pháp Nhập nhằng Ontology learning Trích xuất thuật ngữ Textual entailment Truecasing
Tóm tắt tự động	Tóm tắt đa văn bản Trích xuất câu Đơn giản hóa văn bản
Dịch tự động	Computer-assisted translation Example-based machine translation Rule-based machine translation Dịch máy bằng nơ-ron
Nhận dạng tự động và thu thập dữ liệu	Nhận dạng tiếng nói Tổng hợp giọng nói Nhận dạng ký tự quang học Sinh ngôn ngữ tự nhiên
Mô hình ngữ nghĩa phân phối	BERT Document-term matrix Explicit semantic analysis fastText GloVe Mô hình ngôn ngữ (lớn) Phân tích ngữ nghĩa tiềm ẩn Seq2seq Vectơ từ Word2vec
Mô hình chủ đề	Phân bổ Pachinko Phân bổ Dirichlet tiềm ẩn Phân tích ngữ nghĩa tiềm ẩn
Xem xét với sự trợ giúp máy tính	Automated essay scoring Concordancer Sửa lỗi chính tả Predictive text Spell checker Syntax guessing
Giao diện người dùng ngôn ngữ tự nhiên	Trợ lý ảo Chatbot Interactive fiction Question answering Giao diện giọng nói người dùng