Mô hình không gian véctơ
Mô hình không gian véctơ hay mô hình thuật ngữ véctơ (tiếng Anh: vector space model) là một mô hình đại số dùng để thể hiện các tài liệu văn bản (và bất cứ đối tượng nào nói chung) dưới dạng các chỉ số (định danh) nhận dạng không gian vectơ, chẳng hạn như các thuật ngữ chỉ mục. Mô hình này được sử dụng trong hệ thống lọc thông tin (information filtering system), truy hồi thông tin[1], lập chỉ mục và xếp hạng độ liên quan. Mô hình không gian véctơ được sử dụng lần đầu ở hệ thống truy hồi thông tin SMART.
Định nghĩa
[sửa | sửa mã nguồn]Cho một tập bao gồm các tài liệu và các truy vấn được biểu diễn dưới dạng véctơ như sau:
Với là biểu diễn của tài liệu thứ và là trọng lượng của từ xuất hiện trong tài liệu . Truy vấn là một truy vấn để tìm kiếm thông tin trên tập các tài liệu và là trọng lượng của từ trong truy vấn này.
Mỗi chiều tương ứng một thuật ngữ rời rạc (tách rời). Nếu một thuật ngữ xuất hiện trong tài liệu, giá trị của nó trong véctơ khác không. Có vài cách để tính toán các giá trị này, hay còn gọi là trọng lượng (thuật ngữ) đã được phát triển. Một cách những cách phổ biến là trọng lượng tf–idf.
Khái niệm thuật ngữ được định nghĩa khác nhau tùy theo ứng dụng. Thông thường, thuật ngữ hay được xem là các từ đơn, từ khóa hay các cụm từ dài hơn như danh động từ. Nếu các từ được chọn làm thuật ngữ, thì chiều của vectơ là số từ trong từ vựng (số từ riêng biệt xuất hiện trong ngữ liệu văn bản). Các phép tính vectơ có thể được sử dụng để so sánh tài liệu với các truy vấn.
Các mô hình dựa trên và mở rộng mô hình không gian vectơ
[sửa | sửa mã nguồn]Các mô hình dựa trên hoặc mở rộng mô hình không gian véctơ bao gồm:
- Mô hình không gian véc tơ tổng quát
- Phân tích ngữ nghĩa tiềm ẩn
- Cấu trúc Herbrand
- Nearest centroid classifier
- Lập chỉ mục ngẫu nhiên
Xem thêm
[sửa | sửa mã nguồn]- Mô hình túi từ
- Compound-term processing
- Conceptual space
- Giá trị riêng và vectơ riêng
- Inverted index
- Nearest neighbor search
- Sparse distributed memory
- W-shingling
Tham khảo
[sửa | sửa mã nguồn]- ^ Melucci M. (2009) Vector-Space Model. In: LIU L., ÖZSU M.T. (eds) Encyclopedia of Database Systems. Springer, Boston, MA. https://doi.org/10.1007/978-0-387-39940-9_918