Phân loại bằng thống kê
Bài viết này cần thêm chú thích nguồn gốc để kiểm chứng thông tin. |
Phân loại bằng thống kê là một thủ tục thống kê trong đó các thể riêng biệt sẽ được sắp vào từng nhóm dựa trên số lượng thông tin về một hay nhiều tính chất kế thừa của cá thể đó (được xem như là các điểm, các biến, các đặc điểm, v.v...) và dựa vào một tập huấn luyện của các cá thể đã được đánh nhãn sẵn.
Về mặt hình thức, bài toán có thể diễn giải như sau: cho sẵn một tập huấn luyện ta cần tạo ra một phân loại mà có thể ánh xạ một đối tượng vào nhãn phân loại của nó. Ví dụ, nếu bài toán là lọc spam, thì là một biểu diễn nào nó cho một thư điện tử và thì hoặc là "Spam" hoặc "Không Spam".
Các giải thuật phân loại bằng thống kê thường được sử dụng trong các hệ thống nhận dạng mẫu.
Chú ý: trong cộng đồng sinh thái học, thuật ngữ "phân loại" là đồng nghĩa với từ được biết đến (trong ngành học máy) là phân nhóm (clustering). Xem bài viết đó để biết rõ hơn về các kĩ thuật không có giám sát.
Các kĩ thuật phân loại bằng thống kê
[sửa | sửa mã nguồn]Trong khi có rất nhiều phương pháp phân loại, chúng thường buộc phải giải quyết một trong ba vấn đề liên quan đến toán học sau.
Vấn đề đầu tiên là tìm một ánh xạ của một không gian đặc trưng (thường là một không gian vec-tơ đa chiều) đến một tập các nhãn. Điều này là tương đương với việc phân hoạch không gian đặc trưng thành các vùng nhỏ hơn, sau đó gán một nhãn vào mỗi vùng. Các giải thuật dạng này (ví dụ, giải thuật hàng xóm gần nhất) thường không đem lại sự tin cậy hay xác suất class (posterior probability), trừ phi quá trình xử lý sau được áp dụng. Một tập các giải thuật khác để giải quyết vấn đề này trước tiên là áp dụng việc phân mảnh không có giám sát không gian đặc trưng ra, sau đó cố gắng đánh nhãn cho mỗi mảnh (hay vùng) được phân ra đó.
Vấn đề thứ hai là xem xét việc phân loại như là một bài toán về ước lượng, với mục tiêu là ước lượng xem một hàm có dạng
với vec-tơ đặc trưng đầu vào là , và hàm f là được tham số hóa bởi một số tham số . Trong hướng tiếp cận Bayes cho vấn đề này, thay vì chọn một tham số vec-tơ đơn lẻ , kết quả sẽ tích hợp trên mọi thê-ta có thể có, với cách đánh trọng số dựa vào như cách đưa ra tập huấn luyện D:
Bài toán thứ ba liên quan tới bài toán thứ hai, nhưng yêu cầu của nó là ước lượng xác suất có điều kiện-class và rồi sử dụng quy luật Bayes để đưa về xác suất lớp nhu bài toán số hai.
Các ví dụ về các giải thuật phân loại bao gồm:
- Linear classifier
- k hàng xóm gần nhất
- Boosting
- Cây quyết định
- Mạng nơ-ron
- Mạng Bayes
- Support vector machine
- Mô hình Markov ẩn
Lĩnh vực ứng dụng
[sửa | sửa mã nguồn]- Thị giác máy tính
- Nhân dạng tiếng nói
- Nhận dạng chữ viết tay
- Nhận dạng sinh trắc học (Biometric identification)
- Phân loại tài liệu (Document classification)
- Động cơ tìm kiếm trên Internet
- Credit scoring
Xem thêm
[sửa | sửa mã nguồn]- Khai phá dữ liệu (Data mining)
- Lôgic mờ (Fuzzy logic)
- Thu thập thông tin (Information retrieval)
- Hướng dẫn sử dụng mạng nơ ron trong các ứng dụng thực tế Lưu trữ 2011-06-26 tại Wayback Machine trong đó có minh họa phân loại ảnh khuôn mặt, ảnh người đi bộ, ảnh xe hơi, dự báo chứng khoán và một số ví dụ khác