Bài kiểm tra hiệu chuẩn để đánh giá cách biểu diễn sự bất định mờ dựa trên tập hợp

Kiểm định mới giúp đánh giá độ tin cậy của các biểu diễn bất định theo tập hợp trong học máy

Nghiên cứu mới từ Mira Jürgens và các cộng sự đã giới thiệu một phương pháp kiểm định thống kê đột phá, nhằm đánh giá chính xác khả năng biểu diễn bất định của các tập hợp dữ liệu trong học máy, đặc biệt là các "tập hợp tín nhiệm" (credal sets).

TP. Hồ Chí Minh, ngày 29 tháng 7 năm 2025 – Việc biểu diễn chính xác bất định "nhận thức" (epistemic uncertainty) là một thách thức lớn nhưng vô cùng quan trọng trong lĩnh vực học máy. Một phương pháp phổ biến để xử lý vấn đề này là sử dụng các tập hợp dự đoán xác suất, hay còn gọi là tập hợp tín nhiệm. Các tập hợp này thường được hình thành thông qua phương pháp kết hợp nhiều mô hình (ensembling) hoặc các kỹ thuật học có giám sát chuyên biệt. Độ bất định trong các tập hợp này có thể được đo lường bằng các chỉ số như kích thước tập hợp hoặc mức độ bất đồng giữa các thành viên.

Về lý thuyết, các tập hợp tín nhiệm này nên chứa đựng phân phối dữ liệu thực tế. Để kiểm tra điều này, các nhà nghiên cứu đã áp dụng một tiêu chuẩn kiểm định chặt chẽ nhất về "hiệu chuẩn" (calibration) như một chỉ số thay thế.

Nghiên cứu mới do Mira Jürgens đứng đầu đã đề xuất một phương pháp kiểm định thống kê hoàn toàn mới. Phương pháp này nhằm xác định xem có một phép kết hợp lồi của các dự đoán trong tập hợp hay không, mà phép kết hợp đó được hiệu chuẩn theo phân phối. Điểm khác biệt nổi bật của khung làm việc này so với các phương pháp trước đây là khả năng cho phép phép kết hợp lồi này phụ thuộc vào từng trường hợp dữ liệu cụ thể. Điều này thừa nhận rằng, các thành viên khác nhau trong một tập hợp có thể hiệu chuẩn tốt hơn ở các vùng khác nhau của không gian đầu vào.

Hơn nữa, quy trình này học cách kết hợp các thành viên thông qua các quy tắc chấm điểm phù hợp (proper scoring rules), từ đó tự động tối ưu hóa cho hiệu chuẩn. Dựa trên các ước lượng sai số hiệu chuẩn dựa trên kernel, có thể tính toán bằng đạo hàm, nhóm tác giả đã giới thiệu một quy trình kiểm định phi tham số. Các thí nghiệm trên dữ liệu tổng hợp và dữ liệu thực tế đã cho thấy lợi ích rõ rệt của việc nắm bắt sự biến thiên ở cấp độ từng trường hợp dữ liệu.

Nghiên cứu này được đệ trình lần đầu vào ngày 22 tháng 2 năm 2025 và được cập nhật phiên bản cuối cùng vào ngày 29 tháng 7 năm 2025.

Từ khóa: học máy, bất định nhận thức, tập hợp tín nhiệm, hiệu chuẩn, kiểm định thống kê, kết hợp lồi, quy tắc chấm điểm, phi tham số.

Nguồn: arxiv.org

Đăng ngày: 2025-07-30 11:00:00 • Tác giả: Mira J"urgens, Thomas Mortier, Eyke H"ullermeier, Viktor Bengs, Willem Waegeman

This article is also published as a forum topic here »