Luật Benford
Luật Benford, hay còn gọi là luật Newcomb–Benford, luật số bất thường, hay luật chữ số thứ nhất, là một quan sát về phân phối tần số của các chữ số trong nhiều dữ liệu các tập số trong đời sống thực. Luật Benford tuyên bố rằng trong nhiều trường hợp tự nhiên xảy ra tại các tập hợp số, chữ số quan trọng xuất hiện nhiều nhất có khả năng là chữ số nhỏ (chẳng hạn như số 1).[1]
Ví dụ, các tập hợp tuân theo luật Benford, số 1 xuất hiện dưới dạng chữ số quan trọng hàng đầu chiếm 30%, trong khi số 9 xuất hiện ít nhất, chỉ chiếm ít hơn 5%. Nếu các số từ 1 đến 9 được phân bố đồng đều trong tập dữ liệu thì mỗi chữ số phải xuất hiện khoảng 11.1% (tức là 1/9).[2] Luật Benford cũng đưa ra các dự đoán về phân phối của hai số, ba số, tổ hợp số và nhiều ví dụ khác.
Lịch sử
[sửa | sửa mã nguồn]Việc khám phá ra luật Benford bắt đầu từ năm 1881, khi nhà thiên văn học người Mỹ gốc Canada Simon Newcomb nhận thấy rằng trong các bảng logarit, các trang trước đó (bắt đầu bằng 1) bị mòn hơn nhiều so với các trang khác.[3] Kết quả xuất bản của Newcomb là trường hợp đầu tiên được biết đến của quan sát này và bao gồm một phân phối trên số thứ hai. Newcomb đề xuất một luật mà xác suất của một chữ số đơn N trở thành chữ số đầu tiên của một số bằng log(N + 1) − log(N).
Hiện tượng này được ghi chú lần nữa vào năm 1938 bởi nhà vật lý Frank Benford,[4] người đã kiểm chứng dữ liệu từ 20 lĩnh vực khác nhau, được ghi công là tác giả. Dữ liệu của Benford bao gồm các khu vực bề mặt 335 dòng sông, các kính thước của 3539 dân số Hoa Kỳ, 104 hằng số vật lý, 1800 khối lượng phân tử, 5000 mục từ cuốn sổ tay toán học, 308 số chứa một vấn đề của Reader's Digest, địa chỉ đường của 342 người đầu tiên liệt kê trong American Men and Women of Science và 418 tỉ lệ tử vong.
Tổng số mẫu quan sát được dùng trong bài viết là 20,229. Khám phá này được đặt tên theo tên của Benford (luật Benford, một ví dụ của quy tắc đặt tên Stigler).
Năm 1995, nhà toán học Ted Hill đã chứng minh kết quả về phân phối hỗn hợp.[5] Năm 1961, Roger Pinkham xem xét vấn đề vì tin rằng có khả năng giải thích vấn đề. Ông cho rằng có một quy luật về tần suất số và nó đúng trên cả vũ trụ. Pinkham đã gọi đây là tỉ lệ bất biến của vũ trụ. Từ đó, cái tên luật Benford được nhắc đến.
Ứng dụng
[sửa | sửa mã nguồn]Luật Benford có thể được thực hiện trên tất cả số liệu kinh doanh và các tỉ lệ quay vòng hàng năm cho tới các hằng số vật lý cơ bản. Chúng ta cũng có thể dùng luật Benford để kiểm tra sự bất quy tắc trong các thử nghiệm thuốc hay xác định các mô hình biểu đồ dữ liệu.
Có một ví dụ tiêu biểu nói về sự hiệu quả của luật Benford. Để kiểm tra sự trung thực trong các bản kê khai thuế, Tổng thống Mỹ Bill Clinton đã yêu cầu Mark Nigrini kiểm tra. Kết quả là không có sự gian lận nào nhờ việc vị tiến sĩ trên đã dùng luật Benford. Luật Benford còn được dùng để kiểm tra tính khai báo trung thực của các quốc gia về dịch bệnh COVID-19, điển hình như Trung Quốc.[6]
Tuy nhiên, luật Benford không được dùng trong các trường hợp ngẫu nhiên (như trong xổ số) và phạm vi các tập hợp là quá hạn hẹp.
Chú thích
[sửa | sửa mã nguồn]- ^ Arno Berger and Theodore P Hill, Benford's Law Strikes Back: No Simple Explanation in Sight for Mathematical Gem, 2011
- ^ Weisstein, Eric W. “Benford's Law”. MathWorld, A Wolfram web resource. Truy cập ngày 7 tháng 6 năm 2015.
- ^ Simon Newcomb (1881). “Note on the frequency of use of the different digits in natural numbers”. American Journal of Mathematics. 4 (1/4): 39–40. Bibcode:1881AmJM....4...39N. JSTOR 2369148. (subscription required)
- ^ Frank Benford (tháng 3 năm 1938). “The law of anomalous numbers”. Proc. Am. Philos. Soc. 78 (4): 551–572. JSTOR 984802. (subscription required)
- ^ Theodore P. Hill (1995). “A Statistical Derivation of the Significant-Digit Law” (PDF). Statistical Science. 10 (4): 354–363. doi:10.1214/ss/1177009869. MR 1421567.
- ^ “China's COVID-19 data matches Benford's Law like U.S. and Italy: Researchers”. Truy cập 21 tháng 6 năm 2020.