Thứ Bảy, 20 tháng 11, 2021

Rolling 7-Day Average -- Trung Bình 7 Ngày

Thân chào các Bê (*),

Hôm  nay Đệ lại xin viết về một cách tính toán tưởng là đơn giản nhưng lại gây nhiều hiểu lầm ngớ ngẩn. Hai năm nay, trên thế giới ai cũng nói, cũng nghe, cũng đọc về Covid-19. Nhiều nhà nước, nhiều bệnh viện, và nhiều truyền thông trên thế giới muốn thông tin (và hướng dẫn dư luận) về nỗi lực chống dịch của nước mình. Tốt thôi! 

Dạ, dạ Đệ xin vào đề...
Tốt thôi, nếu người viết có tâm, có tầm. 
Tốt thôi nếu thông tin và lời giải thích chính xác/khoa học. 
Tốt thôi nếu người viết tìm hiểu cặn kẽ những phương cách theo dõi số liệu trước khi viết.

Thí dụ về việc không hiểu ngọn ngành mà vẫn viết: Một tờ báo trong nước viết như sau: 
"Trung bình số ca nhiễm mới trong nước ghi nhận trong 7 ngày qua: 3.609 ca/ngày. Trong khi đó vào ngày đầu tuần trước (18-10), trung bình số ca nhiễm mới trong nước ghi nhận trong 7 ngày là 3.260 ca/ngày. Như vậy trong tuần qua số ca nhiễm trung bình đã tăng thêm 349 ca mỗi ngày.

Câu văn trên có nhiều điểm không chính xác:
  • Trung bình số ca nhiễm mới trong 7 ngày KHÔNG phải là số liệu thu thập được (collected data). Con số ca nhiễm mới mỗi ngày, mới là collected data. Còn trung bình số ca nhiễm mới trong 7 ngày thì người viết phải nhận biết đây là dữ kiện nhà nghiên cứu suy luận ra (derivative data) với mục đích theo dõi cái xu hướng của sự lan lây (xin xem phụ chú B để hiểu tại sao lại "chế" ra rolling 7-day average. (chữ day không có s vì 7-day là tĩnh từ).
  • Rolling 7-day average KHÔNG phải là được tính mỗi tuần như tờ báo viết. Nó được tính mỗi ngày (lấy ngày hôm trước và 6 ngày trước đó cộng lại chia cho 7 thì ra rolling 7-day average của ngày hôm trước).
  • Một con số Rolling 7-day average ở một ngày nào đó KHÔNG mang một ý nghĩa quan trọng nào. Chuỗi số của nhiều Rolling 7-day averages (thường là được biểu thị bằng giản đồ) mới là cái mà chuyên gia muốn quan sát, theo dõi.
  • "Như vậy trong tuần qua số ca nhiễm trung bình đã tăng thêm 349 ca mỗi ngày." Câu này không những vô nghĩa mà còn che dấu một sự thật khủng khiếp: trung bình 3.609 ca nhiễm mới/ngày trong 7 ngày thì chính xác là trong 7 ngày đó có 3.609 x 7 = 25.263 ca nhiễm mới trên toàn quốc!
  • Muốn biết số ca nhiễm mới trong một ngày thì lấy trung bình để làm gì? 
    Và lấy hiệu số hai số trung bình (cách nhau một tuần) để làm gì?

    Chỉ cần nhìn vào số báo cáo (collected data) thì biết được, chứ cần gì làm cho rắc rối mà kết quả lại vô nghĩa? Rolling 7-day average CHỈ hữu ích cho giới chuyên gia trong việc nhìn ra xu hướng lây lan.
    Đối với người đọc ở trình độ trung bình thì trừ hai con số trung bình ca nhiễm mới trong 7 ngày (cách nhau một tuần) thật là rối rắm mà khó hiểu! 
Trên lý thuyết thì điều bài báo nêu lên không sai nhưng không thật là cần thiết cho người đọc và nếu có muốn viết về Rolling 7-day Average thì xin giải thích cặn kẽ cho người đọc với cơ sở khoa học của nó. Phần người đọc thì xin hiểu và phân biệt đâu là collected data (có khi còn gọi là raw data; dữ liệu sống; dữ liệu thâu thập được), đâu là derivative data (dữ liệu do suy luận và nhào nặn để phục vụ cho một khám phá cần thiết. Derivative data rất cần nhưng có khi lại là xấu nếu không biết suy luận khoa học.

Chúc các Bê một cuối tuần vui vẻ bên gia đình và người thân.
Thân,

Chú thích:
(*) Bê là Bê 60: Từ chữ tắt B60 (Beyond 60 years young) để chỉ các bác trên 60 tuổi trẻ. Từ ngày con nhỏ, Đệ đọc đâu đó câu: "Đọc sách (ngày nay là báo) mà tin vào sách thì thà đừng đọc!" câu này xin Bê áp dụng cho bài blog này, luôn và ngay! (1)

Không có nhận xét nào: