Chương 9. Dữ liệu sớm để can thiệp sớm

Một học sinh hiếm khi bỏ học trong một ngày.

Thường có dấu hiệu trước đó.

Nghỉ vài buổi.

Nộp bài muộn.

Không qua bài kiểm tra nhỏ.

Ít tham gia hơn.

Ngồi im lâu hơn.

Không mở LMS.

Không trả lời tin nhắn.

Rớt một môn lõi.

Không còn đi cùng nhóm bạn cũ.

Tránh nhìn giáo viên.

Chuyển từ đi học đều sang vắng rải rác.

Từ làm bài đủ sang thiếu bài.

Từ “em sẽ cố” sang “em không biết nữa”.

Khi hệ thống phát hiện quá muộn, nó thường kể câu chuyện rất gọn:

Em này bỏ học.

Em này yếu.

Em này thiếu động lực.

Em này không phù hợp.

Em này không chịu cố.

Nhưng nếu nhìn lại, đôi khi có một câu chuyện khác:

Tín hiệu đã có.

Người lớn chỉ không nghe được, không gặp nhau, không có quy trình, hoặc không đủ thời gian để hành động.

Đây là nơi EdTech có một giá trị thật:

Dữ liệu sớm có thể giúp người lớn thấy vấn đề trước khi nó thành thất bại chính thức.

Nhưng cũng chính ở đây, EdTech có một rủi ro rất lớn:

Thấy sớm không đồng nghĩa giúp sớm.

Một dashboard đỏ không phải can thiệp.

Một mô hình dự đoán không phải chăm sóc.

Một nhãn “at risk” không phải lời giải thích.

Một email nhắc học không phải hỗ trợ.

Một cảnh báo tự động không phải quan hệ.

Phe dữ liệu nói:

“Nếu không thấy sớm, chúng ta để học sinh rơi.”

Phe công bằng hỏi:

“Nếu thấy sớm rồi dán nhãn sai, ta có làm học sinh rơi nhanh hơn không?”

Phe quản lý nói:

“Hệ thống cần tín hiệu.”

Phe giáo viên nói:

“Tín hiệu mà không có thời gian can thiệp chỉ làm tôi tội lỗi hơn.”

Phe phụ huynh nói:

“Tôi muốn biết sớm.”

Phe học sinh nói:

“Nhưng tôi không muốn bị biến thành hồ sơ rủi ro.”

Chương này nằm trong mâu thuẫn đó.

Dữ liệu sớm đáng dùng nhất khi nó làm người lớn chịu trách nhiệm sớm hơn.

Nó nguy hiểm nhất khi nó làm hệ thống phán xét sớm hơn.

1. Cảnh mở: dashboard đỏ

Một buổi sáng thứ Hai.

Giáo viên chủ nhiệm mở dashboard.

Tên một học sinh chuyển sang màu đỏ.

“Risk level: high.”

Lý do:

Vắng 4 buổi trong 3 tuần.

Thiếu 2 bài nộp.

Điểm quiz toán giảm.

Không đăng nhập LMS 8 ngày.

Hệ thống gợi ý:

“Send automated reminder.”

Giáo viên bấm vào hồ sơ.

Em từng là học sinh khá.

Hai tuần gần đây im hơn.

Bạn thân chuyển lớp.

Mẹ em vừa đổi ca làm.

Nhà mất mạng mấy ngày.

Em không đăng nhập vì dùng tài liệu in.

Hai bài thiếu không phải vì lười, mà vì em không hiểu cách nộp file trên điện thoại.

Quiz toán giảm vì bài mới xây trên một phần em đã hổng từ tháng trước.

Dashboard đúng ở một việc:

Có chuyện cần chú ý.

Dashboard sai nếu nó nghĩ mình đã hiểu chuyện đó.

Một người quản lý nhìn màu đỏ có thể nói:

“Hệ thống hoạt động. Nó phát hiện học sinh rủi ro.”

Một giáo viên tốt sẽ nói:

“Hệ thống chỉ mới chỉ vào cửa. Tôi phải bước vào.”

Đây là khác biệt giữa early warning và early labeling.

Early warning hỏi:

Điều gì đang xảy ra, và ai sẽ hỗ trợ?

Early labeling nói:

Học sinh này là rủi ro.

Một chữ khác nhau.

Một đời sống khác nhau.

2. Phe dữ liệu nói đúng: nhiều thất bại có dấu vết trước khi thành thất bại

Phe dữ liệu không vô cảm.

Ngược lại, họ thường bắt đầu từ một nỗi bực rất nhân văn:

Tại sao ta biết quá muộn?

Tại sao cuối kỳ mới biết học sinh rớt?

Tại sao cuối năm mới biết thiếu tín chỉ?

Tại sao sau khi sinh viên bỏ môn mới biết họ đã ngừng tham gia từ tuần thứ ba?

Tại sao học sinh nghỉ rải rác nhiều tuần mà không ai gom lại thành mẫu hình?

Tại sao mỗi giáo viên biết một mảnh, nhưng không ai thấy bức tranh?

Một hệ thống giáo dục lớn không thể chỉ vận hành bằng trực giác.

Trực giác giáo viên rất quý, nhưng không bao phủ hết.

Một giáo viên có thể nhận ra học sinh trong lớp mình đang thay đổi.

Nhưng học sinh học nhiều môn, nhiều lớp, nhiều nền tảng.

Một cố vấn có thể biết chuyện gia đình.

Nhưng không biết điểm quiz tuần này.

Một giáo viên bộ môn biết học sinh không nộp bài.

Nhưng không biết em vắng ba buổi ở môn khác.

Dữ liệu sớm có thể nối các mảnh lại.

Một trong những khung nổi tiếng nhất là ABC:

Attendance.

Behavior.

Course performance.

What Works Clearinghouse/Institute of Education Sciences khuyến nghị trường tổ chức và phân tích dữ liệu để nhận diện học sinh vắng học, có vấn đề hành vi, hoặc gặp khó khăn trong môn học, vì đây là các chỉ báo sớm liên quan tới nguy cơ bỏ học.

Balfanz, Herzog và Mac Iver, trong nghiên cứu theo dõi gần 13.000 học sinh đô thị từ 1996 đến 2004, cho thấy bốn chỉ báo ở lớp 6 liên quan tới attendance, misbehavior và course failure có thể nhận diện khoảng 60% học sinh sau này không tốt nghiệp trung học.

Những dữ liệu này không phải lời tiên tri.

Chúng là tiếng gõ cửa.

Phe dữ liệu nói:

“Nếu học sinh đang rời khỏi trường từng chút một, ta cần nghe tiếng rời đi đó trước khi cửa đóng.”

Đây là một lập luận mạnh.

Phản dữ liệu một cách tuyệt đối sẽ khiến hệ thống quay lại may rủi:

ai được giáo viên để ý thì được giúp,

ai im lặng thì biến mất.

Dữ liệu sớm có thể làm sự im lặng hiện ra.

Nhưng làm hiện ra chỉ là bước đầu.

3. Attendance: vắng mặt là tín hiệu mất kết nối, không chỉ thiếu kỷ luật

Attendance là chỉ báo nghe đơn giản nhất.

Có mặt.

Vắng.

Vắng có phép.

Vắng không phép.

Nhưng đằng sau một dòng vắng có rất nhiều nguyên nhân.

Một học sinh bị ốm.

Một học sinh chăm em.

Một học sinh làm thêm.

Một học sinh bị bắt nạt.

Một học sinh không có tiền đi xe.

Một học sinh trầm cảm.

Một học sinh thấy lớp học không an toàn.

Một học sinh không hiểu bài nên tránh môn đó.

Một học sinh đổi chỗ ở.

Một học sinh mất niềm tin rằng trường còn dành cho mình.

Phe kỷ luật nói:

“Vắng nhiều là phải xử lý.”

Có lúc đúng.

Nhà trường cần chuẩn.

Đi học đều là điều kiện học tập.

Nhưng phe chăm sóc hỏi:

“Xử lý bằng phạt hay bằng tìm nguyên nhân?”

Cùng một dữ liệu attendance có thể dẫn tới hai đường:

Đường thứ nhất:

Học sinh vắng nhiều -> cảnh báo -> nhắc nhở -> phạt -> học sinh xa trường hơn.

Đường thứ hai:

Học sinh vắng nhiều -> gọi hỏi -> tìm nguyên nhân -> hỗ trợ đi lại, học bù, tư vấn, trao đổi gia đình, điều chỉnh nhiệm vụ -> học sinh được kéo lại.

Early warning có đạo đức khi nó chọn đường thứ hai.

Nhưng dashboard không tự chọn.

Người lớn chọn.

Và người lớn chỉ chọn được nếu có thời gian, nguồn lực, quyền hành động và văn hóa không đổ lỗi quá nhanh.

Nếu không, dữ liệu attendance chỉ làm kỷ luật chính xác hơn.

Không làm giáo dục nhân bản hơn.

4. Behavior: dữ liệu về học sinh hay dữ liệu về cách người lớn nhìn học sinh?

Behavior là nhóm dữ liệu nguy hiểm nhất trong early warning.

Referral.

Suspension.

Vi phạm nội quy.

Ghi chú hành vi.

Xung đột.

Không tham gia.

Mất tập trung.

“Không hợp tác”.

Phe early warning nói:

“Hành vi là chỉ báo rủi ro. Không thể bỏ qua.”

Đúng.

Một học sinh liên tục bị kỷ luật có thể cần hỗ trợ.

Một học sinh mất kết nối xã hội có thể đang rời trường.

Một học sinh bùng nổ cảm xúc có thể đang mang vấn đề lớn hơn.

Nhưng phe công bằng hỏi:

“Dữ liệu hành vi có khách quan không?”

Không hoàn toàn.

Dữ liệu hành vi là dữ liệu về hành vi của học sinh.

Nhưng cũng là dữ liệu về cách người lớn diễn giải hành vi.

Hai học sinh làm cùng một việc có thể bị ghi nhận khác nhau tùy giới, chủng tộc, giai cấp, ngôn ngữ, khuyết tật, danh tiếng trước đó, hoặc quan hệ với giáo viên.

Một học sinh ADHD có thể bị ghi “không tập trung”.

Một học sinh gặp sang chấn có thể bị ghi “chống đối”.

Một học sinh không hiểu ngôn ngữ lớp học có thể bị ghi “không hợp tác”.

Một học sinh nghèo đến muộn vì phương tiện có thể bị đọc như thiếu trách nhiệm.

Nếu đưa behavior vào mô hình mà không kiểm tra bias, ta có thể tự động hóa định kiến.

OECD trong chương về algorithmic bias của Digital Education Outlook 2023 nhấn mạnh bias thuật toán có thể xuất hiện khi hệ thống học từ dữ liệu xã hội đã thiên lệch, tạo ra dự đoán hoặc suy luận phân biệt đối xử với một số nhóm. Giáo dục đặc biệt nhạy cảm vì dự đoán có thể ảnh hưởng tới kỳ vọng, cơ hội và can thiệp.

Phe dữ liệu phản biện:

“Nhưng nếu bỏ behavior, ta bỏ qua nhiều tín hiệu quan trọng.”

Đúng.

Không nên bỏ.

Nhưng phải đọc với nghi ngờ.

Early warning tốt phải hỏi:

Nhóm nào bị ghi nhận hành vi nhiều hơn?

Có khác biệt giữa giáo viên/lớp/trường không?

Loại hành vi nào được ghi?

Ghi nhận có kèm bối cảnh không?

Học sinh có quyền giải thích không?

Có dữ liệu hỗ trợ khác không?

Can thiệp là hỗ trợ hay trừng phạt?

Dữ liệu hành vi có thể giúp.

Nhưng chỉ khi ta nhớ nó không phải gương trong suốt.

Nó là gương có dấu tay của người cầm.

5. Course performance: điểm số là tín hiệu gần học tập hơn, nhưng vẫn chưa phải sự thật toàn bộ

Course performance thường là nhóm dữ liệu mạnh:

điểm bài kiểm tra,

điểm môn,

rớt môn,

tín chỉ,

bài nộp,

GPA.

Nó gần hơn với điều kiện lên lớp, tốt nghiệp, đi tiếp.

UChicago Consortium phát triển chỉ báo Freshman OnTrack: học sinh lớp 9 được xem là on-track nếu đạt ít nhất 5 credits và không rớt quá một semester F ở môn lõi trong năm đầu trung học. Nghiên cứu của Consortium cho thấy học sinh on-track có khả năng tốt nghiệp bốn năm cao hơn hơn ba lần rưỡi so với học sinh off-track, và chỉ báo này dự đoán tốt nghiệp chính xác hơn điểm kiểm tra trước đó hoặc đặc điểm nền của học sinh.

Đây là một ví dụ mạnh về dữ liệu sớm được dùng đúng cách.

Điểm đặc biệt không phải chỉ là chỉ báo dự đoán.

Mà là chỉ báo đủ rõ để người lớn hành động.

Không phải nói chung chung:

“Học sinh này có nguy cơ.”

Mà là:

“Học sinh lớp 9 này đang thiếu tín chỉ hoặc rớt môn lõi; nếu không hành động ngay, cơ hội tốt nghiệp giảm mạnh.”

UChicago Consortium cũng ghi nhận chương trình tập trung vào Freshman OnTrack ở Chicago không chỉ thay đổi dữ liệu, mà thay đổi trọng tâm người lớn: trường theo dõi attendance và grades, tìm hiểu nguyên nhân, tạo can thiệp như gọi về nhà, tutoring, homework help, credit recovery. Báo cáo Preventable Failure cho thấy cải thiện on-track được duy trì và đi cùng tăng graduation rates; lợi ích đặc biệt lớn ở nhóm học sinh có kỹ năng đầu vào thấp.

Phe dữ liệu có quyền nói:

“Đây là ví dụ dữ liệu sớm giúp chuyển hệ thống từ chờ thất bại sang quản lý phòng ngừa.”

Đúng.

Nhưng phe công bằng vẫn hỏi:

“Điểm số đến từ đâu?”

Điểm có thể bị ảnh hưởng bởi chất lượng đề, rubric, giáo viên, chính sách late work, bài không accessible, thiết bị, ngôn ngữ, môi trường gia đình.

Một học sinh điểm thấp có thể không hiểu bài.

Cũng có thể không nộp được bài trên app.

Không có mạng.

Không hiểu yêu cầu.

Không có không gian học.

Bị chấm bằng tiêu chí không được dạy.

Bị deadline phạt nặng hơn nội dung.

Vậy course performance là tín hiệu rất quan trọng.

Nhưng không được đọc như bản chất học sinh.

Nó phải là lời mời điều tra:

Em đang hổng gì?

Bài đánh giá có đo đúng không?

Em cần hỗ trợ học thuật, kỹ thuật, ngôn ngữ, tài chính, hay quan hệ?

Nếu điểm số dẫn tới tutoring, revision, hỗ trợ, nó tốt.

Nếu điểm số dẫn tới kỳ vọng thấp, nó hại.

6. LMS interaction: dữ liệu mới, cám dỗ mới

Học online và blended learning tạo ra một lớp dữ liệu dày:

đăng nhập,

click,

xem video,

pause,

download,

comment,

quiz attempt,

hint usage,

time-on-task,

module completion,

forum post,

submission timestamp.

Phe learning analytics nói:

“Đây là dấu vết học tập. Nếu phân tích tốt, ta có thể hỗ trợ người học sớm hơn.”

Có phần đúng.

Trong môi trường online, giáo viên không nhìn thấy ánh mắt, dáng ngồi, sự im lặng theo cùng cách lớp trực tiếp.

Dữ liệu LMS có thể là tín hiệu thay thế một phần.

Nếu một sinh viên không đăng nhập tuần thứ ba, có thể cần check-in.

Nếu một học viên dừng ở bài đầu tiên, có thể onboarding có vấn đề.

Nếu nhiều người pause cùng một đoạn video, có thể đoạn đó khó.

Nếu nhiều người dùng hint ở cùng bước, có thể bài tập cần dạy lại.

Nhưng phe sư phạm hỏi:

“Click có phải học không?”

Không.

Đăng nhập không phải học.

Thời lượng xem không phải chú ý.

Comment không phải hiểu.

Completion không phải mastery.

Không đăng nhập không phải không học, nếu người học dùng tài liệu offline.

Đăng nhập nhiều không phải học tốt, nếu người học lạc trong hệ thống.

Một học sinh có thể ít click vì đã hiểu nhanh.

Một học sinh khác nhiều click vì không biết tìm gì.

Một học sinh xem lại video nhiều lần vì chăm học.

Một hệ thống khác có thể đọc đó là “khó khăn”.

Dữ liệu LMS là tín hiệu mờ.

Nó cần được kết hợp với dữ liệu khác và với con người.

Jisc Code of Practice for Learning Analytics nhấn mạnh learning analytics nên dùng vì lợi ích của sinh viên, cần minh bạch về mục tiêu, dữ liệu, chỉ số, quyền truy cập, cách diễn giải; các thuật toán và metric dùng cho dự đoán/can thiệp phải được hiểu, kiểm định và xem xét bởi người có chuyên môn; analytics có thể không bao giờ cho bức tranh hoàn chỉnh về một cá nhân và có thể bỏ qua hoàn cảnh cá nhân.

Đây là phanh cần thiết.

Learning analytics không phải kính nhìn xuyên tâm hồn người học.

Nó là bộ tín hiệu hạn chế, cần được diễn giải.

7. Early warning system không phải dashboard, mà là quy trình

Một trong những lỗi lớn nhất là mua dashboard early warning rồi tưởng đã có early warning system.

Không.

Dashboard là một màn hình.

Early warning system là một quy trình trách nhiệm.

American Institutes for Research mô tả EWIMS, Early Warning Intervention and Monitoring System, như một quy trình dùng dữ liệu để nhận diện học sinh có nguy cơ không tốt nghiệp đúng hạn, gán học sinh vào can thiệp và theo dõi phản ứng với can thiệp. Quy trình có nhiều bước: thiết lập vai trò/trách nhiệm, dùng công cụ dữ liệu, xem dữ liệu, diễn giải dữ liệu, gán và cung cấp can thiệp, theo dõi tiến độ, đánh giá và cải tiến quy trình.

Đây là khác biệt rất lớn.

Một dashboard đỏ không tự gọi điện.

Không ngồi với học sinh.

Không hỏi vì sao em nghỉ.

Không dạy lại phân số.

Không sửa lịch làm thêm.

Không giúp phụ huynh hiểu tình hình.

Không tìm mentor.

Không tạo cảm giác thuộc về.

Không kiểm tra xem intervention có tác dụng không.

Nó chỉ báo hiệu.

Phe công nghệ nói:

“Chúng tôi cung cấp cảnh báo.”

Phe trường học phải hỏi:

“Ai chịu trách nhiệm sau cảnh báo?”

Nếu không trả lời được, hệ thống chỉ sản xuất lo âu.

AIR/REL Midwest từng thực hiện một nghiên cứu tác động EWIMS với 73 trường trung học và hơn 35.000 học sinh lớp 9-10. Kết quả sau một năm cho thấy trường dùng EWIMS có tỷ lệ chronic absence và fail một hoặc nhiều môn thấp hơn nhóm đối chứng. AIR tóm tắt chronic absence ở nhóm EWIMS là 10% so với 14% ở nhóm đối chứng, và fail một hoặc nhiều môn là 21% so với 26%.

Đây là bằng chứng đáng chú ý.

Nhưng đọc cho đúng:

Tác động không đến từ dashboard đơn thuần.

Nó đến từ quy trình nhận diện, gán can thiệp, theo dõi.

Và ngay cả nghiên cứu này cũng cho thấy triển khai đầy đủ không dễ; một số kết quả khác như GPA, credits earned, suspensions chưa thấy tác động rõ sau một năm.

Vậy lập trường không phải:

Early warning là phép màu.

Mà là:

Early warning có thể có giá trị khi nó là hệ thống can thiệp, không phải hệ thống gắn nhãn.

8. Can thiệp sớm cần người, thời gian và lựa chọn hỗ trợ

Phe quản lý đôi khi thích early warning vì nó cho cảm giác điều khiển:

Hệ thống báo ai rủi ro.

Trường can thiệp.

Kết quả cải thiện.

Nhưng giữa “báo” và “can thiệp” là một khoảng rất đắt.

Cần ai đó xem dữ liệu.

Cần họp nhóm.

Cần gọi học sinh.

Cần nói chuyện với phụ huynh.

Cần hiểu nguyên nhân.

Cần tutoring.

Cần cố vấn.

Cần hỗ trợ thiết bị.

Cần hỗ trợ đi lại.

Cần hỗ trợ sức khỏe tâm thần.

Cần hỗ trợ tài chính.

Cần điều chỉnh bài học.

Cần kết nối bạn học.

Cần theo dõi tiếp.

Cần thay đổi điều kiện lớp học.

Một trường có thể có dashboard rất tốt nhưng không có người làm những việc này.

Khi đó dữ liệu sớm chỉ làm nỗi bất lực đến sớm hơn.

Giáo viên nhìn danh sách học sinh rủi ro nhưng không có giờ cố vấn.

Cố vấn học tập nhận quá nhiều cảnh báo.

Phụ huynh không nghe máy.

Không có quỹ hỗ trợ đi lại.

Không có tutor.

Không có quy trình mental health.

Không có người nói ngôn ngữ của gia đình.

Không có authority để đổi deadline hoặc kế hoạch học.

Phe dữ liệu nói:

“Ít nhất ta biết ai cần giúp.”

Phe giáo viên đáp:

“Biết mà không giúp được cũng là một dạng đau.”

Đây là một chi phí đạo đức của datafication.

Nó làm vấn đề hiện ra trước mắt người không đủ quyền giải quyết.

Vậy nếu mua early warning, phải mua cả capacity can thiệp.

Không chỉ license.

Không chỉ dashboard.

Không chỉ model.

Mà là thời gian người lớn, đội hỗ trợ, quy trình, ngân sách, quan hệ và quyền hành động.

Nếu không, early warning chỉ là hệ thống báo cháy trong một tòa nhà không có đội cứu hỏa.

9. Nhãn “at risk”: hỗ trợ hay lời tiên tri tự hoàn thành?

Từ “at risk” nghe trung tính.

Nhưng nó có sức nặng.

Một học sinh được gắn nhãn rủi ro.

Giáo viên nhìn em khác đi.

Phụ huynh lo hơn.

Học sinh có thể thấy mình là vấn đề.

Hệ thống có thể đưa em vào nhóm hỗ trợ thấp kỳ vọng.

Bạn bè có thể biết.

Nhãn có thể giúp huy động hỗ trợ.

Cũng có thể tạo lời tiên tri tự hoàn thành.

Jisc Code of Practice cảnh báo rằng analytics có thể không cho bức tranh hoàn chỉnh về người học và có thể bỏ qua hoàn cảnh cá nhân; các hệ thống cần giảm tác động bất lợi, tránh việc categorisation hoặc labeling làm thiên lệch cách nhân viên, sinh viên, tổ chức nhìn người học, củng cố thái độ phân biệt hoặc tăng chênh lệch quyền lực.

Đây là cảnh báo rất trực tiếp.

Phe hỗ trợ nói:

“Nếu không gắn nhãn, làm sao ưu tiên nguồn lực?”

Đúng.

Một hệ thống lớn cần phân loại để hành động.

Nhưng phe người học hỏi:

“Tôi có quyền biết vì sao bị gắn nhãn không?”

“Tôi có quyền sửa dữ liệu sai không?”

“Nhãn này có hết hạn không?”

“Ai xem được?”

“Nhãn này dẫn tới hỗ trợ hay giảm cơ hội?”

“Tôi có được giải thích không?”

Một nhãn rủi ro có đạo đức phải có vài điều kiện:

Nó phải tạm thời.

Phải giải thích được.

Phải sửa được.

Phải gắn với hỗ trợ cụ thể.

Phải phân quyền truy cập.

Phải được xem xét lại.

Phải không dùng để hạ kỳ vọng.

Phải cho người học có tiếng nói.

Nếu không, “at risk” không còn là tín hiệu hỗ trợ.

Nó trở thành một danh tính hành chính.

10. Quyền riêng tư: dữ liệu sớm thường là dữ liệu nhạy cảm

Early warning càng tốt càng dễ cần dữ liệu nhiều chiều.

Attendance.

Grades.

Behavior.

LMS activity.

Demographics.

Financial aid.

Disability supports.

Language background.

Housing instability.

Mental health notes.

Family contact.

Transport.

Device access.

Mỗi dữ liệu có thể giúp hiểu nguyên nhân.

Mỗi dữ liệu cũng có thể xâm phạm quyền riêng tư nếu dùng sai.

Phe can thiệp nói:

“Nếu không biết hoàn cảnh, chúng tôi không thể giúp đúng.”

Đúng.

Phe quyền riêng tư đáp:

“Biết để giúp không đồng nghĩa mọi người đều được biết.”

Early warning cần data minimisation.

Thu đủ để hỗ trợ, không thu mọi thứ vì tương lai có thể cần.

Cần purpose limitation.

Dữ liệu dùng để hỗ trợ học tập không tự động được dùng cho discipline, marketing, policing, immigration, tuyển dụng, hay scoring ngoài giáo dục.

Cần role-based access.

Giáo viên bộ môn không cần biết mọi chi tiết gia đình.

Vendor không cần giữ dữ liệu lâu hơn hợp đồng.

Phụ huynh không cần thấy mọi chỉ số hành vi nhỏ.

Cần transparency.

Học sinh và gia đình biết dữ liệu nào được dùng, để làm gì, ai xem, cách sửa.

Cần consent hoặc cơ sở pháp lý rõ.

Đặc biệt với special category data.

Jisc nhấn mạnh học sinh nên được giải thích mục tiêu, nguồn dữ liệu, chỉ số, người truy cập, cách diễn giải; consent cần rõ và có ý nghĩa; học sinh có quyền truy cập dữ liệu/analytics về mình và sửa dữ liệu cá nhân không chính xác.

Trong giáo dục phổ thông, consent phức tạp hơn vì học sinh nhỏ tuổi và trường có quyền bắt buộc một số quy trình.

Chính vì vậy, nghĩa vụ bảo vệ càng cao.

Không thể lấy câu “vì lợi ích học sinh” để mở mọi cửa dữ liệu.

11. Algorithmic bias: mô hình học từ quá khứ có thể kéo quá khứ vào tương lai

Một mô hình dự đoán rủi ro học từ dữ liệu quá khứ.

Nếu quá khứ chứa bất công, mô hình có thể học bất công.

Nếu học sinh nghèo từng bỏ học nhiều hơn vì thiếu hỗ trợ, mô hình có thể dự đoán học sinh nghèo rủi ro hơn.

Nếu học sinh khuyết tật từng bị chấm thấp vì bài đánh giá không accessible, mô hình có thể xem họ là rủi ro học tập.

Nếu học sinh nhóm thiểu số từng bị kỷ luật nhiều hơn vì bias, dữ liệu behavior sẽ kéo bias vào dự đoán.

Nếu học sinh không đăng nhập vì thiếu thiết bị, mô hình có thể xem họ thiếu động lực.

Phe kỹ thuật nói:

“Chúng tôi không dùng race/gender/disability trong model, nên không bias.”

Phe công bằng đáp:

“Proxy vẫn tồn tại.”

Mã vùng, trường, loại thiết bị, attendance, behavior, language, financial aid, internet access, course placement, tất cả có thể trở thành proxy.

OECD nhấn mạnh algorithmic bias trong giáo dục có thể đến từ nhiều nguồn, và việc thiếu dữ liệu về nhóm cũng có thể cản trở phát hiện bias. Nói cách khác, bài toán khó: cần đủ dữ liệu để kiểm tra công bằng, nhưng cũng phải bảo vệ quyền riêng tư và tránh dùng dữ liệu nhạy cảm sai mục đích.

Đây là mâu thuẫn thật.

Không thu dữ liệu nhóm nào có thể khiến bias vô hình.

Thu dữ liệu nhóm nhưng quản trị kém có thể làm người học bị phơi bày.

Giải pháp không phải né tránh.

Giải pháp là governance nghiêm túc:

kiểm định model theo nhóm,

giải thích biến đầu vào,

theo dõi false positive/false negative,

kiểm tra tác động của can thiệp,

cho phép con người phản biện,

không dùng mô hình như quyết định cuối,

đánh giá lại định kỳ,

và có người chịu trách nhiệm khi hệ thống sai.

Mô hình không nên được tin vì nó phức tạp.

Nó phải được kiểm tra vì nó phức tạp.

12. False positive và false negative: hai cách làm hại người học

Một hệ thống early warning có thể sai theo hai hướng.

False positive:

Nó đánh dấu học sinh rủi ro dù em không cần can thiệp đó.

Hậu quả:

Em bị gắn nhãn.

Nguồn lực hỗ trợ bị dùng sai.

Giáo viên nhìn em qua lăng kính rủi ro.

Em bị kéo vào can thiệp không phù hợp.

False negative:

Nó không đánh dấu học sinh thật sự cần giúp.

Hậu quả:

Em tiếp tục rơi.

Người lớn tưởng em ổn.

Can thiệp đến muộn.

Phe dữ liệu thường nói về accuracy.

Nhưng trong giáo dục, cần hỏi thêm:

Sai kiểu nào tệ hơn trong bối cảnh này?

Nếu can thiệp nhẹ, nhân văn, không kỳ thị, false positive có thể chấp nhận hơn.

Ví dụ: giáo viên check-in thân thiện với vài học sinh.

Nếu can thiệp nặng, làm lộ thông tin, dán nhãn, hạn chế cơ hội, false positive rất nguy hiểm.

Nếu false negative nhiều ở nhóm yếu thế, hệ thống có vẻ “công bằng” trên trung bình nhưng bỏ rơi người cần nhất.

Vậy đánh giá early warning không chỉ là model performance.

Nó là harm analysis.

Can thiệp sau cảnh báo là gì?

Nhãn có bị lộ không?

Nguồn lực có đủ không?

Sai lầm có sửa được không?

Học sinh có quyền phản hồi không?

Nếu một hệ thống chỉ báo rủi ro mà không hiểu chi phí của sai lầm, nó chưa sẵn sàng cho giáo dục.

13. Khi dữ liệu làm người lớn chịu trách nhiệm, không chỉ học sinh

Một early warning system tốt không chỉ hỏi:

Học sinh nào rủi ro?

Nó hỏi:

Tổ chức nào đang tạo rủi ro?

Nếu nhiều học sinh rớt cùng một môn, có thể vấn đề không chỉ nằm ở học sinh.

Nếu nhiều học sinh bỏ học sau tuần thứ ba của khóa online, onboarding có vấn đề.

Nếu một lớp có completion thấp hơn nhiều lớp khác, có thể workload, thiết kế bài, lịch, giáo viên, hoặc nền tảng có vấn đề.

Nếu học sinh dùng điện thoại cũ không nộp bài được, app có vấn đề.

Nếu học sinh ngôn ngữ thứ hai bị cảnh báo nhiều hơn, tài liệu hoặc hỗ trợ ngôn ngữ có vấn đề.

Nếu học sinh khuyết tật ít đăng nhập hơn, accessibility có vấn đề.

Phe quản lý đôi khi dùng dữ liệu để nhìn xuống học sinh.

Early warning tốt phải dùng dữ liệu để nhìn cả hệ thống.

Không chỉ:

“Em không tham gia.”

Mà:

“Chúng ta đã thiết kế môi trường tham gia như thế nào?”

Không chỉ:

“Em rớt môn.”

Mà:

“Môn này đang làm bao nhiêu học sinh rớt, ở điểm nào, vì sao?”

Không chỉ:

“Em inactive.”

Mà:

“Hệ thống có làm em vào được không?”

Khi dữ liệu chỉ làm học sinh chịu trách nhiệm, nó dễ trở thành công cụ đổ lỗi.

Khi dữ liệu làm người lớn và tổ chức chịu trách nhiệm, nó có thể trở thành công cụ công bằng.

14. Thiết kế early warning đáng dùng

Một hệ thống dữ liệu sớm đáng dùng cần vài nguyên tắc.

Thứ nhất, mục đích phải là hỗ trợ, không phải trừng phạt.

Mọi người dùng hệ thống phải hiểu điều này.

Thứ hai, cảnh báo phải gắn với can thiệp cụ thể.

Không cảnh báo nếu không có ai chịu trách nhiệm xem và hành động.

Thứ ba, chỉ báo phải đơn giản đủ để giáo viên hiểu, nhưng đủ giàu để không đơn giản hóa con người.

ABC có sức mạnh vì rõ.

Nhưng cần dữ liệu bối cảnh để hành động đúng.

Thứ tư, dữ liệu phải được kiểm tra bias.

Đặc biệt với behavior, attendance, LMS activity.

Thứ năm, học sinh phải có quyền biết và phản hồi.

Không phải mọi chi tiết model, nhưng phải hiểu vì sao có can thiệp và có quyền sửa dữ liệu sai.

Thứ sáu, nhãn phải tạm thời.

Rủi ro là trạng thái cần hỗ trợ, không phải danh tính.

Thứ bảy, privacy phải được thiết kế từ đầu.

Thu tối thiểu, phân quyền, retention rõ, không dùng lại sai mục đích.

Thứ tám, dữ liệu phải quay lại người có thể hành động.

Không chỉ lên báo cáo cấp trên.

Thứ chín, hệ thống phải đo tác động can thiệp, không chỉ độ chính xác dự đoán.

Người học có tiến bộ không?

Can thiệp nào hiệu quả với ai?

Tác động có khác theo nhóm không?

Thứ mười, hệ thống phải nhìn cả vấn đề tổ chức.

Không chỉ học sinh rủi ro.

Môn học, lịch, thiết kế, accessibility, workload, chính sách cũng có thể tạo rủi ro.

Nếu một early warning system không có các nguyên tắc này, nó chưa phải hệ thống can thiệp sớm.

Nó chỉ là máy tạo nhãn sớm.

15. Benchmark đúng: không phải dự đoán chuẩn, mà giúp đúng

Benchmark của early warning không nên chỉ là:

Accuracy.

AUC.

Precision.

Recall.

Số cảnh báo.

Tỷ lệ học sinh được gắn cờ.

Các chỉ số này cần.

Nhưng không đủ.

Benchmark giáo dục phải hỏi:

Cảnh báo có đến đủ sớm để còn hành động không?

Ai xem cảnh báo?

Bao lâu sau có người liên hệ?

Can thiệp nào được cung cấp?

Học sinh có được hỏi nguyên nhân không?

Dữ liệu sai có được sửa không?

False positive có gây hại không?

False negative rơi vào nhóm nào?

Học sinh được gắn cờ có tiến bộ không?

Chronic absence, course failure, dropout, wellbeing có cải thiện không?

Giáo viên có thêm workload không?

Phụ huynh có nhận thông tin đúng ngữ cảnh không?

Học sinh có cảm thấy được hỗ trợ hay bị giám sát?

Model có được audit theo nhóm không?

Nhãn rủi ro có hết hạn không?

Nếu một hệ thống dự đoán rất chuẩn nhưng trường không có can thiệp, nó không đạt benchmark giáo dục.

Nếu một hệ thống dự đoán vừa phải nhưng giúp người lớn hỏi đúng người, đúng lúc, bằng cách ít gây hại, nó có thể đáng giá hơn.

Trong giáo dục, mục tiêu không phải biết tương lai.

Mục tiêu là thay đổi tương lai.

16. Lập trường của chương này

Dữ liệu sớm là một trong những giá trị thật của EdTech.

Không nên phủ nhận.

Nhiều học sinh bị phát hiện quá muộn.

Nhiều giáo viên biết một mảnh nhưng không có bức tranh.

Nhiều hệ thống chỉ phản ứng sau thất bại.

Attendance, behavior, course performance, LMS signals, nếu được dùng cẩn trọng, có thể giúp người lớn hành động sớm hơn.

Nhưng dữ liệu sớm chỉ có đạo đức khi nó dẫn tới hỗ trợ sớm.

Nếu không, nó chỉ là giám sát sớm.

Phe dữ liệu đúng khi nói:

Không nhìn thấy gì là bỏ mặc.

Phe quyền riêng tư đúng khi nói:

Nhìn thấy quá nhiều cũng có thể xâm phạm.

Phe giáo viên đúng khi nói:

Cảnh báo không kèm thời gian can thiệp là thêm gánh nặng.

Phe học sinh đúng khi nói:

Tôi không muốn là một nhãn rủi ro.

Phe công bằng đúng khi nói:

Mô hình học từ quá khứ bất công có thể kéo bất công vào tương lai.

Vậy lập trường hợp lý là:

Hãy dùng dữ liệu sớm.

Nhưng dùng nó như lời mời chăm sóc, không như bản án.

Hãy xây early warning system.

Nhưng nhớ system là con người, quy trình, quyền, can thiệp và học từ sai lầm, không chỉ dashboard.

Hãy dự đoán.

Nhưng đo cả việc dự đoán đó có giúp ai không.

Hãy gắn cờ.

Nhưng cờ phải dẫn tới tay người giúp, không dẫn tới con dấu.

Một hệ thống dữ liệu tốt nhất không phải hệ thống biết ai sẽ thất bại.

Nó là hệ thống làm người lớn hành động đủ sớm để câu dự đoán ấy không thành sự thật.

Ghi chú nguồn và gợi ý đọc tiếp

1. Institute of Education Sciences / What Works Clearinghouse, Preventing Dropout in Secondary Schools. Nguồn cho khuyến nghị dùng dữ liệu attendance, behavior, course performance để nhận diện học sinh có nguy cơ và tổ chức can thiệp. Nguồn: https://ies.ed.gov/ncee/wwc/PracticeGuide/24

2. Robert Balfanz, Liza Herzog và Douglas J. Mac Iver, Preventing Student Disengagement and Keeping Students on the Graduation Path in Urban Middle-Grades Schools: Early Identification and Effective Interventions (Educational Psychologist, 2007). Nghiên cứu theo dõi gần 13.000 học sinh, cho thấy các chỉ báo attendance, behavior và course failure ở lớp 6 có thể nhận diện khoảng 60% học sinh sau này không tốt nghiệp. Nguồn: https://doi.org/10.1080/00461520701621079

3. UChicago Consortium, The On-Track Indicator as a Predictor of High School Graduation (2005). Nguồn cho Freshman OnTrack: học sinh lớp 9 on-track nếu đạt đủ credits và không rớt quá một semester F trong môn lõi; học sinh on-track có khả năng tốt nghiệp bốn năm cao hơn hơn 3,5 lần so với off-track. Nguồn: https://consortium.uchicago.edu/publications/track-indicator-predictor-high-school-graduation

4. UChicago Consortium, Preventable Failure: Improvements in Long-Term Outcomes When High Schools Focused on the Ninth Grade Year (2014). Nguồn cho case Chicago: dùng dữ liệu on-track để thay đổi trọng tâm người lớn, tạo can thiệp như gọi về nhà, tutoring, homework help, credit recovery; cải thiện on-track đi cùng tăng graduation rates và lợi ích lớn với học sinh có kỹ năng đầu vào thấp. Nguồn: https://consortium.uchicago.edu/publications/preventable-failure-improvements-long-term-outcomes-when-high-schools-focused-ninth

5. American Institutes for Research, New Study Shows Early Warning Intervention and Monitoring System Helps Get Students on Path to Graduation (2017). Nguồn tóm tắt nghiên cứu RCT EWIMS với 73 trường và hơn 35.000 học sinh lớp 9-10; sau một năm chronic absence và course failure thấp hơn nhóm đối chứng. Nguồn: https://www.air.org/news/press-release/new-study-shows-early-warning-intervention-and-monitoring-system-helps-get

6. American Institutes for Research, Early Warning Intervention and Monitoring System tài liệu quy trình. Nguồn cho cách hiểu EWIMS như hệ thống gồm vai trò/trách nhiệm, dữ liệu, diễn giải, gán can thiệp, theo dõi tiến độ và cải tiến, không phải chỉ dashboard. Nguồn: https://www.air.org/project/early-warning-intervention-and-monitoring-system-ewims

7. Jisc, Code of practice for learning analytics (2015, cập nhật 2023). Nguồn cho các nguyên tắc responsibility, transparency/consent, privacy, validity, access, enabling positive interventions, minimising adverse impacts, stewardship of data; đặc biệt hữu ích cho cảnh báo về labeling, adverse impacts và quyền sinh viên truy cập/sửa dữ liệu. Nguồn: https://www.jisc.ac.uk/guides/code-of-practice-for-learning-analytics/

8. European Commission, Ethical guidelines on the use of artificial intelligence and data in teaching and learning for educators (2022, cập nhật 2026). Nguồn cho các yêu cầu human agency, transparency, fairness, privacy/data governance, accountability khi dùng AI và dữ liệu trong giáo dục. Nguồn: https://education.ec.europa.eu/focus-topics/digital-education/actions/plan/ethical-guidelines-for-educators-on-using-artificial-intelligence

9. OECD, Algorithmic bias: the state of the situation and policy recommendations, trong Digital Education Outlook 2023. Nguồn cho luận điểm algorithmic bias trong giáo dục có thể học từ dữ liệu xã hội thiên lệch và tạo dự đoán/suy luận gây hại cho nhóm cụ thể; cần có dữ liệu và governance để phát hiện và xử lý bias. Nguồn: https://www.oecd.org/en/publications/oecd-digital-education-outlook-2023_c74f03de-en/full-report/algorithmic-bias-the-state-of-the-situation-and-policy-recommendations_a0b7cec1.html

10. Rachel Harrison, Shazia R. Hasan, Erica MacCallum và cộng sự, Is Early Alert Effective? (Journal of Learning Analytics). Nguồn cho bối cảnh higher education learning analytics/early alert, nhấn mạnh rủi ro thay đổi theo thời gian và cần phân biệt dự đoán với can thiệp hiệu quả. Nguồn: https://learning-analytics.info/index.php/JLA/article/view/7098