Chương 2: Bằng chứng, thước đo và ảo tưởng dữ liệu

Bối cảnh / Vấn đề

Sau mỗi làn sóng EdTech, câu hỏi thường chuyển rất nhanh từ “công nghệ này hứa gì?” sang “có số liệu chứng minh không?”. Nghe có vẻ hợp lý. Nếu Chương 1 nhắc ta đừng tin vào lời hứa, thì Chương 2 phải đưa ta đến bằng chứng.

Nhưng trong giáo dục, “có số liệu” chưa đủ.

Một nền tảng có thể báo rằng học sinh dành nhiều thời gian hơn trong ứng dụng. Một chatbot có thể làm người học hài lòng hơn trong khảo sát cuối buổi. Một hệ thống adaptive learning có thể tăng điểm bài kiểm tra ngay sau can thiệp. Một khóa học online có thể có hàng trăm nghìn người đăng ký. Một nghiên cứu có thể báo effect size dương và p-value đẹp.

Tất cả những điều đó có thể đúng. Nhưng chúng chưa tự trả lời câu hỏi quan trọng hơn: người học có hiểu sâu hơn không, nhớ lâu hơn không, chuyển kiến thức sang tình huống mới tốt hơn không, tự điều chỉnh tốt hơn không, ít phụ thuộc vào công cụ hơn hay nhiều hơn, và hiệu quả đó có còn sau vài tháng không?

EdTech không thiếu dữ liệu. Nó thiếu kỷ luật đọc dữ liệu.

Trong giáo dục, thước đo nào được chọn sẽ âm thầm định nghĩa thành công. Nếu ta đo số phút dùng app, hệ thống sẽ tối ưu số phút. Nếu ta đo số câu đúng, hệ thống sẽ tối ưu câu đúng. Nếu ta đo tỷ lệ hoàn thành, hệ thống sẽ tối ưu giữ người học đi đến cuối. Nếu ta đo điểm hài lòng, hệ thống sẽ tối ưu cảm giác dễ chịu. Những thứ đó không vô nghĩa. Nhưng không thứ nào, đứng một mình, đồng nghĩa với học tập tốt.

Chương này bàn về cách đọc bằng chứng EdTech mà không bị dữ liệu làm cho say. Không phải để nghi ngờ mọi nghiên cứu. Ngược lại, mục tiêu là dùng nghiên cứu nghiêm túc hơn: hiểu thước đo, thiết kế nghiên cứu, giới hạn của effect size, nguy cơ novelty effect, khoảng trống nghiên cứu dài hạn và cách đưa bằng chứng vào quyết định thật của nhà trường.

Nền tảng lý thuyết

Điểm xuất phát là phân biệt ba câu hỏi thường bị trộn lẫn.

Câu hỏi thứ nhất: công nghệ có được dùng không? Đây là câu hỏi về adoption và engagement. Người học đăng nhập bao nhiêu lần, làm bao nhiêu bài, xem bao nhiêu video, hỏi chatbot bao nhiêu lượt, hoàn thành bao nhiêu phần trăm khóa học.

Câu hỏi thứ hai: công nghệ có làm hoạt động học tốt hơn không? Đây là câu hỏi về cơ chế. Người học có thực hành nhiều hơn không? Phản hồi có nhanh và rõ hơn không? Tải nhận thức ngoại lai có giảm không? Giáo viên có nhìn thấy lỗi phổ biến tốt hơn không? Người học có phải truy hồi, giải thích, sửa sai và phản tư không?

Câu hỏi thứ ba: công nghệ có cải thiện kết quả học tập đáng tin cậy không? Đây là câu hỏi về outcome. Người học có điểm tốt hơn, nhớ lâu hơn, chuyển giao tốt hơn, tự điều chỉnh tốt hơn, tự tin hơn hoặc làm được nhiệm vụ thật tốt hơn không?

Một sản phẩm có thể thắng ở câu hỏi thứ nhất nhưng thua ở câu hỏi thứ hai. Người học dùng nhiều vì app vui, nhưng hoạt động chủ yếu là click nhanh và đoán đáp án. Một sản phẩm có thể thắng ở câu hỏi thứ hai nhưng chưa thắng ngay ở câu hỏi thứ ba. Retrieval practice và interleaving thường làm người học thấy khó hơn trong ngắn hạn, nhưng lại tốt hơn cho ghi nhớ dài hạn và chuyển giao (Brown, Roediger, & McDaniel, 2014).

Đây là lý do e-Learning and the Science of Instruction nhấn mạnh transfer test. Nếu mục tiêu là người học áp dụng được kiến thức trong tình huống mới, thì bài kiểm tra chỉ đo nhớ lại thông tin không đủ (Clark & Mayer, 2024). Trong nhiều bối cảnh EdTech, ta đang đo cái dễ đo nhất thay vì cái đáng đo nhất.

Thiết kế nghiên cứu cũng quan trọng. Một nghiên cứu tương quan có thể cho thấy người dùng nền tảng nhiều hơn có điểm cao hơn. Nhưng điều đó chưa chứng minh nền tảng làm họ giỏi hơn. Có thể học sinh chăm hơn dùng nhiều hơn. Có thể trường giàu hơn triển khai tốt hơn. Có thể giáo viên tốt hơn vừa dùng công nghệ hiệu quả hơn vừa dạy tốt hơn.

Để nói về quan hệ nhân quả, ta cần thiết kế mạnh hơn: randomized controlled trial, quasi-experimental design, nhóm đối chứng phù hợp, kiểm soát attrition, kiểm soát khác biệt ban đầu, đo đúng cấp độ lớp/trường nếu can thiệp diễn ra theo cụm. What Works Clearinghouse tồn tại chính vì giáo dục cần một cách đọc có hệ thống về chất lượng nghiên cứu, không chỉ đọc kết luận của từng bài (WWC, 2022).

ESSA evidence tiers cũng giúp phân biệt các mức “bằng chứng”. Strong evidence thường dựa trên nghiên cứu thực nghiệm được thiết kế và triển khai tốt. Moderate evidence dựa trên quasi-experimental study tốt. Promising evidence dựa trên nghiên cứu tương quan có kiểm soát selection bias. Tier thấp hơn, “demonstrates a rationale”, chỉ nói rằng có logic model và cơ sở nghiên cứu để thử, không có nghĩa đã chứng minh hiệu quả trong triển khai thật (California Department of Education, 2024).

Nói ngắn gọn: “research-based” không giống “evidence-based”. “Có lý thuyết ủng hộ” không giống “đã kiểm định tốt”. “Có effect size dương” không giống “nên mua và triển khai đại trà”.

Thực trạng triển khai

Một cách chia thực dụng đến từ NBER review của Escueta, Quan, Nickow và Oreopoulos. Họ tổng hợp bằng chứng thực nghiệm về EdTech theo bốn nhóm: mở truy cập công nghệ, computer-assisted learning, can thiệp hành vi nhờ công nghệ, và online learning (Escueta et al., 2017).

Cách chia này giúp tránh một lỗi phổ biến: nói “EdTech hiệu quả” hoặc “EdTech không hiệu quả” như thể đó là một loại can thiệp duy nhất. Phát laptop, dùng phần mềm luyện toán, gửi tin nhắn nhắc phụ huynh, học một khóa online tự nhịp và dùng GenAI để phản hồi bài viết là những can thiệp khác nhau. Chúng có cơ chế khác nhau, rủi ro khác nhau và thước đo khác nhau.

Ví dụ, mở truy cập thiết bị có thể là điều kiện cần nhưng không đủ. Nếu học sinh chưa có thiết bị hoặc kết nối, mọi lời nói về AI, học cá nhân hóa hay học online đều xa vời. Nhưng khi thiết bị đã có, kết quả học tập vẫn phụ thuộc vào nội dung, giáo viên, nhiệm vụ, phản hồi và môi trường học. Truy cập là cửa vào, không phải đích đến.

Computer-assisted learning thường có bằng chứng tốt hơn khi nó cung cấp luyện tập có cấu trúc, phản hồi rõ và phù hợp với trình độ người học. Nhưng nó dễ bị thổi phồng khi điểm đo là bài kiểm tra gần với dạng luyện tập. Một hệ thống có thể tăng điểm dạng bài đã luyện mà không chắc tăng năng lực chuyển giao. Đây không phải lỗi nhỏ, vì giáo dục quan tâm đến khả năng dùng kiến thức ngoài màn hình luyện tập.

Can thiệp hành vi nhờ công nghệ, như nhắc lịch, gửi thông tin cho phụ huynh hoặc cảnh báo sớm, lại có cơ chế khác. Nó không trực tiếp dạy kiến thức. Nó thay đổi chú ý, thói quen, kỳ vọng hoặc sự phối hợp giữa các bên. Đo nó bằng cùng thước đo với một tutor thông minh sẽ làm nghèo câu hỏi.

Online learning cũng vậy. Tỷ lệ hoàn thành thấp không tự chứng minh học online kém. Nó có thể phản ánh rằng người học online tự nhịp cần kỹ năng tự điều chỉnh cao hơn, hoặc khóa học không gắn với cộng đồng và hỗ trợ đủ mạnh. Nhưng tỷ lệ đăng ký cao cũng không chứng minh dân chủ hóa giáo dục. Một khóa học có một triệu lượt đăng ký nhưng chỉ một nhóm nhỏ đã có học vấn hoàn thành thì kết quả xã hội rất khác lời hứa ban đầu.

Các nghiên cứu GenAI mới càng cho thấy vì sao phải đọc kỹ. Han, Peng và Liu tổng hợp 68 nghiên cứu thực nghiệm và quasi-experimental từ 2022-2025, với 337 effect sizes. Kết quả tổng thể dương: SMD = 0.45. Nếu dừng ở đây, ta rất dễ viết một câu hào hứng rằng GenAI cải thiện học tập. Nhưng cùng nghiên cứu đó báo heterogeneity rất cao, I2 = 95%, nghĩa là hiệu quả thay đổi mạnh theo bối cảnh, môn học, cấp học, thời lượng và phương pháp nghiên cứu (Han, Peng, & Liu, 2025).

Một meta-analysis khác của Chen và Cheung trên sinh viên đại học báo hiệu ứng tổng thể lớn hơn, g+ = 0.804, với tác động tích cực lên kỹ năng ngôn ngữ, thành tích học thuật, trạng thái động lực-cảm xúc và tư duy bậc cao. Nhưng cùng kết quả cho thấy tác động lên metacognition không có ý nghĩa thống kê (Chen & Cheung, 2025). Đây là chi tiết rất đáng chú ý: một công cụ có thể giúp người học làm tốt hơn trong nhiệm vụ trước mắt nhưng chưa chắc giúp họ tự giám sát việc học tốt hơn.

Liu và cộng sự phân tích 49 bài về GenAI ở K-12 và higher education, thấy effect sizes trung bình dương cho learning achievement và learning motivation. Nhưng họ cũng chỉ ra các moderator như cấp học, môn học, giao diện, cách tương tác và thời lượng thử nghiệm. Đặc biệt, tác động lên motivation có novelty effect: giảm dần theo thời gian (Liu et al., 2025). Một lớp học thấy học sinh hứng thú trong hai tuần đầu dùng chatbot chưa thể kết luận hệ thống tạo động lực học bền vững.

Ngay cả với thứ tưởng như đơn giản hơn, như feedback số, bằng chứng cũng không đơn tuyến. Brummer và cộng sự meta-analysis 116 can thiệp feedback số, thấy hiệu ứng trung bình Hedges' g = 0.41. Nhưng hiệu quả thay đổi theo focus của feedback, môn học, loại đánh giá và learner control. Họ cũng phát hiện khả năng publication bias; sau điều chỉnh trim-and-fill, effect ước tính có thể thấp hơn đáng kể trong phân tích của họ (Brummer et al., 2024).

Thông điệp không phải là “đừng tin meta-analysis”. Thông điệp là phải đọc meta-analysis như một bản đồ địa hình, không như bảng giá. Effect trung bình là điểm khởi đầu. Điều đáng hỏi là núi ở đâu, vực ở đâu, đường nào đi được, người nào đi được, thời tiết nào nguy hiểm.

Phân tích phản biện

Ảo tưởng dữ liệu đầu tiên là nhầm engagement với learning. Engagement quan trọng. Người học không tham gia thì khó học. Nhưng engagement có nhiều loại. Click nhiều không giống suy nghĩ nhiều. Thời gian trên app không giống thời gian tập trung. Trả lời nhanh không giống hiểu sâu. Một giao diện có thể giữ người học ở lại bằng phần thưởng, streak, thông báo và cảm giác tiến bộ giả.

Trong EdTech, engagement thường được đo vì nó sẵn có trong log dữ liệu. Hệ thống biết người học mở trang nào, ở lại bao lâu, bấm gì, dừng ở đâu. Nhưng log dữ liệu không tự nói người học đang xử lý thông tin ở mức nào. Muốn biết học sâu, cần nối log với nhiệm vụ, phản hồi, sản phẩm học tập, phỏng vấn, bài kiểm tra trì hoãn và quan sát sư phạm.

Ảo tưởng thứ hai là nhầm satisfaction với hiệu quả. Người học có thể thích một công cụ vì nó làm bài dễ hơn. Giáo viên có thể thích một công cụ vì nó tạo tài liệu nhanh hơn. Nhà quản lý có thể thích dashboard vì nó làm hệ thống trông có kiểm soát hơn. Nhưng giáo dục đôi khi cần trải nghiệm không hoàn toàn dễ chịu: truy hồi khó, viết lại, nhận phản hồi không thoải mái, phát hiện mình hiểu sai, luyện tập xen kẽ. Nếu chỉ tối ưu hài lòng, ta có thể làm yếu đi những ma sát cần thiết cho học tập.

Ảo tưởng thứ ba là nhầm điểm số ngắn hạn với năng lực bền vững. Một bài post-test ngay sau can thiệp thường đo trí nhớ gần, sự quen dạng hoặc khả năng dùng công cụ trong điều kiện vừa học. Điều đó hữu ích, nhưng không đủ. Nếu muốn biết học tập bền vững, cần delayed post-test, transfer task, nhiệm vụ mở, hoặc bằng chứng người học dùng được kiến thức sau khi hỗ trợ biến mất.

Make It Stick nhấn mạnh rằng nhiều phương pháp học hiệu quả dài hạn lại tạo cảm giác khó hơn ngắn hạn (Brown, Roediger, & McDaniel, 2014). Vì vậy một công nghệ làm người học thấy “mượt” và điểm tức thì tăng chưa chắc tốt hơn một thiết kế buộc người học phải nỗ lực đúng cách.

Ảo tưởng thứ tư là nhầm effect size với quyết định triển khai. Effect size giúp ta thấy độ lớn tương đối của tác động. Nhưng nó không trả lời hết các câu hỏi mà một trường học cần hỏi: chi phí bao nhiêu, giáo viên cần học gì, mất bao lâu để triển khai, dữ liệu nào bị thu thập, có phù hợp lứa tuổi không, có làm tăng bất bình đẳng không, có phụ thuộc nhà cung cấp không, có làm giáo viên mất quyền phán đoán không.

Ngay cả effect size cũng cần đọc cùng confidence interval, heterogeneity, publication bias, sample size, attrition, duration và outcome type. Một effect lớn từ nghiên cứu ngắn, sample nhỏ, do nhóm phát triển sản phẩm thực hiện, đo bài kiểm tra gần với nội dung luyện tập, không có delayed test, không nên được đọc giống effect vừa phải từ nhiều trường, nhiều giáo viên, nhiều tháng triển khai.

Ảo tưởng thứ năm là tin rằng dữ liệu càng nhiều thì quyết định càng tốt. Dữ liệu giáo dục nhiều lên rất nhanh: clickstream, video, audio, lịch sử chỉnh sửa, câu hỏi chatbot, thời gian làm bài, tương tác nhóm. Nhưng dữ liệu nhiều không bảo đảm insight tốt. Dữ liệu có thể nhiễu, thiên lệch, khó giải thích hoặc tạo cảm giác giám sát. Nếu giáo viên nhận một cảnh báo “học sinh có nguy cơ bỏ học” nhưng không biết vì sao, không có nguồn lực can thiệp và không có quyền thay đổi lộ trình, dữ liệu chỉ làm tăng lo lắng.

Điểm đáng sợ nhất của dữ liệu giáo dục không phải là nó sai hoàn toàn. Mà là nó có vẻ đúng vừa đủ để người ta thôi đặt câu hỏi.

Nguyên tắc thiết kế

Để dùng bằng chứng EdTech một cách nghiêm túc, nhà trường, nhà phát triển và người viết chính sách cần một thói quen đọc dữ liệu theo chuỗi câu hỏi.

Một: Outcome là gì? Nếu outcome là điểm bài kiểm tra gần, đừng vội kết luận về hiểu sâu. Nếu outcome là satisfaction, đừng vội kết luận về học tập. Nếu outcome là completion, đừng vội kết luận về năng lực.

Hai: Comparison group là gì? Công nghệ được so với không học, với cách dạy bình thường, với phiên bản không cá nhân hóa, hay với một can thiệp tốt khác? Một công cụ dễ thắng nếu đối thủ là “không có gì”. Nó khó thắng hơn nếu so với giáo viên giỏi dùng phương pháp đã có bằng chứng.

Ba: Can thiệp kéo dài bao lâu? Một tuần hứng thú không giống một học kỳ. Một thử nghiệm trong phòng lab không giống một năm học với giáo viên bận, mạng yếu, học sinh vắng và lịch thi.

Bốn: Người học là ai? Sinh viên đại học tự nguyện khác học sinh trung học bắt buộc. Người đã có nền tảng khác người đang mất gốc. Người học ngôn ngữ khác người học đạo đức, nghệ thuật, lịch sử hay kỹ năng nghề.

Năm: Cơ chế học tập là gì? Công nghệ giúp học vì tăng retrieval, tăng feedback, giảm tải nhận thức, tăng thực hành, hỗ trợ tự điều chỉnh, hay chỉ vì nó mới lạ? Nếu không mô tả được cơ chế, rất khó chuyển kết quả sang bối cảnh khác.

Sáu: Dữ liệu có actionable không? Một dashboard tốt không chỉ hiển thị. Nó giúp người dùng quyết định bước tiếp theo: học sinh cần luyện gì, giáo viên cần can thiệp ra sao, phụ huynh cần hỗ trợ thế nào, nhà trường cần đổi điều kiện gì.

Bảy: Có tác dụng phụ không? Một công cụ tăng điểm nhưng làm người học phụ thuộc, giảm tự giải thích hoặc tăng giám sát có thể không đáng. Một hệ thống cảnh báo sớm có thể giúp can thiệp, nhưng cũng có thể gắn nhãn người học yếu thế.

Tám: Evidence có chuyển thành learning loop không? Evidence-based practice không phải là mua thứ “đã có nghiên cứu” rồi xong. Nó là vòng lặp: chọn mục tiêu, đặt giả thuyết, triển khai nhỏ, đo đúng, hỏi giáo viên/người học, sửa thiết kế, rồi mới mở rộng.

EEF diễn đạt tinh thần này rất thực dụng: dùng công nghệ theo những cách cải thiện việc dạy và học, như tăng chất lượng/thời lượng thực hành hoặc hỗ trợ đánh giá của giáo viên, chứ không dùng công nghệ như vật trang trí hiện đại (EEF, 2019).

Tổng kết chương

Bằng chứng là thứ bảo vệ giáo dục khỏi lời hứa rỗng. Nhưng bằng chứng chỉ làm được việc đó khi ta đọc nó đúng cách.

Chương này đưa ra năm điểm chính. Thứ nhất, dữ liệu không tự định nghĩa học tập; thước đo được chọn sẽ định nghĩa thành công. Thứ hai, adoption, engagement, satisfaction, completion, điểm số, retention và transfer là các tầng khác nhau. Thứ ba, effect size cần đi cùng thiết kế nghiên cứu, bối cảnh, duration, heterogeneity và publication bias. Thứ tư, novelty effect khiến nhiều công nghệ trông hiệu quả trong ngắn hạn hơn thực tế dài hạn. Thứ năm, evidence-based practice là một vòng lặp triển khai, không phải nhãn dán marketing.

Nếu Chương 1 giúp ta bớt tin vào lời hứa, Chương 2 giúp ta bớt say vì biểu đồ. Chương 3 sẽ đi vào nền sâu hơn: con người thật sự học như thế nào. Khi hiểu bộ nhớ, truy hồi, giãn cách, khó khăn đáng giá và ảo tưởng thông thạo, ta sẽ nhìn EdTech bằng một tiêu chuẩn rõ hơn: công nghệ nào làm mạnh cơ chế học tập, công nghệ nào chỉ làm đẹp bề mặt.

Tài liệu tham khảo

Brown, P. C., Roediger III, H. L., & McDaniel, M. A. (2014). Make It Stick: The Science of Successful Learning. Harvard University Press.
Brummer, L., de Boer, H., Mouw, J. M., & Strijbos, J.-W. (2024). A meta-analysis of the effects of context, content, and task factors of digitally delivered instructional feedback on learning performance. Learning Environments Research, 27, 453-476. https://doi.org/10.1007/s10984-024-09501-4
California Department of Education. (2024). Evidence-Based Interventions Under the ESSA. https://www.cde.ca.gov/RE/ES/evidence.asp
Chen, S., & Cheung, A. C. K. (2025). Effect of generative artificial intelligence on university students learning outcomes: A systematic review and meta-analysis. Educational Research Review, 49, 100737. https://doi.org/10.1016/j.edurev.2025.100737
Clark, R. C., & Mayer, R. E. (2024). e-Learning and the Science of Instruction (5th ed.). Wiley.
Education Endowment Foundation. (2019). Using Digital Technology to Improve Learning. https://educationendowmentfoundation.org.uk/education-evidence/guidance-reports/digital/
Escueta, M., Quan, V., Nickow, A. J., & Oreopoulos, P. (2017). Education Technology: An Evidence-Based Review. NBER Working Paper No. 23744. https://doi.org/10.3386/w23744
Han, X., Peng, H., & Liu, M. (2025). The impact of GenAI on learning outcomes: A systematic review and meta-analysis of experimental studies. Educational Research Review, 48, 100714. https://doi.org/10.1016/j.edurev.2025.100714
Liu, X., Guo, B., He, W., & Hu, X. (2025). Effects of generative artificial intelligence on K-12 and higher education students' learning outcomes: A meta-analysis. Journal of Educational Computing Research, 63(5), 1249-1291. https://doi.org/10.1177/07356331251329185
What Works Clearinghouse. (2022). What Works Clearinghouse Procedures and Standards Handbook, Version 5.0. U.S. Department of Education, Institute of Education Sciences. https://ies.ed.gov/ncee/wwc/Handbooks