Chương 31. Bằng chứng nào là đủ?

Khi EdTech bị nghi ngờ, câu trả lời quen thuộc là: “Chúng tôi có nghiên cứu chứng minh.” Khi EdTech được mua sắm, câu hỏi quen thuộc là: “Có evidence-based không?” Khi một sản phẩm thất bại, vendor nói: “Nghiên cứu cho thấy mô hình này hiệu quả, vấn đề là triển khai.” Khi giáo viên phản đối, lãnh đạo nói: “Đây là hướng đã được chứng minh.” Khi nhà nghiên cứu dè dặt, người làm sản phẩm nói: “Nếu cứ đợi bằng chứng hoàn hảo thì trẻ em mất cơ hội.” Cụm từ “bằng chứng” vì thế vừa là công cụ làm rõ, vừa là tấm khiên, vừa là vũ khí.

Chương này bắt đầu từ một mâu thuẫn rất thực tế: giáo dục cần bằng chứng, nhưng giáo dục không thể sống bằng một thứ bằng chứng nghèo. Nếu không cần bằng chứng, ta rơi vào mê tín đổi mới: app mới là tốt, AI mới là tiến bộ, dashboard nhiều là quản trị hay, học sinh thích là học sinh học. Nhưng nếu đòi bằng chứng theo kiểu máy móc, ta lại làm giáo dục tê liệt: chỉ những gì đã được RCT nhiều lần mới được thử, chỉ những gì đo được bằng bài kiểm tra ngắn hạn mới được xem là có giá trị, chỉ những sản phẩm có đội nghiên cứu mạnh mới được tin, và những đổi mới nhỏ trong bối cảnh nghèo không bao giờ có cơ hội tạo evidence.

Vậy “đủ” là gì? Không phải đủ để hết nghi ngờ. Giáo dục nghiêm túc không bao giờ hết nghi ngờ. “Đủ” là đủ cho loại quyết định đang được đưa ra, với mức rủi ro đang chấp nhận, trong bối cảnh người học cụ thể, với chi phí cụ thể, so với lựa chọn thay thế cụ thể, và với cơ chế theo dõi để sửa hoặc dừng. Một trường thử một công cụ nhỏ trong bốn tuần cần một mức bằng chứng khác với một chính phủ mua nền tảng cho 5 triệu học sinh. Một app luyện từ vựng tự chọn cần bằng chứng khác với một hệ thống AI quyết định lộ trình học hoặc cảnh báo bỏ học. Một tính năng giúp giáo viên soạn câu hỏi cần bằng chứng khác với một sản phẩm thay đổi thời lượng học, phân bổ giáo viên và dữ liệu học sinh.

Lập trường của chương này là: bằng chứng đủ cho EdTech phải là bằng chứng ra quyết định, không phải bằng chứng trang trí. Nó phải trả lời ít nhất năm câu hỏi: hiệu quả với ai, trong điều kiện nào, trong bao lâu, so với cái gì, và với chi phí nào. Nếu thiếu những câu hỏi ấy, “có nghiên cứu nói” chỉ là một câu rất sang để che một quyết định còn non.

1. “Evidence-based” không phải con dấu miễn trách nhiệm

Một sản phẩm được gọi là evidence-based nghe có vẻ đã bước qua cửa kiểm định. Nhưng cụm từ này thường bị dùng quá rộng. Có khi evidence-based nghĩa là sản phẩm được xây dựa trên một lý thuyết học tập có nghiên cứu. Có khi nghĩa là một tính năng giống với một can thiệp từng có hiệu quả. Có khi nghĩa là vendor đã làm khảo sát hài lòng. Có khi nghĩa là có một case study đẹp. Có khi nghĩa là có RCT độc lập thật. Tất cả bị gói vào một nhãn, trong khi độ mạnh của bằng chứng rất khác nhau.

Ở mức tốt nhất, evidence-based giúp giáo dục bớt chạy theo cảm giác. Nó buộc người làm sản phẩm nói rõ công cụ này tác động qua cơ chế nào, kết quả nào sẽ cải thiện, đo bằng gì, so với nhóm nào, trong bao lâu. Nó giúp trường tránh mua thứ chỉ đẹp trong demo. Nó giúp chính phủ tránh tiêu ngân sách lớn vào biểu tượng công nghệ. Nó giúp giáo viên đòi hỏi lý do sư phạm thay vì chỉ nhận chỉ đạo.

Nhưng evidence-based cũng có thể thành ngôn ngữ quyền lực. Một lãnh đạo có thể nói “đã có bằng chứng” để chặn phản hồi của giáo viên. Một vendor có thể trích một nghiên cứu về computer-assisted learning rồi bán một sản phẩm khác hẳn. Một nhà tài trợ có thể yêu cầu bằng chứng dạng RCT nhưng lại chỉ tài trợ pilot ngắn không đủ điều kiện tạo bằng chứng tốt. Một cơ quan mua sắm có thể đánh dấu ô “có nghiên cứu” mà không đọc thiết kế nghiên cứu. Khi đó, bằng chứng không làm quyết định tốt hơn. Nó chỉ làm quyết định trông hợp lý hơn.

UNESCO GEM 2023 nói rất thẳng rằng good, impartial evidence về tác động của công nghệ giáo dục còn thiếu; công nghệ thay đổi nhanh hơn khả năng đánh giá, sản phẩm EdTech trung bình thay đổi khoảng 36 tháng, và nhiều bằng chứng đến từ các nước giàu.[^unesco-gem] Đây là điểm đầu tiên cần giữ: trong EdTech, bằng chứng thường không đầy đủ, không trung lập hoàn toàn, không theo kịp sản phẩm, và không tự chuyển được từ nơi này sang nơi khác. Vì vậy, bằng chứng tốt không đóng cuộc tranh luận. Nó làm cuộc tranh luận chính xác hơn.

2. “Có nghiên cứu nói” chưa trả lời “có phù hợp ở đây không”

Một nghiên cứu tốt ở nơi khác là một manh mối, không phải giấy phép triển khai nguyên xi. Nếu một nền tảng adaptive math có hiệu quả ở một thành phố có internet ổn, giáo viên được tập huấn, phòng máy hoạt động, chương trình học khớp, và học sinh có thời lượng sử dụng đều, ta chưa biết nó có hiệu quả ở nơi lớp đông, thiết bị dùng chung, mạng yếu, giáo viên đổi liên tục, và kỳ thi khác hay không. Cơ chế có thể giống, nhưng điều kiện thực thi khác.

Đây là lý do câu hỏi bối cảnh không phải phụ lục. Nó là phần lõi của bằng chứng. Một hiệu quả trung bình được tìm thấy trong nghiên cứu không nói trực tiếp rằng trường này, nhóm học sinh này, giáo viên này, năm học này sẽ đạt hiệu quả đó. Nó nói rằng trong những điều kiện nghiên cứu đã mô tả, can thiệp có liên quan nhân quả hoặc có tác động đo được lên một kết quả cụ thể. Để dùng nó, người ra quyết định phải hỏi điều kiện nào là active ingredients, điều kiện nào là hỗ trợ, điều kiện nào có thể thay thế, điều kiện nào nếu thiếu thì can thiệp đổi bản chất.

EEF khi hướng dẫn dùng Teaching and Learning Toolkit cũng nhấn mạnh toolkit không đưa ra câu trả lời dứt khoát cho một trường cụ thể; nó cung cấp “best bets” dựa trên bằng chứng hiện có, và cần kết hợp với chuyên môn nghề nghiệp, bối cảnh và phán đoán triển khai.[^eef-toolkits] Đây là tinh thần rất đúng cho EdTech. Bằng chứng tổng hợp giúp ta biết hướng nào đáng thử hơn. Nhưng từ “đáng thử” đến “nên mua cho toàn hệ thống” là một khoảng cách lớn.

Một trường có quyền hỏi vendor: nghiên cứu này được làm ở đâu, học sinh bao nhiêu tuổi, môn gì, thời lượng dùng bao nhiêu, giáo viên được hỗ trợ thế nào, so sánh với nhóm nào, kết quả đo bằng bài kiểm tra nào, có nhóm học sinh bất lợi không, có bao nhiêu người bỏ dùng, có đo workload giáo viên không, có đo chi phí không, có follow-up sau khi hỗ trợ nghiên cứu kết thúc không. Nếu vendor không trả lời được, vấn đề không phải trường “chưa hiểu nghiên cứu”. Vấn đề là bằng chứng chưa đủ để ra quyết định lớn.

3. RCT mạnh, nhưng không phải câu trả lời duy nhất

Trong giáo dục, randomized controlled trial có giá trị đặc biệt vì nó giúp trả lời câu hỏi nhân quả: can thiệp có làm thay đổi kết quả so với không can thiệp hoặc so với cách làm khác không? Khi được thiết kế và triển khai tốt, RCT giảm nhiều thiên lệch lựa chọn. Một nhóm học sinh dùng sản phẩm có thể giỏi hơn không phải vì sản phẩm tốt, mà vì trường chọn lớp tốt, giáo viên nhiệt tình, phụ huynh quan tâm. Randomization giúp tách bớt những yếu tố đó.

What Works Clearinghouse của Institute of Education Sciences được lập ra để review và tổng hợp chất lượng nghiên cứu về chương trình, sản phẩm, thực hành và chính sách giáo dục; handbook hiện hành của WWC nêu các chuẩn đánh giá nghiên cứu, bao gồm RCT, quasi-experimental design và regression discontinuity.[^wwc] U.S. Department of Education trong hướng dẫn dùng bằng chứng cũng phân tầng evidence, từ strong evidence dựa trên nghiên cứu thực nghiệm tốt, đến moderate, promising, và demonstrates a rationale.[^used-evidence] Những khung này hữu ích vì chúng nhắc rằng không phải nghiên cứu nào cũng mạnh như nhau.

Nhưng RCT không trả lời mọi câu hỏi. Nó có thể nói một chương trình tạo tác động trung bình trong điều kiện nghiên cứu. Nó không tự nói vì sao, với ai, giáo viên đã làm gì khác, chi phí vận hành thế nào, điều gì xảy ra khi mở rộng, phụ huynh phản ứng ra sao, dữ liệu có hại gì không, giáo viên có kiệt sức không, và sản phẩm có sống được năm thứ ba không. Một RCT tệ vẫn tệ. Một RCT tốt nhưng đo sai outcome vẫn không đủ. Một RCT chỉ kéo dài tám tuần không thể trả lời tác động dài hạn. Một RCT do vendor tài trợ và chỉ công bố kết quả đẹp cần được đọc với mắt mở.

Do đó, câu trả lời không phải “RCT hoặc không gì cả”. Câu trả lời là bằng chứng nhiều lớp. Cần causal evidence để biết có tác động không. Cần implementation evidence để biết triển khai thế nào. Cần qualitative evidence để hiểu trải nghiệm và cơ chế. Cần usage data để biết adoption và dosage. Cần cost evidence để biết có đáng không. Cần equity evidence để biết ai được lợi và ai bị bỏ lại. Cần monitoring sau triển khai để biết hiệu quả có sống ngoài nghiên cứu không. Một quyết định EdTech lớn không nên dựa trên một nghiên cứu duy nhất, dù nghiên cứu ấy đẹp.

4. Usage data không phải learning evidence

Dashboard EdTech rất thích số: số lượt đăng nhập, phút sử dụng, bài hoàn thành, streak, câu hỏi trả lời, video xem, badge nhận, tỷ lệ quay lại, số tin nhắn phụ huynh mở. Những dữ liệu này có ích. Nếu học sinh không dùng, sản phẩm không thể tạo tác động. Nếu giáo viên không đăng nhập, adoption có vấn đề. Nếu bài học bị bỏ ở phút thứ ba, thiết kế có thể sai. Nếu nhóm học sinh nghèo dùng ít hơn, công bằng có vấn đề.

Nhưng usage data không phải learning evidence. Một học sinh có thể dùng nhiều mà học ít. Một em có thể xem video nhưng không hiểu. Một lớp có thể hoàn thành bài tập vì giáo viên ép, nhưng kiến thức không chuyển. Một app có thể giữ chân bằng game loop hơn là học tập. Một AI tutor có thể tạo cảm giác hỗ trợ liên tục nhưng làm người học phụ thuộc. Một dashboard có thể báo engagement tăng trong khi kết quả học không đổi.

UNESCO GEM 2023 ghi nhận EdTech thường bị underutilized; ở Mỹ, một tỷ lệ lớn license phần mềm giáo dục không được dùng hoặc không dùng đủ sâu, và nhiều công cụ không đáp ứng yêu cầu bằng chứng của ESSA.[^unesco-gem] Điều này cho thấy usage là vấn đề thật. Nhưng chính vì usage yếu nên ta càng phải phân biệt hai câu hỏi: công cụ có được dùng không, và khi được dùng đủ, nó có tạo học tập không. Câu hỏi thứ nhất là điều kiện triển khai. Câu hỏi thứ hai là hiệu quả giáo dục.

Một vendor nói “học sinh dùng trung bình 40 phút mỗi tuần” mới chỉ trả lời một phần. Cần hỏi tiếp: 40 phút ấy thay thế hoạt động nào, có tăng tổng thời gian học không, học sinh nào dùng 40 phút và học sinh nào không, có tương quan với tiến bộ không, có bằng chứng nhân quả không, có bị selection bias không, bài test có độc lập với nội dung luyện không, giáo viên dùng dữ liệu ấy để thay đổi dạy học không. Nếu không, usage chỉ là nhịp tim của sản phẩm, chưa phải sức khỏe của học tập.

5. Testimonial không phải evaluation

Một giáo viên nói sản phẩm giúp lớp hào hứng hơn. Một học sinh nói em thích học hơn. Một phụ huynh nói con tự học nhiều hơn. Một hiệu trưởng nói trường đổi mới rõ rệt. Những lời chứng này không vô nghĩa. Trong giáo dục, trải nghiệm con người quan trọng. Nếu giáo viên ghét công cụ, nếu học sinh thấy bị xúc phạm, nếu phụ huynh không hiểu, sản phẩm khó sống. Testimonial có thể phát hiện cơ chế, tín hiệu, rào cản, cảm xúc, điều mà bài test không thấy.

Nhưng testimonial không phải evaluation. Nó thường chọn người nói tích cực. Nó chịu ảnh hưởng của mới lạ, truyền thông, quan hệ với vendor, áp lực lãnh đạo, mong muốn dự án thành công. Một lớp học có thể vui hơn trong tuần đầu vì có tablet mới. Một giáo viên có thể khen vì được hỗ trợ đặc biệt trong pilot. Một học sinh có thể thích app vì dễ hơn học thật. Một câu chuyện thành công có thể bỏ qua những em không dùng, những em rớt lại, những giáo viên bỏ cuộc, những lớp thất bại.

Vì vậy, testimonial nên đứng đúng chỗ. Nó là bằng chứng về acceptability, perceived usefulness, trải nghiệm, và giả thuyết cơ chế. Nó không đủ để nói sản phẩm cải thiện learning outcomes. Một case study tốt có thể giúp người khác hiểu điều kiện triển khai: giáo viên làm gì, lịch học thế nào, hỗ trợ ra sao, lỗi nào xảy ra, học sinh nào khó dùng. Nhưng case study không nên được trình bày như tác động nhân quả nếu không có thiết kế so sánh.

Ngược lại, đánh giá định lượng cũng không nên khinh testimonial. Một RCT có thể cho thấy hiệu quả trung bình bằng 0, nhưng phỏng vấn cho thấy sản phẩm giúp nhóm học sinh khuyết tật rất nhiều và làm hại nhóm khác. Một bài test có thể tăng, nhưng giáo viên nói workload tăng không chịu nổi. Một dashboard có thể đẹp, nhưng học sinh nói họ gian lận dễ. Bằng chứng tốt biết đặt lời kể và số liệu cạnh nhau, mỗi loại nói phần nó nói tốt nhất.

6. Effect size là điểm bắt đầu, không phải kết luận

Effect size có sức quyến rũ vì nó nén một câu chuyện phức tạp thành một con số. Sản phẩm A tăng 0,2 độ lệch chuẩn. Can thiệp B tạo thêm bốn tháng tiến bộ. Chương trình C có tác động lớn hơn chương trình D. Những con số này hữu ích vì chúng giúp so sánh tương đối, tránh nói mơ hồ. Nhưng effect size rất dễ bị hiểu sai nếu tách khỏi bối cảnh.

Một effect size là trung bình. Nó có thể che sự phân bố: nhóm yếu tiến bộ nhiều, nhóm khá đứng yên; học sinh nam được lợi, học sinh nữ không; trường có giáo viên mạnh được lợi, trường yếu không; người dùng đủ liều tiến bộ, người dùng ít không. Một effect size phụ thuộc outcome: bài test gần với nội dung luyện thường cho kết quả khác với bài test chuyển giao xa. Một effect size phụ thuộc thời gian: tác động ngay sau can thiệp có thể mất sau sáu tháng. Một effect size phụ thuộc so sánh: so với không làm gì khác với so với tutoring tốt.

EEF dùng chỉ số “months of additional progress” để giúp người thực hành đọc bằng chứng dễ hơn, nhưng EEF cũng nhắc rằng đó là thông tin về những gì đã xảy ra trong nghiên cứu trước đây, không phải cam kết điều gì chắc chắn sẽ xảy ra ở một trường cụ thể.[^eef-toolkits] Với EdTech, điều này càng quan trọng. Một sản phẩm có effect size tốt trong nghiên cứu có thể thất bại nếu trường dùng sai liều, sai môn, sai nhóm, sai hạ tầng. Một sản phẩm có effect size nhỏ nhưng chi phí thấp, dễ mở rộng, hỗ trợ nhóm yếu và không tăng workload có thể đáng hơn sản phẩm effect size lớn nhưng đòi điều kiện xa xỉ.

Vì vậy, khi đọc effect size, hãy hỏi: kết quả đo cái gì, đo khi nào, nhóm so sánh là gì, số mẫu bao nhiêu, confidence interval rộng không, attrition thế nào, có subgroup không, có nhiều outcomes nhưng chỉ báo cáo cái đẹp không, có correction cho multiple comparisons không, có preregistration không, có replication không, và chi phí để đạt effect ấy là gì. Con số không xấu. Nhưng con số không tự giải thích chính nó.

7. Implementation fidelity: sản phẩm không tự triển khai chính mình

Một sản phẩm EdTech không đi vào lớp học như một viên thuốc. Nó đi vào qua giáo viên, lịch học, thiết bị, tài khoản, phòng máy, kỹ thuật viên, phụ huynh, nội dung, kỷ luật lớp, chương trình học và văn hóa trường. Nếu nghiên cứu nói sản phẩm hiệu quả khi học sinh dùng ba buổi mỗi tuần, có giáo viên theo dõi, có feedback sau mỗi bài, có kỹ thuật viên hỗ trợ, nhưng trường thật chỉ dùng một buổi, giáo viên không xem dashboard, mạng rớt, và học sinh dùng chung máy, thì không phải cùng một can thiệp.

Implementation fidelity là mức độ can thiệp được triển khai như dự định. Carroll và cộng sự nhấn mạnh rằng hiểu và đo fidelity giúp ta biết một can thiệp có thật sự được thực hiện đúng hay không, và vì sao nó hoạt động hoặc không hoạt động.[^fidelity] Với EdTech, fidelity không chỉ là “có dùng app không”. Nó gồm liều lượng, chất lượng dùng, đúng nhóm, đúng thời điểm, đúng tích hợp với bài dạy, đúng hỗ trợ giáo viên, đúng phản hồi, đúng hạ tầng.

Nhưng fidelity cũng có một mặt căng. Nếu yêu cầu fidelity quá cứng, sản phẩm không thích nghi với bối cảnh. Giáo viên địa phương có thể cần sửa cách dùng để phù hợp lớp mình. Nếu sửa là thất bại fidelity, nghiên cứu sẽ phạt sự khôn ngoan nghề nghiệp. Ngược lại, nếu thứ gì cũng gọi là adaptation, ta không còn biết can thiệp là gì. Một sản phẩm được dùng tùy tiện rồi thất bại có thể không chứng minh sản phẩm vô dụng; nó chứng minh triển khai không tạo ra can thiệp như thiết kế.

Do đó, bằng chứng đủ cần phân biệt core components và adaptable periphery. Phần lõi nào phải giữ để cơ chế học tập xảy ra? Phần nào giáo viên được điều chỉnh? Liều tối thiểu là bao nhiêu? Hỗ trợ tối thiểu là gì? Nếu thiếu phòng máy, có phương án khác không? Nếu giáo viên không xem dashboard, sản phẩm còn tác động không? Nếu không trả lời được, ta không biết đang đánh giá sản phẩm, mô hình triển khai, hay một mớ hỗn hợp.

8. Adoption không phải chi tiết vận hành

Một công cụ có hiệu quả khi dùng đủ nhưng không ai dùng được thì chưa phải giải pháp. Adoption không phải chi tiết sau khi mua. Nó là điều kiện để tác động tồn tại. Một hệ thống có thể có RCT đẹp trong trường được chọn kỹ, nhưng khi mở rộng ra toàn hệ thống, giáo viên không dùng, học sinh quên mật khẩu, phụ huynh không hỗ trợ, kỹ thuật viên quá tải, lãnh đạo không theo dõi, và sản phẩm biến thành biểu tượng.

Implementation science có một bộ khái niệm hữu ích: acceptability, appropriateness, feasibility, adoption, fidelity, cost, penetration và sustainability.[^implementation-outcomes] Những khái niệm này giúp EdTech thoát khỏi câu hỏi quá hẹp “có hiệu quả không?” để hỏi thêm: người dùng có chấp nhận không, có phù hợp vấn đề không, có khả thi không, có được dùng thật không, có dùng đúng không, chi phí chịu được không, có vào được toàn hệ thống không, có duy trì được không.

Đây là nơi nhiều sản phẩm EdTech lộ điểm yếu. Họ có thể chứng minh learning gain với nhóm học sinh dùng đủ, nhưng không chứng minh cách đưa đa số học sinh đến mức dùng đủ. Họ có thể nói “nếu dùng 60 phút mỗi tuần, kết quả tăng”, nhưng không nói trong lịch học thật ai lấy 60 phút ấy từ đâu. Họ có thể nói giáo viên có dashboard, nhưng không nói giáo viên có thời gian đọc và hành động không. Họ có thể nói phụ huynh nhận thông báo, nhưng không nói phụ huynh hiểu và làm gì tiếp theo.

Bằng chứng đủ vì thế phải có dữ liệu adoption theo nhóm, không chỉ trung bình. Ai không dùng? Vì sao? Thiết bị, ngôn ngữ, giới tính, khuyết tật, mức nghèo, trình độ nền, giáo viên, trường, vùng có tạo khác biệt không? Một sản phẩm chỉ được nhóm thuận lợi dùng đều có thể làm khoảng cách tăng dù effect size trên người dùng là tích cực. Adoption không công bằng là tác động không công bằng từ trước khi học tập bắt đầu.

9. Workload là outcome, không phải chuyện than phiền

EdTech thường hứa giảm tải giáo viên. Nhưng nhiều sản phẩm giảm một loại việc và tăng loại việc khác. Chấm tự động giảm thời gian chấm câu đúng-sai nhưng thêm thời gian xử lý lỗi hệ thống. Dashboard giúp thấy dữ liệu nhưng thêm thời gian đọc dữ liệu. AI tạo bài nhanh nhưng thêm thời gian kiểm tra. LMS gom bài nộp nhưng thêm thời gian quản lý tài khoản. Phụ huynh nhận thông báo dễ hơn nhưng giáo viên nhận thêm tin nhắn. Nếu evaluation không đo workload, nó bỏ qua một outcome quyết định khả năng duy trì.

Workload không chỉ là cảm giác. Nó là chi phí triển khai. Nếu một can thiệp tăng điểm học sinh nhưng yêu cầu giáo viên làm thêm ba giờ mỗi tuần không được trả, ta phải tính chi phí ấy. Nếu một sản phẩm chỉ hiệu quả khi có một “champion teacher” làm việc ngoài giờ, sản phẩm đó chưa chứng minh scale. Nếu một nền tảng làm lãnh đạo có thêm dữ liệu nhưng giáo viên mất thêm thời gian nhập dữ liệu, lợi ích quản trị được trợ giá bằng lao động lớp học.

EEF trong hướng dẫn implementation nhấn mạnh điều quan trọng không chỉ là ý tưởng giáo dục nghe hay, mà là nó biểu hiện thế nào trong công việc hằng ngày của trường; implementation cần chú ý hành vi, yếu tố bối cảnh và quy trình có cấu trúc.[^eef-implementation] Với EdTech, workload chính là nơi “ý tưởng hay” gặp đời sống hằng ngày. Một công cụ không vừa với nhịp làm việc của giáo viên sẽ bị dùng hình thức hoặc bị bỏ.

Do đó, bằng chứng đủ phải đo cả workload và support burden: giáo viên mất bao lâu để học, chuẩn bị, xử lý lỗi, đọc dashboard, phản hồi học sinh, liên hệ phụ huynh; tổ IT mất bao lâu; lãnh đạo mất bao lâu; học sinh mất bao lâu để đăng nhập; phụ huynh cần hỗ trợ gì. Nếu tác động học tập nhỏ nhưng workload lớn, quyết định có thể không đáng. Nếu workload giảm thật và học tập không giảm, đó cũng là giá trị. Giáo dục không chỉ tối đa hóa điểm; nó cũng phải bảo vệ năng lượng của những người giữ hệ thống sống.

10. Equity evidence: trung bình có thể nói dối

Một sản phẩm có tác động trung bình tích cực vẫn có thể bất công. Nếu học sinh khá tăng mạnh còn học sinh yếu không tăng, khoảng cách tăng. Nếu học sinh thành thị dùng được còn học sinh nông thôn không, trung bình toàn hệ thống có thể che loại trừ. Nếu học sinh nói ngôn ngữ chính được lợi còn học sinh ngôn ngữ thiểu số nhận feedback kém, sản phẩm tái sản xuất bất bình đẳng. Nếu người khuyết tật không dùng được vì accessibility kém, họ biến mất khỏi dữ liệu.

Equity evidence không chỉ là báo cáo “không có khác biệt đáng kể giữa nhóm”. Nhiều nghiên cứu không đủ power để phát hiện subgroup effects. Không thấy khác biệt không đồng nghĩa công bằng. Cần thiết kế từ đầu: nhóm nào dễ bị bỏ lại, số mẫu có đủ không, outcome có phù hợp nhóm đó không, dữ liệu usage có cho thấy ai không dùng không, sản phẩm có accessibility không, có đo adverse effects không, có đo chi phí gia đình không.

EdTech Hub đề xuất năm câu hỏi cho tương lai EdTech dựa trên bằng chứng, trong đó có câu hỏi liệu công nghệ có tác động bền vững đến learning outcomes, có hiệu quả cho trẻ em marginalised và tăng equity, có scale cost-effective trong bối cảnh, có hiệu quả ở implementation context cụ thể, và có aligned với ưu tiên chính phủ/hệ thống không.[^edtechhub-evidence] Đây là bộ câu hỏi rất hợp với chương này vì nó đặt equity cạnh impact và scale, không để equity thành phần phụ.

Một bằng chứng đủ phải báo cáo người không được phục vụ. Không chỉ “người dùng cải thiện”. Ai không thành người dùng? Ai bỏ giữa chừng? Ai cần hỗ trợ nhiều hơn? Ai bị giảm tự tin? Ai bị theo dõi nhiều hơn? Ai phải trả tiền data? Ai bị dashboard gắn nhãn yếu? Nếu evidence chỉ nhìn người còn lại trong hệ thống, nó đang học từ nhóm sống sót qua rào cản.

11. So với cái gì?

Không có can thiệp nào hiệu quả trong chân không. Một sản phẩm EdTech phải được so với một lựa chọn thay thế. So với không làm gì? So với sách bài tập? So với tutoring? So với giảm sĩ số lớp? So với tập huấn giáo viên? So với SMS cho phụ huynh? So với thêm thời lượng đọc? So với phiên bản không AI? So với một công cụ mã nguồn mở? Câu hỏi “có hiệu quả không?” thường dễ hơn câu hỏi “có phải cách tốt nhất để dùng nguồn lực này không?”.

NBER/J-PAL review về education technology phân loại các nghiên cứu thực nghiệm thành access to technology, computer-assisted learning, technology-enabled behavioral interventions và online learning; tổng hợp này cho thấy cung cấp thiết bị/kết nối đơn thuần thường không cải thiện kết quả học thuật K-12, trong khi computer-assisted learning có bằng chứng hứa hẹn hơn, đặc biệt với toán, và online-only courses trong một số nghiên cứu có kết quả kém hơn in-person.[^jpal-nber] Bài học ở đây không phải “EdTech tốt” hay “EdTech xấu”. Bài học là loại công nghệ, cơ chế dùng và nhóm so sánh quyết định rất nhiều.

Một chương trình phát laptop có thể tăng kỹ năng máy tính nhưng không tăng điểm toán. Nếu mục tiêu là digital literacy, đó có thể là thành công. Nếu mục tiêu là điểm toán, không đủ. Một app luyện toán có thể tăng điểm toán hơn không làm gì, nhưng nếu cùng chi phí tutoring tăng hơn, quyết định khác. Một AI tutor có thể giúp người học tự học buổi tối, nhưng nếu nó thay thế giáo viên thay vì bổ sung, kết quả khác. So sánh sai tạo kết luận sai.

Vì vậy, bằng chứng đủ luôn ghi rõ counterfactual. Nếu không có sản phẩm này, người học sẽ làm gì? Giáo viên sẽ làm gì? Ngân sách sẽ đi đâu? Nếu nhóm đối chứng không nhận gì, tác động có thể phản ánh thêm thời gian học chứ không phải công nghệ. Nếu nhóm đối chứng nhận can thiệp tốt, tác động nhỏ vẫn đáng kể. Trong giáo dục, “hiệu quả” phải đi cùng “hiệu quả hơn lựa chọn nào”.

12. Cost-effectiveness: tác động không tự biện minh cho chi phí

Một sản phẩm có tác động tích cực vẫn có thể không đáng mua nếu chi phí quá cao hoặc nếu nguồn lực ấy tạo tác động lớn hơn ở nơi khác. Đây là phần khó nói vì giáo dục không nên bị giản lược thành bảng tính. Nhưng tránh cost-effectiveness cũng là một dạng bất công. Nguồn lực giáo dục luôn hữu hạn. Khi mua một nền tảng, ta không mua thứ khác. Khi giáo viên dành thời gian cho app, họ không làm việc khác. Khi học sinh học trên màn hình, họ không đọc, viết, thảo luận hoặc thực hành theo cách khác trong thời gian ấy.

EdTech Hub nhấn mạnh cost-effectiveness là một trong các mối quan tâm quan trọng khi đầu tư EdTech; cần tính total cost of implementation, bao gồm cả chi phí rõ và không rõ trong toàn vòng đời, và cần dữ liệu chi tiết, context-specific, minh bạch từ nhà cung cấp về chi phí và quy mô kết quả.[^edtechhub-cost] Đây là điểm nối trực tiếp với chương 30: sustainability và evidence gặp nhau ở chi phí. Một sản phẩm chỉ chứng minh tác động nhưng không chứng minh chi phí duy trì là bằng chứng thiếu một chân.

Cost-effectiveness cũng phải tính chi phí của người học và gia đình: data, thiết bị, điện, thời gian phụ huynh, không gian học, cơ hội lao động, áp lực tâm lý. Một khóa học miễn phí nhưng đòi internet mạnh, laptop riêng và phụ huynh hỗ trợ không miễn phí với gia đình nghèo. Một app rẻ cho trường nhưng tốn thời gian giáo viên không trả lương không rẻ cho hệ thống. Một AI rẻ trong demo nhưng đắt khi scale không rẻ cho chính phủ.

Bằng chứng đủ vì thế không chỉ hỏi “điểm tăng bao nhiêu?” mà hỏi “điểm tăng ấy đổi lấy gì?”. Nếu tác động nhỏ, chi phí thấp, dễ mở rộng và công bằng, có thể đáng. Nếu tác động lớn nhưng chỉ trong điều kiện đắt và khó duy trì, cần thận trọng. Nếu tác động chưa rõ nhưng rủi ro thấp và chi phí thử nhỏ, có thể thử có kiểm soát. Nếu tác động chưa rõ, rủi ro cao, dữ liệu nhạy cảm và chi phí lớn, không nên triển khai rộng.

13. Vendor evidence cần được đọc bằng mắt tỉnh

Không nên mặc định nghiên cứu do vendor làm là giả. Vendor có dữ liệu sản phẩm, hiểu tính năng, có động lực cải tiến, và đôi khi đầu tư nghiêm túc vào evaluation. Nếu yêu cầu mọi bằng chứng đều độc lập ngay từ đầu, nhiều sản phẩm nhỏ sẽ không bao giờ có cơ hội. Nhưng cũng không nên ngây thơ. Vendor có lợi ích kinh tế khi kết quả đẹp. Họ có thể chọn outcome dễ thắng, nhóm người dùng tích cực, thời gian đo ngắn, so sánh yếu, hoặc chỉ công bố nghiên cứu thành công.

UNESCO GEM 2023 cảnh báo công ty công nghệ có thể có ảnh hưởng không cân xứng lên sản xuất bằng chứng; báo cáo cũng nêu ví dụ về tranh luận quanh nghiên cứu do doanh nghiệp tài trợ.[^unesco-gem] Điểm cần rút ra không phải “bằng chứng của công ty vô giá trị”. Điểm cần rút ra là conflict of interest phải được nhìn thấy. Ai tài trợ nghiên cứu? Ai thiết kế? Ai thu dữ liệu? Ai phân tích? Ai có quyền công bố? Có preregistration không? Có công bố kết quả âm tính không? Dữ liệu có cho researcher độc lập truy cập không?

Một vendor trưởng thành nên chấp nhận mức minh bạch cao hơn: mô tả phương pháp, mẫu, attrition, outcome, subgroup, limitation, implementation conditions, funding, và data availability. Họ cũng nên phân biệt research claim với marketing claim. Nếu nghiên cứu chỉ cho thấy học sinh dùng sản phẩm cải thiện trong bài kiểm tra nội bộ, đừng quảng cáo “proven to improve learning outcomes” theo nghĩa rộng. Nếu nghiên cứu làm ở lớp 6 toán, đừng bán cho lớp 3 đọc hiểu bằng cùng bằng chứng.

Trường và chính phủ không nhất thiết phải bác vendor evidence. Họ nên dùng nó như một phần hồ sơ. Vendor evidence có thể đủ cho quyết định thử nhỏ. Để mua lớn, cần thêm bằng chứng độc lập hoặc ít nhất evaluation địa phương nghiêm túc. Niềm tin không phải trạng thái có/không. Nó là mức độ phù hợp với rủi ro quyết định.

14. Evidence phải theo phiên bản sản phẩm

EdTech khác sách giáo khoa ở tốc độ thay đổi. Một sản phẩm có thể đổi giao diện, thuật toán, nội dung, model AI, chính sách dữ liệu, cơ chế feedback, onboarding, pricing và dashboard trong vài tháng. Nếu nghiên cứu làm trên phiên bản cũ, kết quả còn áp dụng đến đâu? Nếu AI model đổi, khả năng trả lời, hallucination, bias, tone và chi phí đều đổi. Nếu tính năng game hóa mới được thêm, engagement tăng nhưng học tập có thể đổi. Nếu thuật toán adaptive thay đổi, lộ trình học khác.

UNESCO nhắc rằng công nghệ giáo dục thay đổi nhanh, làm evaluation khó theo kịp.[^unesco-gem] Điều này không có nghĩa không thể đánh giá EdTech. Nó có nghĩa bằng chứng EdTech cần versioning. Nghiên cứu phải nói rõ phiên bản sản phẩm, tính năng chính, model, nội dung, cách triển khai, thời điểm, và thay đổi sau nghiên cứu. Khi sản phẩm đổi lớn, claim bằng chứng phải được cập nhật hoặc hạ mức chắc chắn.

AI làm yêu cầu này cấp bách hơn. Một AI tutor không chỉ là một nội dung cố định. Nó là hệ thống sinh phản hồi theo prompt, model, guardrail, retrieval database, policy và dữ liệu người dùng. Nếu model nền đổi, sản phẩm có thể tốt hơn hoặc tệ hơn. Nếu guardrail chặt hơn, hỗ trợ có thể an toàn hơn nhưng kém linh hoạt. Nếu retrieval lỗi, câu trả lời sai. Nếu dữ liệu chương trình học cập nhật, chất lượng đổi. Vì vậy, evidence cho AI phải vừa đánh giá outcome, vừa có monitoring liên tục về chất lượng phản hồi, an toàn, bias, privacy và sự ổn định.

Một sản phẩm thay đổi liên tục không thể dùng bằng chứng như ảnh chụp vĩnh viễn. Nó cần bằng chứng như hệ thống giám sát sống: pre-launch evaluation, limited rollout, A/B testing có đạo đức, audit độc lập, user feedback, learning outcomes, incident reporting, và review định kỳ. “Đã được chứng minh năm 2023” không đủ cho một sản phẩm AI đã thay ba model vào năm 2026.

15. Mức bằng chứng phải khớp mức rủi ro

Không phải mọi quyết định cần cùng một mức bằng chứng. Nếu một giáo viên dùng AI để gợi ý thêm câu hỏi thảo luận, rủi ro thấp hơn nhiều so với dùng AI để chấm điểm cuối kỳ. Nếu một trường thử app luyện đọc tự chọn sau giờ học, rủi ro khác với bắt toàn bộ học sinh chuyển sang học online. Nếu một tính năng chỉ hỗ trợ giáo viên, rủi ro khác với tính năng đưa khuyến nghị phân luồng học sinh. Nếu sản phẩm thu dữ liệu nhạy cảm, rủi ro tăng. Nếu sản phẩm ảnh hưởng đến điểm, kỷ luật, placement, hỗ trợ đặc biệt, rủi ro tăng.

Vì vậy, bằng chứng đủ phải theo thang rủi ro. Với can thiệp rủi ro thấp, chi phí thấp, có quyền chọn, dễ dừng, có thể bắt đầu bằng rationale tốt, nghiên cứu liên quan, phản hồi người dùng và monitoring. Với can thiệp ảnh hưởng instruction chính thức, cần bằng chứng outcome mạnh hơn, kế hoạch implementation và evaluation địa phương. Với can thiệp high-stakes, cần causal evidence, audit độc lập, equity analysis, quyền khiếu nại, human oversight, data protection và tiêu chí dừng rõ. Với triển khai toàn hệ thống, cần cả cost-effectiveness và sustainability.

Khung ESSA của U.S. Department of Education hữu ích ở đây vì nó không chỉ có một mức “có bằng chứng” mà có nhiều tầng: strong, moderate, promising và demonstrates a rationale.[^used-evidence] Dù mỗi quốc gia không cần bê nguyên khung này, tinh thần phân tầng rất đáng học. Không nên đòi RCT cho mọi ý tưởng nhỏ. Nhưng cũng không nên dùng “có rationale” để biện minh cho mua sắm lớn.

Mức rủi ro cũng liên quan quyền lựa chọn. Nếu học sinh có thể tự chọn công cụ, biết giới hạn, không bị phạt khi không dùng, và dữ liệu ít nhạy cảm, yêu cầu có thể nhẹ hơn. Nếu nhà trường bắt buộc dùng, dữ liệu được thu mặc định, kết quả ảnh hưởng hồ sơ, và người học khó thoát, bằng chứng phải mạnh hơn. Quyền lực càng lớn, bằng chứng càng phải nghiêm.

16. Các bên trong cuộc tranh luận

Vendor nói: “Nếu phải chứng minh quá nhiều trước khi triển khai, đổi mới sẽ chết.” Đây là nỗi lo có lý. Nhiều công cụ có ích bắt đầu từ thử nghiệm nhỏ, phản hồi nhanh, cải tiến liên tục. Nhưng câu hỏi ngược lại là: nếu không chứng minh đủ, ai chịu rủi ro? Học sinh không phải môi trường beta vô tận. Trường học không phải thị trường thử nghiệm miễn phí. Cách đúng không phải bóp chết đổi mới, mà là phân tầng: thử nhỏ nhanh, đo thật, minh bạch thất bại, tăng bằng chứng trước khi tăng quyền lực.

Nhà nghiên cứu nói: “Không có thiết kế tốt thì không thể biết tác động.” Đúng, nhưng nếu nhà nghiên cứu chỉ đòi điều kiện lý tưởng và xuất bản chậm, hệ thống sẽ ra quyết định không chờ họ. Nghiên cứu giáo dục cần đủ nghiêm mà vẫn đủ gần thực tế: rapid cycle evaluation, mixed methods, implementation study, administrative data, quasi-experimental design khi RCT không khả thi, và hợp tác với người triển khai từ đầu.

Giáo viên nói: “Bằng chứng lớn không thay thế mắt tôi trong lớp.” Đúng. Giáo viên thấy engagement giả, workload thật, học sinh nào đang lách hệ thống, phụ huynh nào không hiểu, bài nào không khớp chương trình. Nhưng kinh nghiệm cá nhân cũng có giới hạn. Một giáo viên có thể nhầm novelty với learning, hoặc ghét công cụ vì onboarding tệ dù cơ chế học tập tốt. Bằng chứng tốt phải đưa chuyên môn giáo viên vào thiết kế evaluation, không đặt nó đối lập với nghiên cứu.

Nhà quản lý nói: “Tôi cần quyết định ở quy mô lớn, không thể chờ sự chắc chắn hoàn hảo.” Đúng. Nhưng quyết định lớn không nên là canh bạc lớn. Có thể dùng staged rollout, holdout groups, phased procurement, success criteria, failure criteria, và ngân sách evaluation. Nếu triển khai toàn hệ thống mà không chừa không gian học từ dữ liệu, đó không phải quyết đoán. Đó là đóng cửa học hỏi.

Người học nói: “Đừng đo tôi chỉ để chứng minh sản phẩm.” Đây là lời nhắc đạo đức. Evaluation không nên biến học sinh thành dữ liệu cho vendor. Người học cần được bảo vệ, được giải thích khi phù hợp, được hưởng lợi từ cải tiến, và không bị đưa vào can thiệp rủi ro cao chỉ vì người lớn cần bằng chứng. Bằng chứng giáo dục phải phục vụ người học trước khi phục vụ báo cáo.

Nhà tài trợ nói: “Chúng tôi cần impact.” Đúng, nhưng impact không phải chỉ là biểu đồ tăng điểm trong 12 tuần. Impact đáng tin cần cả bối cảnh, chi phí, equity, duy trì, và khả năng hệ thống sở hữu sau tài trợ. Nếu nhà tài trợ chỉ thưởng kết quả đẹp, người triển khai sẽ học cách kể chuyện đẹp. Nếu nhà tài trợ thưởng học hỏi trung thực, hệ thống có cơ hội trưởng thành.

17. Một khung hỏi trước khi tin

Trước khi tin một claim EdTech, hãy hỏi về nguồn bằng chứng. Nghiên cứu do ai làm, ai tài trợ, có độc lập không, có công bố phương pháp không, có công bố kết quả không đẹp không, có review ngoài không. Một nghiên cứu không cần hoàn hảo để hữu ích, nhưng nó phải đủ minh bạch để người đọc biết mình đang tin vào cái gì.

Hãy hỏi về thiết kế. Có nhóm so sánh không, nhóm so sánh nhận gì, có randomization không, nếu không thì xử lý selection bias thế nào, số mẫu đủ không, attrition ra sao, outcome có độc lập không, thời gian theo dõi đủ không, effect size và confidence interval thế nào. Nếu chỉ có khảo sát hài lòng và usage data, đừng gọi nó là learning impact.

Hãy hỏi về bối cảnh. Nghiên cứu diễn ra ở đâu, trường nào, môn nào, tuổi nào, ngôn ngữ nào, hạ tầng nào, giáo viên được hỗ trợ ra sao, học sinh dùng bao nhiêu, có khớp chương trình không, có đo nhóm yếu thế không. Bằng chứng không có bối cảnh là bằng chứng khó dùng.

Hãy hỏi về triển khai. Sản phẩm cần điều kiện tối thiểu gì, training bao lâu, support burden thế nào, giáo viên làm gì, học sinh làm gì, phụ huynh làm gì, fidelity được đo ra sao, adaptation nào được phép. Nếu một sản phẩm chỉ hiệu quả khi có đội hỗ trợ đặc biệt, cần nói rõ.

Hãy hỏi về chi phí và lựa chọn thay thế. Tổng chi phí là gì, chi phí ẩn là gì, tác động trên mỗi chi phí ra sao, có lựa chọn không công nghệ tốt hơn không, có lựa chọn công nghệ nhẹ hơn không, chi phí tăng thế nào khi scale, ai trả tiền sau tài trợ. Một bằng chứng impact không có cost là một nửa bằng chứng.

Hãy hỏi về dừng. Tiêu chí thành công là gì, tiêu chí thất bại là gì, khi nào dừng, ai có quyền dừng, dữ liệu được xuất thế nào, học sinh được chuyển tiếp ra sao. Một dự án không định nghĩa thất bại thường không thật sự muốn học.

18. Lập trường của chương này

Chương này không thờ phụng bằng chứng theo kiểu kỹ trị. Giáo dục không phải phòng thí nghiệm sạch. Có những giá trị khó đo, có những quan hệ khó quy đổi, có những cơ hội cần thử trước khi có đủ dữ liệu. Nhưng chương này cũng không chấp nhận kiểu đổi mới bằng niềm tin, nơi “học sinh thích”, “giáo viên khen”, “AI rất mạnh”, “nhiều trường đã dùng”, “có nghiên cứu nói” được dùng để thay cho evaluation nghiêm túc.

Bằng chứng đủ không phải bằng chứng hoàn hảo. Nó là bằng chứng trung thực với giới hạn của mình. Nó nói rõ điều đã biết, điều chưa biết, điều phụ thuộc bối cảnh, điều có thể sai, điều cần theo dõi. Nó không phóng đại case study thành causal proof. Nó không biến usage thành learning. Nó không lấy effect trung bình để che bất bình đẳng. Nó không lấy RCT ở nơi giàu để áp đặt lên nơi nghèo mà không kiểm tra điều kiện. Nó không lấy pilot đẹp để bán scale.

EdTech cần bằng chứng vì người học không có thời gian cho sự tự tin rỗng. Giáo viên không có sức cho thêm một công cụ không tạo giá trị. Trường không có ngân sách cho sản phẩm chỉ sống trong slide. Xã hội không nên giao dữ liệu trẻ em cho các hệ thống chưa được kiểm chứng. Nhưng bằng chứng tốt không phải để làm đổi mới chậm lại một cách vô hồn. Nó để đổi mới bớt phù phiếm, bớt bất công, bớt lặp lại sai lầm cũ bằng giao diện mới.

Nếu phải nén chương này thành một câu, câu đó là: bằng chứng đủ cho EdTech là bằng chứng giúp ta quyết định có trách nhiệm, triển khai có học hỏi, và dừng có can đảm. Một nền giáo dục trưởng thành không hỏi “có nghiên cứu không?” như một nghi thức. Nó hỏi: “Nghiên cứu này nói gì, không nói gì, áp dụng tới đâu, đổi lấy gì, và chúng ta sẽ biết mình sai bằng cách nào?”

Ghi chú nguồn cho chương

[^unesco-gem]: UNESCO Global Education Monitoring Report Team, Technology in education: A tool on whose terms? (2023). GEM Report nhấn mạnh good, impartial evidence về tác động của công nghệ giáo dục còn thiếu; công nghệ thay đổi nhanh hơn khả năng đánh giá, sản phẩm EdTech thay đổi trung bình khoảng 36 tháng, nhiều bằng chứng đến từ các nước giàu, và technology companies có thể có ảnh hưởng lớn lên sản xuất bằng chứng. Nguồn: https://www.unesco.org/gem-report/en/publication/technology-education và bản web: https://gem-report-2023.unesco.org/technology-in-education/

[^eef-toolkits]: Education Endowment Foundation, Using the Toolkits và Teaching and Learning Toolkit updates. EEF mô tả Toolkit như nguồn hỗ trợ ra quyết định dựa trên bằng chứng, cung cấp “best bets” chứ không đưa ra câu trả lời dứt khoát cho từng trường; việc dùng bằng chứng cần kết hợp với chuyên môn nghề nghiệp và bối cảnh. Nguồn: https://educationendowmentfoundation.org.uk/education-evidence/using-the-toolkits và https://educationendowmentfoundation.org.uk/news/updates-ten-strands-toolkit

[^wwc]: Institute of Education Sciences, What Works Clearinghouse, Procedures and Standards Handbook, Version 5.0 (August 2022, revised December 2022). WWC review và tổng hợp chất lượng nghiên cứu về chương trình, sản phẩm, thực hành và chính sách giáo dục; handbook nêu quy trình và chuẩn đánh giá các thiết kế như randomized controlled trials, quasi-experimental designs và regression discontinuity. Nguồn: https://ies.ed.gov/ncee/wwc/handbooks và PDF: https://ies.ed.gov/ncee/WWC/Docs/referenceresources/Final_WWC-HandbookVer5_0-0-508.pdf

[^used-evidence]: U.S. Department of Education, Using Evidence to Strengthen Education Investments (Revised Non-Regulatory Guidance, September 28, 2023). Hướng dẫn phân tầng evidence-based theo các mức như strong, moderate, promising và demonstrates a rationale, đồng thời nhấn mạnh quy trình xác định nhu cầu địa phương, chọn can thiệp phù hợp, lập kế hoạch, triển khai, xem xét và cải thiện. Nguồn: https://eed.communities.ed.gov/resources/revised-non-regulatory-guidance-using-evidence-strengthen-education-investments và PDF: https://www.ed.gov/media/document/non-regulatory-guidance-using-evidence-strengthen-education-investments-2023-46305.pdf

[^fidelity]: Carroll, C., Patterson, M., Wood, S., Booth, A., Rick, J. & Balain, S., A conceptual framework for implementation fidelity, Implementation Science 2, Article 40 (2007). Bài viết định nghĩa implementation fidelity là mức độ một can thiệp/chương trình được triển khai như dự định, và nhấn mạnh việc đo fidelity giúp hiểu vì sao can thiệp hoạt động hoặc không hoạt động. Nguồn: https://implementationscience.biomedcentral.com/articles/10.1186/1748-5908-2-40

[^implementation-outcomes]: Proctor và cộng sự đề xuất taxonomy implementation outcomes năm 2011; bài scoping review 2023 trong Implementation Science tổng hợp 10 năm nghiên cứu implementation outcomes và nhắc lại các outcome như acceptability, adoption, appropriateness, feasibility, fidelity, cost, penetration và sustainability. Nguồn: https://implementationscience.biomedcentral.com/articles/10.1186/s13012-023-01286-z

[^eef-implementation]: Education Endowment Foundation, A School’s Guide to Implementation (Third Edition, 2024). Hướng dẫn nhấn mạnh một ý tưởng giáo dục chỉ có ý nghĩa khi nó biểu hiện trong công việc hằng ngày của trường, và implementation cần chú ý behaviors, contextual factors và structured process. Nguồn: https://educationendowmentfoundation.org.uk/education-evidence/guidance-reports/implementation

[^edtechhub-evidence]: EdTech Hub, How EdTech Can Be Used to Help Address the Global Learning Crisis và trang Evidence in EdTech. EdTech Hub đề xuất năm câu hỏi về sustained learning impact, equity cho trẻ em marginalised, cost-effective scale, effectiveness trong implementation context cụ thể, và alignment với ưu tiên/chính sách hệ thống. Nguồn: https://edtechhub.org/evidence/edtech-global-learning-crisis/ và https://edtechhub.org/evidence/

[^jpal-nber]: Escueta, M., Quan, V., Nickow, A. J. & Oreopoulos, P., Education Technology: An Evidence-Based Review, NBER Working Paper 23744 (2017); MIT/J-PAL North America summary (2019). Review tổng hợp bằng chứng thực nghiệm theo các nhóm access to technology, computer-assisted learning, technology-enabled nudges và online learning; kết quả cho thấy cung cấp thiết bị/kết nối đơn thuần thường không cải thiện kết quả học thuật K-12, trong khi computer-assisted learning có bằng chứng hứa hẹn hơn, đặc biệt trong toán. Nguồn NBER: https://www.nber.org/papers/w23744 và MIT/J-PAL summary: https://news.mit.edu/2019/mit-jpal-what-126-studies-tell-us-about-education-technology-impact-0226

[^edtechhub-cost]: EdTech Hub, How Can Decision-Makers Assess EdTech Interventions for Cost-Effectiveness to Enable Better Investments? Learning Brief. Brief nhấn mạnh cần so sánh gains của chương trình có và không có công nghệ, tính total cost of implementation trong toàn vòng đời, dùng khung cost-effectiveness nhất quán, và yêu cầu dữ liệu chi phí/kết quả minh bạch, context-specific từ provider. Nguồn: https://edtechhub.org/evidence/learning-brief-series/assessing-cost-effectiveness-for-investments-edtech/