Chương 1: Lịch sử những lời hứa chưa thành

Bối cảnh / Vấn đề

Mỗi thế hệ công nghệ giáo dục đều có một câu mở đầu rất quen: lần này sẽ khác.

Lần này, công nghệ sẽ cá nhân hóa việc học cho từng người. Lần này, người học ở vùng xa sẽ được tiếp cận tri thức tốt như người học ở trung tâm. Lần này, giáo viên sẽ được giải phóng khỏi việc lặp lại. Lần này, dữ liệu sẽ nói cho chúng ta biết học sinh đang yếu ở đâu. Lần này, giáo dục sẽ rẻ hơn, công bằng hơn, hiệu quả hơn.

Những câu đó không sai hoàn toàn. Chính vì không sai hoàn toàn nên chúng tồn tại rất dai. Một chiếc máy chấm trắc nghiệm thật sự có thể giảm việc chấm tay. Một video bài giảng thật sự có thể đưa lời giảng của một giáo sư đến hàng triệu người. Một hệ thống luyện tập thích ứng thật sự có thể chọn bài tiếp theo tốt hơn một danh sách bài tập cố định. Một mô hình ngôn ngữ lớn thật sự có thể giải thích, tóm tắt, viết lại, đặt câu hỏi và phản hồi nhanh hơn phần lớn hệ thống phần mềm giáo dục phổ thông trước nó.

Vấn đề nằm ở chỗ khác: từ “có thể giúp” đến “sẽ thay đổi giáo dục” là một bước nhảy quá dài.

Lịch sử EdTech phần lớn là lịch sử của bước nhảy đó. Một năng lực kỹ thuật thật được phóng đại thành một lời hứa hệ thống. Một cải tiến trong thao tác được kể như một thay đổi trong học tập. Một công cụ hữu ích trong bối cảnh hẹp được bán như giải pháp cho mọi lớp học, mọi môn học, mọi người học.

Đến khi công nghệ đi vào trường học thật, nó gặp thời khóa biểu, sĩ số, ngân sách, kỳ thi, phụ huynh, chính sách, thói quen giáo viên, động lực học sinh và những bất bình đẳng có sẵn. Khi đó, lời hứa bắt đầu co lại.

Chương này không nhằm kết luận rằng công nghệ giáo dục vô dụng. Kết luận đó quá dễ và cũng không đúng. Công nghệ đã làm được nhiều việc có giá trị: mở tài nguyên, hỗ trợ người khuyết tật, tăng tốc phản hồi, giúp phân tích dữ liệu, tạo môi trường mô phỏng, kết nối cộng đồng học tập.

Nhưng nếu muốn xây một cuốn sách nghiêm túc về EdTech, ta phải bắt đầu bằng sự tỉnh táo: rất nhiều lời hứa đã từng được nói trước đây, với giọng gần giống hiện nay.

Nền tảng lý thuyết

Một cách nhìn hữu ích là xem trường học không phải như một nơi trống rỗng để công nghệ bước vào và viết lại mọi thứ. Trường học là một hệ thống xã hội. Nó có lịch sử, nghi thức, vai trò, quyền lực, thước đo và thói quen vận hành.

Công nghệ mới không chỉ “được áp dụng”. Nó bị diễn giải, điều chỉnh và đôi khi bị thuần hóa bởi hệ thống đó.

Justin Reich gọi đây là vấn đề trung tâm của nhiều dự án học tập quy mô lớn. Công nghệ thường hứa mở rộng năng lực dạy và học vượt qua giới hạn một giáo viên với một lớp học. Nhưng khi triển khai, nó đi vào những “thể loại” quen thuộc: học do giảng viên dẫn dắt, học do thuật toán dẫn dắt, và học do bạn học hoặc cộng đồng dẫn dắt (Reich, 2020). Mỗi thể loại có điểm mạnh thật. Mỗi thể loại cũng có giới hạn thật.

Điểm quan trọng là: không thể đánh giá EdTech chỉ bằng câu hỏi “nó có công nghệ gì?”. Câu hỏi đúng hơn là “nó thay đổi quan hệ học tập nào?”.

Ai quyết định lộ trình học? Ai đưa phản hồi? Người học có phải tự điều chỉnh không? Giáo viên có quyền can thiệp không? Dữ liệu được dùng để hỗ trợ hay để giám sát? Công nghệ đang mở ra một hoạt động học mới, hay chỉ làm nhanh hơn một hoạt động cũ?

Ở tầng nhận thức, các nghiên cứu về học đa phương tiện cũng đưa ra cảnh báo tương tự. Clark và Mayer nhấn mạnh rằng hiệu quả của e-learning không đến từ bản thân phương tiện kỹ thuật số, mà từ cách thiết kế phù hợp với bộ nhớ làm việc, sự chú ý và quá trình xử lý chủ động của người học (Clark & Mayer, 2024). Một bài học có video, animation, âm thanh, chatbot hoặc VR vẫn có thể tệ nếu nó làm tăng tải nhận thức ngoại lai, thiếu thực hành, thiếu phản hồi hoặc chỉ khiến người học tiêu thụ nội dung.

Julie Dirksen nhìn từ góc khác: nhiều vấn đề trong học tập không phải là thiếu thông tin. Người học có thể thiếu kỹ năng, thiếu động lực, thiếu môi trường hỗ trợ hoặc nhận chỉ dẫn mơ hồ (Dirksen, 2016). Nếu vấn đề là động lực, thêm một thư viện nội dung chưa chắc giải quyết được. Nếu vấn đề là môi trường làm việc không cho phép áp dụng kỹ năng, thêm một khóa học online có thể chỉ tạo cảm giác đã đào tạo xong.

Ba góc nhìn này gặp nhau ở một điểm: công nghệ giáo dục chỉ có ý nghĩa khi nó chạm đúng cơ chế học tập và điều kiện triển khai. Không có điều đó, nó rất dễ trở thành một lớp vỏ mới cho cách làm cũ.

Thực trạng triển khai

Lời hứa cá nhân hóa bằng máy không bắt đầu với AI tạo sinh. Audrey Watters cho thấy những “teaching machines” từ Sidney Pressey đến B. F. Skinner đã mang nhiều ý tưởng rất quen với EdTech hiện nay: chia nhỏ nội dung, cho người học đi theo tốc độ riêng, phản hồi tức thì, tự động hóa phần việc lặp lại của giáo viên (Watters, 2021).

Cái mới của thế kỷ 21 không phải là ước mơ cá nhân hóa. Cái mới là năng lực tính toán, dữ liệu và giao diện đã mạnh hơn rất nhiều.

Nhưng logic nền vẫn lặp lại. Giáo dục được mô tả như một quy trình còn thô, chậm, kém hiệu quả. Công nghệ được giới thiệu như cách làm quy trình đó chính xác và tiết kiệm hơn. Cách nói này hấp dẫn vì nó chạm vào những nỗi mệt thật của giáo viên và nhà trường.

Chấm bài lặp lại thật sự mệt. Lớp đông thật sự khó cá nhân hóa. Học sinh hổng kiến thức thật sự khó theo dõi bằng mắt thường.

Nhưng khi giáo dục bị nhìn chủ yếu như một quy trình cần tối ưu, ta dễ bỏ qua phần khó nhất: học tập là quan hệ giữa tri thức, con người, động lực và bối cảnh.

Làn sóng học từ xa và học qua truyền thông đại chúng cũng từng mang lời hứa mở rộng tiếp cận. Radio, truyền hình giáo dục, video bài giảng, rồi sau này là nền tảng khóa học trực tuyến đều dựa trên một trực giác mạnh: nếu bài giảng tốt có thể được phát đến nhiều người hơn, giáo dục sẽ công bằng hơn.

Trực giác này đúng một phần. Tiếp cận tài nguyên là điều kiện cần. Nhưng tiếp cận không tự biến thành học tập.

MOOC là ví dụ rõ. Đầu thập niên 2010, các khóa học trực tuyến mở quy mô lớn được kỳ vọng sẽ mở cửa đại học tinh hoa cho thế giới. Chúng thật sự mở tài nguyên. Chúng tạo ra một hình thức học quy mô lớn có giá trị cho người đã có kỹ năng tự học, nền tảng học thuật và mục tiêu rõ.

Nhưng với người học thiếu thời gian, thiếu hỗ trợ, thiếu thói quen tự điều chỉnh hoặc thiếu cộng đồng, một video hay và một diễn đàn lớn thường không đủ. Reich nhận xét rằng học tự nhịp trong các chủ đề bắt buộc là việc rất khó; nhóm hưởng lợi nhiều thường là người đã có học vấn và vốn xã hội cao hơn (Reich, 2020).

Điều này không làm MOOC vô nghĩa. Nó chỉ làm lời hứa “mở truy cập là đủ để dân chủ hóa giáo dục” trở nên quá đơn giản. Trong giáo dục, cánh cửa mở chưa đủ. Người học còn cần bản đồ, nhịp học, phản hồi, động lực, cộng đồng, sự công nhận và đôi khi là một người thật nhận ra họ đang sắp bỏ cuộc.

Nhóm thứ hai là học do thuật toán dẫn dắt: adaptive tutors, computer-assisted instruction, intelligent tutoring systems. Đây là vùng có nhiều thành tựu thật. Trong những miền có cấu trúc rõ như toán cơ bản, lập trình nhập môn, luyện kỹ năng ngôn ngữ hoặc một số dạng câu hỏi tiêu chuẩn, hệ thống có thể theo dõi câu trả lời, ước lượng mức hiểu và chọn bài tiếp theo.

Khi thiết kế tốt, người học không phải đi qua cùng một lộ trình cứng. Họ nhận bài phù hợp hơn, phản hồi nhanh hơn, cơ hội luyện tập nhiều hơn.

Nhưng thuật toán thích cấu trúc. Nó mạnh khi nhiệm vụ có đáp án rõ, dữ liệu sạch, mục tiêu đo được và phản hồi có thể chuẩn hóa. Nó yếu hơn khi học tập đòi hỏi diễn giải, tranh luận, sáng tạo, đạo đức, bản sắc, hợp tác hoặc chuyển giao sang bối cảnh mới.

Vì vậy adaptive learning thường tạo tiến bộ cục bộ, không phải phép màu phổ quát. Nó có thể giúp một học sinh luyện phân số tốt hơn. Nó không tự trả lời được câu hỏi: học sinh đó có hiểu tại sao phân số quan trọng trong đời sống, có biết giải thích cho bạn khác, có bớt sợ toán, có dùng được tư duy tỷ lệ trong tình huống mới hay không.

Nhóm thứ ba là học do cộng đồng dẫn dắt. Scratch, Minecraft, diễn đàn lập trình, cộng đồng làm video, nhóm học ngoại ngữ và các mạng học tập tự nguyện cho thấy một mặt rất mạnh của internet: con người có thể học sâu khi họ có sở thích, bản sắc, sản phẩm thật và cộng đồng phản hồi.

Không phải lúc nào giáo trình cũng đi trước. Nhiều khi người học bắt đầu bằng một dự án, một vấn đề, một điều tò mò. Họ học vì muốn tham gia vào một cộng đồng có ý nghĩa.

Nhưng khi đem logic đó vào nhà trường, mọi thứ khó hơn. Môn học bắt buộc không giống sở thích tự nguyện. Tiết học 45 phút không giống một buổi mày mò cả tối. Chấm điểm cá nhân không giống văn hóa chia sẻ sản phẩm. Chương trình chuẩn hóa không giống cộng đồng mở.

Vì vậy nhiều mô hình cộng đồng rất sống động ngoài trường lại trở nên gượng khi bị ép vào cấu trúc trường học.

Đến GenAI, lời hứa lại trở nên mạnh hơn vì giao diện đã đổi. Người học không chỉ bấm câu trả lời. Họ có thể hỏi, đối thoại, yêu cầu ví dụ, tạo bản nháp, sửa câu, mô phỏng phỏng vấn, giải thích lại khái niệm. Giáo viên có thể nhờ AI gợi ý rubric, tạo câu hỏi, soạn ví dụ, phân hóa bài tập.

Đây là thay đổi thật về khả năng tương tác.

Nó cũng nối lại một câu hỏi lớn hơn mà Holmes, Bialik và Fadel đặt ra trước làn sóng GenAI: AI không chỉ buộc giáo dục hỏi “dạy bằng công cụ nào”, mà còn hỏi lại “người học cần học cái gì khi máy đã xử lý ngày càng nhiều phần dữ liệu, thông tin và quy trình” (Holmes, Bialik, & Fadel, 2019).

Nhưng chính vì GenAI mềm dẻo hơn, rủi ro phóng đại cũng lớn hơn. UNESCO cảnh báo rằng GenAI phát triển nhanh hơn khả năng thích ứng của chính sách và cơ sở giáo dục; cần tiếp cận lấy con người làm trung tâm, bảo vệ dữ liệu, giới hạn độ tuổi phù hợp và xác nhận công cụ về đạo đức, sư phạm trước khi triển khai rộng (UNESCO, 2023).

OECD cũng phân biệt rõ số hóa và chuyển đổi số: nhiều hệ thống đã số hóa quản trị và tài nguyên, nhưng vẫn chủ yếu dùng công nghệ để tái hiện quy trình cũ; các công cụ thích ứng, cảnh báo sớm và dữ liệu có thể hành động cho giáo viên/học sinh vẫn chưa phổ biến trong nhiều hệ thống (OECD, 2023).

Nói cách khác, GenAI làm câu hỏi trở nên cấp bách hơn, không làm câu hỏi biến mất. Nếu dùng GenAI để viết hộ bài luận, ta có năng suất văn bản nhưng mất cơ hội luyện tư duy. Nếu dùng GenAI để tạo thêm nhiều bài tập giống nhau, ta có kho nội dung lớn nhưng chưa chắc có học sâu. Nếu dùng GenAI để phản hồi tức thì nhưng phản hồi luôn cho đáp án, ta có thể vô tình dạy người học bỏ qua nỗ lực truy hồi và tự giải thích.

Phân tích phản biện

Sai lầm phổ biến nhất khi nhìn lịch sử EdTech là kể nó như một chuỗi thất bại. Cách kể đó dễ tạo cảm giác tỉnh táo, nhưng nó cũng lười không kém gì hype. Nhiều công nghệ đã thành công trong phạm vi đúng của chúng. Máy chiếu, LMS, công cụ tìm kiếm, video, phần mềm luyện tập, hệ thống quản lý học sinh, công cụ hỗ trợ tiếp cận, mô phỏng và AI đều có giá trị thật.

Vấn đề không phải là công nghệ không làm được gì. Vấn đề là ta thường hỏi sai đơn vị thay đổi.

Một công cụ có thể cải thiện thao tác nhưng không cải thiện học tập. Một nền tảng có thể tăng thời lượng sử dụng nhưng không tăng hiểu sâu. Một dashboard có thể làm dữ liệu trông rõ hơn nhưng không giúp giáo viên biết can thiệp ra sao. Một chatbot có thể trả lời nhanh nhưng làm người học ít tự kiểm tra hơn. Một khóa học mở có thể tăng số người đăng ký nhưng không tăng số người hoàn thành có năng lực thật.

Ở đây, cần phân biệt bốn tầng:

Tầng truy cập: Người học có tài nguyên, thiết bị, kết nối và quyền sử dụng không?
Tầng thao tác: Công việc có nhanh hơn, rẻ hơn, ít lỗi hơn không?
Tầng học tập: Người học có nhớ lâu hơn, hiểu sâu hơn, chuyển giao tốt hơn, tự điều chỉnh tốt hơn không?
Tầng hệ thống: Tổ chức có thay đổi cách thiết kế, hỗ trợ, đánh giá và phân bổ nguồn lực không?

EdTech thường thắng ở tầng truy cập và thao tác trước. Điều đó đáng quý. Nhưng nếu lấy thắng lợi ở hai tầng này để tuyên bố thắng lợi ở tầng học tập và hệ thống, ta tự đánh lừa mình.

Một ví dụ: ghi hình bài giảng giúp người học xem lại. Đây là lợi ích thật ở tầng truy cập. Nhưng nếu bài giảng vốn quá tải, thiếu ví dụ, thiếu luyện tập, thiếu phản hồi, thì video chỉ làm một thiết kế yếu trở nên dễ phân phối hơn.

Tương tự, AI tạo câu hỏi có thể giảm thời gian soạn bài. Nhưng nếu câu hỏi chỉ kiểm tra ghi nhớ rời rạc, hệ thống đang tăng tốc một thói quen đánh giá nghèo nàn.

Đó là lý do cuốn sách này cần bắt đầu bằng lịch sử. Lịch sử không phải để làm chậm đổi mới. Lịch sử giúp ta nhận ra khi nào một ý tưởng thật sự mới, khi nào nó chỉ mặc áo mới.

Nguyên tắc thiết kế

Từ lịch sử các lời hứa chưa thành, có thể rút ra năm nguyên tắc cho mọi chương sau.

Thứ nhất, đừng đánh giá công nghệ bằng lời hứa của nhà cung cấp. Hãy đánh giá bằng nhiệm vụ học tập mà nó làm thay đổi. Nó giúp người học truy hồi tốt hơn, thực hành nhiều hơn, nhận phản hồi rõ hơn, hợp tác sâu hơn, hay chỉ làm nội dung trông hiện đại hơn?

Thứ hai, phân biệt cá nhân hóa với cô lập hóa. Một lộ trình riêng có thể hữu ích. Nhưng học tập không chỉ là một người ngồi một mình với máy. Người học cần thầy cô, bạn học, cộng đồng, chuẩn mực và đối thoại.

Thứ ba, đừng nhầm dữ liệu với hiểu biết. Dữ liệu chỉ có giá trị khi nó dẫn đến hành động sư phạm. Một cảnh báo bỏ học mà không có người can thiệp, không có nguồn lực hỗ trợ và không có quyền thay đổi lộ trình học chỉ là một con số buồn.

Thứ tư, giữ lại nỗ lực học tập cần thiết. Công nghệ tốt nên giảm ma sát hành chính, kỹ thuật và truy cập. Nó không nên xóa sạch những ma sát nhận thức làm nên học sâu: dự đoán, giải thích, thử sai, truy hồi, phản biện, sửa lại.

Thứ năm, luôn hỏi “hiệu quả với ai, trong điều kiện nào?”. Không có EdTech chung chung. Một hệ thống tốt cho sinh viên đại học tự học chưa chắc tốt cho học sinh lớp 6. Một tutor tốt cho đại số chưa chắc tốt cho viết nghị luận. Một cộng đồng học tập tốt cho người có động lực nội tại chưa chắc giúp người đang sợ học.

Tổng kết chương

Lịch sử EdTech không nói rằng công nghệ nên đứng ngoài giáo dục. Nó nói điều tinh tế hơn: công nghệ giáo dục thường thất bại khi nó tự nhận mình là trung tâm của thay đổi.

Teaching machines đã hứa cá nhân hóa và tự động phản hồi. MOOC đã hứa mở cửa tri thức tinh hoa cho số đông. Adaptive tutors đã hứa thuật toán hóa lộ trình học. Learning networks đã hứa cộng đồng hóa việc học. GenAI đang hứa một gia sư, một trợ lý, một cộng sự sáng tạo cho mọi người.

Mỗi lời hứa có phần đúng. Nhưng phần đúng đó chỉ trở thành giá trị giáo dục khi được đặt trong thiết kế học tập, vai trò giáo viên, động lực người học, bằng chứng đo lường và điều kiện tổ chức.

Chương tiếp theo sẽ đi vào câu hỏi khó hơn: nếu không thể tin vào lời hứa, ta đọc bằng chứng EdTech như thế nào? Điểm số, engagement, completion, satisfaction, effect size và transfer thực sự nói gì? Và khi một công nghệ tuyên bố “có nghiên cứu chứng minh”, ta cần hỏi thêm những câu nào trước khi tin?

Tài liệu tham khảo

Clark, R. C., & Mayer, R. E. (2024). e-Learning and the Science of Instruction (5th ed.). Wiley.
Dirksen, J. (2016). Design for How People Learn (2nd ed.). New Riders.
Holmes, W., Bialik, M., & Fadel, C. (2019). Artificial Intelligence in Education: Promises and Implications for Teaching and Learning. Center for Curriculum Redesign.
OECD. (2023). OECD Digital Education Outlook 2023: Towards an Effective Digital Education Ecosystem. OECD Publishing. https://doi.org/10.1787/c74f03de-en
Reich, J. (2020). Failure to Disrupt: Why Technology Alone Can't Transform Education. Harvard University Press.
UNESCO. (2023). Guidance for Generative AI in Education and Research. https://www.unesco.org/en/articles/guidance-generative-ai-education-and-research
Watters, A. (2021). Teaching Machines: The History of Personalized Learning. MIT Press.

Chương 2: Bằng chứng, thước đo và ảo tưởng dữ liệu

Bối cảnh / Vấn đề

Sau mỗi làn sóng EdTech, câu hỏi thường chuyển rất nhanh từ “công nghệ này hứa gì?” sang “có số liệu chứng minh không?”. Nghe có vẻ hợp lý. Nếu Chương 1 nhắc ta đừng tin vào lời hứa, thì Chương 2 phải đưa ta đến bằng chứng.

Nhưng trong giáo dục, “có số liệu” chưa đủ.

Một nền tảng có thể báo rằng học sinh dành nhiều thời gian hơn trong ứng dụng. Một chatbot có thể làm người học hài lòng hơn trong khảo sát cuối buổi. Một hệ thống adaptive learning có thể tăng điểm bài kiểm tra ngay sau can thiệp. Một khóa học online có thể có hàng trăm nghìn người đăng ký. Một nghiên cứu có thể báo effect size dương và p-value đẹp.

Tất cả những điều đó có thể đúng. Nhưng chúng chưa tự trả lời câu hỏi quan trọng hơn: người học có hiểu sâu hơn không, nhớ lâu hơn không, chuyển kiến thức sang tình huống mới tốt hơn không, tự điều chỉnh tốt hơn không, ít phụ thuộc vào công cụ hơn hay nhiều hơn, và hiệu quả đó có còn sau vài tháng không?

EdTech không thiếu dữ liệu. Nó thiếu kỷ luật đọc dữ liệu.

Trong giáo dục, thước đo nào được chọn sẽ âm thầm định nghĩa thành công. Nếu ta đo số phút dùng app, hệ thống sẽ tối ưu số phút. Nếu ta đo số câu đúng, hệ thống sẽ tối ưu câu đúng. Nếu ta đo tỷ lệ hoàn thành, hệ thống sẽ tối ưu giữ người học đi đến cuối. Nếu ta đo điểm hài lòng, hệ thống sẽ tối ưu cảm giác dễ chịu. Những thứ đó không vô nghĩa. Nhưng không thứ nào, đứng một mình, đồng nghĩa với học tập tốt.

Chương này bàn về cách đọc bằng chứng EdTech mà không bị dữ liệu làm cho say. Không phải để nghi ngờ mọi nghiên cứu. Ngược lại, mục tiêu là dùng nghiên cứu nghiêm túc hơn: hiểu thước đo, thiết kế nghiên cứu, giới hạn của effect size, nguy cơ novelty effect, khoảng trống nghiên cứu dài hạn và cách đưa bằng chứng vào quyết định thật của nhà trường.

Nền tảng lý thuyết

Điểm xuất phát là phân biệt ba câu hỏi thường bị trộn lẫn.

Câu hỏi thứ nhất: công nghệ có được dùng không? Đây là câu hỏi về adoption và engagement. Người học đăng nhập bao nhiêu lần, làm bao nhiêu bài, xem bao nhiêu video, hỏi chatbot bao nhiêu lượt, hoàn thành bao nhiêu phần trăm khóa học.

Câu hỏi thứ hai: công nghệ có làm hoạt động học tốt hơn không? Đây là câu hỏi về cơ chế. Người học có thực hành nhiều hơn không? Phản hồi có nhanh và rõ hơn không? Tải nhận thức ngoại lai có giảm không? Giáo viên có nhìn thấy lỗi phổ biến tốt hơn không? Người học có phải truy hồi, giải thích, sửa sai và phản tư không?

Câu hỏi thứ ba: công nghệ có cải thiện kết quả học tập đáng tin cậy không? Đây là câu hỏi về outcome. Người học có điểm tốt hơn, nhớ lâu hơn, chuyển giao tốt hơn, tự điều chỉnh tốt hơn, tự tin hơn hoặc làm được nhiệm vụ thật tốt hơn không?

Một sản phẩm có thể thắng ở câu hỏi thứ nhất nhưng thua ở câu hỏi thứ hai. Người học dùng nhiều vì app vui, nhưng hoạt động chủ yếu là click nhanh và đoán đáp án. Một sản phẩm có thể thắng ở câu hỏi thứ hai nhưng chưa thắng ngay ở câu hỏi thứ ba. Retrieval practice và interleaving thường làm người học thấy khó hơn trong ngắn hạn, nhưng lại tốt hơn cho ghi nhớ dài hạn và chuyển giao (Brown, Roediger, & McDaniel, 2014).

Đây là lý do e-Learning and the Science of Instruction nhấn mạnh transfer test. Nếu mục tiêu là người học áp dụng được kiến thức trong tình huống mới, thì bài kiểm tra chỉ đo nhớ lại thông tin không đủ (Clark & Mayer, 2024). Trong nhiều bối cảnh EdTech, ta đang đo cái dễ đo nhất thay vì cái đáng đo nhất.

Thiết kế nghiên cứu cũng quan trọng. Một nghiên cứu tương quan có thể cho thấy người dùng nền tảng nhiều hơn có điểm cao hơn. Nhưng điều đó chưa chứng minh nền tảng làm họ giỏi hơn. Có thể học sinh chăm hơn dùng nhiều hơn. Có thể trường giàu hơn triển khai tốt hơn. Có thể giáo viên tốt hơn vừa dùng công nghệ hiệu quả hơn vừa dạy tốt hơn.

Để nói về quan hệ nhân quả, ta cần thiết kế mạnh hơn: randomized controlled trial, quasi-experimental design, nhóm đối chứng phù hợp, kiểm soát attrition, kiểm soát khác biệt ban đầu, đo đúng cấp độ lớp/trường nếu can thiệp diễn ra theo cụm. What Works Clearinghouse tồn tại chính vì giáo dục cần một cách đọc có hệ thống về chất lượng nghiên cứu, không chỉ đọc kết luận của từng bài (WWC, 2022).

ESSA evidence tiers cũng giúp phân biệt các mức “bằng chứng”. Strong evidence thường dựa trên nghiên cứu thực nghiệm được thiết kế và triển khai tốt. Moderate evidence dựa trên quasi-experimental study tốt. Promising evidence dựa trên nghiên cứu tương quan có kiểm soát selection bias. Tier thấp hơn, “demonstrates a rationale”, chỉ nói rằng có logic model và cơ sở nghiên cứu để thử, không có nghĩa đã chứng minh hiệu quả trong triển khai thật (California Department of Education, 2024).

Nói ngắn gọn: “research-based” không giống “evidence-based”. “Có lý thuyết ủng hộ” không giống “đã kiểm định tốt”. “Có effect size dương” không giống “nên mua và triển khai đại trà”.

Thực trạng triển khai

Một cách chia thực dụng đến từ NBER review của Escueta, Quan, Nickow và Oreopoulos. Họ tổng hợp bằng chứng thực nghiệm về EdTech theo bốn nhóm: mở truy cập công nghệ, computer-assisted learning, can thiệp hành vi nhờ công nghệ, và online learning (Escueta et al., 2017).

Cách chia này giúp tránh một lỗi phổ biến: nói “EdTech hiệu quả” hoặc “EdTech không hiệu quả” như thể đó là một loại can thiệp duy nhất. Phát laptop, dùng phần mềm luyện toán, gửi tin nhắn nhắc phụ huynh, học một khóa online tự nhịp và dùng GenAI để phản hồi bài viết là những can thiệp khác nhau. Chúng có cơ chế khác nhau, rủi ro khác nhau và thước đo khác nhau.

Ví dụ, mở truy cập thiết bị có thể là điều kiện cần nhưng không đủ. Nếu học sinh chưa có thiết bị hoặc kết nối, mọi lời nói về AI, học cá nhân hóa hay học online đều xa vời. Nhưng khi thiết bị đã có, kết quả học tập vẫn phụ thuộc vào nội dung, giáo viên, nhiệm vụ, phản hồi và môi trường học. Truy cập là cửa vào, không phải đích đến.

Computer-assisted learning thường có bằng chứng tốt hơn khi nó cung cấp luyện tập có cấu trúc, phản hồi rõ và phù hợp với trình độ người học. Nhưng nó dễ bị thổi phồng khi điểm đo là bài kiểm tra gần với dạng luyện tập. Một hệ thống có thể tăng điểm dạng bài đã luyện mà không chắc tăng năng lực chuyển giao. Đây không phải lỗi nhỏ, vì giáo dục quan tâm đến khả năng dùng kiến thức ngoài màn hình luyện tập.

Can thiệp hành vi nhờ công nghệ, như nhắc lịch, gửi thông tin cho phụ huynh hoặc cảnh báo sớm, lại có cơ chế khác. Nó không trực tiếp dạy kiến thức. Nó thay đổi chú ý, thói quen, kỳ vọng hoặc sự phối hợp giữa các bên. Đo nó bằng cùng thước đo với một tutor thông minh sẽ làm nghèo câu hỏi.

Online learning cũng vậy. Tỷ lệ hoàn thành thấp không tự chứng minh học online kém. Nó có thể phản ánh rằng người học online tự nhịp cần kỹ năng tự điều chỉnh cao hơn, hoặc khóa học không gắn với cộng đồng và hỗ trợ đủ mạnh. Nhưng tỷ lệ đăng ký cao cũng không chứng minh dân chủ hóa giáo dục. Một khóa học có một triệu lượt đăng ký nhưng chỉ một nhóm nhỏ đã có học vấn hoàn thành thì kết quả xã hội rất khác lời hứa ban đầu.

Các nghiên cứu GenAI mới càng cho thấy vì sao phải đọc kỹ. Han, Peng và Liu tổng hợp 68 nghiên cứu thực nghiệm và quasi-experimental từ 2022-2025, với 337 effect sizes. Kết quả tổng thể dương: SMD = 0.45. Nếu dừng ở đây, ta rất dễ viết một câu hào hứng rằng GenAI cải thiện học tập. Nhưng cùng nghiên cứu đó báo heterogeneity rất cao, I2 = 95%, nghĩa là hiệu quả thay đổi mạnh theo bối cảnh, môn học, cấp học, thời lượng và phương pháp nghiên cứu (Han, Peng, & Liu, 2025).

Một meta-analysis khác của Chen và Cheung trên sinh viên đại học báo hiệu ứng tổng thể lớn hơn, g+ = 0.804, với tác động tích cực lên kỹ năng ngôn ngữ, thành tích học thuật, trạng thái động lực-cảm xúc và tư duy bậc cao. Nhưng cùng kết quả cho thấy tác động lên metacognition không có ý nghĩa thống kê (Chen & Cheung, 2025). Đây là chi tiết rất đáng chú ý: một công cụ có thể giúp người học làm tốt hơn trong nhiệm vụ trước mắt nhưng chưa chắc giúp họ tự giám sát việc học tốt hơn.

Liu và cộng sự phân tích 49 bài về GenAI ở K-12 và higher education, thấy effect sizes trung bình dương cho learning achievement và learning motivation. Nhưng họ cũng chỉ ra các moderator như cấp học, môn học, giao diện, cách tương tác và thời lượng thử nghiệm. Đặc biệt, tác động lên motivation có novelty effect: giảm dần theo thời gian (Liu et al., 2025). Một lớp học thấy học sinh hứng thú trong hai tuần đầu dùng chatbot chưa thể kết luận hệ thống tạo động lực học bền vững.

Ngay cả với thứ tưởng như đơn giản hơn, như feedback số, bằng chứng cũng không đơn tuyến. Brummer và cộng sự meta-analysis 116 can thiệp feedback số, thấy hiệu ứng trung bình Hedges' g = 0.41. Nhưng hiệu quả thay đổi theo focus của feedback, môn học, loại đánh giá và learner control. Họ cũng phát hiện khả năng publication bias; sau điều chỉnh trim-and-fill, effect ước tính có thể thấp hơn đáng kể trong phân tích của họ (Brummer et al., 2024).

Thông điệp không phải là “đừng tin meta-analysis”. Thông điệp là phải đọc meta-analysis như một bản đồ địa hình, không như bảng giá. Effect trung bình là điểm khởi đầu. Điều đáng hỏi là núi ở đâu, vực ở đâu, đường nào đi được, người nào đi được, thời tiết nào nguy hiểm.

Phân tích phản biện

Ảo tưởng dữ liệu đầu tiên là nhầm engagement với learning. Engagement quan trọng. Người học không tham gia thì khó học. Nhưng engagement có nhiều loại. Click nhiều không giống suy nghĩ nhiều. Thời gian trên app không giống thời gian tập trung. Trả lời nhanh không giống hiểu sâu. Một giao diện có thể giữ người học ở lại bằng phần thưởng, streak, thông báo và cảm giác tiến bộ giả.

Trong EdTech, engagement thường được đo vì nó sẵn có trong log dữ liệu. Hệ thống biết người học mở trang nào, ở lại bao lâu, bấm gì, dừng ở đâu. Nhưng log dữ liệu không tự nói người học đang xử lý thông tin ở mức nào. Muốn biết học sâu, cần nối log với nhiệm vụ, phản hồi, sản phẩm học tập, phỏng vấn, bài kiểm tra trì hoãn và quan sát sư phạm.

Ảo tưởng thứ hai là nhầm satisfaction với hiệu quả. Người học có thể thích một công cụ vì nó làm bài dễ hơn. Giáo viên có thể thích một công cụ vì nó tạo tài liệu nhanh hơn. Nhà quản lý có thể thích dashboard vì nó làm hệ thống trông có kiểm soát hơn. Nhưng giáo dục đôi khi cần trải nghiệm không hoàn toàn dễ chịu: truy hồi khó, viết lại, nhận phản hồi không thoải mái, phát hiện mình hiểu sai, luyện tập xen kẽ. Nếu chỉ tối ưu hài lòng, ta có thể làm yếu đi những ma sát cần thiết cho học tập.

Ảo tưởng thứ ba là nhầm điểm số ngắn hạn với năng lực bền vững. Một bài post-test ngay sau can thiệp thường đo trí nhớ gần, sự quen dạng hoặc khả năng dùng công cụ trong điều kiện vừa học. Điều đó hữu ích, nhưng không đủ. Nếu muốn biết học tập bền vững, cần delayed post-test, transfer task, nhiệm vụ mở, hoặc bằng chứng người học dùng được kiến thức sau khi hỗ trợ biến mất.

Make It Stick nhấn mạnh rằng nhiều phương pháp học hiệu quả dài hạn lại tạo cảm giác khó hơn ngắn hạn (Brown, Roediger, & McDaniel, 2014). Vì vậy một công nghệ làm người học thấy “mượt” và điểm tức thì tăng chưa chắc tốt hơn một thiết kế buộc người học phải nỗ lực đúng cách.

Ảo tưởng thứ tư là nhầm effect size với quyết định triển khai. Effect size giúp ta thấy độ lớn tương đối của tác động. Nhưng nó không trả lời hết các câu hỏi mà một trường học cần hỏi: chi phí bao nhiêu, giáo viên cần học gì, mất bao lâu để triển khai, dữ liệu nào bị thu thập, có phù hợp lứa tuổi không, có làm tăng bất bình đẳng không, có phụ thuộc nhà cung cấp không, có làm giáo viên mất quyền phán đoán không.

Ngay cả effect size cũng cần đọc cùng confidence interval, heterogeneity, publication bias, sample size, attrition, duration và outcome type. Một effect lớn từ nghiên cứu ngắn, sample nhỏ, do nhóm phát triển sản phẩm thực hiện, đo bài kiểm tra gần với nội dung luyện tập, không có delayed test, không nên được đọc giống effect vừa phải từ nhiều trường, nhiều giáo viên, nhiều tháng triển khai.

Ảo tưởng thứ năm là tin rằng dữ liệu càng nhiều thì quyết định càng tốt. Dữ liệu giáo dục nhiều lên rất nhanh: clickstream, video, audio, lịch sử chỉnh sửa, câu hỏi chatbot, thời gian làm bài, tương tác nhóm. Nhưng dữ liệu nhiều không bảo đảm insight tốt. Dữ liệu có thể nhiễu, thiên lệch, khó giải thích hoặc tạo cảm giác giám sát. Nếu giáo viên nhận một cảnh báo “học sinh có nguy cơ bỏ học” nhưng không biết vì sao, không có nguồn lực can thiệp và không có quyền thay đổi lộ trình, dữ liệu chỉ làm tăng lo lắng.

Điểm đáng sợ nhất của dữ liệu giáo dục không phải là nó sai hoàn toàn. Mà là nó có vẻ đúng vừa đủ để người ta thôi đặt câu hỏi.

Nguyên tắc thiết kế

Để dùng bằng chứng EdTech một cách nghiêm túc, nhà trường, nhà phát triển và người viết chính sách cần một thói quen đọc dữ liệu theo chuỗi câu hỏi.

Một: Outcome là gì? Nếu outcome là điểm bài kiểm tra gần, đừng vội kết luận về hiểu sâu. Nếu outcome là satisfaction, đừng vội kết luận về học tập. Nếu outcome là completion, đừng vội kết luận về năng lực.

Hai: Comparison group là gì? Công nghệ được so với không học, với cách dạy bình thường, với phiên bản không cá nhân hóa, hay với một can thiệp tốt khác? Một công cụ dễ thắng nếu đối thủ là “không có gì”. Nó khó thắng hơn nếu so với giáo viên giỏi dùng phương pháp đã có bằng chứng.

Ba: Can thiệp kéo dài bao lâu? Một tuần hứng thú không giống một học kỳ. Một thử nghiệm trong phòng lab không giống một năm học với giáo viên bận, mạng yếu, học sinh vắng và lịch thi.

Bốn: Người học là ai? Sinh viên đại học tự nguyện khác học sinh trung học bắt buộc. Người đã có nền tảng khác người đang mất gốc. Người học ngôn ngữ khác người học đạo đức, nghệ thuật, lịch sử hay kỹ năng nghề.

Năm: Cơ chế học tập là gì? Công nghệ giúp học vì tăng retrieval, tăng feedback, giảm tải nhận thức, tăng thực hành, hỗ trợ tự điều chỉnh, hay chỉ vì nó mới lạ? Nếu không mô tả được cơ chế, rất khó chuyển kết quả sang bối cảnh khác.

Sáu: Dữ liệu có actionable không? Một dashboard tốt không chỉ hiển thị. Nó giúp người dùng quyết định bước tiếp theo: học sinh cần luyện gì, giáo viên cần can thiệp ra sao, phụ huynh cần hỗ trợ thế nào, nhà trường cần đổi điều kiện gì.

Bảy: Có tác dụng phụ không? Một công cụ tăng điểm nhưng làm người học phụ thuộc, giảm tự giải thích hoặc tăng giám sát có thể không đáng. Một hệ thống cảnh báo sớm có thể giúp can thiệp, nhưng cũng có thể gắn nhãn người học yếu thế.

Tám: Evidence có chuyển thành learning loop không? Evidence-based practice không phải là mua thứ “đã có nghiên cứu” rồi xong. Nó là vòng lặp: chọn mục tiêu, đặt giả thuyết, triển khai nhỏ, đo đúng, hỏi giáo viên/người học, sửa thiết kế, rồi mới mở rộng.

EEF diễn đạt tinh thần này rất thực dụng: dùng công nghệ theo những cách cải thiện việc dạy và học, như tăng chất lượng/thời lượng thực hành hoặc hỗ trợ đánh giá của giáo viên, chứ không dùng công nghệ như vật trang trí hiện đại (EEF, 2019).

Tổng kết chương

Bằng chứng là thứ bảo vệ giáo dục khỏi lời hứa rỗng. Nhưng bằng chứng chỉ làm được việc đó khi ta đọc nó đúng cách.

Chương này đưa ra năm điểm chính. Thứ nhất, dữ liệu không tự định nghĩa học tập; thước đo được chọn sẽ định nghĩa thành công. Thứ hai, adoption, engagement, satisfaction, completion, điểm số, retention và transfer là các tầng khác nhau. Thứ ba, effect size cần đi cùng thiết kế nghiên cứu, bối cảnh, duration, heterogeneity và publication bias. Thứ tư, novelty effect khiến nhiều công nghệ trông hiệu quả trong ngắn hạn hơn thực tế dài hạn. Thứ năm, evidence-based practice là một vòng lặp triển khai, không phải nhãn dán marketing.

Nếu Chương 1 giúp ta bớt tin vào lời hứa, Chương 2 giúp ta bớt say vì biểu đồ. Chương 3 sẽ đi vào nền sâu hơn: con người thật sự học như thế nào. Khi hiểu bộ nhớ, truy hồi, giãn cách, khó khăn đáng giá và ảo tưởng thông thạo, ta sẽ nhìn EdTech bằng một tiêu chuẩn rõ hơn: công nghệ nào làm mạnh cơ chế học tập, công nghệ nào chỉ làm đẹp bề mặt.

Tài liệu tham khảo

Brown, P. C., Roediger III, H. L., & McDaniel, M. A. (2014). Make It Stick: The Science of Successful Learning. Harvard University Press.
Brummer, L., de Boer, H., Mouw, J. M., & Strijbos, J.-W. (2024). A meta-analysis of the effects of context, content, and task factors of digitally delivered instructional feedback on learning performance. Learning Environments Research, 27, 453-476. https://doi.org/10.1007/s10984-024-09501-4
California Department of Education. (2024). Evidence-Based Interventions Under the ESSA. https://www.cde.ca.gov/RE/ES/evidence.asp
Chen, S., & Cheung, A. C. K. (2025). Effect of generative artificial intelligence on university students learning outcomes: A systematic review and meta-analysis. Educational Research Review, 49, 100737. https://doi.org/10.1016/j.edurev.2025.100737
Clark, R. C., & Mayer, R. E. (2024). e-Learning and the Science of Instruction (5th ed.). Wiley.
Education Endowment Foundation. (2019). Using Digital Technology to Improve Learning. https://educationendowmentfoundation.org.uk/education-evidence/guidance-reports/digital/
Escueta, M., Quan, V., Nickow, A. J., & Oreopoulos, P. (2017). Education Technology: An Evidence-Based Review. NBER Working Paper No. 23744. https://doi.org/10.3386/w23744
Han, X., Peng, H., & Liu, M. (2025). The impact of GenAI on learning outcomes: A systematic review and meta-analysis of experimental studies. Educational Research Review, 48, 100714. https://doi.org/10.1016/j.edurev.2025.100714
Liu, X., Guo, B., He, W., & Hu, X. (2025). Effects of generative artificial intelligence on K-12 and higher education students' learning outcomes: A meta-analysis. Journal of Educational Computing Research, 63(5), 1249-1291. https://doi.org/10.1177/07356331251329185
What Works Clearinghouse. (2022). What Works Clearinghouse Procedures and Standards Handbook, Version 5.0. U.S. Department of Education, Institute of Education Sciences. https://ies.ed.gov/ncee/wwc/Handbooks

Chương 3: Khoa học nền tảng về cách con người học

Bối cảnh / Vấn đề

Nếu Chương 2 là bộ lọc để đọc bằng chứng, Chương 3 là nền để hiểu bằng chứng đó đang đo cái gì. Một công nghệ giáo dục có thể có giao diện đẹp, nhiều dữ liệu, phản hồi nhanh và báo cáo chi tiết. Nhưng nếu nó không chạm vào cơ chế học tập thật sự, nó chỉ làm việc quanh học tập, không làm việc với học tập.

Sai lầm phổ biến nhất của EdTech là xem học tập như chuyển nội dung từ nơi này sang nơi khác: từ giáo viên sang học sinh, từ sách sang màn hình, từ video sang trí nhớ, từ chatbot sang câu trả lời của người học. Cách nhìn này rất thuận tiện cho phần mềm. Nếu học là truyền nội dung, ta chỉ cần làm nội dung ngắn hơn, đẹp hơn, cá nhân hóa hơn, dễ truy cập hơn.

Nhưng con người không học như ổ cứng nhận file. Học là quá trình biến trải nghiệm thành cấu trúc trí nhớ có thể dùng lại. Người học phải chú ý, chọn lọc thông tin, kết nối với kiến thức cũ, tổ chức thành mô hình tinh thần, truy hồi khi cần, sửa sai, và dùng được trong tình huống mới. Mỗi bước đều có thể hỏng.

Đây là lý do nhiều trải nghiệm học “mượt” lại không tạo học tập bền. Người học xem một video rõ ràng và thấy mình hiểu. Họ đọc lại một đoạn nhiều lần và thấy quen. Họ làm mười bài giống nhau liên tục và thấy tiến bộ nhanh. Họ hỏi AI và nhận câu trả lời gọn gàng. Cảm giác đó dễ chịu, nhưng chưa chắc là học.

Một cuốn sách về EdTech cần đặt câu hỏi ngược: công nghệ này đang giúp người học làm việc nhận thức nào? Nó giúp truy hồi hay chỉ cho xem lại? Nó giúp phân biệt dạng vấn đề hay chỉ luyện cùng một mẫu? Nó giúp xây mô hình tinh thần hay chỉ tạo câu trả lời? Nó giúp người học tự giám sát hay làm họ phụ thuộc vào phản hồi bên ngoài?

Nền tảng lý thuyết

Học tập bắt đầu bằng mã hóa (encoding), nhưng không dừng ở đó. Khi người học gặp một thông tin mới, họ không sao chép nguyên vẹn nó vào trí nhớ. Họ xử lý nó qua chú ý, kiến thức nền, ngôn ngữ, cảm xúc, mục tiêu và bối cảnh. Một học sinh đã hiểu phân số sẽ nhìn tỷ lệ phần trăm khác với một học sinh chỉ thấy ký hiệu lạ. Một người đã từng viết nhiều bài luận sẽ đọc phản hồi về luận điểm khác với người chỉ chăm chăm sửa lỗi ngữ pháp.

Sau mã hóa là củng cố (consolidation): trí nhớ trở nên ổn định hơn theo thời gian, qua ngủ, nghỉ, truy hồi lại và kết nối với kiến thức khác. Sau đó là truy hồi (retrieval): khả năng gọi lại và dùng kiến thức khi cần. Một kiến thức không truy hồi được đúng lúc gần giống như không có trong thực hành.

Make It Stick tóm tắt điều này rất rõ: học bền không đến từ cảm giác quen thuộc, mà từ khả năng truy hồi nỗ lực và dùng kiến thức linh hoạt (Brown, Roediger, & McDaniel, 2014). Đọc lại và highlight thường tạo ảo tưởng thông thạo vì người học nhận ra mặt chữ, không phải vì họ có thể giải thích, áp dụng hoặc phân biệt.

Ở tầng thiết kế bài học, Clark và Mayer mô tả học đa phương tiện như một quá trình xử lý chủ động: người học chọn lọc thông tin liên quan, tổ chức nó thành cấu trúc có nghĩa, rồi tích hợp với kiến thức đã có (Clark & Mayer, 2024). Điều này giải thích vì sao thêm video, hình ảnh, âm thanh hoặc mô phỏng không tự làm bài học tốt hơn. Nếu các yếu tố đó không giúp chọn lọc, tổ chức, tích hợp, chúng chỉ tăng tải.

Bộ nhớ làm việc có giới hạn. Người học chỉ xử lý được một lượng thông tin nhỏ tại một thời điểm. Khi một giao diện quá rối, lời giải thích quá dài, ví dụ quá xa lạ, hoặc nhiệm vụ có quá nhiều bước không được chống đỡ, bộ nhớ làm việc bị chiếm bởi việc chống nhiễu thay vì học. Ngược lại, khi thiết kế giảm tải nhận thức ngoại lai và tăng xử lý tạo lập, người học có nhiều nguồn lực hơn để xây hiểu biết.

Một điểm nữa thường bị EdTech bỏ quên: biết không giống làm được. Dirksen phân biệt knowledge gap và skill gap bằng một câu hỏi rất thực dụng: liệu ai đó có thể thành thạo việc này mà không cần thực hành không? Nếu câu trả lời là không, đó là kỹ năng, và kỹ năng cần thực hành có phản hồi (Dirksen, 2016). Không thể biến một người thành người viết tốt chỉ bằng video về viết. Không thể biến một người thành người nói tốt chỉ bằng danh sách mẫu câu. Không thể biến một người thành người giải quyết vấn đề tốt chỉ bằng lời giải mẫu.

Thực trạng triển khai

Nhiều công cụ học tập hiện nay vẫn ưu tiên xem lại hơn truy hồi. Chúng cho người học xem bài giảng, đọc tóm tắt, lật flashcard có đáp án hiện sẵn, hoặc hỏi AI để nhận lời giải. Những hoạt động này không vô ích. Người học cần tiếp xúc với nội dung, cần giải thích tốt, cần ví dụ. Nhưng nếu chuỗi học tập dừng ở việc tiếp nhận, nó thiếu bước làm cho trí nhớ bền: tự gọi lại, tự thử, tự sai, tự sửa.

Hiệu ứng kiểm tra (testing effect) là một trong những phát hiện quan trọng nhất cho EdTech. Roediger và Karpicke cho sinh viên học các đoạn văn, rồi hoặc đọc lại, hoặc làm bài kiểm tra nhớ lại. Khi kiểm tra sau 5 phút, đọc lại có lợi thế. Nhưng khi kiểm tra sau 2 ngày hoặc 1 tuần, nhóm được kiểm tra trước đó nhớ tốt hơn đáng kể, dù nhóm đọc lại tự tin hơn về khả năng nhớ của mình (Roediger & Karpicke, 2006). Đây là một bài học rất khó chịu: cảm giác học tốt có thể đi ngược với học tốt.

Với EdTech, điều này có nghĩa là quiz không chỉ là công cụ chấm điểm. Quiz có thể là công cụ học, nếu nó buộc người học truy hồi trước khi xem đáp án, cung cấp phản hồi đúng lúc, và quay lại sau một khoảng thời gian hợp lý. Nhưng nếu quiz chỉ là trò bấm đáp án liên tục, hoặc nếu người học đoán rồi xem ngay lời giải mà không phải nghĩ, nó không còn là retrieval practice đúng nghĩa.

Nghiên cứu gần đây về constructive retrieval làm điểm này sắc hơn. Endres, Carpenter và Renkl kiểm tra việc kết hợp truy hồi với các gợi ý kiến tạo. Kết quả cho thấy người học hưởng lợi khi tự tạo ví dụ và tự xây liên hệ, đặc biệt với comprehension và metacognitive monitoring; việc chỉ nhận ví dụ có sẵn không tạo cùng lợi ích (Endres, Carpenter, & Renkl, 2024). Với AI, đây là tín hiệu rất quan trọng. Nếu chatbot luôn đưa ví dụ mẫu, người học có thể hiểu lúc đó. Nhưng nếu hệ thống buộc người học tự tạo ví dụ trước, rồi mới phản hồi, nó bảo vệ phần lao động nhận thức cần thiết.

Nguyên lý thứ hai là giãn cách (spacing). Học dồn một buổi thường tạo tiến bộ nhanh vì mọi thứ còn nóng trong trí nhớ ngắn hạn. Nhưng học bền cần các lần quay lại sau khoảng nghỉ. Khoảng nghỉ làm việc truy hồi khó hơn một chút. Chính độ khó đó giúp trí nhớ trở nên dùng được hơn. Chen, Paas và Sweller lưu ý rằng spacing và interleaving không nên bị gộp làm một. Spacing liên quan đến phân bố thời gian và khoảng nghỉ giữa các lần học; interleaving liên quan đến việc xen kẽ các chủ đề hoặc dạng bài để người học phân biệt chúng (Chen, Paas, & Sweller, 2021).

Trong phần mềm, spacing thường bị rút gọn thành nhắc lại flashcard. Đó là một ứng dụng hữu ích, nhưng chưa đủ. Một hệ thống tốt không chỉ hỏi lại “từ này nghĩa là gì?”. Nó có thể đưa một khái niệm cũ vào bài toán mới, yêu cầu người học nhận ra lúc nào dùng nó, hoặc buộc người học so sánh nó với một khái niệm dễ nhầm. Spacing tốt không phải chỉ là lặp lại. Nó là thiết kế các lần gặp lại có ý nghĩa.

Nguyên lý thứ ba là xen kẽ và biến đổi (interleaving and varied practice). Khi người học luyện mười bài cùng dạng liên tục, họ có thể làm đúng vì dạng bài đã được gợi sẵn. Khi các dạng bị trộn, họ phải tự nhận diện vấn đề: đây là bài cần công thức nào, chiến lược nào, tiêu chí nào. Chính hoạt động phân biệt này làm năng lực linh hoạt hơn.

Tuy nhiên, cần cẩn trọng. Không phải cứ trộn là tốt. Chen, Paas và Sweller giải thích interleaving hữu ích đặc biệt khi người học cần phân biệt các khái niệm hoặc dạng dễ nhầm (Chen et al., 2021). Trong một số bối cảnh kỹ năng vận động và thể thao, meta-analysis về contextual interference cho thấy bằng chứng không tổng quát mạnh như cách kể phổ biến; nhiều kết quả không ủng hộ hiệu ứng theo dạng đơn giản (Ammar et al., 2024). Bài học ở đây không phải là bỏ interleaving, mà là dùng nó đúng nơi: khi mục tiêu là phân biệt, chọn chiến lược và chuyển giao, không phải khi người mới còn chưa có nền tối thiểu.

Nguyên lý thứ tư là khó khăn đáng giá (desirable difficulties). Đây là nhóm thiết kế làm học khó hơn vừa đủ: truy hồi thay vì xem lại, giãn cách thay vì học dồn, xen kẽ thay vì luyện một dạng, tự tạo câu trả lời trước khi xem lời giải, phản tư sau khi làm sai. Khó khăn này “đáng giá” vì nó phục vụ học dài hạn. Nếu khó vì giao diện rối, hướng dẫn mơ hồ, nội dung quá tải hoặc lỗi kỹ thuật, đó không phải desirable difficulty. Đó chỉ là thiết kế kém.

Phân tích phản biện

Điều nguy hiểm của khoa học học tập là các nguyên lý tốt rất dễ bị biến thành khẩu hiệu sản phẩm. “Có retrieval practice” có thể chỉ nghĩa là có quiz. “Có spaced repetition” có thể chỉ nghĩa là app gửi thông báo. “Có personalized learning” có thể chỉ nghĩa là đổi thứ tự bài tập. “Có active learning” có thể chỉ nghĩa là người học bấm nhiều.

Retrieval practice không phải spam câu hỏi. Nếu câu hỏi quá dễ, quá gần với nội dung vừa xem, chỉ đo nhận diện, hoặc luôn cho đáp án ngay, người học không phải truy hồi nỗ lực. Một câu hỏi tốt buộc người học lấy thông tin ra khỏi trí nhớ, dùng nó, so sánh nó, hoặc giải thích nó.

Spacing không phải lịch nhắc máy móc. Nếu một flashcard quay lại đúng lịch nhưng luôn nằm ngoài ngữ cảnh sử dụng, người học có thể nhớ mặt chữ mà không biết dùng. Ngược lại, nếu khoảng cách quá dài so với trình độ, người học thất bại liên tục và mất động lực. Giãn cách cần gắn với độ khó, mức thành thạo và loại tri thức.

Interleaving không phải trộn bừa. Với người mới hoàn toàn, một số blocked practice ban đầu có thể cần thiết để họ hiểu từng dạng. Xen kẽ quá sớm có thể làm bộ nhớ làm việc quá tải. Nhưng nếu ở lại blocked practice quá lâu, người học quen dạng mà không học cách chọn chiến lược. Câu hỏi thiết kế không phải “blocked hay interleaved”, mà là khi nào chuyển từ rõ mẫu sang phân biệt mẫu.

Desirable difficulties cũng không phải làm học sinh khổ. Một số hệ thống dùng “khó” như cách che đậy thiết kế thiếu hỗ trợ. Khó đáng giá phải đi cùng mục tiêu rõ, phản hồi tốt, cảm giác có thể tiến bộ và cơ hội sửa. Nếu người học chỉ bị ném vào nhiệm vụ quá sức rồi nhận điểm thấp, đó không phải khoa học học tập.

Cuối cùng là learning styles. Đây là một trong những huyền thoại dai nhất vì nó nghe rất tôn trọng cá nhân. Ai cũng thấy mình có sở thích: người thích sơ đồ, người thích nghe giảng, người thích tự làm. Nhưng sở thích không đồng nghĩa với cách học tối ưu. Pashler, McDaniel, Rohrer và Bjork cho rằng để chứng minh learning styles, cần chứng minh “meshing hypothesis”: người học thuộc một style học tốt hơn với cách dạy khớp style đó, còn người học style khác học tốt hơn với cách dạy khác. Họ không tìm thấy cơ sở đủ để đưa đánh giá learning styles vào thực hành giáo dục phổ thông (Pashler et al., 2008).

Một meta-analysis năm 2024 đưa ra kết quả tinh tế hơn: có lợi ích tổng thể nhỏ cho matching instruction, g = 0.31, nhưng chỉ 26% outcome measures cho thấy kiểu crossover interaction cần thiết để ủng hộ giả thuyết matching; tác giả kết luận lợi ích quá nhỏ và quá hiếm, trong khi chất lượng nghiên cứu và chi phí triển khai không ủng hộ phổ biến rộng (Clinton-Lisell & Litzinger, 2024). Vì vậy, bài học không phải là “mọi người học giống nhau”. Bài học là: khác biệt người học cần được hiểu qua kiến thức nền, mục tiêu, động lực, ngôn ngữ, văn hóa, nhu cầu hỗ trợ, mức thành thạo và bản chất nội dung, không qua nhãn “visual learner” hay “auditory learner”.

Nguyên tắc thiết kế

Từ các cơ chế trên, có thể rút ra một số nguyên tắc cho EdTech.

Một: đừng để xem lại thay thế truy hồi. Sau mỗi phần giải thích, hệ thống nên tạo cơ hội để người học tự nhớ lại, tự diễn đạt, tự giải, tự dự đoán. Đáp án và giải thích nên đến sau nỗ lực, không phải trước nỗ lực.

Hai: thiết kế khoảng gặp lại, không chỉ lịch nhắc. Một khái niệm quan trọng cần quay lại ở nhiều thời điểm và nhiều dạng: câu hỏi ngắn, bài tập ứng dụng, tình huống mới, lỗi sai thường gặp, so sánh với khái niệm gần kề.

Ba: chuyển dần từ luyện mẫu sang phân biệt mẫu. Người mới cần ví dụ rõ và thực hành có hướng dẫn. Khi đã có nền, hệ thống phải trộn dạng đủ để người học học cách nhận diện vấn đề, không chỉ áp dụng công thức đã được gợi sẵn.

Bốn: giữ ma sát nhận thức đúng chỗ. Công nghệ nên giảm ma sát đăng nhập, tìm tài liệu, nộp bài, nhận phản hồi. Nhưng nó không nên xóa ma sát học tập cần thiết như truy hồi, giải thích, thử sai, phản biện, sửa bài.

Năm: biến phản hồi thành vòng học. Phản hồi tốt không chỉ nói đúng sai. Nó chỉ ra lỗi, nguyên nhân có thể, bước sửa, bài luyện tiếp theo, và khi nào quay lại kiểm tra.

Sáu: cá nhân hóa theo nhu cầu học thật, không theo nhãn đơn giản. Thay vì hỏi người học thích nhìn hay nghe, hãy hỏi họ đang biết gì, mắc ở đâu, cần làm nhiệm vụ gì, có bao nhiêu nền tảng, cần hỗ trợ cảm xúc hay môi trường nào.

Bảy: đo retention và transfer. Nếu một công cụ tuyên bố giúp học tốt hơn, hãy kiểm tra sau một khoảng trì hoãn và bằng nhiệm vụ mới. Học thật phải sống sót qua thời gian và thay đổi bối cảnh.

Tổng kết chương

Chương này đặt nền cho toàn bộ phần còn lại của cuốn sách: EdTech tốt không phải công nghệ làm nội dung hấp dẫn hơn, mà là công nghệ làm mạnh các cơ chế học tập đúng.

Học bền cần mã hóa có ý nghĩa, củng cố theo thời gian, truy hồi nỗ lực, thực hành giãn cách, phân biệt dạng vấn đề, phản hồi có thể hành động và phản tư. Nhiều phương pháp tạo cảm giác dễ như đọc lại, xem lại, luyện dồn, nhận đáp án ngay có thể làm người học tự tin hơn nhưng không nhất thiết làm họ học sâu hơn.

Điều này sẽ dẫn thẳng sang Chương 4. Nếu cơ chế học tập là như vậy, thì người học khác nhau ở đâu? Không phải ở nhãn học theo thị giác hay thính giác, mà ở kiến thức nền, kỹ năng, động lực, môi trường, khả năng tự điều chỉnh và mục tiêu. Chương tiếp theo sẽ bàn về sự khác biệt đó: không phải để cào bằng người học, cũng không để nhốt họ vào nhãn đơn giản, mà để thiết kế hỗ trợ đúng hơn.

Tài liệu tham khảo

Ammar, A., Trabelsi, K., Muller, P., Bouaziz, B., Boukhris, O., Glenn, J. M., Bott, N., Driss, T., Chtourou, H., Muller, N., & Hokelmann, A. (2024). The effects of contextual interference learning on the acquisition and relatively permanent gains in skilled performance: A critical systematic review with multilevel meta-analysis. Educational Psychology Review, 36, 57. https://doi.org/10.1007/s10648-024-09892-z
Brown, P. C., Roediger III, H. L., & McDaniel, M. A. (2014). Make It Stick: The Science of Successful Learning. Harvard University Press.
Chen, O., Paas, F., & Sweller, J. (2021). Spacing and interleaving effects require distinct theoretical bases: A systematic review testing the cognitive load and discriminative-contrast hypotheses. Educational Psychology Review, 33, 1499-1522. https://doi.org/10.1007/s10648-021-09613-w
Clark, R. C., & Mayer, R. E. (2024). e-Learning and the Science of Instruction (5th ed.). Wiley.
Clinton-Lisell, V., & Litzinger, C. (2024). Is it really a neuromyth? A meta-analysis of the learning styles matching hypothesis. Frontiers in Psychology, 15, 1428732. https://doi.org/10.3389/fpsyg.2024.1428732
Dirksen, J. (2016). Design for How People Learn (2nd ed.). New Riders.
Dunlosky, J., Rawson, K. A., Marsh, E. J., Nathan, M. J., & Willingham, D. T. (2013). Improving students' learning with effective learning techniques: Promising directions from cognitive and educational psychology. Psychological Science in the Public Interest, 14(1), 4-58. https://doi.org/10.1177/1529100612453266
Endres, T., Carpenter, S., & Renkl, A. (2024). Constructive retrieval: Benefits for learning, motivation, and metacognitive monitoring. Learning and Instruction, 94, 101974. https://doi.org/10.1016/j.learninstruc.2024.101974
Pashler, H., McDaniel, M., Rohrer, D., & Bjork, R. (2008). Learning styles: Concepts and evidence. Psychological Science in the Public Interest, 9(3), 105-119. https://doi.org/10.1111/j.1539-6053.2009.01038.x
Roediger, H. L., & Karpicke, J. D. (2006). Test-enhanced learning: Taking memory tests improves long-term retention. Psychological Science, 17(3), 249-255. https://doi.org/10.1111/j.1467-9280.2006.01693.x

Chương 4: Người học không giống nhau

Bối cảnh / Vấn đề

Chương 3 kết thúc bằng một cảnh báo: người học không nên bị nhốt vào những nhãn đơn giản như “học bằng hình ảnh” hay “học bằng âm thanh”. Nhưng phản bác learning styles không có nghĩa là phủ nhận khác biệt giữa người học. Ngược lại, nếu EdTech muốn giúp học tốt hơn, nó phải hiểu khác biệt ấy sâu hơn, chính xác hơn và ít dễ dãi hơn.

Người học không giống nhau ở nhiều tầng. Có người thiếu kiến thức nền. Có người hiểu khái niệm nhưng thiếu thực hành. Có người có kỹ năng nhưng không thấy lý do để dùng. Có người muốn học nhưng bị môi trường kéo ngược: thiếu thời gian, thiếu thiết bị, thiếu hỗ trợ, thiếu cơ hội áp dụng. Có người thất bại không phải vì không biết, mà vì không hiểu yêu cầu, không biết tiêu chí, hoặc không nhận được phản hồi rõ ràng.

Nếu chẩn đoán sai, giải pháp sẽ sai. Một học sinh không làm được bài toán vì chưa hiểu phân số không cần thêm video truyền cảm hứng. Một nhân viên không dùng quy trình mới vì phần mềm nội bộ quá rối không cần thêm khóa học về thái độ. Một sinh viên bỏ dở khóa học trực tuyến vì không biết lập kế hoạch không cần thêm thư viện nội dung. Một người đã khá giỏi không cần lời giải mẫu từng bước cho mọi bài; hỗ trợ ấy có thể làm họ chậm lại.

Cá nhân hóa trong EdTech thường bắt đầu từ một ý tưởng đúng: người học khác nhau, nên không nên đưa cho mọi người cùng một trải nghiệm. Nhưng ý tưởng đúng này dễ trượt thành cá nhân hóa nông: đổi màu giao diện, cho chọn tốc độ video, gắn nhãn trình độ bằng vài câu hỏi đầu vào, hoặc để thuật toán đẩy bài tiếp theo dựa trên đúng sai gần nhất. Những thứ đó có thể hữu ích, nhưng chưa chạm vào câu hỏi gốc: người học đang vướng ở đâu, vì sao vướng, và cần loại hỗ trợ nào để tự đi xa hơn?

Chương này bàn về người học như một hệ thống đang sống trong nhiều hệ thống khác. Người học có trí nhớ, mục tiêu, cảm xúc, thói quen, quan hệ, thiết bị, lịch học, ngôn ngữ, văn hóa, gia đình, lớp học và tổ chức. Một công nghệ học tập tốt không thể nhìn họ chỉ như một hồ sơ dữ liệu có tỷ lệ đúng sai. Nó phải nhìn họ như một người đang cố học trong điều kiện cụ thể.

Nền tảng lý thuyết

Một cách bắt đầu thực dụng là hỏi: đây là khoảng cách loại gì? Julie Dirksen đề xuất nhìn vấn đề học tập qua các khoảng cách như knowledge, skill, motivation, habit, environment và communication (Dirksen, 2016). Với EdTech, khung này rất hữu ích vì nó buộc người thiết kế dừng lại trước khi sản xuất thêm nội dung.

Knowledge gap là khoảng cách về hiểu biết. Người học chưa biết khái niệm, quy tắc, nguyên nhân, tiêu chí hoặc thông tin cần thiết. Ở đây, giải thích rõ, ví dụ tốt, sơ đồ, so sánh, câu hỏi kiểm tra hiểu và tài liệu tham khảo có thể giúp.

Skill gap là khoảng cách giữa biết và làm được. Người học có thể đọc lý thuyết về viết luận, giao tiếp, lập trình, giải toán, dạy học hoặc thuyết phục người khác, nhưng vẫn chưa thực hiện tốt. Skill gap cần thực hành, phản hồi, mẫu tốt, bài tập tăng dần, cơ hội sửa và bối cảnh gần với việc thật. Nếu kỹ năng cần làm bằng tay, bằng lời, bằng phán đoán hoặc bằng tương tác xã hội, một thư viện bài giảng khó có thể đủ.

Motivation gap không chỉ là lười học. Có thể người học không thấy giá trị, sợ thất bại, thiếu tự tin, mệt mỏi, bị ép học, hoặc đã từng có trải nghiệm xấu với môn đó. Động lực cũng không phải thứ chỉ giải bằng huy hiệu và điểm thưởng. Nó liên quan đến cảm giác có năng lực, quyền tự chủ, ý nghĩa cá nhân và quan hệ với người khác.

Environment gap xuất hiện khi môi trường ngăn người học làm điều đúng. Một giáo viên được tập huấn phương pháp mới nhưng sĩ số lớp quá đông, thời khóa biểu quá chặt và hệ thống đánh giá vẫn chỉ chấm điểm cuối kỳ. Một học viên muốn học tiếng Anh mỗi ngày nhưng ca làm thay đổi liên tục. Một phụ huynh muốn hỗ trợ con nhưng không có thông tin kịp thời. Trong các trường hợp này, khóa học không phải đòn bẩy chính; thiết kế môi trường mới là đòn bẩy.

Communication gap xảy ra khi người học không hiểu điều gì được kỳ vọng. Họ không biết tiêu chí bài tốt, không hiểu phản hồi, không thấy bước tiếp theo, hoặc nhận thông điệp mâu thuẫn từ giáo viên, hệ thống và tổ chức. Nhiều vấn đề bị gọi là “học yếu” thật ra bắt đầu từ yêu cầu mơ hồ.

Các khoảng cách này thường chồng lên nhau. Một học sinh thiếu kiến thức nền có thể dần mất tự tin. Một người thiếu động lực có thể ít luyện tập, rồi thật sự thiếu kỹ năng. Một môi trường thiếu phản hồi có thể làm người học tưởng mình đã hiểu. Vì vậy, cá nhân hóa tốt không phải chọn một nhãn duy nhất, mà là xây được giả thuyết hợp lý về tổ hợp nguyên nhân.

Người mới, người trung cấp và chuyên gia

Khác biệt quan trọng nhất trong thiết kế học tập là kiến thức nền. Người mới không chỉ biết ít hơn chuyên gia; họ nhìn vấn đề theo cách khác. Người mới thấy nhiều chi tiết rời rạc. Chuyên gia thấy cấu trúc. Người mới cần tìm từng bước. Chuyên gia nhận ra mẫu. Người mới dễ bị quá tải bởi thông tin phụ. Chuyên gia có thể bỏ qua thông tin phụ vì đã biết cái gì đáng chú ý.

Điều này tạo ra một nghịch lý cho EdTech: cùng một hỗ trợ có thể giúp nhóm này và cản nhóm kia. Kalyuga gọi hiện tượng này là expertise reversal effect: các kỹ thuật hướng dẫn có lợi cho người ít kiến thức có thể mất hiệu quả hoặc gây hại khi người học đã có nhiều kiến thức hơn (Kalyuga, 2007). Một lời giải từng bước giúp người mới không lạc. Nhưng với người đã thành thạo, lời giải ấy có thể trở thành nhiễu, buộc họ xử lý thứ họ đã biết thay vì tập trung vào thử thách mới.

Trong học toán, người mới cần worked examples, gợi ý rõ, phân đoạn nhỏ và phản hồi tức thời. Người trung cấp cần bài tập biến đổi, lỗi sai điển hình, câu hỏi phân biệt dạng và cơ hội tự giải trước khi xem gợi ý. Người khá giỏi cần vấn đề mở hơn, ít chống đỡ hơn, yêu cầu giải thích chiến lược, so sánh nhiều cách giải và chuyển giao sang tình huống mới.

Trong học ngoại ngữ, người mới cần input dễ hiểu, mẫu câu, phát âm chậm, ngữ cảnh rõ và luyện tập có kiểm soát. Người trung cấp cần tương tác thật hơn, sửa lỗi có chọn lọc, mở rộng vốn diễn đạt và luyện fluency. Người nâng cao cần sắc thái, lập luận, giọng điệu, register, văn hóa giao tiếp và nhiệm vụ thật. Nếu một hệ thống chỉ tăng độ khó bằng cách thêm từ mới hoặc nói nhanh hơn, nó chưa hiểu phát triển năng lực.

Trong đào tạo nghề, người mới cần quy trình và job aids. Người trung cấp cần tình huống ngoại lệ. Người giỏi cần phản biện, chuẩn hóa kinh nghiệm, cập nhật thay đổi và học từ ca khó. Một khóa học giống nhau cho cả ba nhóm thường hoặc quá tải với người mới, hoặc quá chậm với người giỏi.

Điểm thiết kế quan trọng là scaffold phải có đời sống tạm thời. Hỗ trợ tốt giống một cây cầu trong giai đoạn người học chưa tự qua được. Nhưng nếu cây cầu không bao giờ được rút bớt, người học không học cách tự đi. EdTech thường tự hào vì “luôn hỗ trợ”, nhưng câu hỏi sâu hơn là: hỗ trợ này có đang giảm dần đúng lúc không?

Người học đào sâu, thực dụng và chưa sẵn sàng

Không phải người học nào cũng đến với cùng một mục tiêu. Có người muốn đào sâu vì tò mò, vì bản sắc nghề nghiệp, vì chuẩn học thuật hoặc vì nhu cầu làm chủ. Có người học thực dụng: họ cần giải quyết một nhiệm vụ gần, qua một kỳ thi, làm được việc tuần này, hoàn thành chứng chỉ, đáp ứng yêu cầu công ty. Có người chưa sẵn sàng: họ bị ép học, chưa thấy lý do, thiếu nền, sợ bị đánh giá, hoặc đang chịu áp lực ngoài học tập.

Một lỗi thường gặp là đạo đức hóa các kiểu người học. Người đào sâu bị xem là “nghiêm túc”, người thực dụng bị xem là “học đối phó”, người chưa sẵn sàng bị xem là “thiếu thái độ”. Cách nhìn này nghèo. Trong đời thật, cùng một người có thể đào sâu ở lĩnh vực này, thực dụng ở lĩnh vực khác, và chưa sẵn sàng ở một giai đoạn nào đó. Một bác sĩ học cập nhật phác đồ có thể rất thực dụng vì thời gian ít và trách nhiệm cao. Một học sinh ghét môn toán có thể không lười, mà đã tích lũy nhiều thất bại đến mức né tránh là cách tự bảo vệ.

Thiết kế tốt không cào bằng trải nghiệm xuống mẫu số chung thấp nhất. Nó cũng không bắt mọi người đi cùng một đường sâu như nhau. Nó tạo nhiều mức tham gia hợp pháp. Người học thực dụng cần đường đi rõ đến năng lực cần dùng. Người học đào sâu cần tài nguyên mở rộng, vấn đề khó, cộng đồng thảo luận và cơ hội tạo sản phẩm. Người chưa sẵn sàng cần giảm đe dọa, thấy tiến bộ nhỏ, có lựa chọn vừa đủ và được hỗ trợ để bước vào vòng học tập.

Ở đây, AI và dữ liệu có thể giúp, nhưng cũng có thể làm hỏng. Nếu hệ thống gắn nhãn sớm rằng một người “ít động lực” hoặc “nguy cơ cao”, nó có thể vô tình khóa họ vào kỳ vọng thấp. Nếu hệ thống chỉ tối ưu hoàn thành nhanh, nó có thể phục vụ người học thực dụng bằng cách làm nghèo cơ hội đào sâu. Nếu hệ thống chỉ thưởng tương tác nhiều, nó có thể nhầm sự bận rộn với động lực.

Cá nhân hóa trưởng thành phải giữ hai nguyên tắc cùng lúc: tôn trọng mục tiêu gần của người học và không thu hẹp tương lai của họ. Người học có thể bắt đầu vì cần qua bài kiểm tra, nhưng thiết kế vẫn có thể mở cửa sang hiểu sâu hơn. Người học có thể chưa sẵn sàng, nhưng thiết kế không nên xem đó là bản chất cố định.

Self-regulated learning

Khi học chuyển sang môi trường số, người học phải tự làm nhiều việc hơn: chọn thời điểm học, đọc hướng dẫn, giữ tập trung, theo dõi tiến độ, quyết định khi nào xem lại, khi nào hỏi, khi nào luyện thêm, khi nào nộp bài. Những việc này thuộc self-regulated learning: khả năng đặt mục tiêu, chọn chiến lược, giám sát quá trình, điều chỉnh nỗ lực và phản tư sau khi học.

Self-regulated learning không phải phẩm chất bẩm sinh của người “tự giác”. Nó là một nhóm năng lực có thể được dạy, luyện và hỗ trợ. Một người học tự điều chỉnh tốt biết mình đang cố đạt gì, có kế hoạch vừa sức, nhận ra khi mình không hiểu, đổi chiến lược khi cách cũ không hiệu quả, quản lý động lực, và dùng phản hồi để cải thiện.

Nghiên cứu gần đây cho thấy hỗ trợ SRL trong môi trường công nghệ là một lĩnh vực đang phát triển nhanh nhưng còn phân mảnh. Prasse và cộng sự tổng hợp 31 systematic reviews và meta-analyses về computer-assisted SRL, nhấn mạnh rằng các hỗ trợ hiệu quả cần bao phủ toàn bộ chu kỳ tự điều chỉnh, không chỉ một dashboard hoặc một vài prompt rời rạc (Prasse et al., 2024). Họ cũng chỉ ra nhu cầu định nghĩa và phân loại hỗ trợ SRL rõ hơn, vì nhiều nghiên cứu dùng cùng thuật ngữ nhưng thiết kế rất khác nhau.

Một tổng quan mới về K-12 digital learning còn nêu vấn đề sắc hơn: môi trường cá nhân hóa có thể nâng kết quả, nhưng cũng có thể chuyển việc điều chỉnh học tập từ người học sang hệ thống. Nếu thuật toán luôn quyết định bài tiếp theo, nhịp học, mức khó và thời điểm ôn lại, người học có thể hoàn thành tốt hơn trước mắt nhưng không học được cách tự quản lý việc học (Toomla et al., 2026). Đây là rủi ro đặc biệt lớn với học sinh phổ thông, vì các em vẫn đang phát triển năng lực tự điều chỉnh.

Điểm này rất quan trọng trong kỷ nguyên AI. Một chatbot có thể nhắc học, giải thích, gợi ý, tóm tắt, lập kế hoạch, kiểm tra bài và động viên. Nhưng nếu nó làm tất cả quá trơn tru, người học có thể thuê ngoài cả metacognition. Họ không cần tự hỏi mình hiểu chưa, vì AI sẽ nói. Không cần tự lập kế hoạch, vì AI sẽ chia lịch. Không cần tự kiểm tra, vì AI sẽ tạo quiz. Không cần tự diễn đạt, vì AI sẽ viết lại.

Vậy thiết kế đúng không phải là bỏ hỗ trợ, mà là hỗ trợ để người học dần sở hữu quá trình. Hệ thống có thể hỏi người học đặt mục tiêu trước khi đề xuất kế hoạch. Có thể yêu cầu dự đoán độ khó trước khi làm bài. Có thể cho người học chọn chiến lược rồi phản hồi sau. Có thể hiển thị tiến độ theo cách giúp họ nhận ra mẫu hành vi. Có thể nhắc phản tư sau lỗi sai. Có thể giảm dần mức gợi ý khi người học tiến bộ.

Self-regulation cũng có phần động lực và cảm xúc. Toomla và cộng sự chỉ ra nhiều nghiên cứu SRL trong K-12 digital learning tập trung mạnh vào nhận thức và siêu nhận thức, ít chú ý hơn đến động lực và cảm xúc (Toomla et al., 2026). Nhưng trong học thật, bối rối, chán, xấu hổ, tự tin, áp lực và cảm giác thuộc về đều ảnh hưởng đến việc người học có tiếp tục hay không. Villar và cộng sự cũng xem motivational self-regulation là thành phần quan trọng của SRL, liên quan đến cách người học duy trì nỗ lực và tham gia vào nhiệm vụ học tập (Villar et al., 2024).

Nếu EdTech chỉ đo click, điểm quiz và thời lượng xem video, nó rất dễ bỏ qua phần người nhất của học tập: người học đang cảm thấy mình có thể tiến bộ hay không.

Môi trường học tập như hệ thống nâng đỡ

Người học không học trong chân không. Họ học trong lớp học, gia đình, công ty, cộng đồng, nền tảng số, lịch thi, quy định, văn hóa phản hồi và kỳ vọng xã hội. Vì vậy, khác biệt người học không thể được hiểu chỉ bằng thuộc tính cá nhân.

Một học sinh có phụ huynh theo sát, bàn học yên tĩnh, thiết bị ổn định và giáo viên phản hồi đều đặn sống trong một môi trường học khác với học sinh phải dùng chung điện thoại, học sau giờ làm phụ gia đình và không có ai giải thích khi mắc kẹt. Nếu một nền tảng chỉ nhìn dữ liệu tương tác, nó có thể kết luận học sinh thứ hai “ít chăm”. Kết luận ấy vừa thiếu chính xác, vừa nguy hiểm.

Trong đào tạo doanh nghiệp, môi trường còn quyết định mạnh hơn. Một khóa học có thể dạy nhân viên quy trình chăm sóc khách hàng rất tốt. Nhưng nếu KPI chỉ thưởng tốc độ xử lý, quản lý không làm gương, hệ thống CRM khó dùng và khách hàng thật luôn có ngoại lệ, người học sẽ quay về hành vi cũ. Vấn đề không nằm trong trí nhớ cá nhân mà nằm trong hệ thống công việc.

Đây là nơi job aids quan trọng. Không phải thứ gì cũng cần học thuộc. Có những nhiệm vụ hiếm gặp, phức tạp hoặc thay đổi thường xuyên nên được hỗ trợ bằng checklist, mẫu biểu, hướng dẫn tại điểm làm việc, cây quyết định hoặc công cụ tra cứu. Một EdTech trưởng thành biết phân biệt: cái gì cần đưa vào trí nhớ dài hạn, cái gì cần luyện thành kỹ năng, cái gì nên đặt trong môi trường như một hỗ trợ ngoài trí nhớ.

Cộng đồng cũng là một phần của môi trường. Người học cần thấy người khác học ra sao, hỏi được khi bí, nhận phản hồi từ người thật, so sánh cách giải, chia sẻ sản phẩm và xây bản sắc. Một nền tảng chỉ có nội dung và quiz có thể phù hợp với một số mục tiêu hẹp, nhưng nhiều năng lực sâu cần quan hệ xã hội: viết, nói, tranh luận, thiết kế, lãnh đạo, nghiên cứu, đạo đức nghề nghiệp.

Giáo viên, huấn luyện viên, phụ huynh và quản lý không phải phần phụ bên ngoài phần mềm. Họ là một phần của hệ thống học tập. Dashboard tốt không chỉ hiển thị dữ liệu; nó giúp người hỗ trợ ra quyết định: ai cần can thiệp, can thiệp kiểu gì, khi nào nên để người học tự xoay xở, khi nào cần gọi điện, khi nào cần đổi nhiệm vụ, khi nào vấn đề là môi trường chứ không phải năng lực.

Universal Design for Learning thường được nhắc đến như một khung để thiết kế hòa nhập: cung cấp nhiều cách tiếp cận, nhiều cách biểu đạt và nhiều cách tham gia. Zhang và cộng sự tổng quan các nghiên cứu UDL trong preK-12 và ghi nhận cả giá trị lẫn thách thức: UDL được dùng rộng, nhưng vẫn có phê bình về độ rõ khái niệm, khó triển khai và bằng chứng hiệu quả (Zhang et al., 2024). Bài học cho EdTech là không nên biến “nhiều lựa chọn” thành khẩu hiệu. Hòa nhập không phải thêm vô hạn tùy chọn; nó là giảm rào cản có thật trong khi vẫn giữ mục tiêu học tập nghiêm túc.

Phân tích phản biện

Chủ đề khác biệt người học rất dễ bị thương mại hóa. “Mỗi người một lộ trình” nghe thuyết phục, nhưng lộ trình được cá nhân hóa theo cái gì? Nếu theo sở thích tự báo cáo, hệ thống có thể chiều người học vào cách quen thuộc nhưng không hiệu quả. Nếu theo tỷ lệ đúng sai, hệ thống có thể bỏ qua động lực, cảm xúc và bối cảnh. Nếu theo tốc độ hoàn thành, hệ thống có thể thưởng cho học nông.

Một rủi ro khác là cá nhân hóa biến thành cô lập hóa. Mỗi người học một màn hình riêng, bài riêng, tốc độ riêng, phản hồi riêng, rồi mất cơ hội nghe cách nghĩ của người khác. Nhưng nhiều khác biệt chỉ trở nên có ích khi đặt cạnh nhau. Người hiểu nhanh có thể học sâu hơn khi giải thích cho bạn. Người đang mắc lỗi có thể giúp cả lớp thấy lỗi phổ biến. Người có kinh nghiệm khác ngành có thể đưa ví dụ làm giàu cuộc thảo luận. Cá nhân hóa không nên xóa học tập xã hội.

Rủi ro thứ ba là hệ thống thích nghi quá nhanh. Nếu người học sai hai câu, thuật toán hạ độ khó ngay; nếu đúng vài câu, thuật toán tăng tốc ngay. Học tập không ổn định như vậy. Một lỗi có thể là bất cẩn, thiếu ngủ, hiểu sai đề hoặc chưa quen định dạng. Một câu đúng có thể là đoán. Cá nhân hóa cần dữ liệu đủ dày, nhiệm vụ đủ đa dạng và cơ chế cho con người can thiệp.

Rủi ro thứ tư là nhầm hỗ trợ với thay thế. Công cụ lập kế hoạch có thể dạy người học lập kế hoạch, hoặc có thể làm thay mãi. Gợi ý có thể mở đường suy nghĩ, hoặc có thể biến thành đáp án từng bước. Dashboard có thể giúp tự giám sát, hoặc có thể chỉ làm giáo viên giám sát người học nhiều hơn. AI coach có thể giúp phản tư, hoặc có thể tạo thêm một giọng nói luôn đánh giá.

Điều cần giữ là quyền phát triển của người học. Hệ thống không chỉ hỏi “làm sao để người học hoàn thành bài này?” mà còn hỏi “sau bài này, người học có tự học tốt hơn một chút không?” Nếu câu trả lời là không, cá nhân hóa đang quá ngắn hạn.

Nguyên tắc thiết kế

Một: chẩn đoán khoảng cách trước khi chọn giải pháp. Đừng mặc định mọi vấn đề là thiếu nội dung. Hãy hỏi người học thiếu kiến thức, thiếu kỹ năng, thiếu động lực, thiếu môi trường, thiếu giao tiếp hay thiếu kết hợp nhiều thứ.

Hai: cá nhân hóa theo kiến thức nền và mức thành thạo. Người mới cần cấu trúc, ví dụ, phân đoạn và phản hồi gần. Người trung cấp cần phân biệt dạng, luyện biến đổi và sửa lỗi. Người giỏi cần thử thách mở hơn, ít hỗ trợ dư thừa hơn và cơ hội chuyển giao.

Ba: thiết kế scaffold có điểm rút. Hỗ trợ nên giảm dần khi người học tiến bộ. Nếu hệ thống luôn giữ cùng mức gợi ý, nó có thể làm người học phụ thuộc.

Bốn: hỗ trợ SRL thay vì làm thay SRL. Công cụ nên giúp người học đặt mục tiêu, chọn chiến lược, dự đoán, theo dõi, phản tư và điều chỉnh. Nó không nên biến người học thành người chỉ làm theo lệnh của thuật toán.

Năm: giữ động lực và cảm xúc trong mô hình người học. Người học không chỉ có điểm số. Họ có tự tin, lo lắng, chán nản, tò mò, áp lực, cảm giác thuộc về và kỳ vọng về bản thân. Những yếu tố này không dễ đo, nhưng bỏ qua chúng làm thiết kế nghèo đi.

Sáu: phân biệt học thuộc, luyện kỹ năng và hỗ trợ tại điểm làm việc. Không phải nhiệm vụ nào cũng cần khóa học. Có nhiệm vụ cần job aid, checklist, mẫu, cộng đồng hỏi đáp hoặc thay đổi quy trình.

Bảy: cá nhân hóa không được xóa cộng đồng. Người học cần lộ trình riêng ở một số điểm, nhưng cũng cần đối thoại, phản hồi ngang hàng, ví dụ từ người khác và cảm giác cùng thuộc về một thực hành chung.

Tám: thiết kế nhiều đường vào, nhưng giữ chuẩn đầu ra. Hòa nhập không phải hạ chuẩn. Nó là cho người học nhiều cách tiếp cận và biểu đạt hợp lý để đạt mục tiêu có ý nghĩa.

Tổng kết chương

Người học không giống nhau, nhưng khác biệt quan trọng không nằm ở những nhãn dễ bán. Nó nằm ở kiến thức nền, mức thành thạo, kỹ năng tự điều chỉnh, động lực, cảm xúc, môi trường, giao tiếp và cơ hội thực hành. Một hệ thống EdTech tốt phải đủ tinh tế để phân biệt các loại khoảng cách này.

Chương này cũng đặt một giới hạn cho cá nhân hóa. Cá nhân hóa không phải để mỗi người bị nhốt trong một đường hầm riêng, cũng không phải để thuật toán làm thay việc học. Cá nhân hóa có ý nghĩa khi nó giúp người học nhận đúng hỗ trợ, đúng thời điểm, đúng mức, rồi dần tự chủ hơn.

Từ đây, cuốn sách có đủ bốn mảnh la bàn đầu tiên: lịch sử lời hứa chưa thành, cách đọc bằng chứng, cơ chế học tập và khác biệt người học. Phần tiếp theo sẽ chuyển sang bản đồ công nghệ EdTech và AIEd: những họ công cụ nào đang tồn tại, chúng hứa giải quyết vấn đề gì, và chúng cần được đánh giá bằng các nguyên lý nào.

Tài liệu tham khảo

Brummer, L., de Boer, H., Mouw, J. M., & Strijbos, J.-W. (2024). A meta-analysis of the effects of context, content, and task factors of digitally delivered instructional feedback on learning performance. Learning Environments Research, 27, 453-476. https://doi.org/10.1007/s10984-024-09501-4
Clark, R. C., & Mayer, R. E. (2024). e-Learning and the Science of Instruction (5th ed.). Wiley.
Dirksen, J. (2016). Design for How People Learn (2nd ed.). New Riders.
Kalyuga, S. (2007). Expertise reversal effect and its implications for learner-tailored instruction. Educational Psychology Review, 19, 509-539. https://doi.org/10.1007/s10648-007-9054-3
Prasse, D., Webb, M., Deschênes, M., Parent, S., Aeschlimann, F., Goda, Y., Yamada, M., & Raynault, A. (2024). Challenges in promoting self-regulated learning in technology supported learning environments: An umbrella review of systematic reviews and meta-analyses. Technology, Knowledge and Learning, 29, 1809-1830. https://doi.org/10.1007/s10758-024-09772-z
Toomla, K., Hooshyar, D., Kikas, E., Malva, L., Malleus-Kotšegarov, E., et al. (2026). Tracing and supporting self-regulated learning in K-12 digital learning: A systematic review of the last three decades (1990-2024). Educational Research Review, 51, 100782. https://doi.org/10.1016/j.edurev.2026.100782
Villar, E., Mayo, M. E., Martínez-López, Z., & Tinajero, C. (2024). What are the principal and most effective strategies for motivational self-regulation? A systematic review and meta-analyses. Learning and Individual Differences, 113, 102480. https://doi.org/10.1016/j.lindif.2024.102480
Zhang, L., Carter, R. A., Greene, J. A., & Bernacki, M. L. (2024). Unraveling challenges with the implementation of Universal Design for Learning: A systematic literature review. Educational Psychology Review, 36, 35. https://doi.org/10.1007/s10648-024-09860-7

Chương 5: Content & Curriculum AI

Bối cảnh / Vấn đề

Phần I của cuốn sách dựng một la bàn: EdTech phải được đo bằng học tập, không bằng độ mới. Từ Chương 5, cuốn sách chuyển sang bản đồ công nghệ. Câu hỏi không còn chỉ là “con người học thế nào?” mà là “những họ công nghệ nào đang can thiệp vào quá trình học, và chúng can thiệp ở điểm nào?”.

Content & Curriculum AI là lục địa đầu tiên cần khảo sát vì nó đang đi vào giáo dục nhanh nhất. Trước khi một hệ thống có thể chấm bài, dạy kèm, dự báo rủi ro hay điều phối lớp học, nó thường bắt đầu bằng nội dung: bài đọc, video, slide, giáo trình, câu hỏi, ví dụ, bản tóm tắt, flashcard, rubric, syllabus, chuẩn đầu ra và lộ trình học. AI tạo sinh làm cho những thứ này rẻ hơn, nhanh hơn và dễ biến đổi hơn.

Điều đó hấp dẫn. Một giáo viên có thể đưa một chương sách vào hệ thống và nhận lại tóm tắt, câu hỏi kiểm tra, ví dụ gần gũi, từ vựng chính, bài luyện tập và kế hoạch bài dạy. Một trường có thể chuyển hàng trăm PDF cũ thành tài nguyên số có cấu trúc. Một trung tâm đào tạo có thể biến transcript lớp học thành ghi chú, quiz và nhiệm vụ ôn tập. Một nhóm thiết kế chương trình có thể dùng AI để đối chiếu chuẩn đầu ra, học liệu, hoạt động và đánh giá.

Nhưng chính vì AI làm nội dung quá nhanh, giáo dục đối mặt với một rủi ro mới: sự dư thừa trông có vẻ hữu ích. Nếu vấn đề học tập không phải thiếu nội dung, thêm nội dung sẽ chỉ làm hệ thống ồn hơn. Nếu bài tập không gắn với mục tiêu học, sinh thêm bài tập chỉ tăng việc. Nếu tóm tắt làm mất cấu trúc lập luận, nó giúp người học đi nhanh hơn nhưng hiểu nông hơn. Nếu hệ thống dịch bài học mà không hiểu văn hóa, cấp độ và bối cảnh, nó có thể làm nội dung dễ đọc hơn nhưng sai tinh thần sư phạm.

Vì vậy, chương này không hỏi “AI có tạo được nội dung không?”. Câu trả lời đã quá rõ: có. Câu hỏi cần hơn là: nội dung được tạo ra có đúng, phù hợp, có thể học được, có kiểm định, có tôn trọng bản quyền, có địa phương hóa, có nối với mục tiêu và đánh giá, và có giúp người học làm việc nhận thức cần thiết không?

Từ tài liệu thô đến tài nguyên học có cấu trúc

Ứng dụng dễ thấy nhất của Content AI là biến tài liệu thô thành tài nguyên học được cấu trúc. Trong nhiều tổ chức giáo dục, tri thức nằm rải rác trong PDF, giáo trình in, slide, video bài giảng, transcript, tài liệu nội bộ, đề cũ, đáp án mẫu, rubric và ghi chú của giáo viên. Vấn đề không phải thiếu tài nguyên. Vấn đề là tài nguyên khó tìm, khó tái sử dụng, khó phân cấp, khó cập nhật và khó nối với mục tiêu học.

AI có thể hỗ trợ một chuỗi thao tác: trích xuất văn bản từ PDF, nhận diện chủ đề chính, tách chương mục, tạo outline, phát hiện thuật ngữ, gắn nhãn cấp độ, tóm tắt nhiều mức, chuyển transcript thành ghi chú, tạo câu hỏi ôn tập, đề xuất ví dụ và biến một bài giảng dài thành các đơn vị học nhỏ hơn. Đây là việc trước kia tốn nhiều giờ lao động biên tập.

Tuy nhiên, “tài liệu đã được xử lý” chưa chắc là “học liệu tốt”. Một bản tóm tắt có thể ngắn nhưng làm mất quan hệ nhân quả. Một bộ flashcard có thể đầy đủ thuật ngữ nhưng chỉ luyện nhận diện, không luyện sử dụng. Một video được chia thành đoạn nhỏ có thể dễ xem hơn, nhưng nếu không có câu hỏi truy hồi, ví dụ và phản hồi, nó vẫn là tiêu thụ nội dung. Một bài đọc được đơn giản hóa có thể dễ tiếp cận hơn, nhưng nếu đơn giản hóa quá tay, nó làm nghèo khái niệm.

Từ Chương 3, ta biết học không phải tiếp nhận thông tin thụ động. Vì vậy, chuyển đổi tài liệu phải đi kèm câu hỏi sư phạm: người học cần làm gì với tài liệu này? Họ cần nhớ khái niệm, phân biệt trường hợp, giải thích cơ chế, thực hành kỹ năng, phản biện quan điểm hay dùng kiến thức trong tình huống mới? Mỗi mục tiêu dẫn đến cách cấu trúc học liệu khác nhau.

Một bài đọc về sinh học có thể được chuyển thành sơ đồ quan hệ khái niệm, câu hỏi truy hồi, bài tập phân biệt cơ chế và nhiệm vụ giải thích hiện tượng. Một transcript lớp luyện nói có thể được chuyển thành lỗi phát âm phổ biến, mẫu câu thay thế, đoạn luyện tập theo ngữ cảnh và phản hồi cá nhân. Một tài liệu quy trình trong doanh nghiệp có thể được chuyển thành checklist tại điểm làm việc, cây quyết định và tình huống ngoại lệ. Cùng là “chuyển đổi nội dung”, nhưng sản phẩm học tập rất khác nhau.

UNESCO nhấn mạnh rằng GenAI mở ra khả năng dùng trong thiết kế chương trình, dạy học, học tập và nghiên cứu, nhưng phải được đặt trong tiếp cận human-centred, có bảo vệ dữ liệu, xác nhận đạo đức và thiết kế phù hợp lứa tuổi (Miao & Holmes, 2023/2026). Điều này đặc biệt đúng với xử lý tài liệu. Một hệ thống có thể đọc được tài liệu không có nghĩa là nó được phép dùng tài liệu đó, hoặc có thể biến nó thành học liệu cho mọi nhóm tuổi.

Sinh nội dung học tập

Nhóm ứng dụng thứ hai là sinh nội dung mới: bài đọc, câu hỏi, ví dụ, tình huống, mô phỏng văn bản, đoạn hội thoại, flashcard, bài luyện tập, rubric, gợi ý hoạt động nhóm, kế hoạch bài dạy và tài liệu bổ trợ. Đây là điểm khiến AI tạo sinh trở nên khác với nhiều thế hệ EdTech trước: nó không chỉ phân phối học liệu, nó tham gia sản xuất học liệu.

Trong thực hành hằng ngày, giá trị của chức năng này rất thật. Giáo viên có thể yêu cầu một chủ đề được giải thích ở ba mức độ: lớp 6, lớp 10 và sinh viên năm nhất. Có thể yêu cầu thêm ví dụ gần đời sống địa phương. Có thể tạo mười câu hỏi chẩn đoán trước khi vào bài. Có thể biến một khái niệm trừu tượng thành tình huống tranh luận. Có thể tạo bài luyện tập theo lỗi sai cụ thể của một nhóm học sinh. Với giáo viên vốn thiếu thời gian, đây là một dạng mở rộng năng lực chuẩn bị.

Nhưng sinh nội dung nhanh không đồng nghĩa với thiết kế học tập tốt. Nội dung học tập cần ít nhất năm lớp kiểm định.

Lớp thứ nhất là đúng kiến thức. AI có thể viết trôi chảy nhưng sai sự thật, sai công thức, bịa nguồn, nhầm thuật ngữ hoặc suy luận thiếu bước. Sun và cộng sự phân loại thông tin méo trong AIGC thành nhiều nhóm lỗi, gồm lỗi logic, lỗi suy luận, lỗi toán, bịa không có căn cứ, lỗi sự kiện và lỗi đầu ra văn bản (Sun et al., 2024). Trong giáo dục, mỗi nhóm lỗi này đều có thể tạo hiểu lầm bền nếu đi vào học liệu.

Lớp thứ hai là đúng mục tiêu. Một bài học không chỉ cần nội dung đúng; nó phải phục vụ mục tiêu học rõ. Nếu mục tiêu là phân biệt hai khái niệm dễ nhầm, nội dung phải tạo cơ hội so sánh. Nếu mục tiêu là dùng kiến thức để ra quyết định, nội dung cần tình huống có dữ kiện thừa, ràng buộc và phản hồi. Nếu mục tiêu là fluency, nội dung cần luyện tập lặp lại có biến đổi. AI thường sinh ra “bài giảng hợp lý”, nhưng hợp lý chung chung chưa đủ.

Lớp thứ ba là đúng mức. Một giải thích quá dễ làm người học chán và không tiến bộ. Một giải thích quá khó làm người học mất phương hướng. Cấp độ không chỉ là độ dài câu hay số lượng thuật ngữ. Nó còn là kiến thức nền giả định, độ phức tạp của ví dụ, số bước suy luận, lượng thông tin mới và mức tự chủ cần có.

Lớp thứ tư là đúng hoạt động nhận thức. Nếu AI tạo ngay lời giải mẫu, người học có thể mất cơ hội truy hồi, dự đoán, thử sai và tự giải thích. Nếu AI luôn tóm tắt, người học có thể không học cách đọc cấu trúc văn bản. Nếu AI luôn viết ví dụ, người học có thể không tự tạo liên hệ. Nội dung tốt đôi khi phải giữ lại một phần công việc cho người học.

Lớp thứ năm là đúng bối cảnh. Một ví dụ phù hợp ở nước này có thể xa lạ ở nước khác. Một tình huống phù hợp với sinh viên đại học có thể không phù hợp với học sinh nhỏ tuổi. Một bài luyện tập phù hợp với lớp có giáo viên hướng dẫn có thể thất bại trong tự học. Nội dung không sống trong chân không; nó sống trong văn hóa, lứa tuổi, môn học, kỳ vọng và điều kiện triển khai.

Các tổng quan gần đây về GenAI trong giáo dục đều cho thấy tiềm năng nhưng cũng nhấn mạnh bằng chứng còn đang hình thành. Zhang và cộng sự tổng hợp 48 nghiên cứu thực nghiệm gần đây, ghi nhận GenAI có vai trò trong hỗ trợ học tập, hỗ trợ dạy học, phản hồi và cơ hội đánh giá mới, nhưng cũng nêu các lo ngại và nhu cầu nghiên cứu tiếp (Zhang et al., 2024). Owan và cộng sự, trong một systematic review về GenAI cho teaching and learning practice, cũng nhấn mạnh nhu cầu cập nhật chương trình, hướng dẫn sử dụng liên ngành và đánh giá thực nghiệm thận trọng (Owan et al., 2024).

Với Content AI, kết luận thực dụng là: dùng AI như người soạn nháp nhanh, không phải tổng biên tập cuối. Con người vẫn phải quyết định mục tiêu, chuẩn chất lượng, độ tuổi phù hợp, tính chính xác, bản quyền và cách học liệu đi vào hoạt động học.

Bản địa hóa và dịch thuật giáo dục

Dịch thuật là một trong những năng lực mạnh nhất của AI hiện nay, nhưng dịch giáo dục không chỉ là đổi ngôn ngữ. Một bài học có thể được dịch đúng từng câu mà vẫn không học được, vì ví dụ xa lạ, thang trình độ lệch, cách xưng hô không phù hợp, kiến thức nền khác, hoặc khái niệm không có tương đương trực tiếp trong văn hóa đích.

Trong giáo dục, bản địa hóa có ít nhất bốn tầng.

Tầng ngôn ngữ là dịch đúng nghĩa, đúng thuật ngữ, đúng giọng và đúng độ khó. Một từ chuyên môn có thể có nhiều cách dịch tùy cấp học. “Function” trong toán học, lập trình và giao tiếp ngôn ngữ không nên bị xử lý như cùng một mục từ. “Evidence” trong khoa học tự nhiên, luật, lịch sử và viết luận cũng cần ngữ cảnh.

Tầng văn hóa là thay ví dụ, tình huống, tên riêng, đơn vị đo, địa danh, thói quen và giả định xã hội. Một bài toán về tiền tip trong nhà hàng có thể không gần với học sinh ở nơi ít dùng văn hóa tip. Một bài đọc về giao thông công cộng ở thành phố lớn có thể không phù hợp với học sinh vùng nông thôn. Một ví dụ về phụ huynh và trường học có thể chạm vào khác biệt văn hóa rất sâu.

Tầng chương trình là nối nội dung với chuẩn đầu ra, sách giáo khoa, kỳ thi, tiến độ và cách đánh giá địa phương. Một tài nguyên tiếng Anh hay không tự nhiên trở thành học liệu tốt cho lớp học Việt Nam nếu nó không khớp mục tiêu, thuật ngữ và thói quen đánh giá của chương trình.

Tầng sư phạm là điều chỉnh hoạt động học theo bối cảnh. Một nhiệm vụ thảo luận mở có thể rất tốt ở lớp quen tranh luận, nhưng cần scaffold nhiều hơn ở lớp ít nói. Một hoạt động tự học có thể phù hợp với sinh viên trưởng thành, nhưng không phù hợp với học sinh nhỏ tuổi nếu thiếu hướng dẫn và phản hồi.

AI có thể giúp bản địa hóa nhanh hơn: đề xuất nhiều bản dịch, tạo ví dụ địa phương, điều chỉnh độ khó, phát hiện thuật ngữ, so sánh chương trình và sinh hoạt động thay thế. Nhưng bản địa hóa giáo dục vẫn cần người hiểu người học. Nếu giao toàn bộ cho máy, nội dung dễ trở thành “đọc được” nhưng không “thuộc về” lớp học.

UNESCO đặt inclusion, equity, linguistic and cultural diversity là một mối quan tâm quan trọng khi bàn về GenAI trong giáo dục (Miao & Holmes, 2023/2026). Đây không phải phần phụ. Nếu AI học chủ yếu từ dữ liệu của vài ngôn ngữ lớn và vài bối cảnh giàu tài nguyên, nó có thể làm các nền giáo dục nhỏ hơn trở thành người tiêu dùng bản dịch thay vì người đồng kiến tạo tri thức.

Vì vậy, Content AI nên được thiết kế như công cụ tăng năng lực bản địa hóa của giáo viên và nhóm chương trình địa phương, không phải máy nhập khẩu nội dung đại trà.

Syllabus mapping và ontology alignment

Ứng dụng sâu hơn của Content & Curriculum AI không nằm ở việc tạo từng bài học, mà ở việc nối các thành phần của chương trình thành một bản đồ tri thức. Trong một hệ thống giáo dục, có nhiều lớp cần khớp nhau: chuẩn đầu ra, mục tiêu học tập, chủ đề, khái niệm, kỹ năng, bài đọc, video, ví dụ, hoạt động, bài tập, câu hỏi kiểm tra, rubric, năng lực giáo viên và dữ liệu tiến bộ của người học.

Khi các lớp này không khớp, hệ thống tạo ra nhiều lỗi âm thầm. Giáo viên dạy một thứ, bài kiểm tra đo thứ khác. Học liệu nói có mục tiêu phân tích, nhưng bài tập chỉ yêu cầu nhớ lại. Chuẩn đầu ra yêu cầu năng lực giao tiếp, nhưng nội dung chỉ có ngữ pháp rời rạc. Một học sinh sai liên tục ở chủ đề hiện tại, nhưng nguyên nhân thật nằm ở một khái niệm nền từ ba tháng trước. Không có bản đồ, mọi người chỉ thấy biểu hiện bề mặt.

Syllabus mapping là việc nối mục tiêu, nội dung, hoạt động và đánh giá trong một học phần hoặc chương trình. Ontology alignment đi xa hơn: nó xây hoặc căn chỉnh mạng lưới khái niệm, quan hệ, điều kiện tiên quyết và cấp độ thành thạo. AI có thể hỗ trợ trích xuất mục tiêu từ syllabus, nhận diện khái niệm trong học liệu, gợi ý prerequisite, phát hiện trùng lặp, tìm khoảng trống, nối câu hỏi với chuẩn đầu ra, và đề xuất chuỗi học hợp lý hơn.

Ví dụ, trong một chương trình toán, hệ thống có thể phát hiện rằng nhiều bài sai về phương trình bậc nhất thật ra liên quan đến thiếu hiểu biết về phân phối phép nhân hoặc chuyển vế. Trong một khóa viết học thuật, hệ thống có thể nối lỗi lập luận với các khái niệm như claim, evidence, warrant, counterargument. Trong một chương trình đào tạo nghề, hệ thống có thể nối tình huống thực hành với năng lực, tiêu chí đánh giá và job aid liên quan.

Jaramillo và Chiappe, trong một tổng quan về AI-driven classroom và xu hướng chương trình thế kỷ 21, nhấn mạnh rằng chương trình học cần thích ứng với năng lực mới, liên ngành hơn, gắn với vấn đề thật hơn, đồng thời phải bảo vệ lợi ích dài hạn của người học khi đưa AI vào chương trình (Jaramillo & Chiappe, 2024). Điều này nhắc rằng curriculum AI không nên chỉ tự động hóa syllabus cũ. Nó phải giúp tổ chức nhìn lại: mục tiêu nào còn phù hợp, mục tiêu nào thiếu, mục tiêu nào bị đánh giá sai, và mục tiêu nào cần được dạy bằng cách khác.

Tuy nhiên, bản đồ chương trình cũng có rủi ro. Một ontology quá cứng có thể biến học tập thành đường ray hẹp. Một bản đồ khái niệm được tạo tự động có thể bỏ qua tranh luận học thuật, khác biệt văn hóa hoặc nhiều con đường học hợp lệ. Một hệ thống mapping có thể tạo cảm giác chính xác giả: mọi mục tiêu đều được gắn nhãn, mọi bài tập đều có chuẩn, nhưng không ai kiểm tra chất lượng thật của mối nối.

Vì vậy, syllabus mapping và ontology alignment nên được xem là công cụ đối thoại chuyên môn. AI đề xuất bản đồ, con người kiểm tra, chỉnh, tranh luận và dùng nó để ra quyết định. Bản đồ tốt không thay thế hội đồng chương trình; nó làm cho cuộc họp chương trình bớt mù mờ hơn.

Rủi ro nội dung tự động

Rủi ro đầu tiên là hallucination. Trong giáo dục, hallucination không chỉ là một câu trả lời sai. Nó có thể trở thành ví dụ sai trong bài giảng, lời giải sai trong kho bài tập, định nghĩa sai trong flashcard, nguồn tham khảo bịa trong tài liệu đọc, hoặc phản hồi sai làm người học sửa theo hướng xấu. Điều nguy hiểm là lỗi AI thường trôi chảy. Người mới học càng khó phát hiện vì họ chưa có kiến thức nền để nghi ngờ.

Rủi ro thứ hai là bias. Nội dung tự động có thể lặp lại thiên kiến về giới, nghề nghiệp, vùng miền, ngôn ngữ, năng lực, chủng tộc, tôn giáo hoặc tầng lớp. Trong tài liệu học tập, bias không chỉ xúc phạm; nó dạy người học điều gì là bình thường, ai được xem là chuyên gia, ai được đại diện, ai bị biến thành ví dụ phụ.

Rủi ro thứ ba là bản quyền và nguồn gốc. Nếu AI tạo bài đọc dựa trên tài liệu có bản quyền, hoặc tóm tắt một sách giáo khoa thương mại thành nội dung thay thế, tổ chức cần biết quyền sử dụng nằm ở đâu. Nếu giáo viên đưa dữ liệu học sinh, bài viết cá nhân hoặc tài liệu nội bộ vào công cụ bên ngoài, vấn đề riêng tư và bảo mật xuất hiện ngay.

Rủi ro thứ tư là độ tuổi phù hợp. Một mô phỏng hội thoại, ví dụ xã hội, hình ảnh, câu chuyện hoặc nội dung nhạy cảm cần phù hợp với tuổi, bối cảnh và mức trưởng thành. UNESCO khuyến nghị tiếp cận human-agent và age-appropriate trong xác nhận đạo đức và thiết kế sư phạm cho GenAI (Miao & Holmes, 2023/2026). Với Content AI, điều này phải đi vào quy trình duyệt nội dung, không chỉ nằm ở chính sách.

Rủi ro thứ năm là sự nghèo đi của chương trình học. Khi AI có thể tạo tài liệu nhanh, tổ chức có thể bị cám dỗ chuẩn hóa mọi thứ thành cùng một giọng, cùng một cấu trúc, cùng một kiểu bài. Nội dung trở nên gọn, đều, dễ sản xuất, nhưng mất chất riêng của giáo viên, mất chiều sâu học thuật, mất tranh luận, mất sự bất ngờ của ví dụ thật. Một chương trình toàn nội dung AI có thể rất sạch sẽ trên giấy nhưng nghèo trải nghiệm.

Rủi ro thứ sáu là lệch trọng tâm từ học sang sản xuất học liệu. Một trường có thể tự hào vì tạo được hàng nghìn bài học, nhưng người học không cần hàng nghìn bài học. Họ cần vài trải nghiệm học đúng lúc, đủ sâu, có phản hồi và có cơ hội dùng kiến thức. Trong Content AI, thước đo nguy hiểm nhất là số lượng nội dung được tạo.

Nguyên tắc thiết kế

Một: bắt đầu từ mục tiêu học, không bắt đầu từ prompt. Trước khi yêu cầu AI tạo gì đó, hãy xác định người học cần làm được gì, bằng chứng nào cho thấy họ làm được, và nội dung đóng vai trò gì trong chuỗi học tập.

Hai: coi AI là người soạn nháp, không phải người phê duyệt. Mọi học liệu quan trọng cần quy trình kiểm định: đúng kiến thức, đúng mục tiêu, đúng mức, đúng bối cảnh, đúng quyền sử dụng và đúng độ tuổi.

Ba: biến tài liệu thành hoạt động học, không chỉ thành tóm tắt. Một PDF được tóm tắt chưa phải bài học. Hãy thêm truy hồi, ví dụ, so sánh, bài tập áp dụng, phản hồi và cơ hội sửa.

Bốn: giữ lại lao động nhận thức cần thiết cho người học. Đừng để AI luôn giải thích trước, tóm tắt trước, làm mẫu trước và trả lời trước. Nhiều lúc hệ thống nên yêu cầu người học dự đoán, tự giải, tự tạo ví dụ hoặc tự đặt câu hỏi trước khi nhận hỗ trợ.

Năm: bản địa hóa bằng chuyên môn địa phương. AI có thể đề xuất bản dịch và ví dụ, nhưng giáo viên, chuyên gia chương trình và người hiểu bối cảnh phải quyết định cái gì phù hợp.

Sáu: xây bản đồ chương trình để phát hiện khoảng trống. Nối chuẩn đầu ra, học liệu, hoạt động, bài tập và đánh giá để thấy chỗ lệch. Nhưng hãy xem bản đồ là giả thuyết cần kiểm tra, không phải sự thật cuối.

Bảy: ghi vết nguồn và phiên bản. Học liệu AI cần có thông tin: được tạo từ nguồn nào, ai duyệt, duyệt ngày nào, dùng cho nhóm tuổi nào, đã sửa gì, có hạn chế gì. Không có provenance, hệ thống sẽ khó sửa lỗi khi lỗi lan rộng.

Tám: đo học tập, không đo sản lượng nội dung. Thành công của Content AI không phải số bài sinh ra, số slide tạo được hay số câu hỏi trong ngân hàng. Thành công là người học hiểu sâu hơn, nhớ bền hơn, dùng được hơn, giáo viên tiết kiệm thời gian thật hơn, và chương trình nhất quán hơn.

Tổng kết chương

Content & Curriculum AI là một trong những vùng ứng dụng mạnh nhất của AI trong giáo dục vì nó chạm vào phần hằng ngày nhất của dạy và học: tài liệu, bài học, câu hỏi, ví dụ, kế hoạch và chương trình. Nó có thể giúp chuyển đổi tài liệu thô, sinh học liệu, bản địa hóa nội dung và xây bản đồ chương trình.

Nhưng đây cũng là vùng dễ tạo ảo tưởng nhất. Nội dung nhiều hơn không tự làm học tập tốt hơn. Nội dung đúng ngữ pháp không chắc đúng kiến thức. Nội dung cá nhân hóa không chắc đúng nhu cầu. Nội dung được gắn chuẩn không chắc tạo năng lực. Nếu không có quy trình kiểm định và thiết kế sư phạm, AI có thể làm giáo dục trông có vẻ giàu tài nguyên hơn trong khi người học vẫn học nông.

Chương này mở bản đồ công nghệ bằng một nguyên tắc: AI sản xuất nội dung phải phục vụ AI tổ chức học tập, không phải ngược lại. Chương tiếp theo sẽ đi sang Assessment & Evaluation AI, nơi câu hỏi trở nên sắc hơn: nếu AI có thể tạo và chấm nhiều loại bài, ta phải đo cái gì, đo thế nào, và tránh tối ưu nhầm ra sao?

Tài liệu tham khảo

Jaramillo, J. J., & Chiappe, A. (2024). The AI-driven classroom: A review of 21st century curriculum trends. PROSPECTS, 54, 645-660. https://doi.org/10.1007/s11125-024-09704-w
Li, L., Yu, F., & Zhang, E. (2024). A systematic review of learning task design for K-12 AI education: Trends, challenges, and opportunities. Computers and Education: Artificial Intelligence, 6, 100217. https://doi.org/10.1016/j.caeai.2024.100217
Miao, F., & Holmes, W. (2023, updated 2026). Guidance for generative AI in education and research. UNESCO. https://www.unesco.org/en/articles/guidance-generative-ai-education-and-research
Owan, V. J., Abang, K. B., Idika, D. O., Etta, E. O., & Bassey, B. A. (2024). A systematic review of generative AI for teaching and learning practice. Education Sciences, 14(6), 636. https://doi.org/10.3390/educsci14060636
Sun, Y., Sheng, D., Zhou, Z., & Wu, Y. (2024). AI hallucination: Towards a comprehensive classification of distorted information in artificial intelligence-generated content. Humanities and Social Sciences Communications, 11, 1278. https://doi.org/10.1057/s41599-024-03811-x
Zhang, X., Zhang, P., Shen, Y., Liu, M., et al. (2024). A systematic literature review of empirical research on applying generative artificial intelligence in education. Frontiers of Digital Education, 1(3), 223-245. https://doi.org/10.1007/s44366-024-0028-5

Chương 6: Assessment & Evaluation AI

Bối cảnh / Vấn đề

Nếu Chương 5 bàn về AI tạo nội dung, Chương 6 đi vào nơi nhạy cảm hơn: AI đo năng lực. Nội dung sai có thể sửa. Nhưng đánh giá sai có thể làm lệch lộ trình học, làm giáo viên hiểu nhầm người học, làm tổ chức ra quyết định sai, hoặc làm một người bị gắn nhãn yếu kém khi vấn đề thật nằm ở thiết kế bài kiểm tra.

Đánh giá là trung tâm của EdTech vì hệ thống sẽ tối ưu theo thứ được đo. Nếu đo số câu đúng, hệ thống sẽ đẩy luyện câu đúng. Nếu đo thời lượng học, hệ thống sẽ tối ưu giữ người học ở lại màn hình. Nếu đo điểm cuối kỳ, giáo viên và học sinh sẽ ưu tiên thứ xuất hiện trong bài thi. Nếu đo năng lực chuyển giao, phản tư, tiến bộ cá nhân và khả năng dùng phản hồi, thiết kế học tập sẽ khác hẳn.

AI làm đánh giá hấp dẫn vì nó hứa giảm một nút thắt lâu đời: chấm bài tốn thời gian. Giáo viên không có đủ giờ để viết phản hồi cá nhân cho mọi bài luận, bài nói, bài lập trình, bản thiết kế hay sản phẩm dự án. AI có thể sinh câu hỏi, chấm câu trả lời, tạo phản hồi, gom lỗi, phát hiện mẫu, gợi bài luyện tiếp theo và hỗ trợ tự đánh giá.

Nhưng chính ở đây, tiêu chuẩn phải cao hơn. Một hệ thống tạo nội dung có thể được xem là trợ lý soạn nháp. Một hệ thống đánh giá lại có quyền ảnh hưởng đến điểm số, cơ hội, tự tin, nhãn năng lực và quyết định can thiệp. Vì vậy, Assessment & Evaluation AI không thể được đánh giá bằng “có vẻ đúng” hay “giống giáo viên”. Nó cần các chuẩn: validity, reliability, fairness, transparency, actionability và contestability.

Chương này xem AI trong đánh giá qua bảy nhóm: sinh câu hỏi, chấm tự động, phản hồi tự động, đánh giá quá trình, stealth/ipsative/asset-based assessment, academic integrity và các kỹ thuật đánh giá mới. Điểm nhấn là benchmark: khi nào một hệ thống đánh giá AI đủ đáng tin để dùng.

Automated Item Generation

Automated Item Generation (AIG) là việc dùng mô hình, quy tắc hoặc AI để tạo câu hỏi, đề bài, đáp án, distractor, rubric hoặc biến thể bài kiểm tra. Trước GenAI, AIG thường dựa vào template, ngân hàng tri thức và quy tắc sinh câu hỏi. Với LLM, việc tạo câu hỏi trở nên linh hoạt hơn nhiều: từ một mục tiêu học tập, hệ thống có thể sinh câu hỏi trắc nghiệm, tự luận ngắn, tình huống, bài toán, câu hỏi phân biệt khái niệm, câu hỏi nhiều mức Bloom hoặc bài tập theo lỗi sai.

Giá trị thực tế của AIG nằm ở ba điểm: giảm chi phí duy trì ngân hàng câu hỏi, hỗ trợ cá nhân hóa luyện tập, và giảm rủi ro lộ đề trong môi trường số nhờ tạo biến thể thay vì dùng lại cùng một câu.

Tuy nhiên, câu hỏi nhiều hơn không có nghĩa là đánh giá tốt hơn. Một systematic literature review về AIG cho educational assessments, tổng hợp 71 bài từ 2010 đến 2024, cho thấy phần lớn item được tạo vẫn là multiple-choice, tập trung nhiều vào computer science và medical sciences ở bậc đại học hoặc nghề; các mô hình đánh giá chất lượng item gồm manual annotation, man-machine collaborative evaluation, item analysis, Turing test và value-added models (Song, Du, & Zheng, 2025). Nói cách khác, AIG vẫn đang mạnh ở một số dạng và bối cảnh hơn là một năng lực phổ quát.

Các nghiên cứu LLM mới cũng cho thấy giới hạn. Chan và cộng sự khảo sát việc dùng LLM prompting để sinh item trong nhiều môn STEM và lưu ý rủi ro hallucination, misconception và chất lượng câu hỏi không ổn định khi mô hình thiếu hiểu biết khái niệm sâu (Chan et al., 2024). Đây là điểm cốt lõi: một câu hỏi có ngữ pháp tốt, đáp án trông hợp lý và bốn lựa chọn cân đối vẫn có thể đo sai mục tiêu.

AIG tốt phải bắt đầu từ assessment blueprint, không bắt đầu từ prompt rời rạc. Blueprint trả lời: mục tiêu nào cần đo, cấp độ nhận thức nào, kiến thức nền nào, loại sai lầm nào cần phát hiện, độ khó mong muốn, định dạng nào phù hợp, và kết quả sẽ dùng để làm gì. Nếu thiếu blueprint, AIG rất dễ tạo ra một rừng câu hỏi đẹp nhưng không đại diện cho năng lực cần đo.

Trong thực hành, AIG nên có vòng kiểm định: sinh item, rà kiến thức, rà ngôn ngữ, rà bias, thử với mẫu nhỏ, phân tích độ khó và độ phân biệt, loại item kém, rồi theo dõi item drift theo thời gian. Với high-stakes assessment, AI chỉ nên là công cụ hỗ trợ người viết đề, không phải người quyết định cuối.

Automated Scoring

Automated scoring gồm chấm trắc nghiệm, câu trả lời ngắn, tự luận, bài nói, bài viết, lập trình, sản phẩm mở và đôi khi cả tương tác trong mô phỏng. Mỗi loại có độ rủi ro khác nhau. Chấm trắc nghiệm có đáp án rõ là bài toán tương đối ổn định. Chấm bài luận, bài nói hoặc sản phẩm sáng tạo thì phức tạp hơn vì câu trả lời có nhiều đường đúng, nhiều tiêu chí và nhiều yếu tố văn hóa-ngôn ngữ.

Trong ngôn ngữ và viết, automated essay scoring (AES) có lịch sử dài. LLM làm AES hấp dẫn hơn vì nó có thể đọc rubric, giải thích điểm, phản hồi theo tiêu chí và xử lý nhiều thể loại văn bản hơn các hệ thống dựa trên feature cũ. Nhưng validity và reliability vẫn là câu hỏi lớn. Pack, Barrett và Escalante đánh giá bốn LLM trong chấm bài viết của English language learners; GPT-4 thể hiện tốt nhất trong nghiên cứu đó, nhưng các mô hình có dao động hiệu năng theo thời gian, và không phải mô hình nào cũng đáng tin như nhau (Pack, Barrett, & Escalante, 2024). Với đánh giá thật, sự dao động này không phải chi tiết kỹ thuật nhỏ; nó ảnh hưởng đến công bằng.

Trong khoa học, Lee và cộng sự dùng GPT-3.5, GPT-4 và nhiều chiến lược prompting để chấm câu trả lời viết của học sinh trên sáu nhiệm vụ khoa học, với 1.650 phản hồi. Few-shot tốt hơn zero-shot; chain-of-thought chỉ thực sự giúp khi đi cùng stem và rubric; GPT-4 nhìn chung tốt hơn GPT-3.5 trong các thiết lập của nghiên cứu (Lee et al., 2024). Bài học không phải là “GPT-4 chấm được”, mà là: chấm tự động phụ thuộc mạnh vào rubric, ngữ cảnh item, ví dụ mẫu, chiến lược lấy mẫu và quy trình kiểm định.

Automated scoring có thể dùng ở nhiều mức: hỗ trợ giáo viên, formative assessment hoặc summative assessment. Càng tiến gần điểm chính thức, chuẩn kiểm định càng nghiêm.

Một benchmark tối thiểu cho automated scoring không chỉ là tương quan với điểm giáo viên. Cần xem inter-rater reliability giữa AI và nhiều giám khảo, intra-rater reliability của chính AI qua nhiều lần chạy, bias theo nhóm người học, calibration theo rubric, độ ổn định khi prompt thay đổi, khả năng giải thích điểm, và tỷ lệ trường hợp cần human review. Nếu AI chấm đúng trung bình nhưng luôn thấp điểm hơn với người học dùng tiếng Anh như ngôn ngữ thứ hai, hệ thống không đạt chuẩn công bằng dù accuracy tổng thể cao.

Giáo viên cũng không hoàn hảo: chấm người có noise, mệt mỏi, thiên kiến và lệch rubric. Vì vậy, benchmark không phải “AI có giống một giáo viên bất kỳ không?”, mà là “AI có giúp hệ thống chấm công bằng, nhất quán, có thể giải thích và có thể khiếu nại tốt hơn baseline hiện tại không?”.

Feedback tự động

Chấm điểm trả lời câu hỏi “bài này được bao nhiêu?”. Feedback trả lời câu hỏi quan trọng hơn: “người học nên làm gì tiếp?”. Một hệ thống AI đánh giá tốt không dừng ở điểm. Nó phải biến kết quả thành hành động học tập: sửa lỗi nào, luyện gì, xem lại khái niệm nào, thử chiến lược nào, khi nào quay lại kiểm tra.

Bằng chứng về feedback số tích cực nhưng không đơn giản. Brummer và cộng sự meta-analysis 116 can thiệp feedback số, thấy hiệu ứng tổng thể Hedges' g = 0.41, nhưng hiệu quả thay đổi theo feedback focus, môn học, loại đánh giá, learner control và các yếu tố khác; khi điều chỉnh publication bias, ước tính có thể thấp hơn đáng kể trong một phân tích trim-and-fill (Brummer et al., 2024). Điều này nhắc rằng “có feedback” không đủ. Loại feedback, thời điểm, mức chi tiết và khả năng hành động mới là phần quyết định.

Feedback AI có một lợi thế lớn: nó có thể tức thời và nhiều vòng. Người học viết một đoạn, nhận góp ý, sửa, nhận phản hồi tiếp, so sánh phiên bản, rồi phản tư về tiến bộ. Với bài nói, lập trình hoặc toán, hệ thống có thể phản hồi vào lỗi cụ thể thay vì chỉ báo đúng sai.

Nhưng feedback tự động cũng có ba bẫy. Bẫy thứ nhất là quá nhiều. Một bài viết nhận hai mươi gạch đầu dòng góp ý có thể làm người học tê liệt. Bẫy thứ hai là làm thay. Nếu phản hồi biến thành câu sửa hoàn chỉnh, người học chỉ chấp nhận thay đổi mà không hiểu. Bẫy thứ ba là sai trọng tâm. AI có thể sửa ngữ pháp bề mặt trong khi vấn đề chính là lập luận, hoặc khen cấu trúc trong khi nội dung sai.

Feedback tốt cần đúng lúc, đúng mức và có thể hành động. Với người mới, phản hồi nên tập trung vài lỗi có sức ảnh hưởng cao. Với người trung cấp, phản hồi có thể yêu cầu tự giải thích hoặc so sánh lựa chọn. Với người giỏi, phản hồi nên thách thức tiêu chuẩn cao hơn và nối với mục tiêu chuyển giao.

Một nguyên tắc quan trọng: feedback không nên thay thế metacognition. Trước khi nhận phản hồi, người học có thể tự đánh giá phần mạnh, phần yếu và chiến lược đã dùng. Sau phản hồi, hệ thống nên yêu cầu họ chọn một hành động sửa cụ thể. Như vậy, AI không chỉ nói lỗi; nó dạy người học học từ lỗi.

Process-Focused Assessment

Đánh giá truyền thống thường nhìn sản phẩm cuối: bài nộp, điểm thi, đáp án. Nhưng trong môi trường số, ta có thể thấy quá trình: lịch sử chỉnh sửa, số lần thử, loại gợi ý đã dùng, phản ứng với feedback, prompt viết cho AI, phiên bản trước-sau và thảo luận nhóm.

Process-focused assessment không hỏi chỉ “kết quả là gì?”, mà hỏi “người học đi đến kết quả đó bằng cách nào?”. Hai bài luận cùng điểm có thể phản ánh hai quá trình rất khác: một người lập dàn ý, viết, nhận phản hồi, sửa lập luận; người kia tạo một bản gần hoàn chỉnh bằng AI rồi chỉnh nhẹ. Hai lời giải toán cùng đúng có thể khác ở mức hiểu: một người chọn chiến lược phù hợp, người kia đoán theo mẫu.

Trong kỷ nguyên GenAI, process evidence trở nên quan trọng hơn vì sản phẩm cuối dễ được máy hỗ trợ. Điều này không có nghĩa phải giám sát toàn diện. Nó có nghĩa là nhiệm vụ nên thu thập bằng chứng học tập ở các điểm có ý nghĩa: dự đoán ban đầu, lựa chọn chiến lược, bản nháp, phản hồi đã dùng, lý do sửa và phản tư.

Xia và cộng sự, trong scoping review về GenAI và assessment ở higher education, cho rằng đánh giá cần chuyển để nuôi dưỡng self-regulated learning, responsible learning và integrity; đồng thời giáo viên cần professional development về assessment, AI và digital literacy (Xia et al., 2024). Đây là một tín hiệu quan trọng: vấn đề không chỉ là dùng AI để chấm nhanh hơn, mà là thiết kế lại đánh giá để người học thể hiện quá trình học có trách nhiệm.

Tuy nhiên, process-focused assessment có rủi ro quyền riêng tư. Không phải mọi click đều đáng thu. Không phải mọi khoảng dừng đều có nghĩa. Dữ liệu quá trình dễ bị diễn giải quá mức: người học dừng lâu có thể đang suy nghĩ sâu, mất tập trung, hoặc bị gián đoạn ngoài đời. Vì vậy, chỉ nên thu dữ liệu phục vụ quyết định sư phạm rõ, giải thích cho người học biết, và cho họ quyền hiểu hoặc phản biện diễn giải.

Stealth, Ipsative và Asset-Based Assessment

Stealth assessment là đánh giá được nhúng vào hoạt động thật hoặc môi trường giàu tương tác, như game, mô phỏng, lab ảo hoặc tình huống nhập vai. Người học không tách khỏi hoạt động để “làm bài kiểm tra”; hệ thống suy luận năng lực từ hành động trong nhiệm vụ. Trong giáo dục y khoa, stealth assessment được xem là cách đo tiến bộ trong hoạt động xác thực hơn, giảm lo âu kiểm tra và có thể chạm đến kỹ năng phi nhận thức như empathy hoặc ethical decision-making (Habibi et al., 2024).

Điểm mạnh của stealth assessment là nó gần với performance thật hơn bài thi tách rời. Nếu cần đánh giá ra quyết định trong ca phức tạp, xử lý sự cố, giải quyết vấn đề trong mô phỏng hoặc hợp tác thiết kế sản phẩm, dữ liệu hành động có thể giàu hơn câu hỏi trắc nghiệm.

Nhưng stealth assessment chỉ đáng tin khi mô hình suy luận rõ. Hành động nào là bằng chứng của năng lực nào? Một lựa chọn trong mô phỏng có thể có nhiều lý do. Người học đi đường vòng có thể vì chưa hiểu, hoặc vì đang khám phá. Nếu hệ thống chấm quá tự tin từ dữ liệu hành vi mơ hồ, nó tạo “điểm số bí mật”. Stealth không được đồng nghĩa với opaque.

Ipsative assessment so người học với chính họ theo thời gian. Thay vì chỉ hỏi “em đứng thứ mấy so với lớp?”, nó hỏi “em đã tiến bộ thế nào so với chính mình?”. Trong môi trường AI, ipsative assessment có thể hiển thị phiên bản bài viết trước-sau, đường tiến bộ kỹ năng, lỗi đã giảm, chiến lược đã thay đổi và mục tiêu tiếp theo. Nghiên cứu về screencast-based ipsative assessment trong viết EFL cho thấy hướng này có thể tạo phản hồi cá nhân hóa và hỗ trợ phát triển viết, dù vẫn cần thiết kế đối thoại tốt hơn (Ebrahimi & Ebadi, 2024).

Asset-based assessment đi thêm một bước: không chỉ tìm lỗi thiếu, mà phát hiện nguồn lực người học đã có. Ocumpaugh và cộng sự phê bình AIED thường đi theo deficit model: phát hiện thiếu hụt rồi sửa. Họ đề xuất asset-based paradigm, trong đó hệ thống nhận diện và xây trên funds of knowledge, chiến lược, động lực, kinh nghiệm, mạng lưới và thế mạnh của người học (Ocumpaugh et al., 2024). Đây là chỉnh hướng đạo đức quan trọng. Một dashboard chỉ toàn “yếu ở đâu” có thể làm nghèo hình ảnh về người học. Một dashboard tốt cũng cho thấy người học làm tốt gì, dựa vào đâu để tiến lên.

Academic Integrity trong kỷ nguyên GenAI

GenAI làm nhiều bài đánh giá truyền thống mất khả năng phân biệt. Bài take-home essay, summary, short answer, proposal hoặc code assignment đơn giản giờ có thể được tạo với chất lượng đủ cao để vượt qua nhiều tiêu chí cũ. Nếu trường học chỉ phản ứng bằng AI detector, họ sẽ rơi vào cuộc đua khó thắng: mô hình sinh tốt hơn, công cụ paraphrase nhiều hơn, detector có false positive, và người học trung thực có thể bị nghi ngờ.

Xia và cộng sự ghi nhận academic integrity là một trong những thách thức nổi bật của GenAI trong assessment ở higher education; đồng thời review này đề xuất chuyển đánh giá để phát triển self-regulated learning, responsible learning và integrity, không chỉ truy bắt gian lận (Xia et al., 2024). Lye và Lim cũng nhấn mạnh rằng assessment redesign cần đi xa hơn nỗi lo đạo văn, vì GenAI còn có bias, hallucination và các vấn đề về tính xác thực của bằng chứng học tập (Lye & Lim, 2024).

Câu hỏi đúng không phải “làm sao cấm AI hoàn toàn?”, vì trong nhiều ngành nghề, AI sẽ là công cụ làm việc thật. Câu hỏi đúng là “nhiệm vụ này đang đánh giá năng lực nào, và mức dùng AI nào phù hợp với năng lực đó?”. Có nhiệm vụ cần AI-free để đo truy hồi hoặc kỹ năng nền. Có nhiệm vụ nên AI-permitted để đo khả năng dùng công cụ, kiểm chứng, chỉnh sửa và chịu trách nhiệm.

Academic integrity vì vậy chuyển từ bài toán phát hiện sang bài toán thiết kế. Một assignment tốt trong kỷ nguyên GenAI nên nêu rõ: AI được dùng ở đâu, phải khai báo thế nào, phần nào là đóng góp cá nhân, bằng chứng quá trình gồm gì, tiêu chí đánh giá chú trọng gì, và người học phải bảo vệ quyết định của mình ra sao.

Sáu kỹ thuật đánh giá mới

Error clustering dùng AI gom lỗi hoặc bài làm theo mẫu: nhầm khái niệm, thiếu bằng chứng, lỗi lập luận, sai bước biến đổi, dùng công thức không phù hợp. Giáo viên phản hồi theo cụm, rồi cá nhân hóa ở điểm quan trọng.

Peer assessment với AI moderator giữ giá trị học từ việc chấm bài người khác, nhưng dùng AI để hỗ trợ rubric, phát hiện phản hồi quá ngắn, chỉ ra lệch điểm, gợi câu hỏi làm rõ và giúp giáo viên kiểm tra chất lượng chấm chéo. AI không thay thế peer learning; nó làm chấm chéo bớt hỗn loạn hơn.

Reverse grading yêu cầu người học chấm, sửa hoặc phản biện một bài sai, có thể là bài do AI cố ý tạo lỗi. Kỹ thuật này đưa người học lên tầng phân tích: họ phải nhận ra tiêu chí, phát hiện lỗi, giải thích vì sao sai và đề xuất sửa. Đây là cách biến lỗi thành đối tượng học.

Socratic scaffolding dùng AI hỏi gợi mở thay vì trả đáp án. Khi người học sai, hệ thống hỏi về giả định, dữ kiện liên quan, phản ví dụ hoặc bước chưa được chứng minh. Kỹ thuật này phù hợp khi mục tiêu là reasoning chứ không chỉ đáp án.

Mastery loops nối chấm, chữa, luyện lại và kiểm tra lại. AI giúp giảm chi phí vòng lặp này: phát hiện lỗi, đề xuất bài luyện đúng điểm yếu, kiểm tra lại sau khoảng trì hoãn. Nhưng mastery không nên bị hiểu là làm quiz đến khi đúng; nó phải gồm hiểu lỗi, sửa chiến lược và dùng được trong biến thể mới.

Reflective assessment yêu cầu người học giải thích quá trình, chiến lược, quyết định, cách dùng phản hồi và tiến bộ của mình. Trong kỷ nguyên AI, reflection buộc người học nối sản phẩm với nhận thức cá nhân.

Tiêu chí benchmark / Cách đánh giá

Với Assessment & Evaluation AI, benchmark phải tách theo mục đích sử dụng. Một công cụ dùng cho formative feedback có thể chấp nhận rủi ro khác công cụ dùng để quyết định điểm cuối kỳ, lên lớp, cấp chứng chỉ hoặc tuyển chọn.

Một: baseline là gì? So AI với chấm tay hiện tại, với nhiều giám khảo đã chuẩn hóa, với phiên bản không AI, hay với một can thiệp feedback tốt? AI dễ trông hiệu quả nếu baseline là “không có phản hồi”. Nó khó hơn nếu baseline là giáo viên giỏi dùng rubric rõ.

Hai: validity. Hệ thống có đo đúng construct cần đo không? Nếu bài viết được chấm chủ yếu theo độ dài, từ vựng học thuật và ngữ pháp, nó có thể bỏ qua tư duy, cấu trúc lập luận hoặc hiểu biết nội dung. Kaldaras, Akaeze và Reckase nhấn mạnh rằng trong kỷ nguyên GenAI, assessment validity cần được xem lại theo khả năng đo knowledge application và phát triển nhận thức, không chỉ sản phẩm dễ chấm (Kaldaras, Akaeze, & Reckase, 2024).

Ba: reliability. Hệ thống có ổn định qua nhiều lần chấm, nhiều phiên bản mô hình, nhiều prompt và nhiều nhóm bài không? Với LLM, cùng một input có thể cho output hơi khác. Nếu điểm chính thức phụ thuộc vào lần chạy, đó là rủi ro.

Bốn: fairness. Sai số có phân bố đều không? Có nhóm người học nào bị chấm khắt khe hơn vì ngôn ngữ, phương ngữ, phong cách viết, nền văn hóa, khuyết tật, hoặc cách diễn đạt không giống dữ liệu huấn luyện không?

Năm: actionability. Kết quả có dẫn đến hành động học tập không? Một điểm 7/10 ít giá trị hơn phản hồi chỉ ra lỗi chính và bước sửa tiếp theo.

Sáu: transparency và contestability. Người học và giáo viên có hiểu vì sao có điểm đó không? Có quyền yêu cầu chấm lại không? Có thể thấy rubric, bằng chứng và giới hạn của hệ thống không?

Bảy: cost và workload thật. AI có giảm tải tổng thể không, hay chỉ chuyển việc từ chấm bài sang kiểm lỗi AI, xử lý khiếu nại, viết prompt và sửa rubric?

Tám: learning impact. Công cụ có cải thiện retention, transfer, chất lượng sửa bài hoặc năng lực dùng phản hồi không? Nếu chỉ tăng tốc trả điểm, nó chưa chắc cải thiện học tập.

Phân tích phản biện

Rủi ro lớn nhất của AI assessment là biến cái dễ chấm thành cái đáng học. Nếu AI chấm tốt ngữ pháp, hệ thống có thể vô tình dạy người học tối ưu ngữ pháp. Nếu AI chấm tốt đáp án ngắn, giáo viên có thể ra nhiều câu ngắn hơn. Nếu dashboard hiển thị lỗi sai theo cụm, tổ chức có thể xem học tập như danh sách lỗi cần sửa.

Rủi ro thứ hai là automation bias. Khi AI đưa điểm kèm giải thích trôi chảy, giáo viên có thể tin quá nhanh. Một hệ thống cần hiển thị mức chắc chắn, trường hợp ngoại lệ và khuyến nghị human review, đặc biệt với bài biên, bài bất thường hoặc quyết định high-stakes.

Rủi ro thứ ba là giám sát hóa học tập. Process-focused và stealth assessment có thể rất mạnh, nhưng cũng dễ biến thành thu thập dữ liệu quá mức. Người học không nên sống trong cảm giác mọi thao tác đều bị chấm. Đánh giá tốt cần đủ bằng chứng, không cần toàn bộ đời sống số.

Rủi ro thứ tư là công bằng giả. AI có thể làm điểm số nhất quán hơn nhưng vẫn đo sai năng lực. Nó có thể giảm thiên kiến của một giáo viên nhưng tái tạo thiên kiến từ dữ liệu huấn luyện. Nó có thể cho phản hồi tức thời nhưng không phù hợp văn hóa lớp học. Vì vậy, fairness phải được kiểm định bằng dữ liệu thật, không chỉ bằng ý định tốt.

Nguyên tắc thiết kế

Một: xác định quyết định trước khi chọn công nghệ. Đánh giá này dùng để học tiếp, phản hồi, xếp lớp, cấp chứng chỉ hay tuyển chọn? Quyết định càng lớn, yêu cầu validity, reliability và human oversight càng cao.

Hai: tách formative và summative. AI rất phù hợp cho phản hồi luyện tập, tự đánh giá và sửa bài nhiều vòng. Với summative, AI cần quy trình kiểm định nghiêm hơn và thường nên có con người trong vòng quyết định.

Ba: dùng rubric như hợp đồng sư phạm. Rubric phải mô tả construct cần đo, tiêu chí, mức đạt, ví dụ và giới hạn. Prompt chấm điểm không thay thế rubric.

Bốn: thiết kế feedback thành vòng học. Mỗi phản hồi nên dẫn đến hành động: sửa gì, luyện gì, thử gì, kiểm tra lại khi nào.

Năm: thu dữ liệu quá trình có chủ đích. Chỉ thu dấu vết phục vụ suy luận sư phạm rõ. Giải thích cho người học biết dữ liệu nào được dùng và dùng để làm gì.

Sáu: luôn có cơ chế khiếu nại và human review. Người học cần quyền phản biện điểm AI. Giáo viên cần quyền chỉnh, bỏ qua hoặc yêu cầu hệ thống giải thích.

Bảy: benchmark theo nhóm người học. Không chỉ báo accuracy trung bình. Hãy kiểm sai số theo ngôn ngữ, giới, mức thành thạo, nhu cầu hỗ trợ, thiết bị và bối cảnh.

Tám: không để integrity chỉ là bắt gian lận. Thiết kế nhiệm vụ phải làm rõ vai trò AI, yêu cầu bằng chứng quá trình và dạy người học dùng AI có trách nhiệm.

Tổng kết chương

Assessment & Evaluation AI có thể làm giáo dục phản hồi nhanh hơn, nhiều vòng hơn và giàu dữ liệu hơn. Nó có thể sinh câu hỏi, chấm bài, tạo feedback, phát hiện mẫu lỗi, theo dõi quá trình, hỗ trợ tự đánh giá và mở ra các mô hình đánh giá mới như stealth, ipsative và asset-based assessment.

Nhưng đây là vùng không được phép dễ dãi. AI đánh giá phải được benchmark bằng validity, reliability, fairness, transparency, actionability, contestability, workload thật và tác động học tập. Một hệ thống chấm nhanh nhưng đo sai sẽ làm giáo dục tệ hơn với tốc độ cao hơn.

Chương 6 đặt ra nguyên tắc cho toàn bộ phần còn lại: AI trong giáo dục chỉ có giá trị khi nó cải thiện vòng học tập, không chỉ tự động hóa điểm số. Chương tiếp theo sẽ đi vào Tutoring & Scaffolding AI, nơi đánh giá trở thành đầu vào cho can thiệp: hệ thống biết gì về người học, và nó dùng hiểu biết đó để hỗ trợ như thế nào?

Tài liệu tham khảo

Arslan, B., Lehman, B., Tenison, C., Sparks, J. R., López, A. A., Gu, L., & Zapata-Rivera, D. (2024). Opportunities and challenges of using generative AI to personalize educational assessment. Frontiers in Artificial Intelligence, 7, 1460651. https://doi.org/10.3389/frai.2024.1460651
Brummer, L., de Boer, H., Mouw, J. M., & Strijbos, J.-W. (2024). A meta-analysis of the effects of context, content, and task factors of digitally delivered instructional feedback on learning performance. Learning Environments Research, 27, 453-476. https://doi.org/10.1007/s10984-024-09501-4
Chan, K. W., Ali, F., Park, J., Sham, K. S. B., Tan, E. Y. T., Chong, F. W. C., Qian, K., & Sze, G. K. (2024). Automatic item generation in various STEM subjects using large language model prompting. Computers and Education: Artificial Intelligence, 8, 100344. https://doi.org/10.1016/j.caeai.2024.100344
Ebrahimi, B., & Ebadi, S. (2024). Exploring the impact of screencast-based ipsative assessment on EFL students' writing development. Language Testing in Asia, 14, 41. https://doi.org/10.1186/s40468-024-00315-y
Habibi, A., Toofaninejad, E., Rahimi, S. A., & Kalantarion, M. (2024). The transformative impact of stealth assessment on medical education. Journal of Advances in Medical Education & Professionalism, 12(3), 208-210. https://doi.org/10.30476/JAMP.2024.101479.1931
Kaldaras, L., Akaeze, H. O., & Reckase, M. D. (2024). Developing valid assessments in the era of generative artificial intelligence. Frontiers in Education, 9, 1399377. https://doi.org/10.3389/feduc.2024.1399377
Lee, G.-G., Latif, E., Wu, X., Liu, N., & Zhai, X. (2024). Applying large language models and chain-of-thought for automatic scoring. Computers and Education: Artificial Intelligence, 6, 100213. https://doi.org/10.1016/j.caeai.2024.100213
Lye, C. Y., & Lim, L. (2024). Generative artificial intelligence in tertiary education: Assessment redesign principles and considerations. Education Sciences, 14(6), 569. https://doi.org/10.3390/educsci14060569
Ocumpaugh, J., Roscoe, R. D., Baker, R. S., Hutt, S., & Aguilar, S. J. (2024). Toward asset-based instruction and assessment in artificial intelligence in education. International Journal of Artificial Intelligence in Education, 34, 1559-1598. https://doi.org/10.1007/s40593-023-00382-x
Pack, A., Barrett, A., & Escalante, J. (2024). Large language models and automated essay scoring of English language learner writing: Insights into validity and reliability. Computers and Education: Artificial Intelligence, 6, 100234. https://doi.org/10.1016/j.caeai.2024.100234
Song, Y., Du, J., & Zheng, Q. (2025). Automatic item generation for educational assessments: A systematic literature review. Interactive Learning Environments, 33(2), 1-20. https://doi.org/10.1080/10494820.2025.2482588
Xia, Q., Weng, X., Ouyang, F., Lin, T. J., & Chiu, T. K. F. (2024). A scoping review on how generative artificial intelligence transforms assessment in higher education. International Journal of Educational Technology in Higher Education, 21, 40. https://doi.org/10.1186/s41239-024-00468-z

Chương 7: Tutoring & Scaffolding AI

Bối cảnh / Vấn đề

Nếu Chương 6 nói về AI đo người học đang ở đâu, Chương 7 nói về AI làm gì với hiểu biết đó. Đây là vùng nhiều lời hứa nhất của AIEd: một gia sư riêng cho mỗi người học, luôn sẵn sàng, kiên nhẫn, biết người học đang mắc ở đâu, đưa gợi ý đúng lúc, không mệt, không cáu, không bỏ sót ai.

Lời hứa này không mới. Intelligent Tutoring Systems (ITS) đã tồn tại nhiều thập niên trước GenAI. Cognitive Tutor, ASSISTments, ALEKS, Carnegie Learning, AutoTutor và nhiều hệ thống khác đã thử mô hình hóa tri thức, theo dõi trạng thái người học và đưa bài tập/feedback thích nghi. GenAI chỉ làm lời hứa đó trở nên dễ thấy hơn: thay vì giao diện bài tập cứng, người học giờ có thể trò chuyện với một hệ thống biết giải thích, hỏi lại, đóng vai, phản biện, tạo ví dụ và mô phỏng đối thoại.

Nhưng chính vì giao diện hội thoại giống con người, rủi ro cũng lớn hơn. Một chatbot trả lời trôi chảy dễ được nhầm với gia sư tốt. Một lời giải dễ hiểu dễ được nhầm với học sâu. Một hệ thống “giúp em làm bài” dễ trở thành hệ thống “làm hộ em suy nghĩ”. Nếu Chương 6 cảnh báo về đo sai, Chương 7 cảnh báo về hỗ trợ sai: hỗ trợ quá ít làm người học mắc kẹt, hỗ trợ quá nhiều làm người học phụ thuộc.

Gia sư tốt không phải người luôn đưa đáp án. Gia sư tốt chẩn đoán, chọn mức trợ giúp, hỏi đúng câu, giữ người học trong vùng thử thách vừa sức, giảm dần scaffold, và biết khi nào nên để người học tự vật lộn. Với AI, câu hỏi benchmark không phải “nó trả lời được không?”, mà là “nó giúp người học tự làm tốt hơn sau khi không còn nó không?”.

Intelligent Tutoring Systems

Một ITS cổ điển thường có ba lõi: domain model, student model và pedagogical model. Domain model mô tả tri thức cần học: khái niệm, kỹ năng, điều kiện tiên quyết, lỗi thường gặp, lời giải hợp lệ. Student model ước lượng người học đang biết gì, chưa biết gì, có khả năng sai ở đâu. Pedagogical model quyết định bước tiếp theo: giải thích, gợi ý, bài tập, phản hồi, ôn lại hay tăng độ khó.

Ba lõi này giúp phân biệt ITS với một kho nội dung có quiz. Một hệ thống chỉ phát video rồi kiểm tra cuối bài không phải gia sư thông minh. Một hệ thống chỉ cho người học chọn bài tiếp theo cũng chưa đủ. Tính “tutor” nằm ở vòng lặp: quan sát hành động, diễn giải trạng thái, chọn can thiệp, xem phản ứng, rồi cập nhật mô hình.

Trước GenAI, ITS mạnh nhất ở các miền có cấu trúc rõ như toán, lập trình, logic, vật lý cơ bản hoặc ngôn ngữ ở mức luyện tập cụ thể. Son tổng quan 63 nghiên cứu ITS trong giáo dục toán từ 2003 đến 2023 và ghi nhận xu hướng tích cực, nhưng cũng cho thấy phần lớn ứng dụng tập trung ở một số chủ đề như số học, đại số, hình học và bậc tiểu học; nhiều nghiên cứu vẫn còn giới hạn về độ đa dạng bối cảnh và triển khai (Son, 2024). Đây là bài học quan trọng: ITS dễ thành công hơn khi domain model rõ và dữ liệu tương tác đủ sạch.

GenAI mở rộng bề mặt của ITS. Nó có thể giải thích bằng ngôn ngữ tự nhiên, tạo ví dụ mới, đối thoại linh hoạt, nhận câu hỏi mở và hỗ trợ nhiều môn ngoài dạng bài đóng. Nhưng GenAI không tự thay thế ba lõi trên. Một chatbot không có domain model đáng tin sẽ dễ nói sai. Không có student model, nó không biết người học cần gì. Không có pedagogical model, nó chỉ phản ứng từng lượt thay vì dẫn dắt học tập.

Khanmigo là ví dụ nổi bật của hướng này. Khan Academy mô tả Khanmigo như một tutor và teaching assistant được tích hợp với thư viện nội dung của Khan Academy; khác với chatbot chung, công cụ này được thiết kế để hướng dẫn người học tìm đáp án thay vì chỉ đưa đáp án (Khan Academy, 2026). Điểm đáng chú ý không phải là nó dùng mô hình nào, mà là nó được đặt trong một hệ sinh thái nội dung, bài tập, mục tiêu và vai trò giáo viên. Một AI tutor đứng một mình sẽ yếu hơn một AI tutor biết mình đang ở đâu trong lộ trình học.

Điều này dẫn tới nguyên tắc đầu tiên: tutoring AI không nên bắt đầu từ hội thoại, mà từ mô hình học tập. Hội thoại chỉ là giao diện. Bên dưới phải có mục tiêu, chuẩn, dữ liệu, ràng buộc, mức hỗ trợ và cơ chế kiểm định.

Knowledge Tracing

Knowledge tracing là lõi kỹ thuật giúp hệ thống ước lượng người học đang nắm khái niệm/kỹ năng nào. Bài toán cơ bản là: dựa trên lịch sử tương tác, câu đúng sai, thời gian, gợi ý đã dùng, dạng bài và kỹ năng liên quan, hệ thống dự đoán xác suất người học đã thành thạo một kỹ năng hoặc sẽ trả lời đúng câu tiếp theo.

Bayesian Knowledge Tracing (BKT) là mô hình kinh điển. Nó giả định mỗi kỹ năng có trạng thái ẩn: đã biết hoặc chưa biết; người học có thể học qua mỗi cơ hội luyện tập; câu trả lời đúng/sai bị ảnh hưởng bởi guess và slip. BKT hấp dẫn vì tương đối dễ giải thích: giáo viên có thể hiểu vì sao hệ thống nghĩ người học đã gần thành thạo. Šarić-Grgić, Grubišić và Gašpar tổng quan 25 năm BKT và cho thấy mô hình này vẫn quan trọng vì tính diễn giải và khả năng ứng dụng trong adaptive learning (Šarić-Grgić et al., 2024).

Deep Knowledge Tracing (DKT) và các mô hình học sâu sau này linh hoạt hơn. Chúng có thể mô hình hóa chuỗi tương tác dài, quan hệ giữa câu hỏi, kỹ năng chồng lấp và dữ liệu hành vi phức tạp. Nhưng chúng cũng có vấn đề: khó giải thích, dễ học shortcut, phụ thuộc dữ liệu lớn và có thể tối ưu dự đoán đúng/sai mà không thật sự hiểu trạng thái kiến thức. Lu và cộng sự chỉ ra rằng các mô hình KT sâu thường gặp căng thẳng giữa accuracy và interpretability; nghiên cứu của họ dùng framework attention-based để đưa process data và curriculum information vào KT nhằm cải thiện cả dự đoán lẫn khả năng diễn giải (Lu, Tong, & Cheng, 2024).

Với giáo dục, câu hỏi không phải mô hình nào có AUC cao nhất trên benchmark dữ liệu. Câu hỏi là: dự đoán đó có giúp chọn can thiệp tốt hơn không? Nếu hệ thống dự đoán người học sẽ sai câu tiếp theo nhưng không biết vì sao, giáo viên khó dùng. Nếu hệ thống nói người học yếu “phân số” nhưng không phân biệt yếu khái niệm tỷ lệ, phép biến đổi hay đọc đề, đường can thiệp vẫn mờ.

Knowledge tracing cũng dễ bị lệch nếu bản đồ kỹ năng sai. Một câu hỏi thường đo nhiều kỹ năng cùng lúc. Một người học có thể sai vì thiếu kiến thức, đọc nhầm, lo lắng, dùng thiết bị khó, hoặc chưa quen định dạng. Nếu hệ thống quy mọi sai lầm về “chưa thành thạo kỹ năng”, nó sẽ đưa bài luyện sai nguyên nhân.

Vì vậy, KT nên được xem là giả thuyết có xác suất, không phải sự thật. Một dashboard tốt nên nói: “hệ thống ước lượng người học có khả năng đang thiếu X, dựa trên các bằng chứng Y; cần thêm nhiệm vụ Z để xác nhận”. Đó là sự khác biệt giữa model hữu ích và model độc đoán.

Adaptive Pathways

Adaptive pathways là phần người dùng thường nhìn thấy: hệ thống chọn bài tiếp theo, nhịp độ, mức khó, ví dụ, gợi ý, ôn lại hay chuyển chủ đề. Nhưng cá nhân hóa lộ trình không chỉ là đưa câu dễ khi sai và câu khó khi đúng. Nếu làm như vậy, hệ thống chỉ phản ứng bề mặt.

Một lộ trình thích nghi tốt cần trả lời nhiều câu hỏi cùng lúc. Người học đang thiếu kiến thức nền, thiếu fluency, thiếu khả năng phân biệt dạng hay thiếu động lực? Họ cần worked example, bài luyện tương tự, bài xen kẽ, câu hỏi truy hồi, giải thích khác, video ngắn, peer discussion hay nhiệm vụ áp dụng? Họ nên được tự chọn hay hệ thống nên dẫn chặt hơn? Mức hỗ trợ nào cần giảm dần?

Trong toán, adaptive pathway có thể bắt đầu bằng chẩn đoán prerequisite, đưa worked example cho người mới, chuyển sang bài tập có gợi ý, rồi trộn dạng để kiểm tra transfer. Trong ngoại ngữ, hệ thống có thể kết hợp spaced repetition, roleplay, sửa lỗi phát âm, nhiệm vụ nói theo tình huống và phản hồi về register. Trong lập trình, pathway có thể đi từ đọc code, điền chỗ trống, sửa bug, viết hàm nhỏ, rồi thiết kế chương trình mở hơn.

Điểm dễ sai là tối ưu “đúng ngay”. Nếu thuật toán luôn chọn bài vừa đủ để người học đúng nhiều, người học có thể cảm thấy tiến bộ nhưng ít gặp desirable difficulties. Nếu thuật toán luôn tối ưu engagement, nó có thể chọn nội dung dễ chịu hơn nội dung cần thiết. Nếu thuật toán giữ người học trong đường riêng quá lâu, nó có thể cô lập họ khỏi thảo luận chung của lớp.

Adaptive pathway tốt phải cân bằng ba thứ: hiệu quả trước mắt, học bền và agency. Nó nên giúp người học đi tiếp, nhưng cũng phải dạy họ hiểu vì sao bước tiếp theo hợp lý. Nó nên thích nghi, nhưng không biến người học thành người làm theo lệnh của hệ thống. Nó nên cho giáo viên thấy logic lựa chọn để giáo viên có thể can thiệp.

Conversational Agents

Conversational agents làm tutoring AI trở nên gần gũi nhất. Người học có thể hỏi “vì sao em sai?”, “giải thích lại dễ hơn”, “cho ví dụ khác”, “đóng vai khách hàng”, “hỏi em từng bước”, “đừng nói đáp án vội”. Đây là năng lực mà giao diện bài tập truyền thống khó làm.

Guan và cộng sự tổng quan cách educational chatbots hỗ trợ self-regulated learning, cho thấy chatbot có thể hỗ trợ đặt mục tiêu, lập kế hoạch, giám sát, phản tư và điều chỉnh chiến lược; nhưng lĩnh vực này vẫn cần thiết kế lý thuyết rõ hơn và bằng chứng mạnh hơn về tác động dài hạn (Guan et al., 2024). Điều này khớp với Chương 4: chatbot tốt không chỉ trả lời câu hỏi, mà phải giúp người học tự quản lý việc học.

Duolingo Max là một ví dụ ứng dụng hội thoại trong học ngoại ngữ. Duolingo giới thiệu các tính năng như Explain My Answer và Roleplay, trong đó người học có thể nhận giải thích theo ngữ cảnh và luyện hội thoại trong tình huống như quán cà phê hoặc sân bay (Duolingo, 2023/2026). Điểm mạnh ở đây là tạo cơ hội luyện tương tác mà trước kia cần người thật. Nhưng điểm cần benchmark là liệu người học có tăng fluency, accuracy, retention và transfer sang hội thoại thật hay chỉ tăng thời gian tương tác trong app.

Conversational agents có nhiều vai trò. Là tutor, nó hỏi gợi mở và hướng dẫn. Là peer, nó tranh luận hoặc đồng sáng tạo. Là tutee, nó để người học dạy lại và sửa lỗi nó. Là coach, nó nhắc kế hoạch và phản tư. Một hệ thống tốt nên nói rõ vai trò đang dùng. Nếu lúc thì nó làm tutor, lúc lại làm người viết hộ, người học dễ không biết phần nào là học, phần nào là hỗ trợ sản xuất.

Rủi ro lớn nhất của conversational agents là khả năng tạo cảm giác hiểu. Người học có thể nhận giải thích mượt, gật đầu, rồi không làm được bài khi mất hỗ trợ. Bastani và cộng sự thực hiện một thí nghiệm thực địa với gần 1.000 học sinh trung học trong lớp toán, so sánh GPT Base và GPT Tutor có guardrails. Họ thấy truy cập GPT-4 cải thiện hiệu suất khi làm bài có hỗ trợ, nhưng khi hỗ trợ bị lấy đi, nhóm GPT Base làm kém hơn nhóm không có hỗ trợ; hiệu ứng xấu giảm đáng kể với GPT Tutor có guardrails (Bastani et al., 2025). Bài học rất sắc: AI tutor không có guardrails có thể tăng performance mà làm giảm learning.

Vì vậy, hội thoại tốt phải có ma sát sư phạm. Nó nên yêu cầu người học thử trước, dự đoán, giải thích bước, chọn chiến lược, tự đánh giá và sửa. Nó nên từ chối làm hộ khi nhiệm vụ cần người học luyện kỹ năng nền. Nó nên biết khi nào trả lời trực tiếp, khi nào hỏi ngược, khi nào đưa gợi ý nhỏ, khi nào khuyên hỏi giáo viên.

Hint Generation và Scaffolding

Scaffolding là hỗ trợ tạm thời giúp người học làm được việc họ chưa tự làm được. Trong tutoring AI, scaffolding thường xuất hiện dưới dạng gợi ý từng bước, câu hỏi gợi mở, ví dụ tương tự, nhắc kiến thức nền, chỉ ra lỗi, chia nhỏ nhiệm vụ hoặc đưa phản hồi chiến lược.

Một gợi ý tốt nằm giữa hai thất bại. Quá mơ hồ, người học vẫn mắc kẹt. Quá rõ, nó thành lời giải. Gợi ý tốt giúp người học làm bước tiếp theo mà vẫn phải tư duy. Ví dụ, thay vì nói “đáp án là dùng định lý Pythagoras”, hệ thống có thể hỏi “tam giác nào trong hình có cạnh chưa biết, và em biết quan hệ nào giữa ba cạnh?”. Thay vì sửa câu văn ngay, hệ thống có thể hỏi “luận điểm chính của đoạn này nằm ở đâu?”.

Hint generation bằng AI có thể cá nhân hóa mức gợi ý, nhưng cũng dễ over-help. Một hệ thống nên dùng hint ladder: gợi ý khái niệm, gợi ý chiến lược, gợi ý bước, rồi mới gần đáp án. Nó nên theo dõi số gợi ý đã dùng, thời điểm dùng và kết quả sau gợi ý. Nếu người học luôn cần gợi ý cuối cùng mới đúng, mastery chưa thật.

Scaffold cũng phải rút dần. Đây là chỗ nhiều công cụ AI thất bại vì “giúp” là tính năng dễ bán. Một chatbot luôn sẵn sàng giải thích có thể làm người học ít luyện truy hồi. Một copilot lập trình luôn gợi code có thể làm người mới ít học cấu trúc vấn đề. Một AI viết luôn đề xuất câu hoàn chỉnh có thể làm người học ít luyện diễn đạt.

Thiết kế tốt có thể dùng fading: ban đầu gợi ý nhiều, sau giảm dần; ban đầu cho worked example, sau chuyển sang completion problem, rồi tự giải; ban đầu hỏi từng bước, sau yêu cầu người học lập kế hoạch; ban đầu phản hồi ngay, sau yêu cầu tự kiểm trước. Mục tiêu không phải người học dùng AI mãi, mà là người học dùng ít hỗ trợ hơn cho cùng loại nhiệm vụ.

Tiêu chí benchmark / Cách đánh giá

Với Tutoring & Scaffolding AI, benchmark phải đo học sau hỗ trợ, không chỉ performance trong lúc được hỗ trợ.

Một: learning gain so với baseline. Hệ thống tốt hơn giáo viên bình thường, bài luyện không AI, video, sách bài tập, hay chatbot chung ở đâu? Baseline phải rõ.

Hai: delayed retention và transfer. Người học còn làm được sau vài ngày/tuần không? Họ có giải được biến thể mới khi không có AI không?

Ba: help-seeking quality. Người học dùng gợi ý như cách học hay cách lấy đáp án? Hệ thống có phân biệt được productive struggle và mắc kẹt vô ích không?

Bốn: scaffold fading. Mức hỗ trợ có giảm dần khi người học tiến bộ không? Hay người học dùng cùng lượng gợi ý mãi?

Năm: accuracy và epistemic humility. AI có nói đúng không, có biết từ chối khi không chắc không, có khuyên kiểm chứng hoặc hỏi giáo viên khi cần không?

Sáu: alignment với mục tiêu học. Hệ thống có giữ người học trong hoạt động nhận thức cần thiết không, hay làm thay nhiệm vụ chính?

Bảy: equity và accessibility. Hệ thống hoạt động thế nào với người học khác ngôn ngữ, nền tảng, thiết bị, khuyết tật hoặc mức đọc hiểu?

Tám: teacher observability. Giáo viên có thấy người học hỏi gì, dùng gợi ý nào, mắc ở đâu, và cần can thiệp gì không?

Chín: workload thật. AI tutor có giảm tải tổng thể cho giáo viên, hay tạo thêm việc giám sát hội thoại, sửa lỗi và xử lý phụ thuộc?

Phân tích phản biện

Rủi ro đầu tiên là phụ thuộc. Nếu AI giúp quá nhanh, người học có thể dừng trước khi hình thành kỹ năng. Đây không phải lo ngại trừu tượng; nghiên cứu của Bastani và cộng sự cho thấy công cụ không guardrails có thể cải thiện hiệu suất luyện tập nhưng làm giảm kết quả khi học sinh phải làm một mình (Bastani et al., 2025).

Rủi ro thứ hai là hallucination sư phạm. AI không chỉ có thể sai kiến thức; nó có thể sai cách dạy. Nó có thể đưa ví dụ không phù hợp, bỏ qua misconception, giải thích quá mức, dùng thuật ngữ quá khó, hoặc khuyến khích chiến lược giải không bền. Một lời giải đúng vẫn có thể là scaffold sai nếu nó đến quá sớm.

Rủi ro thứ ba là mất agency. Nếu hệ thống luôn chọn bài, nhắc học, đặt mục tiêu, giải thích lỗi và quyết định bước tiếp theo, người học có thể hoàn thành lộ trình mà không học cách tự học. Đây là điểm nối với Chương 4: self-regulated learning cần được hỗ trợ, không bị thuê ngoài.

Rủi ro thứ tư là bỏ qua người dạy. AI tutor thường được quảng bá như “mỗi người một gia sư”, nhưng trong trường học thật, giáo viên vẫn là người hiểu lớp, quan hệ, động lực, văn hóa và mục tiêu dài hạn. Một tutoring AI tốt phải làm giáo viên thấy rõ hơn, can thiệp tốt hơn, không biến giáo viên thành người đứng ngoài dashboard.

Rủi ro thứ năm là đo sai thành công. Nếu chỉ đo số bài hoàn thành, thời gian tương tác, số lượt hỏi hoặc điểm trong lúc có hỗ trợ, hệ thống sẽ trông tốt. Nhưng nếu người học không làm được khi mất AI, tutoring đã thất bại ở mục tiêu sâu.

Nguyên tắc thiết kế

Một: bắt đầu từ mô hình học tập, không từ chatbot. Cần domain model, student model và pedagogical model đủ rõ trước khi mở giao diện hội thoại.

Hai: giữ người học làm chủ nỗ lực nhận thức. AI nên hỏi, gợi, chia nhỏ, phản hồi; không nên lấy mất bước tư duy chính.

Ba: dùng guardrails sư phạm. Hệ thống cần quy tắc khi nào được giải thích trực tiếp, khi nào chỉ gợi ý, khi nào từ chối làm hộ, khi nào yêu cầu người học thử trước.

Bốn: thiết kế hint ladder và fading. Gợi ý nên tăng dần theo nhu cầu và giảm dần theo tiến bộ. Không có fading, scaffold thành nạng lâu dài.

Năm: hiển thị lý do thích nghi. Người học và giáo viên nên biết vì sao hệ thống chọn bài này, gợi ý này, mức khó này.

Sáu: nối tutor với assessment và curriculum. AI tutor mạnh hơn khi biết mục tiêu học, chuẩn đầu ra, bài tập, lỗi sai và dữ liệu tiến bộ, thay vì chỉ trò chuyện rời rạc.

Bảy: để giáo viên trong vòng quyết định. Giáo viên cần quyền xem, chỉnh, giới hạn, can thiệp và phủ quyết lộ trình hoặc phản hồi AI.

Tám: đo độc lập sau hỗ trợ. Mọi tuyên bố hiệu quả của AI tutor phải có kiểm tra khi người học không còn được AI giúp.

Tổng kết chương

Tutoring & Scaffolding AI là vùng gần nhất với lời hứa “cá nhân hóa học tập”. ITS, knowledge tracing, adaptive pathways, conversational agents và hint generation đều có thể giúp hệ thống hỗ trợ người học đúng lúc hơn. Nhưng một gia sư AI tốt không được định nghĩa bằng khả năng trả lời nhiều câu hỏi. Nó được định nghĩa bằng khả năng làm người học tự làm tốt hơn.

Điểm then chốt của chương là guardrails. AI tutor cần biết giữ lại nỗ lực học tập, giảm dần hỗ trợ, tránh làm hộ, minh bạch với giáo viên và được benchmark bằng retention/transfer sau khi hỗ trợ biến mất. Nếu không, tutoring AI chỉ làm người học hoàn thành bài nhanh hơn trong khi kỹ năng thật không lớn lên tương ứng.

Chương tiếp theo sẽ chuyển sang Analytics & Predictive AI. Nếu tutoring AI can thiệp vào từng người học, analytics nhìn ở cấp rộng hơn: lớp học, nhóm rủi ro, hành vi, cảm xúc, dự báo và quyết định can thiệp. Câu hỏi sẽ là: dữ liệu học tập giúp thấy gì, và khi nào nó chỉ tạo thêm giám sát?

Tài liệu tham khảo

Bastani, H., Bastani, O., Sungu, A., Ge, H., Kabakcı, O., & Mariman, R. (2025). Generative AI without guardrails can harm learning: Evidence from high school mathematics. Proceedings of the National Academy of Sciences, 122(26), e2422633122. https://doi.org/10.1073/pnas.2422633122
Duolingo. (2023/2026). Duolingo Max uses OpenAI's GPT-4 for new learning features. https://blog.duolingo.com/duolingo-max/
Guan, R., Raković, M., Chen, G., & Gašević, D. (2024). How educational chatbots support self-regulated learning? A systematic review of the literature. Education and Information Technologies. https://doi.org/10.1007/s10639-024-12881-y
Khan Academy. (2026). Meet Khanmigo: Khan Academy's AI-powered teaching assistant & tutor. https://www.khanacademy.org/khan-labs
Lu, Y., Tong, L., & Cheng, Y. (2024). Advanced knowledge tracing: Incorporating process data and curricula information via an attention-based framework for accuracy and interpretability. Journal of Educational Data Mining. https://doi.org/10.5281/zenodo.13712553
Son, T. (2024). Intelligent tutoring systems in mathematics education: A systematic literature review using the substitution, augmentation, modification, redefinition model. Computers, 13(10), 270. https://doi.org/10.3390/computers13100270
Šarić-Grgić, I., Grubišić, A., & Gašpar, A. (2024). Twenty-five years of Bayesian knowledge tracing: A systematic review. User Modeling and User-Adapted Interaction, 34, 1127-1173. https://doi.org/10.1007/s11257-023-09389-4

Chương 8: Analytics & Predictive AI

Bối cảnh / Vấn đề

Chương 7 nhìn vào AI như một gia sư can thiệp vào từng người học. Chương 8 mở rộng góc nhìn: dữ liệu học tập có thể giúp giáo viên, tổ chức và hệ thống thấy điều gì đang xảy ra ở cấp lớp, khóa học, chương trình và toàn trường. Đây là vùng của learning analytics, educational data mining, predictive analytics, affective computing và multimodal analytics.

Lời hứa nghe rất hợp lý: nếu người học để lại dấu vết số, ta có thể phát hiện ai đang chậm lại, ai có nguy cơ bỏ học, chủ đề nào gây lỗi nhiều, nhóm nào ít tương tác, hoạt động nào không hiệu quả, giáo viên nào cần hỗ trợ, và can thiệp nào có tác dụng. Một dashboard tốt có thể giúp giáo viên thấy lớp học rõ hơn. Một mô hình dự báo tốt có thể giúp tổ chức can thiệp trước khi người học biến mất khỏi hệ thống.

Nhưng analytics cũng là vùng dễ tạo ảo tưởng nhất. Dữ liệu nhiều không đồng nghĩa với hiểu biết sâu. Click nhiều không đồng nghĩa với học tốt. Ít đăng nhập không đồng nghĩa với lười. Gương mặt im lặng không đồng nghĩa với mất chú ý. Một cảnh báo “nguy cơ cao” không tự trở thành can thiệp. Một dashboard đẹp có thể làm giáo viên thêm việc nếu nó không trả lời câu hỏi “tôi nên làm gì tiếp?”.

Vì vậy, chương này đặt một nguyên tắc: analytics giáo dục chỉ có giá trị khi nó biến dữ liệu thành quyết định sư phạm có thể hành động, được kiểm định, được giải thích và được triển khai công bằng. Nếu không, nó chỉ là giám sát được trang trí bằng biểu đồ.

Learning Analytics

Learning analytics thường được định nghĩa là việc đo lường, thu thập, phân tích và báo cáo dữ liệu về người học và bối cảnh học tập để hiểu và tối ưu hóa học tập. Trong thực tế, nó xuất hiện qua dashboard giáo viên, báo cáo tiến độ, cảnh báo rủi ro, phân tích tương tác, đề xuất can thiệp, bản đồ kỹ năng, phân tích lỗi, hoặc báo cáo cho quản lý.

Một dashboard tốt không phải là nơi gom mọi con số. Nó là một giao diện quyết định. Giáo viên mở dashboard không phải để ngắm dữ liệu; họ cần biết: ai cần tôi chú ý, vì sao, bằng chứng nào, mức chắc chắn ra sao, tôi có thể làm gì, và sau can thiệp có gì thay đổi?

Paulsen và Lindsay tổng quan các nghiên cứu về learning analytics dashboards và nhận xét rằng dashboard đang dần chuyển từ “analytics” thuần túy sang hỗ trợ “learning” nhiều hơn, tức không chỉ hiển thị dữ liệu mà còn cố gắng gắn với hoạt động học, self-regulated learning và hành động của người dùng (Paulsen & Lindsay, 2024). Đây là hướng đúng. Dashboard không nên là báo cáo vận hành đội lốt sư phạm.

Khor và Mutthulakshmi tổng quan 40 nghiên cứu về learning analytics cho personalized learning. Họ cho thấy learning analytics có thể hỗ trợ cá nhân hóa ở cấp cá nhân, nhóm và cấu trúc bằng cách thu thập phản hồi về tiến bộ, kỹ năng, sở thích, cảm xúc; phân nhóm người học; xây feedback loops; dự báo performance; và cung cấp visualization thời gian thực. Nhưng các thách thức nổi bật là độ chính xác của insight, chi phí cơ hội, fairness và privacy (Khor & Mutthulakshmi, 2024).

Điểm “chi phí cơ hội” rất đáng chú ý. Khi giáo viên phải nhìn thêm dashboard, học sinh phải dùng thêm nền tảng, tổ chức phải chuẩn hóa thêm dữ liệu, ta đang lấy thời gian khỏi hoạt động khác. Một dashboard chỉ đáng tồn tại nếu nó giúp quyết định tốt hơn phần thời gian nó lấy đi.

Trong một lớp học thật, learning analytics nên trả lời các câu hỏi cụ thể. Ví dụ: lỗi nào xuất hiện ở nhiều học sinh sau bài kiểm tra? Nhóm nào làm bài nhanh nhưng sai ở câu chuyển giao? Ai làm đúng khi có gợi ý nhưng sai khi tự làm? Hoạt động nào có nhiều người bỏ giữa chừng? Học sinh nào tiến bộ so với chính mình dù vẫn dưới trung bình lớp? Những câu hỏi này khác với “ai đăng nhập nhiều nhất?”.

Educational Data Mining

Educational Data Mining (EDM) và Learning Analytics (LA) gần nhau nhưng không hoàn toàn giống nhau. EDM thường nghiêng về phát hiện mẫu, xây mô hình, dự báo và phân tích dữ liệu lớn bằng thuật toán. LA thường nhấn mạnh việc đưa insight về cho người học, giáo viên và tổ chức để cải thiện học tập. Trong thực tế, hai vùng này giao nhau ngày càng nhiều.

Caeiro-Rodríguez và cộng sự tổng quan sự khác biệt giữa EDM và LA, chỉ ra các khác biệt lịch sử và đề xuất hướng tới educational data science như một khung tích hợp rộng hơn (Caeiro-Rodríguez et al., 2024). Với người làm EdTech, điểm quan trọng không phải tranh tên gọi, mà là phân biệt hai câu hỏi: mô hình tìm thấy mẫu gì, và mẫu đó giúp ai ra quyết định gì?

EDM có thể tìm nhiều loại mẫu: cụm người học, chuỗi hành động, skill mastery, hành vi bỏ học, chiến lược giải bài, kiểu sai lầm, tương tác xã hội, hoặc đường đi qua nội dung. Ví dụ, hệ thống có thể phát hiện ba nhóm trong một khóa học: người học đều nhưng chậm, người học bùng nổ trước deadline, và người học đăng ký nhưng biến mất sau tuần đầu. Mỗi nhóm cần can thiệp khác nhau.

EDM cũng có thể phát hiện những điều con người khó thấy bằng mắt thường. Một chuỗi click có vẻ bình thường nhưng luôn xảy ra trước khi người học bỏ bài. Một nhóm câu hỏi có cùng nhãn kỹ năng nhưng thực ra đo hai dạng tư duy khác nhau. Một bài giảng có lượt xem cao nhưng không cải thiện kết quả bài tập. Một diễn đàn có nhiều bài viết nhưng ít trao đổi có chiều sâu.

Nhưng EDM dễ rơi vào bẫy correlation. Người học xem video nhiều có điểm thấp có thể vì video kém, vì họ yếu nên xem lại nhiều, hoặc vì họ chăm hơn nhưng nền quá thiếu. Người học ít tương tác online có thể đang học offline, làm việc nhóm bên ngoài nền tảng, hoặc thiếu thiết bị. Mẫu dữ liệu cần được đọc cùng bối cảnh sư phạm.

Vì vậy, EDM tốt nên sinh giả thuyết, không tự kết án. Nó nên nói: “mẫu này đáng chú ý, cần kiểm tra thêm”, thay vì “người học này lười” hoặc “bài này thất bại”. Khi đi vào trường học, ngôn ngữ của mô hình phải đủ khiêm tốn để con người còn phán đoán.

Predictive Analytics

Predictive analytics dự báo các kết quả như bỏ học, trượt môn, giảm động lực, thiếu chuyên cần, điểm thấp, hoặc không hoàn thành khóa học. Đây là ứng dụng hấp dẫn vì can thiệp sớm luôn nghe tốt hơn sửa muộn. Nếu hệ thống biết ai có nguy cơ bỏ học từ tuần thứ ba, giáo viên hoặc cố vấn có thể liên hệ trước khi quá trễ.

Trong online higher education, dropout là vấn đề lớn. Rahmani, Groot và Rahmani tổng quan dropout trong giáo dục đại học online và cho thấy nguyên nhân thường đa chiều: đặc điểm người học, thiết kế khóa học, hỗ trợ tổ chức, yếu tố xã hội, điều kiện cá nhân và động lực (Rahmani, Groot, & Rahmani, 2024). Vì vậy, mô hình dự báo bỏ học không nên chỉ nhìn dữ liệu nền tảng. Nó cần được hiểu như một phần của hệ thống hỗ trợ người học.

Một cảnh báo rủi ro chỉ có giá trị nếu có can thiệp kèm theo. Nếu dashboard báo “nguy cơ cao” nhưng giáo viên không biết làm gì, cố vấn không có thời gian gọi, tổ chức không có chính sách hỗ trợ, hoặc người học không muốn bị gắn nhãn, mô hình chỉ tạo thêm lo lắng. Predictive analytics không phải sản phẩm độc lập; nó là một phần của workflow can thiệp.

Một hệ thống dự báo tốt cần phân biệt nhiều loại rủi ro. Người học có nguy cơ vì thiếu kiến thức nền cần hỗ trợ học thuật. Người học có nguy cơ vì lịch làm việc cần linh hoạt tiến độ. Người học có nguy cơ vì mất động lực cần kết nối mục tiêu và cộng đồng. Người học có nguy cơ vì khó khăn tài chính cần hỗ trợ ngoài học tập. Một nhãn “at-risk” chung quá nghèo để hành động.

Predictive analytics cũng cần tránh self-fulfilling prophecy. Nếu người học bị gắn nhãn nguy cơ, giáo viên có thể vô thức hạ kỳ vọng, hệ thống có thể đưa họ vào lộ trình dễ hơn, hoặc tổ chức có thể ưu tiên nguồn lực theo cách làm họ khó thoát nhãn. Một mô hình dự báo phải mở đường can thiệp, không khóa tương lai.

Affective Computing

Affective computing cố gắng nhận diện và phản hồi với trạng thái cảm xúc như bối rối, chán, thất vọng, lo lắng, tự tin, hứng thú hoặc mất tập trung. Trong học tập, cảm xúc không phải phần trang trí. Bối rối đúng mức có thể đi cùng hiểu sâu; thất vọng kéo dài có thể dẫn đến bỏ cuộc; lo lắng có thể làm người học tránh nhiệm vụ; tự tin giả có thể che lấp hiểu nông.

Các hệ thống affective computing có thể dùng nhiều nguồn dữ liệu: tự báo cáo, văn bản, giọng nói, biểu cảm mặt, posture, clickstream, thời gian phản hồi, eye-tracking, EEG hoặc cảm biến sinh lý. Yuvaraj và cộng sự tổng quan 175 nghiên cứu affective computing trong giáo dục, cho thấy lĩnh vực này tăng nhanh, nhưng phần lớn nghiên cứu vẫn tập trung vào thiết kế hệ thống nhận diện cảm xúc; bảng hỏi tự báo cáo vẫn phổ biến, môi trường nghiên cứu thường là classroom và mẫu lớn nhất là sinh viên đại học (Yuvaraj et al., 2025). Nói cách khác, khả năng nhận diện cảm xúc trong thực tế lớp học phổ thông vẫn cần thận trọng.

Rojas Vistorte và cộng sự cũng tổng quan AI đánh giá cảm xúc trong môi trường học, nhấn mạnh tiềm năng cá nhân hóa dạy học theo cảm xúc nhưng đồng thời cho thấy lĩnh vực này phụ thuộc vào nhiều nguồn dữ liệu nhạy cảm (Rojas Vistorte et al., 2024). Đây là điểm đạo đức cốt lõi: cảm xúc học tập là dữ liệu rất riêng tư. Nhận diện sai cảm xúc có thể làm người học bị hiểu nhầm; nhận diện đúng nhưng dùng sai cũng có thể thành thao túng.

Một vấn đề khác là cảm xúc không có nghĩa cố định. Im lặng có thể là tập trung, sợ nói, hoặc không hiểu. Nhíu mày có thể là bối rối có ích. Ít cười không có nghĩa thiếu engagement. Nếu hệ thống gán nhãn cảm xúc từ tín hiệu yếu và đưa can thiệp tự động, nó có thể làm phiền đúng lúc người học đang suy nghĩ sâu.

Vì vậy, affective computing trong giáo dục nên được dùng để hỗ trợ con người chú ý hơn, không phải thay thế phán đoán quan hệ. Một cảnh báo “có thể đang thất vọng kéo dài” nên dẫn đến giáo viên quan sát, hỏi han hoặc điều chỉnh nhiệm vụ, không nên tự động hạ độ khó hay gửi lời động viên máy móc.

Multimodal Analytics

Multimodal learning analytics (MMLA) dùng nhiều loại dữ liệu cùng lúc: văn bản, clickstream, audio, video, eye-tracking, handwriting, dữ liệu cảm biến, tương tác nhóm, sản phẩm học tập và dữ liệu bối cảnh. Lý do rất rõ: học tập là quá trình đa chiều, còn log LMS chỉ là một lát cắt mỏng.

Mu, Cui và Huang tổng quan 346 bài về data fusion trong MMLA và chỉ ra rằng dữ liệu một chiều thường bỏ qua nhiều thông tin bối cảnh quan trọng; MMLA hứa hẹn hiểu quá trình học đầy đủ hơn, nhưng việc tích hợp dữ liệu vẫn phức tạp (Mu, Cui, & Huang, 2020). Các tổng quan mới hơn về AI trong MMLA tiếp tục nhấn mạnh nhu cầu mô hình có thể diễn giải, triển khai được và đạo đức hơn, thay vì chỉ tăng độ chính xác kỹ thuật (Mohammadi et al., 2024).

Ví dụ, trong một lớp học làm thí nghiệm, chỉ nhìn điểm quiz không đủ. Hệ thống có thể xem nhóm nào phân công vai trò, ai thao tác thiết bị, ai ghi chép, ai đặt giả thuyết, thời điểm nào nhóm bế tắc, và liệu bế tắc đó dẫn đến thảo luận sâu hay tan rã. Trong học lập trình, dữ liệu code, lịch sử chạy test, pause time, câu hỏi chatbot và lời giải thích cuối có thể cho thấy chiến lược học. Trong học nói ngoại ngữ, audio, transcript, sửa lỗi, lượt thử lại và phản hồi người nghe mới tạo được tranh đầy đủ.

Nhưng càng nhiều modality, rủi ro càng lớn. Video, audio, eye-tracking và cảm biến sinh lý đi gần hơn vào đời sống riêng tư. Việc thu dữ liệu nhiều kênh có thể làm người học cảm thấy bị quan sát toàn diện. Ngoài ra, dữ liệu nhiều kênh không tự tạo insight tốt; nó có thể làm mô hình khó giải thích hơn và làm giáo viên khó biết nên tin vào tín hiệu nào.

MMLA vì vậy cần nguyên tắc tối thiểu hóa có mục đích: chỉ thu modality nào phục vụ một câu hỏi sư phạm rõ, có consent, có chính sách lưu trữ, có quyền rút lui, có giải thích, và có lợi ích tương xứng cho người học.

Fairness trong Learning Analytics

Fairness không phải phụ lục đạo đức của analytics; nó là điều kiện để analytics đáng dùng. Mô hình dự báo trong giáo dục có thể tái tạo bất bình đẳng rất nhanh. Nếu dữ liệu quá khứ phản ánh trường tốt hơn, thiết bị tốt hơn, phụ huynh hỗ trợ hơn, ngôn ngữ quen hơn, mô hình có thể biến lợi thế xã hội thành “năng lực dự báo”.

Idowu tổng quan các nghiên cứu về debiasing education algorithms, bao gồm dropout prediction, performance prediction, forum post classification và recommender systems; bài tổng quan cho thấy fairness trong thuật toán giáo dục cần được xử lý cả bằng phương pháp kỹ thuật lẫn hiểu biết bối cảnh (Idowu, 2024). Không thể chỉ nói “mô hình không dùng biến giới tính/chủng tộc” là công bằng. Bias có thể đi qua proxy như trường học, thiết bị, thời gian online, ngôn ngữ, mã vùng, hoặc kiểu tương tác.

Một ví dụ đơn giản: nếu hệ thống xem “đăng nhập buổi tối” là dấu hiệu chăm học, nó có thể hiểu sai người học phải làm việc ban ngày. Nếu xem “ít phát biểu trong diễn đàn” là ít engagement, nó có thể phạt người học đến từ văn hóa ít tranh luận công khai hoặc người học khuyết tật ngôn ngữ. Nếu xem “hoàn thành chậm” là yếu, nó có thể bỏ qua người học dùng thiết bị cũ hoặc mạng không ổn định.

Fairness trong analytics cần ít nhất bốn lớp. Lớp dữ liệu: ai có mặt, ai vắng mặt, dữ liệu nào thiếu, thiếu vì sao. Lớp mô hình: sai số phân bố ra sao giữa các nhóm. Lớp can thiệp: ai nhận hỗ trợ, hỗ trợ có ích không, có kỳ thị không. Lớp kết quả: khoảng cách học tập có giảm không hay chỉ được mô hình hóa tinh vi hơn.

Một hệ thống công bằng không chỉ dự báo đúng trung bình. Nó phải tránh làm nhóm yếu thế bị nhìn như “rủi ro” cố định, và phải giúp tổ chức nhìn thấy rào cản môi trường chứ không chỉ lỗi cá nhân.

Tiêu chí benchmark / Cách đánh giá

Analytics & Predictive AI phải được benchmark bằng tác động quyết định, không chỉ bằng độ chính xác mô hình.

Một: decision relevance. Insight này phục vụ quyết định nào? Ai dùng nó? Nếu không có người chịu trách nhiệm hành động, insight chưa có giá trị.

Hai: baseline. Mô hình có tốt hơn cách giáo viên/cố vấn đang phát hiện vấn đề không? Có tốt hơn quy tắc đơn giản như “vắng hai buổi liên tiếp” không?

Ba: actionability. Dashboard có chỉ ra bước tiếp theo không? Cảnh báo có gợi can thiệp phù hợp với nguyên nhân không?

Bốn: outcome impact. Sau khi dùng analytics, retention, transfer, completion, wellbeing hoặc workload giáo viên có cải thiện không?

Năm: false positives và false negatives. Ai bị báo nhầm là nguy cơ? Ai thật sự cần hỗ trợ nhưng bị bỏ sót? Chi phí của mỗi loại lỗi là gì?

Sáu: fairness by subgroup. Sai số, cảnh báo và can thiệp có khác nhau theo giới, ngôn ngữ, vùng, thiết bị, disability, socioeconomic status hoặc mức nền không?

Bảy: interpretability. Giáo viên và người học có hiểu vì sao mô hình đưa ra cảnh báo không? Có thể phản biện hoặc sửa dữ liệu sai không?

Tám: privacy và proportionality. Dữ liệu thu có tương xứng với lợi ích học tập không? Có thu quá mức chỉ vì kỹ thuật làm được không?

Chín: intervention fidelity. Cảnh báo có thật sự dẫn đến can thiệp như thiết kế không? Nếu giáo viên quá tải, mô hình tốt cũng không tạo tác động.

Phân tích phản biện

Rủi ro đầu tiên là dashboard theater: giao diện nhiều biểu đồ khiến tổ chức cảm thấy mình đang quản lý học tập tốt hơn, dù quyết định không thay đổi. Nếu không có workflow can thiệp, dashboard chỉ là báo cáo đẹp.

Rủi ro thứ hai là surveillance creep. Một hệ thống bắt đầu bằng dữ liệu bài tập có thể dần thêm camera, audio, cảm xúc, vị trí, thiết bị, thời gian online và dữ liệu ngoài lớp học. Mỗi bước có vẻ hợp lý, nhưng tổng thể có thể biến học tập thành môi trường bị quan sát liên tục.

Rủi ro thứ ba là deficit labeling. Analytics thường giỏi phát hiện thiếu hụt: ai yếu, ai chậm, ai nguy cơ. Nếu không có asset-based lens, hệ thống sẽ làm nghèo cách nhìn về người học. Một người học “ít online” cũng có thể rất giỏi tự học offline. Một người học “chậm” có thể đang làm việc sâu.

Rủi ro thứ tư là automation bias ở cấp tổ chức. Khi mô hình dự báo rủi ro, con người dễ xem đó là sự thật. Nhưng mô hình chỉ nhìn quá khứ qua dữ liệu có sẵn. Giáo dục cần quyền phản biện mô hình, nhất là khi quyết định ảnh hưởng đến cơ hội của người học.

Rủi ro thứ năm là tối ưu nhầm. Nếu tổ chức tối ưu completion, hệ thống có thể hạ độ khó. Nếu tối ưu engagement, hệ thống có thể tăng thông báo và hoạt động bề mặt. Nếu tối ưu điểm ngắn hạn, hệ thống có thể bỏ qua transfer và học sâu.

Nguyên tắc thiết kế

Một: bắt đầu từ quyết định sư phạm. Đừng hỏi “dữ liệu nào có thể thu?”. Hãy hỏi “quyết định nào cần tốt hơn?”.

Hai: thiết kế dashboard như công cụ hành động. Mỗi chỉ số nên trả lời: vì sao quan trọng, ai dùng, làm gì tiếp, kiểm tra tác động ra sao.

Ba: coi dự báo là giả thuyết. Cảnh báo rủi ro phải đi kèm mức chắc chắn, bằng chứng, giới hạn và quyền phản biện.

Bốn: gắn mô hình với can thiệp thật. Không triển khai predictive analytics nếu tổ chức chưa có người, thời gian và quy trình hỗ trợ.

Năm: tối thiểu hóa dữ liệu nhạy cảm. Affective và multimodal analytics chỉ nên dùng khi lợi ích học tập rõ, consent rõ và rủi ro được kiểm soát.

Sáu: kiểm toán fairness định kỳ. Không chỉ kiểm lúc ra mắt. Dữ liệu, người học và hành vi thay đổi theo thời gian.

Bảy: giữ giáo viên và người học trong vòng giải thích. Analytics phải làm cuộc trò chuyện giáo dục tốt hơn, không thay thế nó bằng nhãn mô hình.

Tám: đo tác động sau can thiệp. Thành công không phải dự báo đúng, mà là can thiệp giúp người học tốt hơn mà không gây hại.

Tổng kết chương

Analytics & Predictive AI giúp EdTech nhìn rộng hơn từng bài học. Nó có thể hỗ trợ cá nhân hóa, phát hiện mẫu hành vi, cảnh báo rủi ro, hiểu cảm xúc, phân tích dữ liệu đa kênh và kiểm tra công bằng. Nhưng dữ liệu không tự nói. Nó cần được diễn giải bằng lý thuyết học tập, bối cảnh sư phạm và trách nhiệm con người.

Thông điệp chính của chương là: analytics chỉ đáng dùng khi nó dẫn đến hành động tốt hơn. Một mô hình dự báo không có can thiệp là một chiếc chuông báo động không có đội cứu hộ. Một dashboard không có workflow là tranh treo tường. Một hệ thống multimodal không có đạo đức dữ liệu là giám sát.

Chương tiếp theo sẽ chuyển sang Accessibility, Multimodal & Immersive AI. Nếu Chương 8 nói về dữ liệu để nhìn thấy học tập, Chương 9 sẽ hỏi: công nghệ có thể mở rộng quyền tiếp cận, hỗ trợ khác biệt và tạo môi trường thực hành mới như thế nào mà không biến hòa nhập thành khẩu hiệu?

Tài liệu tham khảo

Caeiro-Rodríguez, M., Manso-Vázquez, M., & Llamas-Nistal, M. (2024). Reviewing the differences between learning analytics and educational data mining: Towards educational data science. Computers in Human Behavior, 154, 108155. https://doi.org/10.1016/j.chb.2024.108155
Idowu, J. A. (2024). Debiasing education algorithms. International Journal of Artificial Intelligence in Education, 34, 1510-1540. https://doi.org/10.1007/s40593-023-00389-4
Khor, E. T., & Mutthulakshmi, K. (2024). A systematic review of the role of learning analytics in supporting personalized learning. Education Sciences, 14(1), 51. https://doi.org/10.3390/educsci14010051
Mohammadi, M., Tajik, E., Martinez-Maldonado, R., Sadiq, S., Tomaszewski, W., & Khosravi, H. (2024). Artificial intelligence in multimodal learning analytics: A systematic literature review. https://doi.org/10.13140/RG.2.2.16241.29281
Mu, S., Cui, M., & Huang, X. (2020). Multimodal data fusion in learning analytics: A systematic review. Sensors, 20(23), 6856. https://doi.org/10.3390/s20236856
Paulsen, L., & Lindsay, E. (2024). Learning analytics dashboards are increasingly becoming about learning and not just analytics: A systematic review. Education and Information Technologies, 29, 14279-14308. https://doi.org/10.1007/s10639-023-12401-4
Rahmani, A. M., Groot, W., & Rahmani, H. (2024). Dropout in online higher education: A systematic literature review. International Journal of Educational Technology in Higher Education, 21, 19. https://doi.org/10.1186/s41239-024-00450-9
Rojas Vistorte, A. O., Deroncele-Acosta, A., Martín Ayala, J. L., Barrasa, A., López-Granero, C., & Martí-González, M. (2024). Integrating artificial intelligence to assess emotions in learning environments: A systematic literature review. Frontiers in Psychology, 15, 1387089. https://doi.org/10.3389/fpsyg.2024.1387089
Yuvaraj, R., Mittal, R., Prince, A. A., & Huang, J. S. (2025). Affective computing for learning in education: A systematic review and bibliometric analysis. Education Sciences, 15(1), 65. https://doi.org/10.3390/educsci15010065

Chương 9: Accessibility, Multimodal & Immersive AI

Bối cảnh / Vấn đề

Chương 8 bàn về dữ liệu giúp ta nhìn thấy học tập. Chương 9 chuyển sang một câu hỏi khác: ai được bước vào trải nghiệm học tập đó, bằng cách nào, với chi phí nhận thức và xã hội ra sao? Một hệ thống EdTech có thể có nội dung hay, đánh giá tốt, tutoring thông minh và analytics mạnh. Nhưng nếu người học không tiếp cận được giao diện, không nghe được video, không đọc được văn bản, không diễn đạt được theo định dạng bắt buộc, hoặc bị quá tải bởi môi trường học, hệ thống vẫn thất bại ở điểm đầu tiên: quyền tham gia.

Accessibility thường bị hiểu hẹp như một danh sách kỹ thuật: có caption, có alt text, có text-to-speech, có màu tương phản. Những thứ đó rất quan trọng. Nhưng trong giáo dục, accessibility rộng hơn. Nó là câu hỏi liệu người học có thể tiếp nhận thông tin, tương tác, biểu đạt hiểu biết, quản lý chú ý, tham gia xã hội và tiến bộ mà không bị rào cản không cần thiết chặn lại hay không.

AI làm chủ đề này vừa nhiều hy vọng vừa nhiều rủi ro. Hy vọng vì AI có thể chuyển đổi ngôn ngữ, tạo caption, đọc văn bản, mô tả hình ảnh, đơn giản hóa tài liệu, cá nhân hóa giao diện, hỗ trợ viết, hỗ trợ nói, dịch tức thời và tạo môi trường luyện tập an toàn. Rủi ro vì AI có thể nhận diện sai, gắn nhãn sai, thu dữ liệu nhạy cảm, chuẩn hóa người học theo “trung bình”, hoặc biến hỗ trợ thành giám sát.

Chương này không xem accessibility như một phụ lục đạo đức. Nó xem accessibility là một tiêu chuẩn chất lượng cốt lõi của EdTech. Công nghệ giáo dục tốt không chỉ giúp người đã thuận lợi học nhanh hơn. Nó phải giảm rào cản cho người học có khác biệt về giác quan, vận động, ngôn ngữ, nhận thức, chú ý, cảm xúc, bối cảnh thiết bị và điều kiện xã hội.

Assistive AI

Assistive AI là nhóm công cụ dùng AI để hỗ trợ người học tiếp nhận, tương tác hoặc biểu đạt. Nó bao gồm speech-to-text, text-to-speech, caption tự động, dịch thuật, mô tả hình ảnh, OCR, đọc văn bản, tóm tắt, chuyển đổi định dạng, nhận diện giọng nói, điều khiển bằng giọng nói, giao diện thích nghi, và các công cụ hỗ trợ viết/nói.

Ở tầng cơ bản, các công cụ này giúp biến thông tin từ một kênh sang kênh khác. Một video có caption giúp người học khiếm thính, người học trong môi trường ồn, người học ngôn ngữ thứ hai và cả người muốn xem lại thuật ngữ. Text-to-speech giúp người khiếm thị, người khó đọc, người mệt mắt hoặc người muốn nghe khi di chuyển. Speech-to-text giúp người khó gõ, người cần ghi chú nhanh, hoặc lớp học cần transcript để ôn tập.

Các nguyên tắc accessibility web như WCAG 2.2 nhấn mạnh những yêu cầu nền: thông tin phải perceivable, operable, understandable và robust; nội dung phi văn bản cần text alternatives, media cần caption/audio description khi phù hợp, giao diện cần điều hướng được và có tên gọi rõ cho công nghệ hỗ trợ (W3C, 2023). Với EdTech, đây không phải phần thêm sau cùng. Nếu một bài học dùng biểu đồ mà không có mô tả, dùng video không caption, hoặc đặt bài tập trong giao diện không dùng được bằng bàn phím, thì bài học đó đã loại một số người học khỏi trải nghiệm.

AI có thể giảm chi phí tạo hỗ trợ accessibility. Thay vì giáo viên tự viết transcript, hệ thống có thể tạo bản nháp. Thay vì người thiết kế tự mô tả từng hình, AI có thể đề xuất alt text. Thay vì một tài liệu chỉ có bản PDF khó đọc, AI có thể trích xuất và tái cấu trúc thành văn bản có tiêu đề, mục, glossary và bản đọc dễ hơn.

Nhưng assistive AI phải được kiểm định. Caption tự động có thể sai thuật ngữ chuyên môn. Text-to-speech có thể đọc sai ký hiệu toán học. Mô tả hình ảnh có thể bỏ qua chi tiết quan trọng. Tóm tắt có thể làm mất điều kiện ngoại lệ. Dịch tự động có thể làm sai giọng hoặc sai khái niệm. Nếu người học dựa vào phiên bản hỗ trợ mà phiên bản đó sai, accessibility trở thành một đường vào kém chất lượng.

Bercaru và Popescu tổng quan các kỹ thuật accessibility cho nền tảng online, bao gồm sign language recognition, speech-to-text, text-to-speech và voice recognition, đồng thời chỉ ra nhiều thách thức kỹ thuật và triển khai còn tồn tại (Bercaru & Popescu, 2024). Điều này nhắc ta rằng assistive AI không phải nút bật/tắt. Nó là một hệ thống chất lượng cần kiểm thử với người dùng thật, trong ngữ cảnh thật.

Neurodiversity-Aware Design

Neurodiversity-aware design bắt đầu từ một thay đổi quan trọng: khác biệt thần kinh không phải lỗi cần sửa. Người học ADHD, autistic, dyslexic, dyspraxic, dyscalculic hoặc có các khác biệt xử lý thông tin khác có thể gặp rào cản mạnh trong môi trường học tiêu chuẩn, nhưng rào cản đó thường đến từ thiết kế cứng nhắc: quá nhiều chữ, quá nhiều bước, quá nhiều nhiễu, thời hạn thiếu linh hoạt, giao diện gây quá tải, hoặc cách đánh giá chỉ cho một kiểu biểu đạt.

Với dyslexia, AI có thể hỗ trợ đọc bằng text-to-speech, font/spacing linh hoạt, highlight theo dòng, giải nghĩa từ, chuyển đổi tài liệu và phát hiện khó khăn đọc. Với ADHD, hệ thống có thể hỗ trợ chia nhỏ nhiệm vụ, nhắc nhở có kiểm soát, giảm nhiễu giao diện, tạo checklist và giúp người học lập kế hoạch. Với autistic learners, công nghệ có thể hỗ trợ dự đoán cấu trúc hoạt động, luyện tình huống xã hội, điều chỉnh sensory load và tạo môi trường thực hành ít đe dọa hơn.

Nhưng hỗ trợ neurodiversity dễ trượt thành phân loại người học. Một hệ thống hỏi vài câu rồi gắn nhãn “ADHD mode”, “dyslexia mode” hoặc “autism mode” có thể làm đơn giản hóa quá mức. Người học cùng chẩn đoán vẫn rất khác nhau. Một người dyslexic có thể cần hỗ trợ đọc nhưng viết rất tốt. Một người autistic có thể cần môi trường ít nhiễu nhưng không muốn bị hệ thống “luyện kỹ năng xã hội” theo chuẩn hẹp. Một người ADHD có thể cần tự chủ nhiều hơn chứ không cần thêm thông báo.

McDowall và Kiseleva, trong rapid review về hỗ trợ neurodivergent students ở higher education, nhấn mạnh nhu cầu hỗ trợ đa dạng, linh hoạt và có tính hệ thống thay vì chỉ can thiệp cá nhân rời rạc (McDowall & Kiseleva, 2024). Một systematic review về neurodiversity và cognitive load trong online learning cũng chỉ ra rằng cognitive, instructional và social factors đều ảnh hưởng đến tải nhận thức, trong khi bằng chứng về can thiệp vẫn còn phân mảnh (Martin et al., 2024).

Điểm thiết kế quan trọng là cho người học quyền tùy chỉnh có ý nghĩa. Người học nên có thể điều chỉnh tốc độ, lượng chữ, độ tương phản, âm thanh, nhắc nhở, cách chia nhiệm vụ, cách nhận phản hồi và cách biểu đạt. Nhưng tùy chỉnh không nên biến thành một bảng cài đặt phức tạp. Hệ thống tốt có thể đề xuất cấu hình, giải thích tác dụng, cho thử, cho đổi lại, và không buộc người học công khai nhãn của mình.

Neurodiversity-aware design cũng cần tránh “deficit dashboard”. Nếu hệ thống chỉ hiển thị người học thiếu chú ý, đọc chậm, phản hồi muộn, viết sai hoặc cần hỗ trợ, nó đang nhìn người học qua thiếu hụt. Một thiết kế tốt cũng phát hiện điểm mạnh: khả năng nhận mẫu, tư duy hình ảnh, trí nhớ chủ đề, sự tập trung sâu vào sở thích, năng lực sáng tạo, hoặc cách giải quyết vấn đề khác thường.

Universal Design for Learning

Universal Design for Learning (UDL) đưa accessibility từ mức sửa từng rào cản sang mức thiết kế môi trường học ngay từ đầu. CAST mô tả UDL như một khung để tối ưu dạy và học cho mọi người dựa trên hiểu biết khoa học về cách con người học; UDL nhấn mạnh ba nhóm lựa chọn: engagement, representation, và action & expression (CAST, 2024).

Nói đơn giản, UDL hỏi ba câu. Người học có nhiều cách tham gia và duy trì động lực không? Họ có nhiều cách tiếp nhận và xây hiểu biết không? Họ có nhiều cách hành động và biểu đạt năng lực không? Một bài học chỉ có video dài, một bài tập chỉ có một định dạng nộp, một khóa học chỉ thưởng người nhanh và nói nhiều, đều có rào cản ẩn.

AI có thể hỗ trợ UDL bằng cách tạo nhiều biểu diễn của cùng một nội dung: văn bản, audio, sơ đồ, ví dụ, glossary, câu hỏi truy hồi, bản đọc đơn giản hơn, bản nâng cao hơn, tình huống địa phương hóa. AI cũng có thể hỗ trợ nhiều cách biểu đạt: nói thay vì viết, phác thảo rồi diễn giải, portfolio, bản nháp nhiều vòng, video thuyết trình, hoặc đối thoại phản biện. Với engagement, AI có thể giúp kết nối nội dung với mục tiêu cá nhân, tạo lựa chọn vừa đủ, và nhắc phản tư.

Tuy nhiên, UDL không phải là thêm vô hạn lựa chọn. Nhiều lựa chọn quá có thể làm người học quá tải. UDL cũng không phải hạ chuẩn. Mục tiêu học vẫn phải rõ và có ý nghĩa. Nếu mục tiêu là lập luận bằng chứng, người học có thể biểu đạt bằng nói hoặc viết, nhưng vẫn phải có claim, evidence và reasoning. Nếu mục tiêu là tính toán fluency, không thể thay hoàn toàn bằng bài thuyết trình.

Zhang và cộng sự tổng quan các nghiên cứu UDL trong preK-12 và chỉ ra cả giá trị lẫn thách thức: UDL được dùng rộng như khung inclusive instruction, nhưng vẫn có vấn đề về độ rõ khái niệm, alignment lý thuyết, chất lượng triển khai và bằng chứng hiệu quả (Zhang et al., 2024). Vì vậy, khi đưa AI vào UDL, cần tránh biến UDL thành khẩu hiệu “có nhiều lựa chọn”. Câu hỏi đúng là: lựa chọn này giảm rào cản nào, cho ai, trong nhiệm vụ nào, và có giữ mục tiêu học không?

Simulation, AR/VR và AI Characters

Simulation, AR/VR và AI characters mở ra một kiểu hỗ trợ khác: không chỉ làm nội dung dễ tiếp cận hơn, mà tạo môi trường thực hành mới. Công nghệ immersive mạnh nhất khi tình huống thật hiếm, nguy hiểm, đắt đỏ, khó tổ chức, hoặc cần thực hành nhiều lần với phản hồi.

Trong y khoa, người học có thể luyện quy trình lâm sàng, nhận diện tình huống khẩn cấp hoặc giao tiếp với bệnh nhân ảo. Trong kỹ thuật, họ có thể thao tác máy móc, kiểm tra quy trình an toàn, khám phá cấu trúc không nhìn thấy được. Trong đào tạo giáo viên, họ có thể luyện xử lý tình huống lớp học. Trong ngoại ngữ, AI characters có thể tạo đối thoại nhập vai với nhiều giọng, mức khó và bối cảnh.

Chalkiadakis và cộng sự tổng quan tác động của AI và VR với educational inclusion cho students with disabilities, ghi nhận AI có thể hỗ trợ cá nhân hóa và VR tạo môi trường đa giác quan, nhưng cũng chỉ ra chi phí cao, rào cản kỹ thuật, thiếu sẵn sàng của giáo viên, privacy và bias là các thách thức lớn (Chalkiadakis et al., 2024). Sakr và Abdullah tổng quan VR/AR và learning analytics, cho thấy các công nghệ này có tiềm năng tạo trải nghiệm học mới, nhưng việc triển khai cần đánh giá tác động với cả người học và người dạy (Sakr & Abdullah, 2024).

Với skill training, VR có lợi thế rõ khi cần luyện thủ tục. Một systematic review về immersive procedural training trong VR cho thấy các nghiên cứu có giao thức và outcome rất đa dạng, số nghiên cứu between-subject còn ít, nhưng meta-analysis gợi ý hiệu ứng tổng thể tích cực, đặc biệt với knowledge transfer outcomes (Taveira-Gomes et al., 2024). Điều này phù hợp với nguyên tắc của Chương 3: immersive không có giá trị vì “chìm đắm”, mà vì nó có thể tạo thực hành, phản hồi và chuyển giao gần với nhiệm vụ thật.

AI characters có thể làm simulation linh hoạt hơn. Thay vì một kịch bản cố định, nhân vật AI có thể phản ứng với lời nói của người học, thay đổi cảm xúc, đưa thông tin thiếu, phản biện, hoặc đóng nhiều vai. Nhưng nhân vật AI cũng có rủi ro: phản ứng không nhất quán, nội dung không phù hợp tuổi, thiên kiến văn hóa, hoặc tạo quan hệ giả làm người học tin quá mức.

Vì vậy, simulation tốt cần bốn yếu tố: mục tiêu học rõ, fidelity phù hợp, feedback có thể hành động, và debrief. Fidelity phù hợp nghĩa là không phải càng giống thật càng tốt. Với người mới, mô phỏng quá thật có thể gây quá tải. Đôi khi mô phỏng đơn giản nhưng làm nổi bật quyết định chính lại tốt hơn môi trường 3D phức tạp.

Khi Nhập Vai Trở Thành Trang Trí

Immersive technology rất dễ bị dùng như lớp sơn trải nghiệm. Một bài học bình thường được đặt vào VR, một đoạn hội thoại tuyến tính được gọi là roleplay, một nhân vật hoạt hình đọc nội dung, một phòng lab ảo chỉ để người học bấm theo hướng dẫn. Những thứ này có thể hấp dẫn ban đầu, nhưng không tự tạo transfer.

Lawson và cộng sự tổng quan các nghiên cứu so sánh immersive VR trong STEM và đặt câu hỏi liệu các nghiên cứu media comparison có kiểm soát đủ biến gây nhiễu hay không (Lawson et al., 2024). Đây là cảnh báo quan trọng: nếu nhóm VR học nhiều thời gian hơn, có hướng dẫn khác, nội dung khác, giáo viên chú ý hơn, hoặc novelty cao hơn, ta không thể kết luận “VR hiệu quả hơn” chỉ vì công nghệ.

Một hoạt động nhập vai chỉ đáng dùng khi nó tạo được điều mà cách đơn giản hơn khó tạo: cảm nhận không gian, thao tác, tình huống rủi ro, áp lực ra quyết định, tương tác xã hội, hoặc quan sát hệ quả. Nếu mục tiêu chỉ là nhớ định nghĩa, VR thường là quá mức. Nếu mục tiêu là luyện quy trình an toàn trong môi trường nguy hiểm, VR có thể hợp lý.

Debrief là điểm thường bị bỏ qua. Sau mô phỏng, người học cần phân tích: chuyện gì đã xảy ra, em quyết định gì, dữ kiện nào em bỏ sót, phản ứng của nhân vật có ý nghĩa gì, nếu làm lại sẽ khác ra sao, và kiến thức này chuyển sang tình huống thật thế nào. Không có debrief, simulation dễ thành trải nghiệm mạnh nhưng học nông.

AI characters cũng cần debrief và ranh giới. Người học cần biết nhân vật là mô phỏng, không phải chuyên gia thật; phản hồi cần được kiểm soát; dữ liệu hội thoại cần được bảo vệ; và giáo viên cần thấy hoạt động này đang phục vụ mục tiêu nào. Nhập vai có thể mở ra thực hành sâu, nhưng cũng có thể làm mờ ranh giới giữa học tập, giải trí và thuyết phục.

Tiêu chí benchmark / Cách đánh giá

Accessibility, Multimodal & Immersive AI phải được benchmark bằng quyền tiếp cận, chất lượng học tập và rủi ro, không chỉ bằng độ mới của trải nghiệm.

Một: access gain. Công cụ giúp nhóm người học nào tiếp cận được điều trước đây bị chặn? Đo bằng completion, participation, usability, error rate, thời gian hoàn thành và cảm nhận tự chủ.

Hai: equivalence of learning. Phiên bản accessibility có giữ chất lượng học tập tương đương không, hay chỉ là bản rút gọn nghèo hơn?

Ba: learner control. Người học có quyền tùy chỉnh hỗ trợ, tắt hỗ trợ, đổi định dạng và không công khai nhãn của mình không?

Bốn: cognitive load. Hỗ trợ có giảm tải ngoại lai không, hay thêm cài đặt, thông báo, hiệu ứng và lựa chọn làm người học quá tải?

Năm: accuracy of assistive output. Caption, transcript, alt text, dịch thuật, đọc công thức, mô tả hình ảnh và phản hồi AI có được kiểm định không?

Sáu: inclusive impact by subgroup. Tác động có được kiểm theo disability, neurodivergence, ngôn ngữ, thiết bị, bối cảnh kinh tế và tuổi không?

Bảy: transfer. Với VR/AR/simulation, người học có dùng được kỹ năng trong tình huống ngoài mô phỏng không?

Tám: debrief quality. Hoạt động immersive có bước phản tư, phân tích quyết định và nối với mục tiêu học không?

Chín: privacy and dignity. Hệ thống có thu dữ liệu nhạy cảm như giọng nói, khuôn mặt, eye-tracking, disability status hay hành vi sensory không? Người học có consent và quyền kiểm soát không?

Phân tích phản biện

Rủi ro đầu tiên là accessibility theater: nền tảng có vài tính năng hỗ trợ nhưng quy trình học vẫn loại trừ người học. Có caption nhưng không có mô tả biểu đồ. Có text-to-speech nhưng tài liệu PDF sai cấu trúc. Có tùy chỉnh màu nhưng bài kiểm tra vẫn chỉ cho một định dạng biểu đạt.

Rủi ro thứ hai là techno-solutionism. Không phải mọi rào cản hòa nhập đều cần AI. Đôi khi giải pháp là deadline linh hoạt, tài liệu rõ hơn, lớp ít nhiễu hơn, rubric minh bạch hơn, hoặc giáo viên được đào tạo tốt hơn. AI có thể hỗ trợ, nhưng không thay thế thiết kế tổ chức.

Rủi ro thứ ba là ép chuẩn hóa. Một hệ thống tuyên bố “phát hiện dyslexia”, “phát hiện ADHD”, “đo cảm xúc”, “điều chỉnh theo autism” có thể làm người học bị nhìn qua nhãn. Hòa nhập không phải dự đoán ai lệch chuẩn để kéo họ về chuẩn; hòa nhập là thiết kế môi trường có nhiều đường hợp lệ để đạt mục tiêu.

Rủi ro thứ tư là unequal access. VR headset, thiết bị mạnh, internet tốt, cảm biến và phần mềm AI có chi phí. Nếu chỉ trường giàu có immersive lab, công nghệ hòa nhập có thể mở rộng khoảng cách thay vì thu hẹp.

Rủi ro thứ năm là data intimacy. Accessibility và neurodiversity supports thường xử lý dữ liệu rất riêng: giọng nói, lỗi đọc, tốc độ xử lý, disability status, biểu cảm, chuyển động, thói quen chú ý. Những dữ liệu này cần bảo vệ nghiêm hơn dữ liệu click thông thường.

Nguyên tắc thiết kế

Một: accessibility by default. Thiết kế để tiếp cận ngay từ đầu, không chờ người học yêu cầu hỗ trợ rồi mới sửa.

Hai: nhiều đường vào, cùng chuẩn đầu ra. Cho nhiều cách tiếp nhận và biểu đạt, nhưng giữ mục tiêu học rõ và có ý nghĩa.

Ba: hỗ trợ tùy chỉnh, không gắn nhãn cứng. Người học nên chọn cấu hình hỗ trợ theo nhu cầu, không bị nhốt vào nhãn chẩn đoán.

Bốn: kiểm thử với người dùng thật. Accessibility không thể chỉ kiểm bằng checklist kỹ thuật. Cần người học có nhu cầu đa dạng thử trong nhiệm vụ thật.

Năm: ưu tiên giảm tải ngoại lai. Giao diện, media, thông báo, VR và AI characters phải giảm rào cản, không thêm nhiễu.

Sáu: dùng immersive khi nhiệm vụ cần embodied practice. Nếu mục tiêu học đạt được tốt bằng văn bản, hình ảnh hoặc video, không cần VR. Dùng VR khi không gian, thao tác, rủi ro hoặc nhập vai thật sự quan trọng.

Bảy: luôn có debrief. Simulation không kết thúc khi người học tháo headset hoặc đóng vai xong. Nó kết thúc khi người học hiểu quyết định của mình.

Tám: bảo vệ phẩm giá dữ liệu. Dữ liệu disability, neurodivergence, giọng nói, khuôn mặt và cảm biến phải được thu ít nhất có thể, giải thích rõ và kiểm soát chặt.

Tổng kết chương

Accessibility, Multimodal & Immersive AI mở rộng câu hỏi của EdTech: không chỉ học gì và đo thế nào, mà ai có thể tham gia, trong điều kiện nào, với mức tự chủ và phẩm giá ra sao. Assistive AI có thể chuyển đổi nội dung và giao diện. Neurodiversity-aware design giúp tránh coi khác biệt học tập là lỗi cá nhân. UDL đưa hòa nhập vào thiết kế từ đầu. Simulation, AR/VR và AI characters tạo môi trường thực hành mới khi nhiệm vụ cần nhập vai, thao tác hoặc tình huống khó tổ chức.

Nhưng công nghệ không tự tạo hòa nhập. Caption sai, dashboard deficit, VR đắt đỏ, AI character thiếu kiểm soát, hoặc nhãn neurodiversity cứng nhắc đều có thể làm rào cản tinh vi hơn. Benchmark của chương này là access gain, equivalence of learning, learner control, cognitive load, transfer, debrief và dignity.

Chương tiếp theo sẽ đi vào Social, Collaborative & Community AI. Nếu Chương 9 hỏi làm sao để từng người học có thể bước vào trải nghiệm học, Chương 10 sẽ hỏi: khi họ đã bước vào, công nghệ có thể hỗ trợ học cùng người khác như thế nào mà không làm nghèo quan hệ xã hội?

Tài liệu tham khảo

Bercaru, V., & Popescu, N. (2024). A systematic review of accessibility techniques for online platforms: Current trends and challenges. Applied Sciences, 14(22), 10337. https://doi.org/10.3390/app142210337
CAST. (2024). Universal Design for Learning Guidelines 3.0. https://udlguidelines.cast.org/
Chalkiadakis, A., Seremetaki, A., Kanellou, A., Kallishi, M., Morfopoulou, A., Moraitaki, M., & Mastrokoukou, S. (2024). Impact of artificial intelligence and virtual reality on educational inclusion: A systematic review of technologies supporting students with disabilities. Education Sciences, 14(11), 1223. https://doi.org/10.3390/educsci14111223
Lawson, A. P., Marchand Martella, A., LaBonte, K., Delgado, C. Y., Zhao, F., Gluck, J. A., Munns, M. E., & LeRoy, A. W. (2024). Confounded or controlled? A systematic review of media comparison studies involving immersive virtual reality for STEM education. Educational Psychology Review, 36, 69. https://doi.org/10.1007/s10648-024-09908-8
Martin, F., Sun, T., Westine, C. D., & Ritzhaupt, A. D. (2024). Neurodiversity and cognitive load in online learning: A systematic review with narrative synthesis. Educational Research Review, 43, 100604. https://doi.org/10.1016/j.edurev.2024.100604
McDowall, A., & Kiseleva, M. (2024). A rapid review of supports for neurodivergent students in higher education: Implications for research and practice. Autism & Developmental Language Impairments. https://doi.org/10.1177/27546330241291769
Sakr, A., & Abdullah, T. (2024). Virtual, augmented reality and learning analytics impact on learners, and educators: A systematic review. Education and Information Technologies, 29, 19913-19962. https://doi.org/10.1007/s10639-024-12602-5
Taveira-Gomes, T., et al. (2024). Immersive procedural training in virtual reality: A systematic literature review. Computers & Education, 221, 105124. https://doi.org/10.1016/j.compedu.2024.105124
W3C. (2023). Web Content Accessibility Guidelines (WCAG) 2.2. https://www.w3.org/TR/WCAG22/
Zhang, L., Carter, R. A., Greene, J. A., & Bernacki, M. L. (2024). Unraveling challenges with the implementation of Universal Design for Learning: A systematic literature review. Educational Psychology Review, 36, 35. https://doi.org/10.1007/s10648-024-09860-7

Chương 10: Social, Collaborative & Community AI

Bối cảnh / Vấn đề

Chín chương đầu đã đi qua cá nhân người học: trí nhớ, động lực, đánh giá, dữ liệu, tutoring, accessibility và trải nghiệm immersive. Nhưng học tập hiếm khi là một hành động hoàn toàn đơn độc. Người học hiểu một khái niệm qua tranh luận với bạn học, sửa bài cho nhau, bắt chước cách người khác đặt câu hỏi, tham gia một cộng đồng thực hành, hoặc tìm thấy bản sắc học tập trong một nhóm cùng sở thích. Nếu EdTech chỉ tối ưu hóa đường đi của từng cá nhân, nó bỏ qua một nửa môi trường nơi tri thức được hình thành: quan hệ xã hội.

AI trong giáo dục thường được mô tả như một gia sư cá nhân. Cách nhìn đó hữu ích nhưng chưa đủ. Trong lớp học thật, nhiều vấn đề không nằm ở việc một người học thiếu lời giải, mà ở việc nhóm không phối hợp được: có người im lặng, có người chiếm diễn đàn, có người làm hết, có người đi nhờ, nhóm né xung đột, phản hồi ngang hàng hời hợt, hoặc cộng đồng trở thành nơi người mới không dám tham gia. Những vấn đề đó không thể giải bằng một chatbot trả lời đúng.

Social, Collaborative & Community AI là nhóm công nghệ dùng AI để hỗ trợ học tập giữa người với người. Nó có thể gợi vai trò nhóm, phát hiện mất cân bằng tham gia, nhắc người học đưa bằng chứng, hỗ trợ chấm chéo, tóm tắt tranh luận, phát hiện người học bị cô lập, kết nối người cùng quan tâm, điều phối cộng đồng, hoặc cảnh báo rủi ro xã hội. Nhưng nó cũng có thể làm cộng tác nghèo đi nếu được dùng sai: nhóm nói ít hơn vì AI đã tóm tắt hộ, người học dựa vào AI thay vì hỏi nhau, dữ liệu quan hệ bị dùng để xếp hạng, hoặc thuật toán vô tình củng cố nhóm thân quen và loại trừ người yếu thế.

Nền tảng lý thuyết

Học cộng tác không đơn giản là đặt nhiều người vào cùng một phòng hay cùng một diễn đàn. Computer-Supported Collaborative Learning (CSCL) nghiên cứu cách công nghệ hỗ trợ người học cùng xây dựng tri thức, điều phối hoạt động, phản hồi cho nhau và tự điều chỉnh theo nhóm. Một nhóm học tốt cần nhiều tầng: mục tiêu chung, phụ thuộc tích cực, vai trò rõ, tiêu chuẩn chất lượng, không gian trao đổi, cơ chế phản hồi, và sự hiện diện của giáo viên hoặc người điều phối khi nhóm lệch hướng.

Một khái niệm trung tâm trong CSCL là group awareness: người học nhìn thấy thông tin có ích về hoạt động, hiểu biết, cảm xúc hoặc đóng góp của các thành viên khác. Chen và cộng sự thực hiện meta-analysis ba tầng trên 46 nghiên cứu và thấy group awareness support trong CSCL có hiệu ứng vừa phải nhưng có ý nghĩa với kết quả học tập, với Hedges' g = 0,46; tác động mạnh nhất nằm ở phát triển nhận thức, sau đó là tham gia hành vi và cảm xúc xã hội (Chen et al., 2024). Kết quả này quan trọng vì nó cho thấy “nhìn thấy nhóm” có thể giúp nhóm học tốt hơn, nhưng hiệu quả phụ thuộc vào loại hỗ trợ và quy mô nhóm.

Community of Inquiry (CoI) cũng hữu ích cho chương này. CoI xem trải nghiệm học trực tuyến có ba loại presence: cognitive presence, social presence và teaching presence. Một nghiên cứu định tính năm 2024 về tutorials cộng tác cho thấy phần lớn sinh viên và tutor vẫn ưu tiên gặp trực tiếp vì tương tác trực tiếp được cảm nhận là giúp thảo luận sâu hơn, tạo kết nối xã hội và bảo vệ wellbeing; online có lợi về tiện dụng nhưng dễ làm giảm tín hiệu phi ngôn ngữ và tăng tải ngoại lai (Chim et al., 2024). Social presence không tự xuất hiện từ công cụ. Nó cần được thiết kế.

Khi đưa AI vào cộng tác, một cảnh báo lớn đến từ nghiên cứu human-AI collaboration nói chung. Vaccaro, Almaatouq và Malone tổng hợp 106 nghiên cứu thực nghiệm, 370 effect sizes, và thấy trung bình tổ hợp người-AI có thể kém hơn phương án tốt nhất giữa người hoặc AI riêng lẻ; lợi ích khác nhau theo loại nhiệm vụ, rõ hơn ở tạo nội dung và kém hơn ở ra quyết định (Vaccaro et al., 2024). Trong giáo dục, điều này có nghĩa AI không tự làm nhóm thông minh hơn. Nó phải được đặt đúng vai: hỗ trợ nhóm nhìn, nghĩ, nói và phản tư tốt hơn, thay vì thay nhóm quyết định.

CSCL và điều phối nhóm

AI có thể hỗ trợ điều phối nhóm ở ba tầng: trước hoạt động, trong hoạt động và sau hoạt động.

Trước hoạt động, AI có thể giúp lập nhóm, phân vai, dự đoán rủi ro phối hợp và chuẩn bị scaffold. Hệ thống có thể gợi nhóm gồm các năng lực bổ sung, tránh dồn người mới vào cùng một nhóm, hoặc đề xuất vai trò luân phiên như facilitator, evidence checker, skeptic, summarizer và connector. Nhưng lập nhóm bằng thuật toán không nên xem là tối ưu hóa thuần kỹ thuật. Wang, Yang và Li tổng quan 34 nghiên cứu về intelligent grouping, cho thấy phạm vi ứng dụng vẫn hẹp, đặc điểm người học được dùng để lập nhóm còn hạn chế, và việc đáp ứng nhu cầu của tất cả người học vẫn khó (Wang et al., 2024).

Trong hoạt động, AI có thể quan sát tín hiệu cộng tác: ai nói nhiều, ai chưa phản hồi, nhóm đang hỏi câu hỏi hay chỉ trao đổi xã giao, lập luận có bằng chứng không, có vòng lặp “đồng ý nhanh” không, có người bị bỏ qua không. Một dashboard tốt không chỉ đếm lượt chat. Nó giúp giáo viên hoặc nhóm thấy điều gì cần can thiệp: “Nhóm này có nhiều câu trả lời nhưng ít câu hỏi”, “thành viên A chưa nhận phản hồi”, “nhóm đang dùng nhiều ý kiến nhưng ít evidence”, hoặc “cuộc thảo luận đang xoay quanh một người”.

Ouyang và Zhang tổng quan các công cụ learning analytics dùng AI trong CSCL và chỉ ra rằng các công cụ hiện có chủ yếu tập trung vào cognitive engagement, dùng dữ liệu discourse, hành vi và đánh giá để tạo thống kê hoặc visualization; tuy nhiên vẫn thiếu nguyên tắc thiết kế rõ, thiếu cảnh báo hoặc gợi ý hành động cho giảng viên, và thiếu hỗ trợ can thiệp sư phạm (Ouyang & Zhang, 2024). Đây là khoảng cách rất thực tế. Một biểu đồ đẹp về nhóm không đủ. Nếu giáo viên không biết phải làm gì với biểu đồ đó, analytics chỉ là trang trí.

Sau hoạt động, AI có thể hỗ trợ reflection bằng cách tóm tắt quyết định chính, điểm chưa thống nhất, bằng chứng đã dùng và câu hỏi cho lần sau. Nhưng reflection phải để nhóm tự đọc và tranh luận, không phải nhận một bản phán quyết. AI có thể nói “có dấu hiệu mất cân bằng tham gia”, nhưng không nên tự động trừ điểm một thành viên im lặng. Im lặng có nhiều nguyên nhân: người học đang đọc, ngại ngôn ngữ, bị nhóm lấn át, gặp vấn đề thiết bị, hoặc đang đóng góp qua tài liệu chung.

Peer learning ở quy mô lớn

Peer learning là một trong những lời hứa bền bỉ nhất của EdTech quy mô lớn. Khi lớp có hàng trăm hoặc hàng nghìn người, giáo viên không thể phản hồi chi tiết cho từng bài. Người học có thể đọc bài của nhau, góp ý, chấm chéo, giải thích, hỏi lại và học qua việc đánh giá sản phẩm của người khác. Nhưng peer learning chỉ hiệu quả khi có cấu trúc. Nếu chỉ yêu cầu “hãy nhận xét bài bạn”, phản hồi thường rơi vào vài câu lịch sự: “bài tốt”, “cần chi tiết hơn”, “mình đồng ý”.

Các hệ thống online peer-review and assessment (OPRA) đã phát triển trong hơn hai thập kỷ. Babik và cộng sự mô tả OPRA như các hệ thống hỗ trợ thu bài, phân phối bài cho người phản hồi, đặt deadline, scaffold phản hồi, tổng hợp điểm và theo dõi quy trình (Babik et al., 2024). Peer review không chỉ là cách giảm tải chấm bài. Nó có thể là hoạt động học sâu, vì người học phải phân tích tiêu chí, so sánh sản phẩm, nhận ra lỗi, diễn đạt góp ý và phản tư về bài của mình.

Gao và cộng sự tổng quan 73 nghiên cứu về online peer feedback trong giáo dục đại học, dùng mô hình MISCA để phân tích content, function, student characteristics, presentation và source. Họ thấy phản hồi nhận thức là loại phổ biến nhất; peer feedback thường được dùng để cải thiện task performance; rubric và training là hai hỗ trợ thường gặp; đặc điểm cá nhân của người học còn ít được nghiên cứu; và rất ít nghiên cứu kết hợp phản hồi từ peers với các nguồn khác (Gao et al., 2024). Điều này gợi ý một cách dùng AI hợp lý: không thay peer feedback, mà nâng chất lượng của nó.

AI có thể hỗ trợ peer learning theo nhiều cách: huấn luyện người học trước khi phản hồi, kiểm tra phản hồi có cụ thể và gắn với rubric không, phân phối bài để mỗi người nhận được nhiều góc nhìn, phát hiện reviewer quá dễ hoặc quá khắt khe, và giúp người nhận tổng hợp các ý kiến mâu thuẫn.

Nhưng peer learning có rủi ro riêng. Nếu AI sửa hết phản hồi trước khi gửi, người học mất cơ hội học cách góp ý. Nếu hệ thống dùng reputation score quá mạnh, người mới có thể bị giảm tiếng nói. Nếu chấm chéo được tính điểm mà không có calibration, người học có thể cho điểm theo cảm tính, trả đũa hoặc thiên vị. Nếu anonymity được dùng không cẩn thận, nó có thể giúp người học nói thật hơn nhưng cũng có thể làm phản hồi thô hơn.

Social Network Analysis

Social network analysis (SNA) nhìn lớp học như một mạng quan hệ: ai tương tác với ai, ai là trung tâm, ai làm cầu nối giữa nhóm, ai bị cô lập, nhóm nào tách thành cụm, dòng thông tin đi theo hướng nào. Trong giáo dục, SNA không nhằm biến quan hệ người học thành một bảng xếp hạng xã hội. Nó là cách phát hiện những điều giáo viên khó thấy trong lớp đông hoặc môi trường online.

Một diễn đàn có thể có nhiều bài viết nhưng vẫn nghèo mạng lưới. Nếu 80% phản hồi chỉ đi từ sinh viên đến giáo viên, peer learning yếu. Nếu một vài người luôn ở trung tâm còn nhiều người không được ai trả lời, cộng đồng đang tạo bất bình đẳng tham gia. Nếu nhóm có nhiều cụm nhỏ không kết nối, ý tưởng khó lan.

Tuy nhiên, số lượng kết nối không đồng nghĩa với học sâu. Một người ít nhắn nhưng đọc kỹ và nộp sản phẩm tốt không nên bị coi là “kém cộng tác”. Một người nhắn nhiều có thể chỉ lặp lại ý người khác. Vì vậy, SNA cần đi cùng phân tích chất lượng diễn ngôn. Ouyang, Wu và Gu dùng multilayer network analysis để phân tích collaborative knowledge construction ở ba tầng: cá nhân, cặp đôi và nhóm. Họ thấy nhóm có engagement nhận thức cao có nhiều chiến lược nhận thức vừa và sâu ở tầng peer và group, đồng thời có mạng lưới đa dạng và kết nối hơn giữa các chiến lược (Ouyang et al., 2024). Kết quả này cho thấy phân tích mạng hữu ích nhất khi nó nối quan hệ xã hội với chiến lược nhận thức, không dừng ở lượt tương tác.

SNA cũng là vùng nhạy cảm về quyền riêng tư. Dữ liệu quan hệ có thể tiết lộ ai bị cô lập, ai thân với ai, ai có ảnh hưởng, ai bị bỏ qua. Nếu dashboard hiển thị công khai quá nhiều, nó có thể làm người học xấu hổ hoặc củng cố vai trò xã hội hiện có. Một nguyên tắc đơn giản: dữ liệu mạng nên phục vụ can thiệp hỗ trợ, không phục vụ gắn nhãn. Người học cần biết dữ liệu nào được thu, dùng để làm gì, ai thấy, giữ bao lâu, và có quyền phản hồi ra sao.

Learning communities

Không phải mọi học tập xã hội đều diễn ra trong lớp chính khóa. Scratch, Minecraft, maker spaces, robotics clubs, diễn đàn lập trình, cộng đồng viết, cộng đồng thiết kế và các mạng học tập theo sở thích cho thấy một kiểu động lực khác: người học tham gia vì muốn làm ra thứ gì đó, muốn được công nhận bởi cộng đồng, muốn remix tác phẩm của người khác, hoặc muốn trở thành “người biết làm” trong một lĩnh vực.

Papert từng đặt nền cho constructionism: người học hiểu sâu khi tạo ra sản phẩm có ý nghĩa với mình và có thể chia sẻ với người khác (Papert, 1980). Scratch tiếp nối tinh thần đó bằng môi trường lập trình nơi trẻ em có thể tạo dự án, xem mã của người khác, remix và nhận phản hồi. Resnick gọi đây là học qua creative learning, nhấn mạnh projects, passion, peers và play (Resnick, 2017). Ở đây, “peers” không chỉ là bạn cùng lớp. Đó là cộng đồng giúp người học thấy mình thuộc về một thực hành.

Maker spaces cũng vận hành theo logic tương tự. Scharon, Phillips và Jones-Davis đề xuất một learning framework cho K-12 invention education, nhấn mạnh invention mindset, agency, collaboration và iterative making trong các môi trường như museum makerspaces (Scharon et al., 2024). Trong các cộng đồng này, giáo viên không chỉ truyền nội dung. Họ thiết kế môi trường, vật liệu, chuẩn mực phản hồi, cơ hội trình bày, và những khoảnh khắc người học được thấy sản phẩm của mình có người dùng thật.

Minecraft trong giáo dục là ví dụ khác. Một case study năm 2024 cho thấy Minecraft có thể hỗ trợ active teaching methods, remote laboratory, immersive learning và game-based learning trong bối cảnh học từ xa (Cigognini et al., 2024). Nhưng giá trị giáo dục không nằm ở Minecraft tự thân. Nó nằm ở nhiệm vụ: xây mô hình lịch sử, mô phỏng hệ sinh thái, thiết kế thành phố bền vững, giải quyết bài toán không gian, hoặc hợp tác theo vai trò.

AI có thể hỗ trợ learning communities bằng cách giảm rào cản tham gia. Nó có thể giúp người mới tìm dự án phù hợp, giải thích quy ước cộng đồng, dịch ngôn ngữ, gợi tài nguyên, tóm tắt thread dài, phát hiện câu hỏi chưa có ai trả lời, đề xuất mentor, hoặc hỗ trợ moderation. Với cộng đồng lớn, AI có thể giúp duy trì trí nhớ tập thể: câu hỏi thường gặp, bài học từ dự án cũ, lỗi phổ biến, mẫu phản hồi tốt.

Nhưng cộng đồng học tập không nên bị tối ưu hóa quá mức theo logic nền tảng. Nếu hệ thống chỉ đẩy dự án nhiều lượt thích, người mới học theo trend thay vì khám phá. Nếu thuật toán gợi bạn học dựa trên người giống mình, cộng đồng mất đa dạng. Nếu AI viết hộ phần giới thiệu, phản hồi và tóm tắt, cộng đồng có nhiều nội dung hơn nhưng ít quan hệ thật hơn.

Rủi ro xã hội

Học cộng tác có nhiều lợi ích, nhưng cũng có mặt tối. Một nhóm có thể tạo cảm giác thuộc về, hoặc tạo cảm giác bị loại. Một cộng đồng có thể giúp người học dám thử, hoặc làm người học sợ bị chê. Một cơ chế uy tín có thể nâng chất lượng phản hồi, hoặc biến lớp học thành cuộc đua địa vị. AI không xóa các rủi ro này. Nó có thể khuếch đại chúng.

Rủi ro đầu tiên là social loafing: một số thành viên đóng góp ít nhưng vẫn hưởng điểm nhóm. AI có thể phát hiện tín hiệu đóng góp không đều, nhưng nếu dùng cơ học quá, nó khuyến khích người học tạo dấu vết giả: nhắn nhiều hơn, chỉnh sửa nhỏ nhiều lần hơn, hoặc để lại bình luận hời hợt. Đo đóng góp phải kết hợp log dữ liệu, đánh giá ngang hàng, sản phẩm thực tế và phản tư cá nhân.

Rủi ro thứ hai là groupthink. Nhóm muốn hòa thuận nên tránh bất đồng, chấp nhận ý tưởng đầu tiên, hoặc nghe theo người có địa vị. AI có thể đóng vai “skeptic” hoặc nhắc nhóm xem xét bằng chứng ngược. Nhưng nếu AI luôn đưa ra “phương án hợp lý”, nó cũng có thể trở thành một nguồn quyền lực mới khiến nhóm ít tranh luận hơn. Cách dùng tốt hơn là yêu cầu AI đặt câu hỏi, không đưa kết luận quá sớm.

Rủi ro thứ ba là bắt nạt, loại trừ và văn hóa im lặng. Trong diễn đàn, nhóm chat hoặc cộng đồng dự án, người học có thể bị chế giễu, bị bỏ qua, bị chấm thấp vì không thuộc nhóm thân quen, hoặc bị ép nhận vai trò ít được công nhận. AI moderation có thể phát hiện ngôn ngữ độc hại, nhưng nhiều hành vi loại trừ không thô bạo: không trả lời câu hỏi, không tag vào tài liệu, không mời vào cuộc họp, hoặc chỉ giao việc phụ. Những tín hiệu này cần kết hợp phân tích mạng, phản hồi ẩn danh và quan sát của giáo viên.

Rủi ro thứ tư là chênh lệch vốn xã hội. Người học có kỹ năng ngôn ngữ tốt, tự tin, có thiết bị tốt, quen văn hóa tranh luận, hoặc có bạn trong lớp thường hưởng lợi hơn từ học cộng tác. Người học mới, người hướng nội, người học ngôn ngữ thứ hai, người khuyết tật, hoặc người không có thời gian online liên tục có thể bị đẩy ra rìa. AI có thể giúp bằng caption, dịch, tóm tắt, phân vai và nhắc turn-taking, nhưng cũng có thể làm lệch nếu nó đánh giá cao phong cách giao tiếp của nhóm đa số.

Rủi ro thứ năm đến từ generative AI trong group work. Wei và Perkins tổng quan các nghiên cứu 2023-2025 về GenAI và group work trong giáo dục đại học. Họ ghi nhận lợi ích như phát triển tri thức nhóm, tạo ý tưởng, hỗ trợ phản tư, tăng hiệu quả giao tiếp, điều phối nhiệm vụ và phản hồi kịp thời; nhưng cũng nêu rủi ro giảm tương tác peer-to-peer, giảm critical engagement khi phụ thuộc quá mức, cùng lo ngại về privacy, transparency và bias (Wei & Perkins, 2026). Đây là điểm then chốt: AI có thể làm nhóm nhanh hơn, nhưng nhanh hơn không nhất thiết là học sâu hơn.

Tiêu chí benchmark / Cách đánh giá

Đánh giá Social, Collaborative & Community AI phải vượt khỏi điểm số cá nhân. Một hệ thống hỗ trợ cộng tác có thể làm điểm trung bình tăng nhẹ nhưng làm nhóm bất công hơn. Benchmark cần đo nhiều tầng.

Nhóm tiêu chí đầu tiên là kết quả học tập cá nhân và nhóm. Người học có hiểu nội dung tốt hơn không? Sản phẩm nhóm có chất lượng cao hơn không? Từng thành viên có thể giải thích phần việc của mình và phần việc chung không? Có transfer sang nhiệm vụ mới không?

Nhóm thứ hai là chất lượng tương tác và công bằng tham gia. Nhóm có đặt câu hỏi, phản biện, dùng bằng chứng, xây tiếp ý tưởng của nhau, sửa hiểu lầm và tổng hợp không? Tỉ lệ đóng góp có quá lệch không? Người ít nói có được phản hồi không? Vai trò có luân phiên không? Hệ thống cần ghi nhận cả những đóng góp ít thấy như ghi chú, tổ chức lịch, kiểm chứng, hòa giải và tổng hợp.

Nhóm thứ ba là sức khỏe mạng quan hệ và chất lượng peer feedback. SNA có thể đo mức cô lập, centralization, density, reciprocity, bridge roles và sự phân mảnh cụm, nhưng phải đọc cùng dữ liệu định tính: cảm giác thuộc về, an toàn tâm lý, mức tin cậy và trải nghiệm bị loại trừ. Peer feedback cần được đo bằng độ cụ thể, mức bám rubric, bằng chứng, gợi ý hành động, giọng tôn trọng và khả năng giúp người nhận sửa bài.

Nhóm thứ tư là vai trò của AI, an toàn và tính bền vững cộng đồng. AI đang giúp nhóm nói với nhau nhiều hơn hay ít hơn? Nó tạo câu hỏi hay đưa đáp án? Nó có giảm bắt nạt, loại trừ, social loafing và groupthink không? Sau khóa học, người học có tiếp tục trao đổi, chia sẻ sản phẩm, giúp người mới, hoặc tham gia dự án mới không?

Phân tích phản biện

Có ba ảo tưởng thường gặp khi nói về AI cho học cộng tác.

Ảo tưởng thứ nhất là “nhiều tương tác hơn nghĩa là học tốt hơn”. Nhiều bài đăng, nhiều lượt chat, nhiều reaction có thể chỉ là nhiễu. Một nhóm tốt không phải nhóm nói nhiều nhất, mà là nhóm biết khi nào cần hỏi, khi nào cần giải thích, khi nào cần bất đồng, khi nào cần tổng hợp và khi nào cần quyết định.

Ảo tưởng thứ hai là “AI có thể điều phối nhóm khách quan”. Không có điều phối xã hội hoàn toàn khách quan. Dữ liệu luôn phản ánh lựa chọn thiết kế: hệ thống ghi nhận gì, bỏ qua gì, xem hành vi nào là có giá trị, xem im lặng là vấn đề hay là chiến lược, xem tranh luận là xung đột hay học sâu. Nếu thiết kế sai, AI làm tăng quyền lực của thước đo sai.

Ảo tưởng thứ ba là “AI teammate sẽ thay thế thiếu hụt cộng đồng”. Một AI character có thể hỏi câu hỏi, đóng vai khách hàng, phản biện ý tưởng hoặc tóm tắt họp nhóm. Nhưng nó không thay được kinh nghiệm học cách lắng nghe người thật, thương lượng bất đồng thật, nhận trách nhiệm trước nhóm thật và xây lòng tin thật. Nếu người học dùng AI để tránh tương tác khó với peers, kỹ năng cộng tác có thể yếu đi.

Vấn đề sâu hơn là EdTech thường thích những gì đo được. Quan hệ xã hội, niềm tin, sự an toàn, bản sắc và cảm giác thuộc về khó đo hơn điểm quiz, nhưng lại quyết định nhiều.

Nguyên tắc thiết kế

Nguyên tắc đầu tiên: thiết kế nhiệm vụ có phụ thuộc thật. Nếu mỗi người làm một phần độc lập rồi ghép lại, AI điều phối cũng không cứu được học cộng tác. Nhiệm vụ tốt buộc người học cần ý tưởng của nhau: cùng giải một vấn đề mở, cùng đánh giá bằng chứng, cùng tạo sản phẩm có tiêu chí chung, hoặc cùng đưa ra quyết định có trade-off.

Nguyên tắc thứ hai: AI nên tạo điều kiện cho đối thoại, không thay đối thoại. Thay vì viết câu trả lời cho nhóm, AI nên đặt câu hỏi: “Bằng chứng nào ủng hộ lựa chọn này?”, “Ai chưa có cơ hội phản hồi?”, “Có giả định nào nhóm chưa kiểm tra?”, “Nếu phản biện phương án này, điểm yếu là gì?” Vai trò cần rõ và luân phiên để người học không bị đóng khung mãi trong một vị trí.

Nguyên tắc thứ ba: dashboard phải dẫn tới hành động, và peer feedback phải được huấn luyện. Mỗi chỉ số nên đi kèm câu hỏi sư phạm và gợi ý can thiệp. Rubric, ví dụ phản hồi, calibration, meta-review và cơ hội sửa bài là phần bắt buộc; AI có thể hỗ trợ từng bước, nhưng người học phải hiểu tiêu chí và chịu trách nhiệm với góp ý của mình.

Nguyên tắc thứ tư: cộng đồng cần governance và bảo vệ dữ liệu quan hệ như dữ liệu nhạy cảm. Quy tắc ứng xử, moderation, quy trình báo cáo, bảo vệ người mới, ghi nhận đóng góp, cách xử lý remix, phân quyền hiển thị và cơ chế khiếu nại phải rõ. Không phải ai cũng cộng tác bằng cách nói nhiều trong chat; hệ thống nên ghi nhận nhiều dạng đóng góp như đặt câu hỏi, tổng hợp, sửa lỗi, đưa tài liệu, kiểm chứng, hỗ trợ cảm xúc, tổ chức tiến độ và phản biện.

Tổng kết chương

AI cho học tập xã hội có tiềm năng lớn, nhưng giá trị của nó không nằm ở việc biến nhóm thành quy trình tự động. Giá trị nằm ở việc giúp nhóm nhìn thấy chính mình, đối thoại tốt hơn, phản hồi sâu hơn, kết nối công bằng hơn và duy trì cộng đồng lành mạnh hơn.

Có năm điểm cần giữ lại. Thứ nhất, học cộng tác cần thiết kế nhiệm vụ, vai trò và chuẩn mực; công cụ không tự tạo cộng tác. Thứ hai, group awareness và learning analytics có bằng chứng hỗ trợ, nhưng chỉ hữu ích khi dẫn tới can thiệp sư phạm. Thứ ba, peer learning ở quy mô lớn cần rubric, training, calibration và cơ chế phản hồi nhiều vòng. Thứ tư, social network analysis giúp phát hiện cô lập và bất bình đẳng, nhưng phải được dùng với quyền riêng tư và diễn giải thận trọng. Thứ năm, learning communities như Scratch, Minecraft và maker spaces cho thấy học tập gắn với bản sắc, sản phẩm và cộng đồng; AI nên hỗ trợ sự tham gia đó, không thay thế quan hệ giữa người học.

Chương tiếp theo chuyển từ cộng đồng học tập sang hạ tầng rộng hơn: LMS, SIS, đánh giá số, dữ liệu liên thông và các hệ sinh thái EdTech. Nếu chương này hỏi “AI thay đổi quan hệ học tập ra sao?”, chương sau hỏi “hạ tầng nào quyết định dữ liệu và trải nghiệm ấy có vận hành được hay không?”.

Tài liệu tham khảo

Babik, D., Gehringer, E., Kidd, J., Sunday, K., Tinapple, D., & Gilbert, S. (2024). A systematic review of educational online peer-review and assessment systems: charting the landscape. Educational Technology Research and Development, 72, 1653-1689. https://doi.org/10.1007/s11423-024-10349-x

Chen, D., Zhang, Y., Luo, H., Zhu, Z., Ma, J., & Lin, Y. (2024). Effects of group awareness support in CSCL on students' learning performance: A three-level meta-analysis. International Journal of Computer-Supported Collaborative Learning, 19, 97-129. https://doi.org/10.1007/s11412-024-09418-3

Chim, H. Q., Dolmans, D. H. J. M., oude Egbrink, M. G. A., & Savelberg, H. H. C. M. (2024). Experiences of face-to-face and online collaborative learning tutorials: A qualitative community of inquiry approach. Education and Information Technologies, 29, 18561-18589. https://doi.org/10.1007/s10639-024-12533-1

Cigognini, E. M., et al. (2024). Minecraft as an Educational Tool Before, During, and After the Pandemic: A Case Study Research Project. European Journal of Open, Distance and E-Learning, 26(1), 87-103. https://doi.org/10.2478/eurodl-2024-0011

Gao, X., Noroozi, O., Gulikers, J., Biemans, H. J. A., & Banihashem, S. K. (2024). A systematic review of the key components of online peer feedback practices in higher education. Educational Research Review, 42, 100588. https://doi.org/10.1016/j.edurev.2023.100588

Moon, J., McNeill, L., Edmonds, C. T., Banihashem, S. K., & Noroozi, O. (2024). Using learning analytics to explore peer learning patterns in asynchronous gamified environments. International Journal of Educational Technology in Higher Education, 21, 45. https://doi.org/10.1186/s41239-024-00476-z

Ouyang, F., Wu, M., & Gu, J. (2024). Using multilayer network analysis to detect the collaborative knowledge construction characteristics among learner groups with low, medium, and high levels of cognitive engagement. Computers & Education, 223, 105173. https://doi.org/10.1016/j.compedu.2024.105173

Ouyang, F., & Zhang, L. (2024). AI-driven learning analytics applications and tools in computer-supported collaborative learning: A systematic review. Educational Research Review, 44, 100616. https://doi.org/10.1016/j.edurev.2024.100616

Papert, S. (1980). Mindstorms: Children, Computers, and Powerful Ideas. Basic Books.

Resnick, M. (2017). Lifelong Kindergarten: Cultivating Creativity through Projects, Passion, Peers, and Play. MIT Press.

Scharon, C. J., Phillips, A., & Jones-Davis, D. (2024). The mind of a maker: a learning framework for a continuum of K-12 invention education. Frontiers in Education, 9, 1352274. https://doi.org/10.3389/feduc.2024.1352274

Vaccaro, M., Almaatouq, A., & Malone, T. (2024). When combinations of humans and AI are useful: A systematic review and meta-analysis. Nature Human Behaviour, 8, 2293-2303. https://doi.org/10.1038/s41562-024-02024-1

Wang, Z., Yang, X., & Li, K. (2024). A systematic review of intelligent grouping in collaborative learning. Interactive Learning Environments. https://doi.org/10.1080/10494820.2024.2444538

Wei, Y., & Perkins, M. (2026). Generative AI and student collaboration: a scoping review of group work processes, outcomes, and risks. International Journal for Educational Integrity, 22, 8. https://doi.org/10.1007/s40979-026-00217-x

Chương 11: Administrative, Infrastructure & Ecosystem EdTech

Bối cảnh / Vấn đề

Nếu chương 10 xem học tập như một hiện tượng xã hội, chương 11 đi xuống tầng ít được chú ý hơn: hạ tầng hành chính và hệ sinh thái vận hành. Đây là nơi EdTech thường trở nên thật nhất. Một nền tảng học tập có thể có AI tutor, analytics và nội dung tốt, nhưng nếu không đồng bộ danh sách lớp, không kết nối được điểm với sổ điểm, không có lịch học chính xác, không gửi thông báo đúng phụ huynh, không bảo vệ dữ liệu cá nhân, hoặc thường xuyên ngừng hoạt động vào giờ kiểm tra, trải nghiệm học tập sẽ vỡ ở những chỗ rất bình thường.

Trong trường học, “hạ tầng” không chỉ là đường truyền và thiết bị. Nó gồm learning management system (LMS), student information system (SIS), education management information system (EMIS), nền tảng đánh giá số, hệ thống tuyển sinh, điểm danh, lịch học, học phí, tài chính, truyền thông với phụ huynh, quản lý thiết bị, single sign-on, identity management, data warehouse, help desk, chính sách mua sắm, hợp đồng vendor và kế hoạch an ninh mạng. Phần lớn người học không gọi tên những hệ thống này. Họ chỉ cảm nhận hệ thống có mượt không, có công bằng không, có đáng tin không.

OECD phân biệt khá rõ giữa “digital transition” và “digital transformation”. Nhiều hệ thống giáo dục đã số hóa công cụ, nhưng vẫn chủ yếu tái tạo quy trình cũ: nhập điểm, xuất báo cáo, gửi thông báo, quản lý hồ sơ. Chuyển đổi thật chỉ xảy ra khi dữ liệu, quy trình, tiêu chuẩn và năng lực con người được tổ chức lại để hỗ trợ quyết định tốt hơn, giảm tải vận hành và tạo điều kiện cho dạy học hiệu quả hơn (OECD, 2023a).

Vì vậy, chương này không xem administrative EdTech là phần phụ phía sau sư phạm. Nó là điều kiện nền để các chương trước có thể vận hành. AI trong tutoring, assessment, learning analytics hay cộng đồng học tập đều cần danh tính người học đúng, dữ liệu sạch, quyền truy cập rõ, tích hợp ổn định, bảo mật đủ mạnh và mô hình quản trị biết ai chịu trách nhiệm khi hệ thống sai.

LMS, SIS/EMIS và digital assessment platforms

Ở cấp trường, LMS thường là nơi giáo viên giao bài, quản lý lớp, chấm điểm, lưu tài liệu, theo dõi tiến độ và giao tiếp với người học. Ở cấp hệ thống, SIS hoặc EMIS lưu dữ liệu học sinh, trường, giáo viên, lớp, quá trình học, chuyên cần, kết quả, chuyển trường và nhiều dữ liệu hành chính khác. OECD mô tả SIS/EMIS thế hệ mới như nền tảng nối dữ liệu theo chiều dọc thời gian, giúp hệ thống giáo dục không chỉ thống kê mà còn có thể phản hồi nhanh hơn với quyết định giáo dục (OECD, 2023b).

Vấn đề là nhiều hệ thống vẫn sống trong silo. Trường dùng một LMS để dạy học, một SIS để quản lý hồ sơ, một phần mềm khác để điểm danh, một nền tảng khác để kiểm tra, một nhóm chat để thông báo, và bảng tính để “vá” những gì chưa kết nối. Kết quả là giáo viên nhập cùng một dữ liệu nhiều lần; quản lý nhìn thấy báo cáo muộn; phụ huynh nhận thông tin không nhất quán; và dữ liệu học tập bị phân tán đến mức khó dùng cho can thiệp.

OECD ghi nhận phần lớn trường ở các nước OECD đã dùng LMS ở một mức độ nào đó, nhưng khoảng một nửa không liên thông với SIS cấp hệ thống; khi đó trường vẫn phải cung cấp dữ liệu thủ công cho cơ quan quản lý và không nhận lại được insight từ dữ liệu cấp hệ thống (OECD, 2023a). Đây là ví dụ điển hình của số hóa mà chưa chuyển đổi: dữ liệu có dạng số, nhưng luồng quyết định vẫn chậm và đứt đoạn.

Digital assessment platforms cũng nằm trong hạ tầng này. Ở mức đơn giản, chúng giúp tạo đề, phân phối bài kiểm tra, thu bài, chấm tự động, lưu kết quả và chuyển điểm sang sổ điểm. Ở mức cao hơn, chúng có thể hỗ trợ adaptive testing, mô phỏng, scenario-based assessment, item banking, psychometrics và phân tích năng lực. Nhưng OECD cho thấy nhiều đánh giá số năm 2024 vẫn chủ yếu là phiên bản số hóa của bài kiểm tra giấy; lợi ích chính nằm ở quản trị, dữ liệu và chấm điểm, trong khi các affordance như adaptive assessment, simulation hoặc đánh giá năng lực phức tạp còn ít được dùng (OECD, 2023c).

Điểm then chốt là LMS, SIS/EMIS và assessment platform không nên được mua như ba sản phẩm tách rời. Chúng là một chuỗi dữ liệu: danh tính, lớp học, hoạt động học, bài làm, phản hồi, điểm số, chuyên cần, can thiệp và báo cáo. Khi chuỗi này gãy, AI và analytics phía trên sẽ chỉ đang xử lý mảnh vụn.

Scheduling, attendance, finance và communication

EdTech vận hành thường vô hình vì nó không xuất hiện trong slide demo sư phạm. Nhưng nó quyết định rất nhiều trải nghiệm. Lịch học sai làm học sinh bỏ lỡ buổi học. Điểm danh không đồng bộ khiến giáo viên mất thời gian đối chiếu. Hệ thống tài chính không rõ tạo xung đột với phụ huynh. Tin nhắn gửi nhầm nhóm làm mất niềm tin. Một quy trình xin nghỉ, đổi lớp, hoàn phí hoặc hỗ trợ kỹ thuật kéo dài nhiều ngày có thể làm người học cảm thấy hệ thống không quan tâm đến mình.

Scheduling là bài toán phức tạp hơn vẻ ngoài. Nó liên quan đến phòng học, giáo viên, môn học, nhóm học sinh, thiết bị, quy định nghỉ, lớp bù, lớp trực tuyến, lịch kiểm tra và giới hạn tải của từng người. Khi lịch nằm ngoài LMS hoặc SIS, giáo viên khó biết ai đáng lẽ có mặt; assessment platform khó mở đúng bài; phụ huynh khó theo dõi; và dữ liệu chuyên cần thiếu ngữ cảnh.

Attendance cũng không chỉ là “có mặt/vắng mặt”. Nó có thể là tín hiệu sớm về rủi ro bỏ học, vấn đề sức khỏe, khó khăn đi lại, áp lực gia đình hoặc mất động lực. Nhưng nếu điểm danh được dùng như công cụ giám sát thô, nó có thể trừng phạt người học có hoàn cảnh khó khăn. Một hạ tầng tốt phải cho phép ghi nhận lý do, quy trình hỗ trợ, phân quyền truy cập, và cơ chế phân biệt cảnh báo cần giúp đỡ với vi phạm cần xử lý.

Finance và communication là hai vùng dễ bị xem là “hành chính”, nhưng ảnh hưởng trực tiếp đến công bằng. Người học có thể bị chặn truy cập vì lỗi thanh toán; phụ huynh có thể bỏ lỡ thông báo vì không dùng đúng kênh; học sinh ở gia đình đa ngôn ngữ có thể nhận thông tin muộn; giáo viên có thể phải trả lời cùng một câu hỏi trên nhiều nền tảng. AI có thể hỗ trợ nhắc lịch, dịch thông báo, phân loại yêu cầu và tóm tắt tình trạng, nhưng hạ tầng phải có dữ liệu đúng và quy trình rõ.

Trong các hệ thống lớn, mục tiêu không phải gom mọi thứ vào một “siêu ứng dụng”. Mục tiêu là trải nghiệm vận hành nhất quán: một danh tính, một luồng dữ liệu, quyền truy cập theo vai trò, lịch sử giao tiếp rõ, và khả năng truy vết khi có lỗi. Sự đơn giản đối với người dùng thường đòi hỏi kỷ luật kiến trúc rất cao phía sau.

Interoperability

Interoperability là khả năng các hệ thống trao đổi và dùng dữ liệu với nhau một cách ổn định, có ý nghĩa và đúng quyền. OECD nhấn mạnh interoperability không chỉ là kết nối kỹ thuật. Nó có bốn tầng: technical, semantic, organisational và legal. Hai hệ thống có thể “kết nối API” nhưng vẫn không liên thông thực sự nếu định nghĩa “lớp”, “khóa học”, “điểm hoàn thành” hoặc “học sinh đang học” khác nhau; hoặc nếu hợp đồng không cho phép dữ liệu được dùng lại (OECD, 2023d).

Trong EdTech, một số chuẩn quan trọng đã hình thành. Learning Tools Interoperability (LTI) của 1EdTech giúp LMS hoặc nền tảng học tập kết nối công cụ bên ngoài theo cách chuẩn hóa, hỗ trợ đăng nhập, truyền ngữ cảnh khóa học, vai trò người dùng và dịch vụ như grade passback. LTI 1.3 và LTI Advantage dùng mô hình bảo mật hiện đại hơn, bao gồm OAuth 2.0 và JSON Web Tokens, cùng các dịch vụ như Assignment and Grade Services, Names and Role Provisioning Services và Deep Linking (1EdTech, 2026a).

OneRoster giải quyết bài toán rất cụ thể nhưng quan trọng: roster, khóa học, enrollment, tổ chức và điểm. OneRoster 1.2 hỗ trợ cả CSV và REST, giúp SIS, LMS và các công cụ học tập trao đổi dữ liệu lớp học và kết quả theo cấu trúc chuẩn (1EdTech, 2026b). Với trường học, điều này có nghĩa đầu năm không cần nhập tay danh sách lớp vào từng ứng dụng; khi học sinh đổi lớp, dữ liệu có thể cập nhật nhất quán; khi công cụ bên ngoài chấm bài, kết quả có thể quay về gradebook.

xAPI đi theo hướng khác: ghi nhận trải nghiệm học tập dưới dạng statement, thường theo cấu trúc actor-verb-object, và lưu trong Learning Record Store (LRS). Nó hữu ích khi học tập diễn ra ngoài LMS truyền thống: simulation, mobile learning, game, thực hành tại nơi làm việc, hoạt động offline hoặc social learning. xAPI đã trở thành chuẩn IEEE 9274.1.1-2023, cho phép nhiều hệ thống ghi và chia sẻ dữ liệu trải nghiệm học ở định dạng nhất quán (xAPI.com, 2026).

Nhưng chuẩn không tự tạo hệ sinh thái tốt. Một vendor có thể tuyên bố “hỗ trợ LTI” nhưng chỉ triển khai một phần. Một SIS có thể xuất OneRoster nhưng không đủ trường dữ liệu địa phương cần dùng. Một LRS có thể thu rất nhiều statement nhưng thiếu data governance để biến chúng thành insight. Vì vậy, interoperability phải được đưa vào procurement, kiểm thử, hợp đồng, vận hành và benchmark, không chỉ nằm trong brochure kỹ thuật.

Procurement và vendor governance

Nhà trường mua công nghệ bằng tiêu chí nào thì sẽ nhận hệ thống như thế đó. Nếu tiêu chí mua sắm chỉ là giá thấp và danh sách tính năng, vendor sẽ tối ưu cho demo. Nếu tiêu chí gồm interoperability, bảo mật, accessibility, bằng chứng hiệu quả, dữ liệu xuất được, hỗ trợ triển khai, khả năng rời hệ thống và tổng chi phí sở hữu, hệ sinh thái sẽ khác.

OECD xem public procurement là một công cụ định hình hệ sinh thái giáo dục số. Trong 29 hệ thống được khảo sát, nhiều nước dùng mua sắm tập trung, danh sách công cụ được phê duyệt, hướng dẫn mua sắm hoặc tiêu chí bảo mật và dữ liệu để định hướng thị trường. Tuy nhiên, OECD cũng ghi nhận phần lớn nỗ lực mua sắm vẫn tập trung vào quy trình, kinh tế quy mô, bảo mật và tuân thủ dữ liệu; tiêu chí về equity, inclusivity, hiệu quả học tập và tính bền vững còn ít được dùng rõ ràng (OECD, 2023e).

Vendor governance bắt đầu trước khi ký hợp đồng. Trường cần biết sản phẩm giải quyết vấn đề nào, dữ liệu nào được thu, dữ liệu nằm ở đâu, ai sở hữu, ai được truy cập, vendor có dùng dữ liệu để huấn luyện mô hình không, dữ liệu có thể xuất ra khi chấm dứt hợp đồng không, uptime cam kết ra sao, hỗ trợ sự cố thế nào, và chuẩn nào được chứng nhận. Những câu hỏi này không phải “phần pháp lý” tách khỏi sư phạm. Chúng quyết định giáo viên và người học có bị khóa vào một hệ thống khó rời không.

Một rủi ro lớn là vendor lock-in. Khi nội dung, điểm, hồ sơ, tích hợp và workflow đều gắn với một nhà cung cấp, trường khó đổi hệ thống dù chi phí tăng hoặc chất lượng giảm. Lock-in không chỉ đến từ hợp đồng dài hạn. Nó đến từ dữ liệu không xuất được, chuẩn tích hợp riêng, đào tạo người dùng quá lệ thuộc vào giao diện, và quy trình nội bộ bị may đo theo một sản phẩm.

Rủi ro khác là mua công nghệ không có chiến lược triển khai. Một sản phẩm có thể tốt trong thử nghiệm nhỏ nhưng thất bại khi mở rộng vì giáo viên thiếu thời gian, IT thiếu người, dữ liệu đầu vào bẩn, quy trình hỗ trợ yếu, hoặc phụ huynh không hiểu kênh mới. Procurement tốt phải tính cả change management, training, support, migration, evaluation và exit plan.

Cybersecurity, privacy và reliability

Niềm tin trong EdTech có thể mất nhanh hơn nhiều so với tốc độ xây dựng. Một vụ rò rỉ dữ liệu học sinh, một kỳ thi bị sập hệ thống, một tài khoản giáo viên bị chiếm quyền, hoặc một vendor để lộ hồ sơ sức khỏe có thể khiến phụ huynh, giáo viên và nhà quản lý nghi ngờ toàn bộ chương trình chuyển đổi số.

Giáo dục là mục tiêu hấp dẫn vì dữ liệu phong phú và năng lực an ninh thường hạn chế. Dữ liệu học sinh có tuổi thọ dài: tên, ngày sinh, địa chỉ, điểm số, hồ sơ kỷ luật, nhu cầu đặc biệt, sức khỏe, tài chính, thông tin phụ huynh. Trẻ em không thể tự quản lý rủi ro danh tính như người lớn, và hậu quả có thể kéo dài nhiều năm. Vụ PowerSchool được báo cáo đầu năm 2025 cho thấy một nền tảng SIS lớn có thể trở thành điểm tập trung rủi ro khi dữ liệu của nhiều trường bị truy cập qua kênh hỗ trợ bị xâm nhập (The Verge, 2025).

CoSN State of EdTech District Leadership 2024 cho thấy cybersecurity tiếp tục là ưu tiên hàng đầu của lãnh đạo công nghệ K-12; 99% district được khảo sát đang thực hiện biện pháp cải thiện bảo vệ, nhưng vẫn đối mặt với thiếu nhân sự, ngân sách và áp lực hạ tầng mở rộng (CoSN, 2024). Ở giáo dục đại học, EDUCAUSE Horizon Report 2024 về cybersecurity và privacy cũng đặt AI, compliance, data privacy, cyber threat intelligence, zero trust và quản trị an ninh vào nhóm vấn đề trọng yếu (EDUCAUSE, 2024).

Cybersecurity không thể chỉ giao cho bộ phận IT. Nó phải đi vào kiến trúc sản phẩm, hợp đồng vendor, đào tạo người dùng, quy trình cấp quyền, quản lý thiết bị, backup, incident response, kiểm thử định kỳ và truyền thông khủng hoảng. Một trường có thể mua công cụ bảo mật mạnh nhưng vẫn rủi ro nếu giáo viên dùng mật khẩu yếu, tài khoản cũ không bị khóa, vendor phụ không được kiểm tra, hoặc dữ liệu nhạy cảm được xuất ra bảng tính cá nhân.

Privacy cũng không chỉ là tuân thủ. Một hệ thống có thể hợp pháp nhưng vẫn gây hại nếu thu quá nhiều dữ liệu, giữ quá lâu, dùng dữ liệu ngoài mục đích học tập, hoặc khiến người học cảm thấy bị theo dõi. Nguyên tắc tối thiểu hóa dữ liệu, mục đích rõ, phân quyền chặt, giải thích dễ hiểu, kiểm toán truy cập và quyền sửa/xóa khi phù hợp nên được xem là yêu cầu hạ tầng.

Reliability là trụ cột thứ ba. Uptime, latency, khả năng chịu tải, backup, recovery time, offline fallback và support response time đều là vấn đề sư phạm khi hệ thống được dùng trong lớp học thật. Một nền tảng assessment bị chậm trong kỳ thi không chỉ là lỗi kỹ thuật; nó ảnh hưởng đến công bằng đánh giá. Một hệ thống LMS không truy cập được vào buổi tối có thể ảnh hưởng bất cân xứng đến người học chỉ có thời gian học ngoài giờ.

Địa phương hóa hệ sinh thái

Không có hạ tầng EdTech trung tính với bối cảnh. Một hệ thống thiết kế cho đại học Mỹ có thể không hợp với trường phổ thông Việt Nam. Một LMS mạnh ở nơi có thiết bị cá nhân và băng thông ổn định có thể thất bại ở nơi học sinh dùng chung điện thoại. Một mô hình thu phí theo người dùng có thể ổn với trường tư nhưng không bền với hệ thống công ngân sách thấp. Một quy trình phụ huynh tự đăng nhập xem điểm có thể không phù hợp nếu phụ huynh ít dùng email hoặc cần thông báo qua kênh địa phương.

UNESCO nhấn mạnh EMIS là công cụ trung tâm để quản lý giáo dục, từ hoạch định chiến lược đến quản lý trung gian và nhà trường; nhưng nhiều quốc gia vẫn cần củng cố năng lực dữ liệu, kiến trúc kỹ thuật, governance và sử dụng dữ liệu. Chương trình Sound Data for Good Governance in Education và công cụ EMIS-PATT của UNESCO đánh giá EMIS qua bốn chiều: governance framework, management and organisational aspects, technical and IT architecture, và data and their use (UNESCO, 2025; UNESCO, 2026).

Địa phương hóa không có nghĩa là tùy biến vô hạn. Nó nghĩa là hiểu ràng buộc thật: luật bảo vệ dữ liệu, ngôn ngữ, lịch học, cách tính điểm, vai trò phụ huynh, hạ tầng thanh toán, năng lực IT, ngân sách bảo trì, thói quen truyền thông, khả năng hỗ trợ giáo viên và tính liên tục khi lãnh đạo thay đổi. Một thiết kế tốt có lõi chuẩn hóa nhưng cho phép cấu hình theo bối cảnh.

Rojas và Chiappe tổng quan AI và digital ecosystems trong giáo dục, nhấn mạnh hệ sinh thái số là tập hợp các thành phần liên kết tạo trải nghiệm tích hợp, không phải chỉ là tập hợp công cụ riêng lẻ (Rojas & Chiappe, 2024). Nichols và Dixon-Román phân tích platform governance như một hình thức quyền lực trung gian trong chính sách giáo dục: nền tảng không chỉ truyền dữ liệu, mà còn định hình điều gì được thấy, được đo, được ưu tiên và được quản trị (Nichols & Dixon-Román, 2024). Hai góc nhìn này nhắc rằng địa phương hóa cũng là câu hỏi quyền lực: ai quyết định hệ thống đo gì, ai được truy cập, ai bị ảnh hưởng khi dữ liệu sai, và ai có thể phản đối?

Tiêu chí benchmark / Cách đánh giá

Benchmark cho administrative, infrastructure và ecosystem EdTech phải đo cả hiệu quả vận hành, chất lượng dữ liệu, an toàn và khả năng phục vụ sư phạm. Một hệ thống không thể được đánh giá chỉ bằng số lượng tính năng.

Nhóm tiêu chí đầu tiên là data quality và data flow. Dữ liệu học sinh, lớp, giáo viên, lịch, chuyên cần và điểm có đầy đủ, đúng, cập nhật kịp thời và có nguồn gốc rõ không? Có bao nhiêu bước nhập tay? Khi học sinh chuyển lớp, dữ liệu cập nhật qua bao nhiêu hệ thống và mất bao lâu? Có audit trail để biết ai sửa gì, khi nào, vì sao không?

Nhóm thứ hai là interoperability. Hệ thống có hỗ trợ chuẩn mở như LTI, OneRoster, xAPI hoặc chuẩn tương đương không? Việc tích hợp có được chứng nhận hoặc kiểm thử độc lập không? Dữ liệu có thể xuất ra ở định dạng dùng được không? Có tránh phụ thuộc vào API riêng hoặc hợp đồng khóa dữ liệu không?

Nhóm thứ ba là user workload. Giáo viên, nhân viên hành chính, học sinh và phụ huynh mất bao nhiêu thời gian cho tác vụ thường ngày: đăng nhập, xem lịch, nộp bài, nhập điểm, xin nghỉ, trả lời thông báo, xử lý lỗi? Hệ thống có giảm việc lặp lại hay chỉ chuyển việc giấy sang màn hình?

Nhóm thứ tư là reliability và support. Uptime, latency, thời gian phục hồi, năng lực chịu tải, backup, offline fallback, response time của hỗ trợ và tỷ lệ lỗi trong giờ cao điểm là bao nhiêu? Các kỳ thi, ngày khai giảng, thời điểm nhập điểm và deadline nộp bài cần được benchmark riêng vì đây là lúc hệ thống chịu áp lực thật.

Nhóm thứ năm là cybersecurity và privacy. Có MFA, phân quyền theo vai trò, mã hóa, quản lý vòng đời tài khoản, kiểm thử bảo mật, incident response plan, vendor risk assessment, data retention policy và log truy cập không? Dữ liệu nhạy cảm có được tối thiểu hóa không? Người dùng có hiểu dữ liệu của họ được dùng ra sao không?

Nhóm thứ sáu là procurement và governance. Mỗi sản phẩm có owner rõ không? Hợp đồng có yêu cầu interoperability, accessibility, privacy, security, uptime, data export, support và exit plan không? Có quy trình đánh giá hiệu quả sau triển khai không? Có cơ chế dừng hoặc thay thế công cụ không đạt chuẩn không?

Nhóm thứ bảy là equity và local fit. Hệ thống có hoạt động tốt trên thiết bị phổ biến của người học không? Có hỗ trợ ngôn ngữ, accessibility, băng thông thấp, kênh truyền thông địa phương và điều kiện gia đình khác nhau không? Có nhóm nào bị loại khỏi trải nghiệm vì giả định hạ tầng sai không?

Phân tích phản biện

Ảo tưởng đầu tiên là “một nền tảng thống nhất sẽ giải quyết mọi thứ”. Tích hợp quá mức có thể giảm rời rạc, nhưng cũng tạo điểm lỗi tập trung và lock-in. Một hệ sinh thái tốt cần lõi dữ liệu chung, tiêu chuẩn rõ và governance mạnh; không nhất thiết mọi chức năng phải nằm trong một sản phẩm.

Ảo tưởng thứ hai là “mua hệ thống tốt là xong”. Hạ tầng giáo dục sống trong quy trình con người. Nếu không có training, support, data stewardship, chính sách phân quyền, thời gian chuyển đổi và trách nhiệm vận hành, sản phẩm tốt vẫn tạo gánh nặng. Nhiều thất bại EdTech là thất bại triển khai hơn là thất bại phần mềm.

Ảo tưởng thứ ba là “dữ liệu hành chính khách quan”. Attendance, điểm số, hồ sơ kỷ luật, tương tác phụ huynh và lịch sử hỗ trợ đều được tạo trong quy trình có thiên lệch. Nếu một nhóm học sinh bị điểm danh sai nhiều hơn vì đi lại khó khăn, nếu phụ huynh ít chữ số không phản hồi app, nếu giáo viên nhập nhận xét theo chuẩn khác nhau, hệ thống sẽ biến bất bình đẳng xã hội thành dữ liệu có vẻ chính xác.

Ảo tưởng thứ tư là “bảo mật làm chậm đổi mới”. Thực tế, thiếu bảo mật mới làm đổi mới mong manh. Khi xảy ra rò rỉ dữ liệu hoặc downtime nghiêm trọng, trường sẽ phải đóng băng triển khai, xử lý khủng hoảng và mất niềm tin. Security-by-design là điều kiện để đổi mới bền.

Nguyên tắc thiết kế

Nguyên tắc đầu tiên: bắt đầu từ architecture map, không bắt đầu từ catalogue sản phẩm. Trường cần biết hệ thống nào là nguồn dữ liệu gốc cho danh tính, lớp, điểm, chuyên cần, tài chính và truyền thông; hệ thống nào đọc dữ liệu; hệ thống nào ghi ngược; và ai chịu trách nhiệm khi có xung đột.

Nguyên tắc thứ hai: chuẩn mở phải là yêu cầu mua sắm, không phải phần cộng thêm. LTI, OneRoster, xAPI hoặc các chuẩn tương đương cần được kiểm thử trong workflow thật: roster đầu năm, đổi lớp giữa kỳ, grade passback, khóa tài khoản, xuất dữ liệu và rời vendor.

Nguyên tắc thứ ba: giảm tải cho người dùng trước khi thêm AI. Nếu giáo viên vẫn phải nhập điểm ba lần, phụ huynh phải dùng năm kênh thông báo, và nhân viên phải đối chiếu bảng tính, AI chỉ làm hệ thống rối hơn. Tự động hóa có ích nhất khi quy trình nền đã được dọn sạch.

Nguyên tắc thứ tư: dữ liệu học sinh là dữ liệu nhạy cảm theo mặc định. Thu ít, giữ ngắn, phân quyền chặt, log đầy đủ, giải thích rõ và có quy trình xử lý sự cố. Vendor không nên được truy cập hoặc tái sử dụng dữ liệu ngoài mục đích đã thỏa thuận.

Nguyên tắc thứ năm: procurement phải có vòng đời. Mua, triển khai, huấn luyện, đo hiệu quả, kiểm toán, gia hạn, thay thế và rút lui đều phải được thiết kế. Một hệ thống không có exit plan là một khoản nợ tương lai.

Nguyên tắc thứ sáu: địa phương hóa ở tầng quy trình và hỗ trợ, không chỉ dịch giao diện. Hệ thống phải phù hợp lịch học, quy chế điểm, kênh phụ huynh, năng lực giáo viên, băng thông, thiết bị và luật dữ liệu của nơi nó hoạt động.

Tổng kết chương

Administrative, Infrastructure & Ecosystem EdTech là phần ít lấp lánh nhưng quyết định độ tin cậy của toàn bộ hệ thống học tập số. LMS, SIS/EMIS, assessment platform, lịch, điểm danh, tài chính, truyền thông, chuẩn liên thông, procurement, an ninh và địa phương hóa không phải các mảnh rời. Chúng tạo thành nền để dữ liệu học tập có thể di chuyển đúng, quyết định có thể dựa trên thông tin đúng, và người học có thể tin hệ thống.

Có năm điểm cần giữ lại. Thứ nhất, số hóa công cụ không đồng nghĩa chuyển đổi hạ tầng. Thứ hai, interoperability là vấn đề tổ chức, ngữ nghĩa, pháp lý và kỹ thuật, không chỉ API. Thứ ba, procurement là công cụ chính sách: mua sai tiêu chí sẽ tạo hệ sinh thái sai. Thứ tư, cybersecurity, privacy và reliability là điều kiện sư phạm, không phải việc hậu trường. Thứ năm, hạ tầng phải được địa phương hóa theo luật, văn hóa, năng lực và ngân sách thật.

Phần II kết thúc ở đây bằng một lớp nền: công nghệ giáo dục không chỉ là AI tutor, mô phỏng hay analytics, mà là hệ sinh thái vận hành đủ sạch, an toàn và liên thông để các ý tưởng sư phạm có đất sống. Chương 12 mở sang Phần III, quay lại các lý thuyết học tập dưới ánh sáng AI: behaviorism, cognitivism, constructivism, social constructivism, connectivism và độ sâu tương tác.

Tài liệu tham khảo

1EdTech. (2026a). Learning Tools Interoperability (LTI). https://www.1edtech.org/standards/lti

1EdTech. (2026b). OneRoster. https://www.1edtech.org/standards/oneroster

CoSN. (2024). 2024 State of EdTech District Leadership Report. https://www.cosn.org/tools-and-resources/resource/2024-state-of-edtech-district-leadership-survey/

EDUCAUSE. (2024). 2024 EDUCAUSE Horizon Report: Cybersecurity and Privacy Edition. https://library.educause.edu/resources/2024/9/2024-educause-horizon-report-cybersecurity-and-privacy-edition

Nichols, T. P., & Dixon-Román, E. (2024). Platform governance and education policy: Power and politics in emerging edtech ecologies. Educational Evaluation and Policy Analysis, 46(2). https://doi.org/10.3102/01623737231202469

OECD. (2023a). OECD Digital Education Outlook 2023: Towards an Effective Digital Education Ecosystem. OECD Publishing. https://doi.org/10.1787/c74f03de-en

OECD. (2023b). Education and student information systems. In OECD Digital Education Outlook 2023. https://www.oecd-ilibrary.org/en/publications/oecd-digital-education-outlook-2023_c74f03de-en/full-report/education-and-student-information-systems_ef9f7b25.html

OECD. (2023c). Digital assessment. In OECD Digital Education Outlook 2023. https://www.oecd.org/en/publications/oecd-digital-education-outlook-2023_c74f03de-en/full-report/digital-assessment_a102e604.html

OECD. (2023d). Interoperability: unifying and maximising data reuse within digital education ecosystems. In OECD Digital Education Outlook 2023. https://www.oecd.org/en/publications/oecd-digital-education-outlook-2023_c74f03de-en/full-report/interoperability-unifying-and-maximising-data-reuse-within-digital-education-ecosystems_660f8da1.html

OECD. (2023e). Public procurement: shaping digital education ecosystems. In OECD Digital Education Outlook 2023. https://www.oecd.org/en/publications/oecd-digital-education-outlook-2023_c74f03de-en/full-report/public-procurement-shaping-digital-education-ecosystems_bd9e3f3f.html

Rojas, M. P., & Chiappe, A. (2024). Artificial intelligence and digital ecosystems in education: A review. Technology, Knowledge and Learning, 29, 2153-2170. https://doi.org/10.1007/s10758-024-09732-7

The Verge. (2025). PowerSchool data breach leaks info of students and staff at schools across the US. https://www.theverge.com/2025/1/10/24340556/powerschool-sis-data-breach-leak-student-data-us-canada-schools

UNESCO. (2025). Sound Data for Good Governance in Education. https://www.unesco.org/en/education-management/data-governance

UNESCO. (2026). Education management information systems: Progress Assessment Tool for Transformation (EMIS-PATT). https://www.unesco.org/en/education-management/emis-readiness-assessment

xAPI.com. (2026). What is xAPI? https://xapi.com/overview/

Chương 12: Các lý thuyết học tập dưới ánh sáng AI

Bối cảnh / Vấn đề

Phần II đã đi qua bản đồ công nghệ: tutoring, assessment, analytics, immersive learning, cộng đồng học tập và hạ tầng hệ sinh thái. Phần III quay lại một câu hỏi nền hơn: công nghệ đó đang dựa trên giả định học tập nào? Một hệ thống AI không bao giờ trung tính về sư phạm. Nó luôn mang theo một quan niệm ngầm về người học: người học là tập hợp hành vi cần củng cố, bộ xử lý thông tin có giới hạn, người kiến tạo ý nghĩa, thành viên của cộng đồng, nút trong mạng tri thức, hay người giải quyết vấn đề ở nhiều tầng nhận thức.

Vấn đề là nhiều sản phẩm EdTech dùng ngôn ngữ hiện đại nhưng vẫn vận hành bằng lý thuyết cũ mà không nói rõ. Một app luyện tập có thể gọi mình là “AI cá nhân hóa” nhưng thực chất là drill và reinforcement. Một chatbot có thể được quảng bá như “gia sư Socratic” nhưng lại chỉ đưa đáp án nhanh. Một simulation có thể nói theo constructivism, nhưng nếu người học chỉ bấm theo hướng dẫn, nó vẫn là bài giảng tuyến tính mặc áo tương tác.

Điều này không có nghĩa các lý thuyết cũ đã lỗi thời. AI làm chúng cần thiết hơn. Behaviorism giúp ta hiểu luyện tập có phản hồi. Cognitivism nhắc rằng chú ý, trí nhớ làm việc và mental model không thể bị bỏ qua. Constructivism nhấn mạnh thử nghiệm và kiến tạo hiểu biết. Social constructivism đặt học tập trong đối thoại và scaffolding. Connectivism xem tìm, lọc và kết nối tri thức là một phần của học. Bloom và ICAP giúp ta phân biệt mức độ nhận thức thay vì gọi mọi thao tác trên màn hình là “interactive”.

Chương này dùng từng lý thuyết để hỏi: AI làm gì tốt, bỏ sót gì, và bằng chứng nào giúp ta không bị cuốn theo ngôn ngữ sản phẩm?

Nền tảng lý thuyết

Behaviorism tập trung vào hành vi quan sát được, phản hồi và hệ quả. Trong giáo dục, nó đi vào programmed instruction, teaching machines, drill, mastery checks và feedback tức thời. Skinner từng lập luận rằng máy dạy học có thể cho người học tiến từng bước nhỏ và nhận phản hồi ngay, thay vì chờ giáo viên chấm sau nhiều ngày (Skinner, 1958). Nhiều hệ thống adaptive practice ngày nay vẫn dùng logic này: chẩn đoán lỗi, chọn bài kế tiếp và lặp lại cho đến khi fluency tăng.

Cognitivism chuyển trọng tâm sang chú ý, bộ nhớ làm việc, schema, mental model và tải nhận thức. Cognitive Load Theory nhắc rằng người học không thể xử lý vô hạn thông tin cùng lúc; thiết kế tốt phải giảm tải ngoại lai, quản lý độ khó nội tại và kích hoạt xử lý sinh nghĩa (Sweller, 1988). Multimedia learning cũng dựa trên giả định tương tự: hình, chữ, âm thanh hay video chỉ có ích khi chúng giúp người học xây mô hình tinh thần (Mayer, 2021).

Constructivism xem người học là người chủ động kiến tạo hiểu biết. Piaget nhấn mạnh quá trình đồng hóa và điều tiết khi người học gặp trải nghiệm không khớp với cấu trúc hiểu biết cũ (Piaget, 1970). Trong EdTech, tinh thần này xuất hiện ở inquiry learning, simulation, sandbox, project-based learning và môi trường nơi người học thử, sai, sửa, giải thích và tạo sản phẩm.

Social constructivism đưa người khác và công cụ vào trung tâm. Vygotsky mô tả Zone of Proximal Development (ZPD) như khoảng giữa điều người học làm được một mình và điều họ làm được với hỗ trợ phù hợp (Vygotsky, 1978). Scaffolding không phải là làm hộ; nó là hỗ trợ tạm thời để người học thực hiện nhiệm vụ vượt quá năng lực hiện tại, rồi rút dần khi năng lực tăng. Trong thời AI, câu hỏi mới là: AI có thể là một dạng scaffold không, và khi nào scaffold đó làm người học lệ thuộc?

Connectivism xuất hiện khi tri thức không còn nằm gọn trong sách giáo khoa, lớp học hay trí nhớ cá nhân. Siemens mô tả học tập trong thời mạng như năng lực kết nối các nguồn thông tin, nhận ra pattern, cập nhật liên tục và biết “biết ở đâu” quan trọng không kém “biết cái gì” (Siemens, 2005). Knowledge graph, search, recommendation, cộng đồng mở và AI retrieval systems đều làm câu hỏi này trở nên thực tế hơn.

Bloom và ICAP giúp ta đọc độ sâu của hoạt động học. Bloom’s Taxonomy phân biệt các mức như nhớ, hiểu, áp dụng, phân tích, đánh giá và sáng tạo (Bloom, 1956; Anderson & Krathwohl, 2001). ICAP phân loại mức tham gia nhận thức thành Passive, Active, Constructive và Interactive; theo Chi và Wylie, hoạt động tương tác sâu thường có tiềm năng học cao hơn hoạt động chỉ tiếp nhận hoặc thao tác bề mặt (Chi & Wylie, 2014).

Behaviorism 2.0

Behaviorism 2.0 xuất hiện rõ nhất trong drill, practice, adaptive quiz, gamified streak, spaced review và feedback tức thời. Với kỹ năng cần fluency như bảng cửu chương, từ vựng, ký hiệu hóa học, nhận diện âm vị, công thức cơ bản hoặc quy trình thao tác, luyện tập lặp lại có phản hồi nhanh là rất có giá trị. AI giúp giảm chi phí chọn bài, phát hiện lỗi phổ biến, điều chỉnh độ khó và đưa phản hồi đúng lúc.

Bằng chứng về feedback số không hề yếu. Brummer và cộng sự meta-analysis 116 can thiệp về digitally delivered instructional feedback và tìm thấy hiệu ứng tổng hợp tích cực với learning performance, đồng thời cho thấy hiệu quả phụ thuộc vào trọng tâm phản hồi, loại nhiệm vụ, ngành học, assessment type và mức learner control (Brummer et al., 2024). Điều này phù hợp với trực giác sư phạm: phản hồi không chỉ cần nhanh, mà phải nói đúng điều người học cần sửa.

Nhưng Behaviorism 2.0 có giới hạn rõ. Nếu hệ thống chỉ tối ưu số câu đúng, thời gian trả lời và chuỗi ngày học, nó dễ biến học tập thành quản lý hành vi. Người học có thể giỏi nhận dạng mẫu bài quen thuộc nhưng không hiểu vì sao. Drill có thể tạo fluency, nhưng không tự tạo transfer. Feedback tức thời có thể giúp sửa lỗi, nhưng cũng có thể làm người học không học cách tự kiểm tra nếu hệ thống luôn nói ngay đúng/sai.

AI làm rủi ro này lớn hơn vì nó có thể tạo vô hạn bài tập và phản hồi. Vì vậy, khi dùng behaviorist design, cần hỏi: kỹ năng nào thực sự cần fluency? Tín hiệu đúng/sai có đủ chưa? Khi nào cần chuyển từ luyện tập sang giải thích, áp dụng và transfer?

Cognitivism

Cognitivism là thấu kính quan trọng nhất để thiết kế AI tutor và giao diện học tập. Người học không thiếu thông tin; họ thường thiếu cấu trúc để xử lý thông tin. AI có thể giải thích quá nhiều, quá nhanh, quá đúng, và vì vậy làm tăng tải nhận thức thay vì giảm nó. Một câu trả lời dài của chatbot có thể khiến người học cảm thấy được giúp, nhưng bộ nhớ làm việc của họ vẫn bị quá tải.

AI tốt theo cognitivism phải quản trị chú ý, bộ nhớ làm việc và mental model. Nó nên chia vấn đề thành bước vừa đủ, dùng worked example khi người học mới, yêu cầu người học dự đoán trước khi xem lời giải, làm nổi bật thông tin then chốt, đặt câu hỏi truy hồi và giúp người học liên kết khái niệm mới với schema đã có. Nó không nên chỉ “giải thích lại đơn giản hơn” vô hạn lần, vì đơn giản hóa quá mức có thể làm mất cấu trúc sâu.

Các review gần đây về AI trong giáo dục ghi nhận lợi ích ở personalized learning, adaptive feedback và hỗ trợ học tập, nhưng cũng nhấn mạnh thiếu nền tảng sư phạm rõ. Mertala và cộng sự kết luận rằng nhiều ứng dụng AI ở trường phổ thông vẫn đi theo logic công nghệ trước đây, trong khi hiểu biết về tác động sư phạm còn hạn chế (Mertala et al., 2024). Một systematic review về ChatGPT cũng cho thấy nghiên cứu thực nghiệm đang tăng nhanh nhưng còn phân tán về thiết kế, bối cảnh và cách đo kết quả (Albadarin et al., 2024).

Rủi ro nhận thức lớn nhất của AI là cognitive offloading không kiểm soát. Người học có thể giao cho AI phần lập kế hoạch, phân tích, viết nháp, sửa lỗi và đánh giá mà không còn tự làm các thao tác nhận thức cốt lõi. Zhai, Wibowo và Li tổng quan về over-reliance on AI dialogue systems và cảnh báo rằng phụ thuộc quá mức có thể ảnh hưởng đến critical thinking, problem-solving và năng lực nhận thức tự chủ, dù bằng chứng vẫn cần được mở rộng theo bối cảnh và thời gian (Zhai et al., 2024).

Do đó, thiết kế cognitivist trong thời AI cần tạo “ma sát nhận thức” đúng chỗ. Trước khi AI giải, người học phải dự đoán. Trước khi AI sửa, người học phải tự đánh dấu điểm nghi ngờ. Trước khi AI tóm tắt, người học phải viết bản tóm tắt của mình. Trước khi AI đưa lời giải, nó có thể hỏi: em đang kẹt ở bước nào, dữ kiện nào quan trọng, giả định nào chưa kiểm tra?

Constructivism

Constructivism phù hợp với các môi trường nơi AI tạo sandbox, simulation, project, inquiry và phản hồi mở. Thay vì hỏi “AI có thể giảng nội dung này không?”, constructivism hỏi: người học có cơ hội tạo mô hình, thử nghiệm, quan sát hệ quả, sửa giả thuyết và diễn đạt hiểu biết của mình không?

Trong khoa học, AI có thể hỗ trợ inquiry bằng cách tạo dữ liệu giả lập, gợi giả thuyết, đóng vai hiện tượng, hỗ trợ thiết kế thí nghiệm hoặc phản biện kết luận. Almasri tổng quan nghiên cứu thực nghiệm về AI trong dạy và học khoa học, ghi nhận AI có thể hỗ trợ instructional practices, assessment và learning personalization, nhưng đồng thời nhấn mạnh cần xem xét kỹ thiết kế, bối cảnh và bằng chứng tác động (Almasri, 2024). Nói cách khác, AI không tự làm khoa học trở nên inquiry-based; nhiệm vụ học mới quyết định.

Constructivism cũng nhắc ta rằng sản phẩm người học tạo ra rất quan trọng. Khi học lập trình, thiết kế, viết, làm video, xây mô hình hoặc tạo dự án cộng đồng, AI có thể hỗ trợ brainstorming, debugging, critique và iteration. Nhưng nếu AI tạo sản phẩm cuối quá sớm, người học mất va chạm cần thiết với vấn đề. “Tạo nhanh” không đồng nghĩa “hiểu sâu”.

Vì vậy, trong môi trường constructivist, bằng chứng không chỉ là điểm bài kiểm tra sau can thiệp. Cần nhìn vào process log, bản nháp, giải thích của người học, khả năng sửa mô hình, chất lượng câu hỏi, mức transfer sang bài mới và khả năng bảo vệ quyết định thiết kế. Đây là cách hiểu “dẫn chứng” thực dụng: không phải so sánh công nghệ A với B, mà là tìm dấu hiệu người học đang kiến tạo hiểu biết thật.

Social constructivism

Social constructivism đặt AI vào mối quan hệ giữa người học, giáo viên, bạn học và công cụ. Vygotsky không nói học tập là cá nhân ngồi một mình với tài liệu tối ưu. Ông đặt phát triển nhận thức trong tương tác xã hội, ngôn ngữ và hỗ trợ từ người có năng lực hơn (Vygotsky, 1978). Trong thời AI, “người có năng lực hơn” có thể là giáo viên, bạn học, cộng đồng, hoặc một hệ thống AI được thiết kế cẩn thận. Nhưng vai trò này không nên được hiểu quá dễ.

AI có thể hỗ trợ ZPD bằng cách gợi ý vừa đủ, đặt câu hỏi dẫn đường, cung cấp ví dụ tạm thời, phát hiện hiểu lầm và rút hỗ trợ khi người học tiến bộ. Một review tích hợp năm 2025 về AI như digital scaffold trong ZPD nhấn mạnh tiềm năng của adaptive learning systems, nhưng cũng chỉ ra nhu cầu thiết kế có kiểm soát để tránh biến scaffolding thành làm hộ (Wan Hamedi et al., 2025). Đây là điểm then chốt: scaffold tốt làm người học mạnh lên; scaffold xấu làm người học dựa vào scaffold.

AI cũng có thể làm người học bớt cần nói chuyện với người thật. Nếu chatbot luôn sẵn sàng giải thích, phản biện, sửa bài và đóng vai bạn học, lớp học có thể tiện hơn nhưng nghèo tương tác xã hội hơn. Chương 10 đã bàn rủi ro này trong group work. Ở đây, dưới thấu kính social constructivism, câu hỏi là: AI có mở đường cho đối thoại giữa người học với nhau không, hay thay thế đối thoại đó?

Một thiết kế tốt có thể dùng AI để chuẩn bị cho thảo luận, không thay thảo luận. Trước buổi seminar, AI giúp người học tạo câu hỏi, xác định điểm chưa hiểu và tìm bằng chứng. Trong buổi thảo luận, AI có thể ghi lại các luận điểm và nhắc nhóm quay lại câu hỏi chính. Sau buổi học, AI giúp từng người phản tư về cách mình lập luận. Nhưng phán đoán, bất đồng, lắng nghe và thương lượng ý nghĩa vẫn phải diễn ra giữa người với người.

Social constructivism cũng giúp ta đọc công bằng. AI có thể hỗ trợ người học yếu thế bằng dịch, gợi ý câu hỏi, rehearsal, caption, tóm tắt hoặc role-play trước khi tham gia. Nhưng nếu hệ thống đánh giá “tham gia tốt” chỉ qua số lần phát biểu, nó lại củng cố bất bình đẳng.

Connectivism

Connectivism trở nên thực tế hơn trong thời AI vì tri thức giờ được truy cập qua mạng người, mạng tài liệu, knowledge graph, search engine, recommendation system và retrieval-augmented generation. Người học không chỉ cần nhớ nội dung; họ cần biết nguồn nào đáng tin, câu hỏi nào đáng hỏi, bằng chứng nào đủ mạnh, và cách nối các mảnh tri thức từ nhiều bối cảnh.

AI có thể làm connectivism mạnh hơn bằng cách giúp người học tìm tài liệu, so sánh nguồn, lập bản đồ khái niệm và tham gia cộng đồng mở. Nhưng nó cũng có thể làm năng lực kết nối yếu đi nếu người học chỉ nhận một câu trả lời đã được tổng hợp. Khi AI biến mạng tri thức thành một đoạn văn trơn tru, người học có thể không còn thấy nguồn, tranh cãi, độ chắc chắn và giới hạn của tri thức.

Vì vậy, thiết kế connectivist không nên chỉ hỏi “AI trả lời đúng không?” mà hỏi “AI có giúp người học nhìn thấy mạng tri thức không?” Một công cụ tốt có thể hiện nguồn, mức tin cậy, quan điểm trái chiều, lịch sử khái niệm, trường phái khác nhau và câu hỏi mở. Nó có thể yêu cầu người học tạo knowledge map, giải thích vì sao chọn nguồn này, hoặc so sánh hai lập luận trước khi viết kết luận.

Trong học AI, lập trình, thiết kế, khoa học dữ liệu hoặc maker learning, người học thường tiến bộ qua tài liệu mở, diễn đàn, repository, mentor và peer review. AI có thể làm người mới vào cộng đồng dễ hơn bằng cách giải thích thuật ngữ và gợi tài nguyên. Nhưng nếu AI lọc quá mạnh, người học có thể bị kẹt trong vùng an toàn của gợi ý cá nhân hóa.

Các nghiên cứu AIED gần đây cho thấy lĩnh vực này mở rộng nhanh nhưng vẫn thiếu kết nối chặt giữa công nghệ, lý thuyết học tập và kết quả dài hạn. Mustafa và cộng sự đề xuất cần agenda nghiên cứu rõ hơn về hiệu quả, ethics, equity, transparency và design context (Mustafa et al., 2024).

Bloom, ICAP và độ sâu tương tác

Bloom và ICAP giúp tránh một lỗi phổ biến: nhầm hoạt động với học sâu. Một bài học có nhiều click, animation, chatbot và câu hỏi trắc nghiệm chưa chắc tạo tư duy bậc cao. Một cuộc đối thoại với AI dài cũng chưa chắc là học sâu nếu người học chỉ nhận câu trả lời và copy lại.

Bloom hữu ích khi thiết kế mục tiêu. Với nhớ-hiểu, AI có thể tạo câu hỏi truy hồi, ví dụ và phản ví dụ. Với áp dụng-phân tích, AI nên đưa tình huống mới, yêu cầu tách giả định, quan hệ nhân quả và bằng chứng. Với đánh giá-sáng tạo, AI nên buộc người học dùng tiêu chí, tạo bản nháp, nhận critique, sửa và bảo vệ quyết định.

Elim đề xuất tích hợp Bloom’s Taxonomy vào môi trường học có AI để thúc đẩy questioning và reflection, đặc biệt khi người học dùng generative AI (Elim, 2024). Điều này có ý nghĩa thực tế: cùng một chatbot, câu hỏi “giải thích cho em” thường tạo hoạt động nhận thức thấp hơn câu hỏi “hãy đưa ba giả thuyết, yêu cầu em chọn một, rồi phản biện lựa chọn của em dựa trên tiêu chí”.

ICAP còn sắc hơn khi nhìn hành vi. Passive là đọc hoặc nghe AI trả lời. Active là highlight, chọn, điền, lặp lại. Constructive là tự tạo giải thích, tóm tắt, câu hỏi, sơ đồ hoặc lời giải mới. Interactive là đối thoại thật, trong đó người học và người khác cùng xây dựng ý tưởng. Nếu AI chỉ làm người học passive nhanh hơn, nó không giúp nhiều. Nếu AI kéo người học sang constructive và interactive, nó có giá trị sư phạm cao hơn.

Một nghiên cứu năm 2024 về generative AI với sinh viên kinh doanh dùng ICAP và Self-Determination Theory cho thấy cách tích hợp công nghệ có liên hệ với động lực và kết quả học tập, đồng thời vai trò của epistemic curiosity là đáng chú ý (Jin et al., 2024). Không nên đọc kết quả này như lời hứa phổ quát rằng GenAI luôn tăng thành tích. Nên đọc nó như bằng chứng rằng chất lượng hoạt động nhận thức và động lực trung gian quan trọng hơn bản thân công cụ.

Khi đánh giá một hoạt động AI, câu hỏi quan trọng không phải “có AI không?” mà là “AI đẩy người học lên tầng nhận thức nào?” Lấy đáp án rồi nộp là passive outsourcing. So sánh câu trả lời của AI, tìm lỗi, đối chiếu nguồn và giải thích tiêu chí là constructive. Dùng AI để chuẩn bị bằng chứng rồi tranh luận với người khác là interactive.

Thực trạng triển khai

Thực tế triển khai AI trong giáo dục thường pha trộn nhiều lý thuyết nhưng không nói rõ. Adaptive learning dùng behaviorism và cognitivism. Chatbot tutor dùng cognitivism, social constructivism và đôi khi Socratic questioning. Simulation dùng constructivism. Learning communities dùng connectivism và social constructivism. Vấn đề không phải pha trộn, mà là pha trộn thiếu ý thức.

Ogunleye và cộng sự systematic review về generative AI cho teaching and learning practice ghi nhận cơ hội ở personalized support, content generation, feedback và efficiency, nhưng cũng nêu các thách thức về ethics, bias, academic integrity, data privacy và thiếu guideline rõ (Ogunleye et al., 2024). Wang, Wang và Su tổng quan affordances và thách thức của GenAI trong giáo dục, chỉ ra tiềm năng hỗ trợ học cá nhân hóa, tạo nội dung và interaction, đồng thời cảnh báo về hallucination, bias, over-reliance và đánh giá (Wang et al., 2024).

Một pattern thường gặp là công nghệ mới được gắn với mục tiêu cao, nhưng hoạt động thật lại nằm ở tầng thấp. Trường nói muốn phát triển critical thinking, nhưng dùng AI để tạo quiz nhớ-hiểu. Khóa học nói muốn inquiry, nhưng dùng chatbot để trả lời câu hỏi thay vì giúp học sinh thiết kế điều tra.

Vì vậy, khi đọc bằng chứng triển khai, cần nhìn ba lớp: learning outcome như điểm, transfer và retention; process evidence như câu hỏi, bản sửa, giải thích và tương tác; equity và dependency như nhóm nào hưởng lợi, nhóm nào bị bỏ lại, kỹ năng nào bị ủy quyền quá mức cho AI.

Phân tích phản biện

Rủi ro đầu tiên là dùng lý thuyết như nhãn trang trí. Một sản phẩm có thể nói “constructivist” vì có sandbox, nhưng nếu sandbox không có mục tiêu, phản hồi và reflection, người học chỉ đang chơi với giao diện. Một chatbot có thể nói “Socratic” vì hỏi nhiều câu, nhưng nếu câu hỏi dẫn người học về một đáp án định trước mà không xử lý hiểu lầm thật, nó chỉ là programmed instruction dạng hội thoại.

Rủi ro thứ hai là cực đoan hóa một lý thuyết. Behaviorism không xấu; nó rất hữu ích cho fluency. Nhưng nếu mọi học tập bị rút thành reinforcement, giáo dục nghèo đi. Constructivism không phải lúc nào cũng tốt; với người mới, khám phá quá mở có thể gây quá tải. Social learning rất mạnh, nhưng nhóm không được thiết kế có thể tạo social loafing và bất bình đẳng. Connectivism cần năng lực lọc nguồn; nếu không, người học chỉ trôi trong thông tin.

Rủi ro thứ ba là nhầm cá nhân hóa với học tốt. AI có thể cá nhân hóa đường đi, nhưng đường đi đó vẫn có thể dẫn đến mục tiêu nông. Một hệ thống biết người học yếu dạng bài nào và cho thêm bài tương tự là hữu ích, nhưng chưa đủ. Cá nhân hóa sâu hơn phải biết khi nào cần ví dụ, khi nào cần phản biện, khi nào cần cộng tác, khi nào cần tự giải thích và khi nào cần dừng hỗ trợ.

Rủi ro thứ tư là quên vai trò của giáo viên. AI có thể mở rộng feedback, tutoring và scaffold, nhưng giáo viên vẫn là người đọc bối cảnh, điều chỉnh mục tiêu, tạo chuẩn mực, xử lý quan hệ và quyết định điều gì đáng học.

Nguyên tắc thiết kế

Nguyên tắc đầu tiên: ghi rõ giả thuyết học tập trước khi chọn công nghệ. Nếu mục tiêu là fluency, drill có phản hồi nhanh hợp lý. Nếu mục tiêu là conceptual understanding, cần giải thích, ví dụ, phản ví dụ và mental model. Nếu mục tiêu là inquiry, cần dự đoán, thử nghiệm và reflection. Nếu mục tiêu là critical thinking, cần tiêu chí, bằng chứng, phản biện và lập luận.

Nguyên tắc thứ hai: dùng AI để tăng chất lượng hoạt động nhận thức, không chỉ tăng tốc. Một câu trả lời nhanh có thể hữu ích, nhưng học sâu thường cần dự đoán, truy hồi, tự giải thích, so sánh, sửa lỗi, tranh luận và transfer. Thiết kế nên yêu cầu người học làm một phần tư duy trước khi nhận hỗ trợ.

Nguyên tắc thứ ba: scaffold phải rút dần. Nếu AI luôn gợi prompt, sửa câu, đưa cấu trúc, chọn nguồn và viết kết luận, người học không tiến bộ về tự chủ. Hệ thống cần giảm hỗ trợ khi người học đã làm được, hoặc chuyển hỗ trợ từ lời giải sang câu hỏi metacognitive.

Nguyên tắc thứ tư: đo cả quá trình, không chỉ sản phẩm cuối. Trong thời AI, sản phẩm cuối có thể đẹp hơn năng lực thật. Cần xem bản nháp, lịch sử sửa, giải thích, oral defense, process log, phản tư và khả năng làm lại trong bối cảnh mới.

Nguyên tắc thứ năm: thiết kế cho nhiều lý thuyết nhưng tránh lẫn lộn. Một bài học tốt có thể bắt đầu bằng retrieval practice, chuyển sang worked example, mở inquiry nhỏ, cho thảo luận nhóm, rồi kết thúc bằng reflection. Mỗi pha cần mục tiêu rõ và bằng chứng phù hợp.

Nguyên tắc thứ sáu: luôn hỏi kỹ năng nào đang được phát triển và kỹ năng nào đang bị ủy quyền. AI có thể viết, tính, tóm tắt, dịch, tìm nguồn và phản biện. Không phải ủy quyền nào cũng xấu, nhưng ủy quyền vô thức có thể làm teo đúng năng lực mà chương trình muốn xây.

Tổng kết chương

AI không xóa các lý thuyết học tập cũ. Nó làm chúng hiện rõ hơn. Behaviorism xuất hiện trong drill và feedback. Cognitivism xuất hiện trong chú ý, tải nhận thức và mental model. Constructivism xuất hiện trong simulation, inquiry và project. Social constructivism xuất hiện trong scaffolding, ZPD và cộng đồng học tập. Connectivism xuất hiện trong knowledge graph, nguồn mở và mạng tri thức. Bloom và ICAP giúp phân biệt hoạt động nông với hoạt động nhận thức sâu.

Có năm điểm cần giữ lại. Thứ nhất, mọi hệ thống AI đều có giả định sư phạm. Thứ hai, bằng chứng phải gắn với cơ chế học tập: feedback giúp gì, scaffold rút ra sao, interaction sâu đến mức nào. Thứ ba, cá nhân hóa không đủ nếu mục tiêu học nông. Thứ tư, AI hỗ trợ học sâu khi buộc người học dự đoán, giải thích, phản biện, tạo sản phẩm và đối thoại. Thứ năm, rủi ro lớn nhất không phải AI sai một câu, mà là AI làm người học ít phải suy nghĩ đúng phần cần suy nghĩ.

Chương 13 sẽ đi sâu vào một vùng cụ thể của cognitivism: trí nhớ, truy hồi và tinh thông. Nếu chương này là bản đồ lý thuyết, chương sau hỏi rất thực tế: hệ thống AI nên thiết kế luyện tập, spaced repetition, interleaving, mastery và reflection như thế nào để người học thật sự nhớ, dùng được và chuyển giao được?

Tài liệu tham khảo

Albadarin, Y., Saqr, M., Pope, N., & Tukiainen, M. (2024). A systematic literature review of empirical research on ChatGPT in education. Discover Education, 3, 60. https://doi.org/10.1007/s44217-024-00138-2

Almasri, F. (2024). Exploring the impact of artificial intelligence in teaching and learning of science: A systematic review of empirical research. Research in Science Education, 54, 977-997. https://doi.org/10.1007/s11165-024-10176-3

Anderson, L. W., & Krathwohl, D. R. (Eds.). (2001). A Taxonomy for Learning, Teaching, and Assessing: A Revision of Bloom's Taxonomy of Educational Objectives. Longman.

Bloom, B. S. (Ed.). (1956). Taxonomy of Educational Objectives: The Classification of Educational Goals. Longmans, Green.

Brummer, L., de Boer, H., Mouw, J. M., & Strijbos, J.-W. (2024). A meta-analysis of the effects of context, content, and task factors of digitally delivered instructional feedback on learning performance. Learning Environments Research, 27, 453-476. https://doi.org/10.1007/s10984-024-09501-4

Chi, M. T. H., & Wylie, R. (2014). The ICAP framework: Linking cognitive engagement to active learning outcomes. Educational Psychologist, 49(4), 219-243. https://doi.org/10.1080/00461520.2014.965823

Elim, E. H. S. Y. (2024). Promoting cognitive skills in AI-supported learning environments: The integration of Bloom's taxonomy. Education 3-13, 52(5), 612-622. https://doi.org/10.1080/03004279.2024.2332469

Jin, S. V., et al. (2024). Enhancing academic performance of business students using generative AI: An interactive-constructive-active-passive (ICAP) self-determination perspective. The International Journal of Management Education, 22(2), 100958. https://doi.org/10.1016/j.ijme.2024.100958

Mayer, R. E. (2021). Multimedia Learning (3rd ed.). Cambridge University Press.

Mertala, P., et al. (2024). Artificial intelligence for teaching and learning in schools: The need for pedagogical intelligence. Computers & Education, 217, 105071. https://doi.org/10.1016/j.compedu.2024.105071

Mustafa, M. Y., Tlili, A., Lampropoulos, G., et al. (2024). A systematic review of literature reviews on artificial intelligence in education (AIED): A roadmap to a future research agenda. Smart Learning Environments, 11, 59. https://doi.org/10.1186/s40561-024-00350-5

Ogunleye, B., Zakariyyah, K. I., Ajao, O., Olayinka, O., & Sharma, H. (2024). A systematic review of generative AI for teaching and learning practice. Education Sciences, 14(6), 636. https://doi.org/10.3390/educsci14060636

Piaget, J. (1970). Science of Education and the Psychology of the Child. Orion Press.

Siemens, G. (2005). Connectivism: A learning theory for the digital age. International Journal of Instructional Technology and Distance Learning, 2(1), 3-10.

Skinner, B. F. (1958). Teaching machines. Science, 128(3330), 969-977. https://doi.org/10.1126/science.128.3330.969

Sweller, J. (1988). Cognitive load during problem solving: Effects on learning. Cognitive Science, 12(2), 257-285. https://doi.org/10.1207/s15516709cog1202_4

Vygotsky, L. S. (1978). Mind in Society: The Development of Higher Psychological Processes. Harvard University Press.

Wan Hamedi, W. H., Awang Ali, F. D., Abdullah, W. Y., Ab Hamid, H., Mohammad Shuhaimi, N. I., & Mohamad Amir, M. (2025). AI as a digital scaffold: An integrative review of Vygotsky's Zone of Proximal Development in modern education. International Journal of Modern Education, 7(26). https://doi.org/10.35631/IJMOE.726038

Wang, N., Wang, X., & Su, Y.-S. (2024). Critical analysis of the technological affordances, challenges and future directions of Generative AI in education: A systematic review. Asia Pacific Journal of Education, 44(1), 139-155. https://doi.org/10.1080/02188791.2024.2305156

Zhai, C., Wibowo, S., & Li, L. D. (2024). The effects of over-reliance on AI dialogue systems on students' cognitive abilities: A systematic review. Smart Learning Environments, 11, 28. https://doi.org/10.1186/s40561-024-00316-7

Chương 13: Trí nhớ, truy hồi và tinh thông

Bối cảnh / Vấn đề

Trong giáo dục hiện đại, trí nhớ thường bị hiểu nhầm. Một bên xem trí nhớ như học vẹt, đối lập với tư duy sâu. Bên kia biến trí nhớ thành luyện quiz vô tận, như thể nhớ được là đã hiểu. Cả hai đều bỏ qua một sự thật căn bản: người học không thể suy luận, sáng tạo, phản biện hay chuyển giao nếu không có tri thức đủ sẵn trong trí nhớ dài hạn. Tư duy bậc cao không lơ lửng trên không; nó cần vật liệu.

AI làm vấn đề này sắc hơn. Khi người học có thể hỏi chatbot để lấy định nghĩa, công thức, ví dụ, bản tóm tắt và lời giải, một câu hỏi dễ xuất hiện: còn cần nhớ gì nữa? Câu trả lời không phải là “nhớ tất cả như trước”, nhưng cũng không phải “không cần nhớ vì đã có AI”. Nếu người học không có nền tri thức bên trong, họ khó biết câu trả lời AI sai ở đâu, nguồn nào đáng tin, ví dụ nào phù hợp, lập luận nào yếu, và khi nào cần hỏi tiếp. AI làm truy cập thông tin rẻ hơn, nhưng không làm hiểu biết bên trong trở nên thừa.

Chương 12 đã đặt AI dưới ánh sáng các lý thuyết học tập. Chương này đi sâu vào một vùng cụ thể của cognitivism: trí nhớ, truy hồi, luyện tập, transfer và tinh thông. Đây là vùng EdTech có nhiều bằng chứng thực nghiệm nhất, nhưng cũng là vùng dễ bị sản phẩm hóa nông nhất. Flashcard, spaced repetition, adaptive quiz, mastery path, AI tutor và dashboard tiến độ đều có thể giúp học tốt hơn. Chúng cũng có thể biến học tập thành chuỗi câu hỏi ngắn, điểm số và huy hiệu, nếu thiếu thiết kế sư phạm.

Câu hỏi của chương này là: hệ thống AI nên giúp người học nhớ, dùng và chuyển giao tri thức như thế nào? Không chỉ “ôn lại đúng lúc”, mà là truy hồi đúng cách, lặp lại đúng khoảng, trộn dạng bài đúng mức, luyện đến mức tinh thông thật, và phản tư đủ sâu để người học biết mình đang tiến bộ ở đâu.

Nền tảng lý thuyết

Trí nhớ không phải kho chứa tĩnh. Nó là hệ thống mã hóa, lưu giữ, truy hồi, tái cấu trúc và sử dụng tri thức. Khi người học đọc lại tài liệu, họ thường cảm thấy quen thuộc. Nhưng cảm giác quen thuộc không đồng nghĩa với khả năng nhớ lại. Đây là lý do retrieval practice có sức mạnh: hành động cố gắng gọi lại thông tin từ trí nhớ làm đường truy hồi mạnh hơn và giúp người học phát hiện điều mình chưa thật sự biết.

Roediger và Karpicke cho thấy testing effect không chỉ là công cụ đo lường mà còn là công cụ học tập; trong các thí nghiệm kinh điển, người học thực hành truy hồi có thể nhớ lâu hơn người chỉ học lại tài liệu, dù lúc đầu cảm thấy khó hơn (Roediger & Karpicke, 2006). Agarwal, Nunes và Blunt tổng quan nghiên cứu ứng dụng trong trường học và lớp học, kết luận retrieval practice nhất quán đem lại lợi ích cho học tập, dù hiệu quả phụ thuộc vào cách triển khai, loại câu hỏi, phản hồi và thời điểm kiểm tra (Agarwal et al., 2021).

Distributed practice hoặc spaced repetition dựa trên một nguyên lý khác: học được phân bố theo thời gian thường tốt hơn học dồn. Cepeda và cộng sự meta-analysis về distributed practice cho thấy khoảng cách giữa các lần học ảnh hưởng mạnh đến khả năng nhớ lâu, và khoảng cách tối ưu phụ thuộc vào thời điểm người học cần dùng lại kiến thức (Cepeda et al., 2006). Trong giáo dục y khoa và các ngành sức khỏe, Trumble và cộng sự tổng quan distributed practice và retrieval practice, cho thấy hai chiến lược này có cơ sở mạnh nhưng cần triển khai phù hợp với lịch học, áp lực chương trình và loại năng lực cần phát triển (Trumble et al., 2024).

Interleaving liên quan đến việc trộn dạng bài hoặc chủ đề thay vì luyện theo block. Khi người học luyện 20 bài cùng một dạng, họ có thể học cách áp dụng công thức ngay trước mắt. Khi các dạng bị trộn, họ phải học cách nhận diện vấn đề: bài này thuộc loại nào, dấu hiệu nào quan trọng, chiến lược nào phù hợp. Nghiên cứu về contextual interference trong motor learning và skill learning cho thấy practice schedule có thể làm giai đoạn luyện tập khó hơn nhưng cải thiện retention hoặc transfer trong một số điều kiện (Czyż et al., 2024; Ammar et al., 2024). Ý nghĩa trong EdTech là rõ: hệ thống không nên tối ưu cảm giác trơn tru trong lúc luyện, mà phải tối ưu khả năng dùng kiến thức sau này.

Mastery learning bắt đầu từ một quan sát đơn giản nhưng mạnh: nếu thời gian, phản hồi và cơ hội sửa khác nhau, phân bố thành tích sẽ khác. Bloom lập luận rằng với tutoring, feedback và corrective instruction tốt, nhiều người học có thể đạt mức thành tích cao hơn so với lớp học truyền thống một-nhiều (Bloom, 1984). AI làm ý tưởng này hấp dẫn hơn vì nó giảm chi phí chấm, chữa, phân nhánh và luyện lại. Nhưng mastery không phải làm quiz đến khi đúng. Mastery phải bao gồm hiểu khái niệm, fluency, khả năng giải thích, nhận diện dạng bài, sửa lỗi, và transfer sang bối cảnh mới.

Retrieval như xương sống của luyện tập

Hệ thống học tốt khiến người học nhớ lại trước khi xem lại. Đây là nguyên tắc tưởng nhỏ nhưng thay đổi toàn bộ thiết kế. Nếu người học mở bài và thấy ngay tóm tắt, ví dụ, lời giải, video hoặc câu trả lời AI, họ đang tiếp nhận. Nếu hệ thống hỏi trước: “Em còn nhớ ba ý chính là gì?”, “Hãy viết công thức trước khi xem lại”, “Dự đoán bước tiếp theo”, “Giải thích khái niệm này bằng lời của em”, người học phải truy hồi.

Retrieval practice không chỉ là trắc nghiệm. Trắc nghiệm có thể hữu ích, nhưng dạng câu hỏi quyết định chất lượng truy hồi. Multiple-choice question giúp nhận diện đáp án và có lợi khi thiết kế tốt, nhưng cũng có thể cho gợi ý quá nhiều. Short-answer hoặc free recall buộc người học tự sinh câu trả lời, thường khó hơn và có thể bộc lộ lỗ hổng rõ hơn. Một nghiên cứu BMC Medical Education năm 2024 so sánh very short answer questions và multiple-choice questions trong retrieval practice, cho thấy câu hỏi định dạng khác nhau tạo trải nghiệm truy hồi khác nhau và vấn đề chọn format cần gắn với mục tiêu retention, feedback và tính khả thi (Boon et al., 2024).

AI mở rộng retrieval practice theo ba cách. Thứ nhất, nó có thể tạo câu hỏi đa dạng từ cùng một nội dung, ở nhiều mức Bloom khác nhau. Thứ hai, nó có thể chấm câu trả lời mở, phát hiện thiếu ý và đưa phản hồi. Thứ ba, nó có thể hội thoại để đào sâu: “Em nói đúng phần định nghĩa, nhưng thiếu điều kiện áp dụng. Điều kiện đó là gì?” Tuy nhiên, AI cũng dễ làm retrieval yếu đi nếu nó gợi quá nhiều, sửa quá nhanh hoặc biến câu hỏi thành cuộc trò chuyện nơi người học chỉ xác nhận.

Một thiết kế retrieval tốt nên có bốn bước. Bước đầu là truy hồi không hỗ trợ: người học tự trả lời trước. Bước hai là confidence rating: người học đánh dấu mức chắc chắn. Bước ba là phản hồi có giải thích: không chỉ đúng/sai, mà chỉ ra vì sao. Bước bốn là sửa câu trả lời: người học viết lại bằng lời của mình. Cách này kết hợp retrieval, metacognition và elaboration.

Nghiên cứu constructive retrieval năm 2024 cho thấy kết hợp truy hồi với prompt kiến tạo có thể tăng comprehension và metacognitive monitoring; self-generated elaborations, chứ không chỉ ví dụ được cung cấp sẵn, đóng vai trò quan trọng trong lợi ích học tập (Endres et al., 2024). Điều này rất quan trọng cho AI: nếu AI tạo hết elaboration, người học mất phần xử lý sâu. AI nên yêu cầu người học tự sinh ví dụ, rồi mới phản hồi chất lượng ví dụ đó.

Trong thực tế lớp học, retrieval nên xuất hiện ở nhiều nhịp: đầu bài để gọi lại kiến thức nền, giữa bài để kiểm tra hiểu, cuối bài để củng cố, ngày hôm sau để chống quên, tuần sau để duy trì và trước bài mới để kết nối. Hệ thống AI có thể tự động hóa lịch hỏi, nhưng giáo viên vẫn cần quyết định điều gì đáng truy hồi. Không phải mọi chi tiết đều cần biến thành flashcard. Thứ đáng truy hồi là tri thức có vai trò trong hiểu sâu và dùng sau này: khái niệm lõi, nguyên lý, điều kiện áp dụng, lỗi phổ biến, ví dụ phản ví dụ, quy trình và chiến lược.

Spaced repetition trong hệ thống thật

Spaced repetition thường được hiểu như thuật toán nhắc lại flashcard đúng lúc. Đây là ứng dụng phổ biến, nhưng nếu hiểu quá hẹp, ta bỏ lỡ bản chất của spacing. Mục tiêu không phải chỉ là làm thẻ nhớ hiện lại khi sắp quên. Mục tiêu là tạo những lần gặp lại có nỗ lực, đủ xa để người học phải truy hồi, đủ gần để chưa mất hoàn toàn, và đủ gắn với ngữ cảnh để tri thức không bị đóng băng trong một câu hỏi duy nhất.

Trong một hệ thống thật, spacing có bốn ràng buộc. Thứ nhất là mục tiêu học: nhớ từ vựng, giải phương trình, đọc phim X-quang, chẩn đoán lâm sàng hay viết lập luận không dùng cùng lịch lặp. Thứ hai là thời điểm cần dùng: thi ngày mai khác với năng lực cần sau ba tháng. Thứ ba là độ khó và lịch sử quên của cá nhân. Thứ tư là tải chương trình: nếu hệ thống nhắc lại quá nhiều, người học bị ngập trong backlog và bỏ cuộc.

AI có thể giúp spacing tốt hơn bằng cách mô hình hóa xác suất quên, chọn thời điểm nhắc, trộn câu hỏi cũ với nội dung mới, và điều chỉnh theo confidence, thời gian trả lời, lỗi sai, mức gợi ý đã dùng. Nhưng dữ liệu hành vi không phải lúc nào cũng nói đúng trí nhớ. Người học trả lời nhanh có thể vì biết thật, đoán đúng, hoặc nhận ra mẫu câu hỏi. Người học trả lời chậm có thể vì suy nghĩ sâu, mệt, hoặc bị phân tâm. Vì vậy, spaced repetition cần kết hợp tín hiệu định lượng với thiết kế câu hỏi tốt.

Một lỗi phổ biến của app spaced repetition là tách kiến thức khỏi ngữ cảnh. Người học nhớ mặt trước-mặt sau của thẻ, nhưng không nhận ra khái niệm trong tình huống mới. Với ngoại ngữ, họ nhớ nghĩa từ nhưng không dùng được trong câu. Với y khoa, họ nhớ dấu hiệu bệnh nhưng không phân biệt được ca gần giống. Với toán, họ nhớ công thức nhưng không biết khi nào áp dụng. Để tránh điều này, mỗi đơn vị ôn tập nên có biến thể: định nghĩa, ví dụ, phản ví dụ, bài áp dụng, câu hỏi giải thích và tình huống transfer.

Trong các ngành sức khỏe, nơi khối lượng tri thức lớn và hậu quả quên cao, distributed practice và retrieval practice được xem như chiến lược có giá trị, nhưng review của Trumble và cộng sự cũng cho thấy nghiên cứu triển khai còn khác nhau về thiết kế, outcome và tính bền trong chương trình thật (Trumble et al., 2024). Điều này nhắc rằng thuật toán lặp lại không đủ. Spacing phải sống trong lịch học, lịch kiểm tra, năng lực giáo viên, mục tiêu chương trình và động lực người học.

Một hệ thống AI tốt nên cho người học thấy vì sao một nội dung quay lại. Không cần trình bày công thức thuật toán phức tạp, nhưng có thể nói: “Khái niệm này em từng trả lời đúng nhưng confidence thấp”, “Em sai dạng này hai lần khi bài bị đổi ngữ cảnh”, “Đã 10 ngày từ lần truy hồi cuối”, hoặc “Bài mới hôm nay cần lại nguyên lý này”. Khi người học hiểu logic ôn tập, spaced repetition trở thành công cụ metacognition, không chỉ là thông báo.

Interleaving và transfer

Interleaving làm học khó hơn trong ngắn hạn. Người học thích luyện theo block vì cảm giác tiến bộ nhanh: 10 bài cùng một dạng tạo fluency bề mặt. Nhưng thế giới thật hiếm khi thông báo trước: “đây là bài dùng định lý A”. Người học phải nhận diện vấn đề trước khi giải. Đây là nơi interleaving có giá trị.

Trong toán, block practice có thể là luyện 20 bài đạo hàm cùng một quy tắc. Interleaving trộn đạo hàm tích, đạo hàm hợp, giới hạn, tối ưu và bài có dữ kiện nhiễu. Trong ngoại ngữ, block practice có thể là 20 câu thì quá khứ đơn. Interleaving trộn quá khứ đơn, hiện tại hoàn thành, câu điều kiện và diễn đạt thời gian. Trong y khoa, block practice là học từng bệnh riêng. Interleaving là phân biệt các ca có triệu chứng gần nhau. Mục tiêu không chỉ là làm đúng, mà là biết vì sao bài này cần chiến lược này.

Bằng chứng về contextual interference cho thấy tranh luận vẫn còn, nhất là khi chuyển từ motor learning sang cognitive learning. Meta-analysis năm 2024 trong Scientific Reports cho thấy high contextual interference có thể cải thiện retention trong motor learning, còn review trên Frontiers năm 2024 bàn riêng về transfer và chỉ ra hiệu ứng phụ thuộc mạnh vào nhiệm vụ, mức kỹ năng và thiết kế thực nghiệm (Czyż et al., 2024a; Czyż et al., 2024b). Ammar và cộng sự cũng nhấn mạnh cần đọc contextual interference một cách thận trọng, vì lợi ích không đồng đều trong mọi loại kỹ năng (Ammar et al., 2024).

Với EdTech, kết luận thực dụng là: interleaving nên được dùng có liều lượng. Người mới cần ví dụ rõ và một số block practice để hình thành schema ban đầu. Nếu trộn quá sớm, họ có thể quá tải. Khi người học đã có nền, hệ thống nên tăng dần interleaving để buộc phân biệt. Đây là nơi AI có thể làm tốt: không chỉ chọn bài khó hơn, mà chọn bài “gần giống nhưng khác bản chất” để người học học cách nhận dạng.

AI cũng có thể tạo bài transfer. Sau khi người học học nguyên lý trong một ngữ cảnh, hệ thống đưa sang ngữ cảnh khác: từ bài toán số sang tình huống lời văn, từ ví dụ vật lý sang đời sống, từ phân tích văn bản sang bài viết mới, từ case y khoa điển hình sang case nhiễu. Nhưng transfer không nên chỉ là “bài khó hơn”. Nó cần reflection: điều gì giống, điều gì khác, tín hiệu nào khiến em chọn chiến lược này, nếu dùng chiến lược cũ thì sai ở đâu?

Một dashboard tốt không chỉ báo “đúng 85% dạng A”. Nó nên báo: “Khi bài thuộc block A, em làm tốt; khi trộn với B và C, em nhầm dấu hiệu nhận dạng.” Đây là insight sư phạm. Nó cho thấy vấn đề không nằm ở công thức, mà ở phân loại tình huống. AI có thể giúp phát hiện loại lỗi này nếu dữ liệu bài tập được gắn tag theo khái niệm, chiến lược, bẫy nhận dạng và ngữ cảnh.

Mastery learning

Mastery learning hấp dẫn với EdTech vì nó hứa hẹn một điều nhân văn: người học không bị bỏ lại chỉ vì lớp phải đi tiếp. Nếu chưa hiểu, hệ thống phát hiện, phản hồi, cho luyện lại và chỉ chuyển bước khi đạt chuẩn. AI càng làm lời hứa này mạnh hơn vì chi phí phản hồi và cá nhân hóa giảm. Nhưng mastery learning cũng dễ bị hiểu sai thành “làm quiz đến khi đạt 80%”.

Mastery thật cần định nghĩa chuẩn thành thạo. Với một kỹ năng đơn giản, chuẩn có thể là đúng nhanh và ổn định. Với một khái niệm, chuẩn phải gồm giải thích, ví dụ, phản ví dụ và áp dụng. Với năng lực phức hợp, chuẩn phải gồm sản phẩm, lập luận, phản tư và transfer. Một hệ thống chỉ dùng điểm trắc nghiệm làm ngưỡng mastery có nguy cơ cho người học đi tiếp khi họ mới nhận dạng được mẫu.

Bloom’s 2 sigma problem thường được trích dẫn để nói tutoring hiệu quả hơn lớp học truyền thống, nhưng bài học sâu hơn không phải “hãy thay lớp bằng tutor”. Bài học là feedback cá nhân, corrective instruction, thời gian linh hoạt và kỳ vọng cao có thể thay đổi phân bố kết quả (Bloom, 1984). AI có thể hỗ trợ bốn yếu tố đó, nhưng chỉ khi hệ thống biết lỗi nào cần chữa bằng ví dụ, lỗi nào cần luyện thêm, lỗi nào cần quay lại khái niệm nền, lỗi nào cần giáo viên can thiệp.

Trong toán, một người học sai phương trình bậc nhất có thể vì tính toán nhầm, không hiểu phép biến đổi hai vế, đọc sai đề, hoặc lo âu khi thấy ký hiệu. Bốn nguyên nhân này cần bốn hỗ trợ khác nhau. Nếu AI chỉ cho thêm 10 bài tương tự, mastery path trở thành vòng lặp mù. Intelligent tutoring systems trong toán đã cố gắng mô hình hóa kiến thức, lỗi sai và bước giải; review năm 2024 về ITS trong giáo dục toán cho thấy lĩnh vực này có nhiều tiềm năng, nhưng mức độ chuyển đổi sư phạm phụ thuộc vào cách hệ thống vượt khỏi thay thế bài tập truyền thống để hỗ trợ hiểu và phản hồi sâu hơn (Son, 2024).

Mastery learning cũng phải xử lý động lực. Người học bị giữ lại ở một “level” quá lâu có thể thấy bị phạt. Người học giỏi có thể thấy hệ thống chậm. Người học yếu có thể bị mắc trong vòng lặp remedial thiếu ý nghĩa. Vì vậy, mastery path nên có nhiều đường: ôn lại khái niệm, xem worked example, hỏi gợi ý, giải bài dễ hơn, làm bài ứng dụng có hỗ trợ, gặp giáo viên, hoặc chuyển sang dự án nhỏ rồi quay lại kỹ năng nền.

AI có thể giúp mastery bằng explainable adaptation. Nếu hệ thống đề xuất quay lại bài cũ, người học nên biết lý do. Nghiên cứu meta-analysis năm 2024 về explainable AI trong adaptive learning cho thấy XAI có thể cải thiện học tập ở mức vừa phải, đặc biệt ở các chiều cognitive và metacognitive, nhưng hiệu quả phụ thuộc vào thiết kế lời giải thích và cách trình bày (Chen & Jia, 2024). Điều này gợi ý: adaptive learning không chỉ cần đúng về thuật toán, mà cần người học hiểu quyết định của hệ thống đủ để tự điều chỉnh.

Mastery cũng không nên làm mất nhịp xã hội của lớp. Nếu mỗi người học một đường hoàn toàn riêng, giáo viên khó tạo thảo luận chung và người học khó thấy mình thuộc cộng đồng. Một thiết kế cân bằng có thể cho cá nhân luyện nền khác nhau, nhưng vẫn có nhiệm vụ chung nơi mọi người dùng kiến thức ở mức phù hợp. Mastery không phải cô lập người học trong đường hầm cá nhân hóa.

Reflection và dynamic testing

Retrieval, spacing, interleaving và mastery đều cần reflection. Không có reflection, người học có thể làm nhiều nhưng không hiểu mình đang học thế nào. Reflection biến dữ liệu hành vi thành hiểu biết về bản thân: tôi thường sai loại nào, tôi tự tin quá mức ở đâu, tôi cần chiến lược gì, tôi đã tiến bộ ra sao, bước tiếp theo là gì.

Dynamic testing hoặc dynamic assessment khác kiểm tra tĩnh ở chỗ nó không chỉ hỏi người học biết gì hiện tại, mà xem họ học được gì khi có hỗ trợ. Một bài kiểm tra tĩnh có thể nói người học sai. Dynamic assessment hỏi thêm: với gợi ý mức 1, người học có tự sửa không? Với ví dụ tương tự, họ có chuyển sang bài mới không? Với phản hồi về lỗi, họ có tránh lỗi lần sau không? Cách nhìn này gần với ZPD hơn: năng lực không chỉ là điều làm được một mình, mà còn là khả năng phát triển dưới scaffold.

AI rất phù hợp với dynamic assessment vì nó có thể đưa gợi ý theo tầng và ghi lại đường học: không gợi ý, gợi ý nhẹ, gợi ý khái niệm, ví dụ tương tự, chỉ lỗi, giải từng bước. Nhưng phải cẩn thận: nếu gợi ý quá dễ, điểm số sau hỗ trợ không phản ánh năng lực độc lập. Vì vậy, hệ thống cần lưu “độ hỗ trợ” cùng với kết quả. Đúng sau ba gợi ý khác với đúng ngay lần đầu.

Learning analytics dashboards có thể hỗ trợ reflection nếu chúng thật sự xoay quanh học tập. Paulsen và Lindsay systematic review năm 2024 cho thấy learning analytics dashboards đang ngày càng hướng về học tập hơn là chỉ analytics, nhưng thiết kế vẫn cần chú ý người dùng, mục tiêu sư phạm và khả năng chuyển insight thành hành động (Paulsen & Lindsay, 2024). Một dashboard tốt không chỉ vẽ đường tiến độ. Nó giúp người học quyết định: hôm nay nên truy hồi gì, dạng nào cần interleaving, lỗi nào cần hỏi giáo viên, và tiến bộ nào là thật.

AI-powered learning analytics cho metacognition và socioemotional development cũng đang tăng. Pacheco và cộng sự systematic review năm 2025 cho thấy AI learning analytics có thể hỗ trợ phát triển metacognitive và socioemotional competencies, nhưng cần thiết kế cẩn trọng về dữ liệu, diễn giải và can thiệp (Pacheco et al., 2025). Với chương này, điểm quan trọng là: reflection không phải một hộp văn bản cuối bài. Nó là vòng lặp giữa hành động, dữ liệu, diễn giải và chiến lược mới.

Một hệ thống reflection tốt có thể hỏi sau mỗi phiên học: em đã dùng chiến lược nào? Em chắc câu nào nhưng sai? Câu nào em đúng nhờ đoán? Lỗi nào lặp lại? Em sẽ đổi cách học gì trong phiên sau? AI có thể tóm tắt pattern, nhưng người học phải tham gia diễn giải. Nếu AI nói “em yếu phần phân số”, người học có thể gật đầu. Nếu hệ thống hỏi “ba lỗi phân số gần nhất của em giống nhau ở điểm nào?”, người học bắt đầu metacognition.

Thực trạng triển khai

Trong thực tế, nhiều sản phẩm đã dùng các thành phần của chương này: flashcard spaced repetition, adaptive quiz, AI tutor, mastery path, dashboard tiến độ, learning analytics và automated feedback. Vấn đề là chúng thường được triển khai thành mảnh rời.

Flashcard app mạnh ở retrieval và spacing nhưng yếu ở transfer nếu thẻ quá đơn lẻ. Adaptive quiz mạnh ở điều chỉnh độ khó nhưng có thể bỏ qua giải thích và reflection. AI tutor mạnh ở hội thoại nhưng có thể trả lời quá nhanh, làm giảm nỗ lực truy hồi. Dashboard mạnh ở hiển thị tiến độ nhưng dễ trở thành bảng điểm nếu không gắn với chiến lược. Mastery path mạnh ở phân nhánh nhưng dễ biến mastery thành ngưỡng phần trăm.

Các tổng quan gần đây về adaptive learning cho thấy AI/ML có thể hỗ trợ cá nhân hóa đường học, engagement và kết quả học tập, nhưng vẫn có thách thức về privacy, độ phức tạp hệ thống và minh bạch (Gligorea et al., 2023). Tổng quan về AIED cũng nhấn mạnh cần nghiên cứu sâu hơn về effectiveness, equity, ethics và design context thay vì chỉ chứng minh công nghệ có thể hoạt động (Mustafa et al., 2024). Điều này phù hợp với thông điệp của chương: kỹ thuật cá nhân hóa chỉ có giá trị khi nó phục vụ cơ chế học đã được hiểu rõ.

Trong y khoa và radiology, các chiến lược như spaced learning, interleaving và retrieval practice đặc biệt hấp dẫn vì người học phải phân biệt nhiều ca gần giống và nhớ lâu trong môi trường áp lực. Một systematic review về radiology education năm 2023 xem xét spaced learning, interleaving và retrieval practice, cho thấy đây là các chiến lược có nền tảng bằng chứng để tăng retention trong lĩnh vực phức tạp, dù số lượng nghiên cứu và thiết kế triển khai vẫn cần mở rộng (Abdelrahman et al., 2023). Đây là ví dụ tốt cho EdTech: lĩnh vực càng phức tạp càng cần luyện nhận dạng, không chỉ ôn lại sự kiện.

Với GenAI, triển khai còn mới hơn. GenAI có thể tạo câu hỏi, phản hồi câu trả lời mở, đóng vai examiner, yêu cầu oral defense, tạo ca biến thể và tóm tắt lỗi. Nhưng GenAI cũng có thể làm người học né retrieval: thay vì cố nhớ, họ hỏi; thay vì tự giải thích, họ xin giải thích; thay vì tự sửa, họ dán bài vào để sửa. Vì vậy, GenAI nên được đặt sau nỗ lực ban đầu của người học. Câu lệnh thiết kế không phải “Ask AI anytime”, mà là “Try first, explain your attempt, then use AI to compare and improve.”

Phân tích phản biện

Ảo tưởng đầu tiên là “nếu có spaced repetition thì chắc chắn học tốt”. Spacing giúp retention, nhưng nó không tự quyết định nội dung nào đáng nhớ, câu hỏi có đo đúng không, và tri thức có chuyển sang bối cảnh mới không. Một app có thuật toán lặp tốt nhưng thẻ kém vẫn tạo học kém.

Ảo tưởng thứ hai là “retrieval practice là quiz nhiều hơn”. Quiz có thể là retrieval, nhưng retrieval sâu hơn quiz. Nó có thể là viết lại từ trí nhớ, vẽ sơ đồ, giải thích cho người khác, dự đoán kết quả, tự tạo ví dụ, hoặc làm bài mới không có gợi ý. Nếu hệ thống chỉ tăng số câu trắc nghiệm, nó có thể cải thiện điểm gần nhưng không chắc tạo hiểu sâu.

Ảo tưởng thứ ba là “mastery là đạt ngưỡng”. Ngưỡng điểm là tín hiệu, không phải định nghĩa của tinh thông. Mastery cần ổn định theo thời gian, bền dưới nhiễu, dùng được trong bối cảnh mới, và giải thích được. Một người học đạt 90% ngay sau khi luyện cùng một dạng chưa chắc đã mastery.

Ảo tưởng thứ tư là “AI biết chính xác người học quên gì”. Mô hình dự đoán quên dựa trên dữ liệu quan sát, không đọc trực tiếp trí nhớ. Dữ liệu có nhiễu, hành vi có nhiều nguyên nhân, và thuật toán có thể tối ưu sai mục tiêu. Vì vậy, adaptive learning cần kiểm chứng bằng outcome thật và phản hồi của người học, không chỉ accuracy của mô hình.

Ảo tưởng thứ năm là “khó hơn nghĩa là tốt hơn”. Retrieval, spacing và interleaving đều tạo desirable difficulties, nhưng khó quá sớm có thể làm người học quá tải hoặc bỏ cuộc. Độ khó mong muốn phải nằm trong vùng có thể nỗ lực, có phản hồi và có cơ hội sửa. Đây là nơi giáo viên và thiết kế sư phạm vẫn rất quan trọng.

Nguyên tắc thiết kế

Nguyên tắc đầu tiên: bắt đầu bằng truy hồi, không bắt đầu bằng xem lại. Mỗi bài học nên có khoảnh khắc người học gọi lại kiến thức trước khi nhận giải thích. AI có thể tạo prompt, nhưng người học cần tự trả lời trước.

Nguyên tắc thứ hai: phản hồi phải giúp sửa mô hình, không chỉ sửa đáp án. Phản hồi tốt nói lỗi nằm ở khái niệm, điều kiện áp dụng, bước suy luận, tính toán hay đọc đề. Meta-analysis về digital feedback cho thấy hiệu quả phụ thuộc vào trọng tâm phản hồi, loại nhiệm vụ, assessment type và learner control (Brummer et al., 2024), nên thiết kế feedback phải tinh hơn “đúng/sai”.

Nguyên tắc thứ ba: spacing phải đi với biến thể. Mỗi lần lặp lại nên thay đổi câu hỏi, ngữ cảnh hoặc yêu cầu nhận thức ở mức vừa đủ. Nếu người học chỉ nhớ mặt thẻ, hệ thống đang luyện nhận diện, không luyện hiểu.

Nguyên tắc thứ tư: interleaving cần tăng dần. Người mới cần block practice để hình thành schema. Khi schema đã có, hệ thống nên trộn dạng để luyện phân biệt. AI có thể chọn cặp bài dễ nhầm để làm rõ ranh giới khái niệm.

Nguyên tắc thứ năm: mastery phải có nhiều bằng chứng. Đúng nhanh, đúng sau thời gian, đúng khi trộn dạng, giải thích được, sửa lỗi được, và áp dụng được trong bối cảnh mới. Không nên dùng một ngưỡng phần trăm duy nhất.

Nguyên tắc thứ sáu: lưu mức hỗ trợ. Khi người học đúng, hệ thống cần biết đúng độc lập hay đúng sau gợi ý. Đây là điều kiện để dynamic assessment có ý nghĩa.

Nguyên tắc thứ bảy: dashboard phải dẫn đến hành động. Thay vì “em học 45 phút”, tốt hơn là “em thường nhầm hai dạng này”, “em tự tin quá mức ở chủ đề này”, “nên truy hồi lại ba khái niệm này trước bài mới”.

Nguyên tắc thứ tám: GenAI nên đến sau nỗ lực. Hệ thống nên yêu cầu người học dự đoán, giải thử, viết giải thích hoặc đánh dấu điểm kẹt trước khi AI cung cấp lời giải. AI càng mạnh, thiết kế càng cần bảo vệ phần suy nghĩ người học phải tự làm.

Tổng kết chương

Trí nhớ không đối lập với tư duy sâu. Nó là nền để tư duy sâu có vật liệu. Retrieval practice giúp người học củng cố đường truy hồi và nhận ra lỗ hổng. Spaced repetition chống quên nhưng phải gắn với mục tiêu và ngữ cảnh. Interleaving làm luyện tập khó hơn nhưng giúp nhận diện vấn đề và transfer. Mastery learning có giá trị khi mastery được hiểu là năng lực bền, linh hoạt và giải thích được, không chỉ đạt ngưỡng quiz. Reflection và dynamic assessment giúp người học thấy mình sai ở đâu, cần hỗ trợ gì và tiến bộ ra sao.

AI có thể làm những cơ chế này rẻ hơn, thường xuyên hơn và cá nhân hóa hơn. Nhưng AI cũng có thể làm chúng nông đi nếu nó tạo quá nhiều câu hỏi giống nhau, đưa đáp án quá nhanh, cá nhân hóa theo điểm gần nhất, hoặc thay người học làm phần truy hồi và phản tư. Thiết kế tốt không hỏi “AI có thể ôn bài hộ người học không?” mà hỏi “AI có thể buộc người học nhớ lại, phân biệt, giải thích, sửa sai và chuyển giao tốt hơn không?”

Chương 14 sẽ tiếp tục trong vùng cognitivism nhưng chuyển từ trí nhớ sang trải nghiệm: tải nhận thức, đa phương tiện, worked examples, signaling, segmenting và UX như một quyết định sư phạm. Nếu chương này nói về nhịp luyện tập theo thời gian, chương sau nói về hình dạng của trải nghiệm học trong từng khoảnh khắc.

Tài liệu tham khảo

Abdelrahman, S., et al. (2023). The effectiveness of spaced learning, interleaving, and retrieval practice in radiology education: A systematic review. Journal of the American College of Radiology, 20(11), 1092-1101. https://doi.org/10.1016/j.jacr.2023.08.028

Agarwal, P. K., Nunes, L. D., & Blunt, J. R. (2021). Retrieval practice consistently benefits student learning: A systematic review of applied research in schools and classrooms. Educational Psychology Review, 33, 1409-1453. https://doi.org/10.1007/s10648-021-09595-9

Ammar, A., Trabelsi, K., et al. (2024). The effects of contextual interference learning on the acquisition and relatively permanent gains in skilled performance: A critical systematic review with multilevel meta-analysis. Educational Psychology Review, 36, 57. https://doi.org/10.1007/s10648-024-09892-z

Bloom, B. S. (1984). The 2 sigma problem: The search for methods of group instruction as effective as one-to-one tutoring. Educational Researcher, 13(6), 4-16. https://doi.org/10.3102/0013189X013006004

Boon, M., et al. (2024). The battle of question formats: A comparative study of retrieval practice using very short answer questions and multiple choice questions. BMC Medical Education, 24, 1551. https://doi.org/10.1186/s12909-024-06538-0

Cepeda, N. J., Pashler, H., Vul, E., Wixted, J. T., & Rohrer, D. (2006). Distributed practice in verbal recall tasks: A review and quantitative synthesis. Psychological Bulletin, 132(3), 354-380. https://doi.org/10.1037/0033-2909.132.3.354

Chen, A.-X., & Jia, J.-Y. (2024). Does the explainable artificial intelligence help enhance the learning outcomes of adaptive learning? Meta-analysis based on 29 experiments and quasi-experiments. Modern Educational Technology, 34(10), 92-102. https://doi.org/10.3969/j.issn.1009-8097.2024.10.010

Czyż, S. H., Wójcik, A. M., Solarská, P., & Kiper, P. (2024a). High contextual interference improves retention in motor learning: Systematic review and meta-analysis. Scientific Reports, 14, 15974. https://doi.org/10.1038/s41598-024-65753-3

Czyż, S. H., Wójcik, A. M., & Solarská, P. (2024b). The effect of contextual interference on transfer in motor learning: A systematic review and meta-analysis. Frontiers in Psychology, 15, 1377122. https://doi.org/10.3389/fpsyg.2024.1377122

Endres, T., et al. (2024). Constructive retrieval: Benefits for learning, motivation, and metacognitive monitoring. Learning and Instruction, 94, 101974. https://doi.org/10.1016/j.learninstruc.2024.101974

Gligorea, I., Cioca, M., Oancea, R., Gorski, A.-T., Gorski, H., & Tudorache, P. (2023). Adaptive learning using artificial intelligence in e-learning: A literature review. Education Sciences, 13(12), 1216. https://doi.org/10.3390/educsci13121216

Pacheco, A. J., Boude Figueredo, O. R., Chiappe, A., & Fontán de Bedout, L. (2025). AI-powered learning analytics for metacognitive and socioemotional development: A systematic review. Frontiers in Education, 10, 1672901. https://doi.org/10.3389/feduc.2025.1672901

Paulsen, L., & Lindsay, E. (2024). Learning analytics dashboards are increasingly becoming about learning and not just analytics: A systematic review. Education and Information Technologies, 29, 14279-14308. https://doi.org/10.1007/s10639-023-12401-4

Roediger, H. L., III, & Karpicke, J. D. (2006). Test-enhanced learning: Taking memory tests improves long-term retention. Psychological Science, 17(3), 249-255. https://doi.org/10.1111/j.1467-9280.2006.01693.x

Son, T. (2024). Intelligent tutoring systems in mathematics education: A systematic literature review using the substitution, augmentation, modification, redefinition model. Computers, 13(10), 270. https://doi.org/10.3390/computers13100270

Trumble, E., Lodge, J., Mandrusiak, A., & Forbes, R. (2024). Systematic review of distributed practice and retrieval practice in health professions education. Advances in Health Sciences Education, 29, 689-714. https://doi.org/10.1007/s10459-023-10274-3

Chương 14: Tải nhận thức, đa phương tiện và trải nghiệm học

Bối cảnh / Vấn đề

Chương 13 bàn về nhịp học theo thời gian: truy hồi, lặp lại ngắt quãng, trộn dạng bài, tinh thông và phản tư. Chương 14 đi vào một lớp khác: hình dạng của trải nghiệm học trong từng khoảnh khắc. Người học nhìn thấy gì trên màn hình? Nghe gì? Phải chú ý vào đâu? Có bao nhiêu bước phải giữ trong đầu? Hệ thống gợi ý lúc nào? Video có dừng đúng chỗ không? Dashboard có giúp ra quyết định hay chỉ thêm nhiễu? Notification có kéo người học quay lại đúng lúc hay làm vỡ mạch tập trung?

EdTech thường bị đánh giá qua tính năng: có video, quiz, chatbot, animation, VR, dashboard, gamification, AI feedback. Nhưng não người học không học từ “tính năng”. Nó học từ thông tin được chọn lọc, tổ chức, xử lý và nối vào tri thức đã có. Một giao diện nhiều tính năng có thể làm học kém hơn nếu nó làm người học phân tán chú ý, phải đọc-đối chiếu quá nhiều, hoặc xử lý chi tiết trang trí không phục vụ mục tiêu. Ngược lại, một thiết kế giản dị nhưng đúng trọng tâm có thể giúp người học hiểu sâu hơn vì nó bảo vệ tài nguyên nhận thức.

AI làm vấn đề này vừa tốt hơn vừa khó hơn. Tốt hơn vì AI có thể giải thích theo trình độ, tạo ví dụ, tóm tắt, chuyển định dạng, đặt câu hỏi, gợi ý bước tiếp theo và cá nhân hóa nhịp học. Khó hơn vì AI có thể tạo quá nhiều chữ, quá nhiều lựa chọn, quá nhiều phản hồi và quá nhiều tương tác. Một chatbot luôn sẵn sàng có thể khiến người học bị cuốn vào hội thoại phụ. Một dashboard thông minh có thể cho 12 chỉ số nhưng không cho biết nên làm gì. Một video có AI avatar, caption, transcript, highlight và quiz chen giữa có thể hữu ích, nhưng cũng có thể làm màn hình thành một phòng họp ồn.

Chương này dùng Cognitive Load Theory và Multimedia Learning như hai trục chính. Câu hỏi không phải “công nghệ này có hiện đại không?” mà là: nó giảm nhiễu nào, quản lý độ khó nào, kích hoạt xử lý sâu nào, và có phù hợp với trình độ người học không?

Nền tảng lý thuyết

Cognitive Load Theory (CLT) bắt đầu từ giới hạn của bộ nhớ làm việc. Người học chỉ có thể xử lý một lượng thông tin nhỏ trong thời điểm hiện tại, trong khi tri thức dài hạn được tổ chức thành schema có thể giúp xử lý nhanh hơn. Khi thiết kế dạy học không tính đến giới hạn này, người học không thất bại vì lười hay thiếu động lực; họ thất bại vì hệ thống bắt họ giữ quá nhiều thứ trong đầu cùng lúc (Sweller, 1988; Sweller et al., 2011).

Trong cách nói hiện đại của multimedia learning, Mayer phân biệt ba loại xử lý: extraneous processing, essential processing và generative processing. Extraneous processing là xử lý không cần thiết do cách trình bày gây ra: trang trí thừa, chữ và hình tách xa, âm thanh nhiễu, giao diện rối, animation không có mục tiêu. Essential processing là xử lý cần thiết để hiểu nội dung cốt lõi, tức độ khó đến từ chính vật liệu học. Generative processing là xử lý sâu giúp người học tổ chức và tích hợp kiến thức: tự giải thích, nối khái niệm, so sánh, dự đoán, phản biện (Mayer, 2021).

Ba loại xử lý này giúp ta tránh một hiểu lầm: mục tiêu không phải làm học tập luôn “dễ”. Thiết kế tốt không loại bỏ mọi khó khăn. Nó loại bỏ khó khăn vô ích, quản lý khó khăn cần thiết, và tạo khó khăn có ích để người học xử lý sâu. Nếu một video giải thích vật lý có nhạc nền, hiệu ứng bay chữ và nhân vật hoạt hình không phục vụ khái niệm, đó là extraneous load. Nếu bài học về điện từ trường khó vì khái niệm có nhiều quan hệ, đó là essential load. Nếu hệ thống yêu cầu người học dự đoán chiều lực trước khi xem mô phỏng, đó là generative processing.

Multimedia Learning dựa trên giả định dual channels: con người xử lý thông tin qua kênh hình ảnh/thị giác và kênh lời nói/thính giác, mỗi kênh có giới hạn, và học sâu xảy ra khi người học chọn thông tin liên quan, tổ chức thành mô hình và tích hợp với tri thức cũ (Mayer, 2021). Vì vậy, thêm hình, video, audio hoặc VR không tự làm học tốt hơn. Câu hỏi là chúng có giúp người học xây mô hình tinh thần không.

Các review gần đây xác nhận multimedia principles vẫn là nền quan trọng, nhưng việc áp dụng trong môi trường AR/VR và môi trường số mới còn chưa đồng đều. Çeken và Taşkın systematic review về multimedia learning principles trong nhiều môi trường học cho thấy nghiên cứu vẫn tập trung nhiều vào một số nguyên tắc và còn khoảng trống khi mở rộng sang AR/VR (Çeken & Taşkın, 2022). Điều này quan trọng cho EdTech hiện nay: ta không thể bê nguyên một nguyên tắc từ slide truyền thống sang VR, chatbot hoặc dashboard mà không kiểm tra lại ngữ cảnh.

Extraneous, essential và generative processing

Thiết kế học tập bắt đầu bằng việc phân biệt ba câu hỏi: cái gì đang làm người học nhiễu, cái gì thật sự khó, và cái gì buộc người học suy nghĩ sâu?

Extraneous processing thường đến từ những thứ tưởng nhỏ. Một bài học toán đặt đề bài ở đầu trang, công thức ở cuối trang và hình minh họa ở tab khác. Người học phải nhớ dữ kiện, cuộn qua cuộn lại, đối chiếu ký hiệu, rồi mới giải. Một video khoa học có caption tự động sai thuật ngữ, hình minh họa trang trí và câu hỏi pop-up chen ngay khi người học đang cố hiểu quan hệ nhân quả. Một chatbot trả lời dài 900 chữ cho một lỗi nhỏ trong bài làm. Trong các trường hợp này, tải nhận thức tăng không phải vì nội dung sâu hơn, mà vì thiết kế bắt người học xử lý nhiễu.

Essential processing là phần không thể bỏ. Nếu học lập trình đệ quy, người học phải hiểu call stack, base case, trạng thái biến và luồng thực thi. Nếu học giải tích, người học phải giữ quan hệ giữa giới hạn, đạo hàm, đồ thị và tốc độ thay đổi. Nếu học viết lập luận, người học phải phân biệt claim, evidence, warrant và counterargument. Thiết kế tốt không làm những thứ này biến mất; nó chia nhỏ, tuần tự hóa, dùng ví dụ, và cho người học xây schema từng bước.

Generative processing là nơi học sâu xảy ra. Người học không chỉ nhìn lời giải; họ dự đoán bước tiếp theo. Không chỉ xem mô phỏng; họ giải thích vì sao kết quả khác dự đoán. Không chỉ đọc feedback; họ sửa lại lời giải. Không chỉ hỏi AI; họ so sánh câu trả lời của AI với tiêu chí và nguồn. Đây là phần AI có thể hỗ trợ mạnh nếu được thiết kế đúng: đặt câu hỏi, yêu cầu tự giải thích, gợi phản ví dụ, tạo tình huống biến thể.

Vấn đề là nhiều hệ thống AI làm giảm cả extraneous lẫn generative processing cùng lúc. Chúng làm câu trả lời gọn hơn, nhưng cũng làm người học không phải tổ chức thông tin. Chúng giải thích nhanh hơn, nhưng cũng làm người học không phải dự đoán. Chúng tóm tắt tài liệu, nhưng cũng làm người học không phải phân biệt ý chính và ý phụ. Vì vậy, mục tiêu không phải tự động hóa toàn bộ khó khăn, mà là giữ lại khó khăn có ích.

Một quy tắc thực dụng: nếu người học đang tốn sức vào điều không liên quan đến mục tiêu học, giảm nó. Nếu người học đang tốn sức vào điều cốt lõi nhưng quá nhiều cùng lúc, chia nhỏ hoặc scaffold. Nếu người học không phải tốn sức vào điều cốt lõi vì AI làm hộ, thêm ma sát nhận thức: dự đoán, truy hồi, giải thích, kiểm chứng, phản biện.

Đo tải nhận thức không đơn giản. Các thang tự báo cáo như mental effort rating hữu ích nhưng có giới hạn. Nghiên cứu gần đây còn dùng eye-tracking, EEG, ERP và dữ liệu hành vi để tìm dấu hiệu tải nhận thức. Yu và cộng sự meta-analysis năm 2024 về ERP trong multimedia learning cho thấy một số thành phần ERP có tiềm năng đo cognitive load, nhưng đây vẫn là vùng cần diễn giải cẩn trọng và chưa phải công cụ triển khai đại trà (Yu et al., 2024). Với nhà thiết kế EdTech, điều quan trọng hơn là dùng nhiều tín hiệu: lỗi sai, thời gian dừng, số lần tua lại, mức tự tin, phản hồi người học và chất lượng giải thích.

Multimedia principles

Multimedia principles không phải danh sách mẹo trình bày. Chúng là cách dịch kiến thức về bộ nhớ làm việc thành quyết định thiết kế. Một số nguyên tắc đặc biệt quan trọng trong EdTech.

Coherence principle nói rằng nên loại bỏ thông tin không phục vụ mục tiêu học. Nhiều sản phẩm vi phạm nguyên tắc này vì muốn “giàu trải nghiệm”: hình nền động, âm thanh thưởng, nhân vật nói chuyện, đoạn kể chuyện phụ, icon chuyển động. Những thứ này có thể tăng cảm giác vui lúc đầu nhưng không chắc tăng học. Emotional design research cho thấy yếu tố cảm xúc có thể ảnh hưởng động lực và trải nghiệm, nhưng systematic review năm 2024 cũng cho thấy kết quả phụ thuộc vào cách thiết kế, đối tượng và ngữ cảnh; không thể giả định rằng làm giao diện “dễ thương” hơn luôn cải thiện học (Mutlu-Bayraktar, 2024).

Signaling principle nói rằng thiết kế nên chỉ ra thông tin quan trọng: highlight đúng chỗ, mũi tên, màu sắc có nghĩa, tiêu đề rõ, nhịp dừng. Signaling rất hữu ích khi người học chưa biết phải nhìn vào đâu. Trong VR hoặc simulation, signaling càng quan trọng vì môi trường có nhiều chi tiết. Wen, Lu và Mohamad Ali nghiên cứu VR laboratories và cho thấy attentional guidance có thể giảm cognitive load và cải thiện academic performance, nhắc rằng immersive environments cần điều hướng chú ý, không chỉ tăng độ thật (Wen et al., 2024).

Spatial contiguity và temporal contiguity nói rằng chữ và hình liên quan nên đặt gần nhau, lời nói và hình động nên xuất hiện cùng thời điểm. Một lỗi phổ biến là đưa transcript, biểu đồ, chú thích và câu hỏi vào các vùng tách rời. Người học phải tự ghép lại, tạo split-attention effect. Trong AI tutor, lỗi tương tự xảy ra khi lời giải nói “như hình trên” nhưng hình đã bị đẩy khỏi màn hình, hoặc khi feedback nằm trong một panel còn bài làm ở panel khác.

Modality principle gợi ý rằng trong một số trường hợp, giải thích bằng lời nói cùng hình ảnh có thể tốt hơn chữ viết cùng hình ảnh, vì nó phân bổ tải qua hai kênh. Nhưng nguyên tắc này không có nghĩa lúc nào cũng thêm audio. Nếu người học cần quay lại, so sánh thuật ngữ, hoặc học trong môi trường ồn, chữ lại cần thiết. Caption có thể hỗ trợ accessibility và người học ngôn ngữ thứ hai. Thiết kế tốt cho phép người học kiểm soát kênh, thay vì ép một định dạng.

Redundancy principle cảnh báo rằng trình bày cùng một thông tin bằng nhiều dạng đồng thời có thể gây quá tải nếu người học phải xử lý lặp lại. Một slide có chữ dài, giáo viên đọc nguyên văn, thêm caption và hình minh họa không liên quan có thể nặng hơn slide ít chữ với lời giải thích rõ. Nhưng trong accessibility, “redundancy” cần đọc cẩn thận: caption, transcript và mô tả hình có thể là điều kiện tham gia của nhiều người học. Vấn đề không phải có nhiều kênh, mà là người học có quyền chọn kênh phù hợp và không bị ép xử lý tất cả cùng lúc.

Segmenting principle nói rằng nội dung phức tạp nên chia thành đoạn có thể kiểm soát. Video dài 20 phút ít phù hợp với người mới nếu không có điểm dừng, câu hỏi và mục lục. AI có thể tự động chia video thành đoạn, tạo câu hỏi giữa đoạn và gợi ôn lại, nhưng phải tránh cắt vụn làm mất mạch lập luận. Segment tốt dựa trên cấu trúc khái niệm, không chỉ thời lượng.

Personalization và embodiment liên quan đến giọng nói, nhân vật và sự hiện diện xã hội. Nghiên cứu về anthropomorphism trong multimedia learning đang tăng. Liu và Su systematic review/meta-analysis năm 2024 về facial anthropomorphism cho thấy thiết kế nhân hóa khuôn mặt có thể ảnh hưởng đến learning và các outcome liên quan, nhưng hiệu quả không đơn giản và cần xét retention, transfer, motivation, effort và experience riêng (Liu & Su, 2024). Vì vậy, AI avatar không phải mặc định tốt. Nó tốt khi giúp người học chú ý, tin tưởng vừa đủ và hiểu rõ hơn; nó xấu khi làm người học tập trung vào nhân vật thay vì nội dung.

Signaling, segmenting và worked examples

Ba kỹ thuật này nằm ở trung tâm của thiết kế cho người mới: chỉ đường, chia đoạn và cho ví dụ đã giải.

Signaling giúp người học biết nên chú ý vào đâu. Trong một bài hình học, hệ thống có thể tô màu cạnh liên quan, ẩn cạnh không cần, hoặc lần lượt hiện từng quan hệ. Trong phân tích văn bản, nó có thể highlight claim, evidence và reasoning bằng màu khác nhau. Trong dashboard, signaling có thể là một câu hành động: “Điểm cần chú ý hôm nay: em nhầm giữa đạo hàm tích và đạo hàm hợp trong bài trộn.” Nếu dashboard chỉ có biểu đồ đẹp mà không chỉ ra điều quan trọng, nó đang đẩy việc diễn giải về phía người học.

Segmenting giúp người học không phải nuốt cả khối phức tạp cùng lúc. Một bài AI tutor giải phương trình có thể chia thành: hiểu đề, chọn chiến lược, biến đổi, kiểm tra nghiệm, phản tư lỗi. Một mô phỏng sinh học có thể chia thành: quan sát hệ ban đầu, thay một biến, dự đoán, chạy, giải thích, thử biến khác. Segment tốt không làm bài học rời rạc; nó tạo nhịp để người học xử lý và xây schema.

Worked examples đặc biệt quan trọng với người mới. Thay vì bắt người học giải từ đầu, worked example cho thấy một lời giải mẫu, từng bước, với lý do. CLT giải thích rằng người mới thiếu schema nên giải bài ngay có thể làm bộ nhớ làm việc quá tải; học từ ví dụ đã giải giúp giảm search không hiệu quả và tập trung vào cấu trúc vấn đề. Sozio, Agostinho, Tindall-Ford và Paas năm 2024 phân tích process worked examples và product worked examples, nhấn mạnh worked examples có thể giảm cognitive load và nâng learning outcomes hơn so với giải bài truyền thống, đồng thời phân biệt ví dụ chỉ cho chiến lược với ví dụ giải thích cả nguyên lý và quá trình (Sozio et al., 2024).

Trong EdTech có AI, worked example có thể linh hoạt hơn trước. Hệ thống có thể tạo ví dụ gần với lỗi của người học, giải thích vì sao một bước được chọn, cho người học ẩn/hiện lời giải, hoặc yêu cầu tự điền bước còn thiếu. Nhưng AI cũng có thể lạm dụng worked examples: mỗi lần người học kẹt, hệ thống đưa lời giải hoàn chỉnh. Khi đó người học học cách xem lời giải, không học cách giải.

Fading là cầu nối giữa worked example và problem solving. Ban đầu, hệ thống cho nhiều bước. Sau đó, bỏ dần một số bước và yêu cầu người học tự hoàn thành. Renkl, Atkinson và Große cho thấy fading worked solution steps giúp chuyển từ học qua ví dụ sang tự giải, phù hợp với quan điểm CLT về giảm dần hỗ trợ (Renkl et al., 2004). AI có thể thực hiện fading cá nhân hóa: nếu người học tự làm tốt bước biến đổi đại số, hệ thống không cần gợi bước đó nữa; nếu họ vẫn sai bước chọn chiến lược, scaffold còn ở đó.

Một điểm quan trọng: worked examples tốt không chỉ trình bày “làm gì” mà còn “vì sao”. Product-oriented example cho sản phẩm lời giải; process-oriented example cho quá trình ra quyết định. Với AI tutor, nên ưu tiên giải thích nguyên tắc chọn bước, không chỉ liệt kê phép biến đổi. Nếu không, người học có thể bắt chước hình thức mà không hiểu điều kiện áp dụng.

Expertise reversal

Một hỗ trợ tốt cho người mới có thể trở thành gánh nặng cho người giỏi. Đây là expertise reversal effect. Kalyuga tổng quan hiện tượng này trong CLT và cho thấy hiệu quả của instructional guidance phụ thuộc vào prior knowledge; khi người học đã có schema, hướng dẫn chi tiết có thể trở nên dư thừa và tạo tải nhận thức không cần thiết (Kalyuga, 2007).

Trong EdTech, expertise reversal xuất hiện khắp nơi. Người mới cần từng bước, gợi ý, ví dụ, highlight và giải thích thuật ngữ. Người đã giỏi có thể thấy chúng chậm, phiền và cản trở luồng suy nghĩ. Một dashboard cho người mới cần nói rõ “hôm nay nên làm gì”. Một dashboard cho người học nâng cao nên cho phép tự lọc dữ liệu và xem pattern sâu hơn. Một AI tutor cho người mới nên hỏi từng bước. Với người giỏi, nó nên đóng vai phản biện, đưa ca khó, hoặc thách thức giả định.

Điều này làm cá nhân hóa trở nên phức tạp hơn “đổi độ khó”. Hệ thống không chỉ cần biết bài nào khó, mà cần biết loại hỗ trợ nào còn hữu ích. Một người học có thể giỏi thao tác đại số nhưng yếu đọc đề. Họ không cần worked example cho phép biến đổi, nhưng cần signaling cho dữ kiện quan trọng. Một người học viết tốt nhưng yếu lập luận bằng bằng chứng không cần AI sửa câu, mà cần AI chất vấn quan hệ giữa claim và evidence.

Adaptive scaffolding là một hướng xử lý. Trong game-based learning y khoa, Faber và cộng sự thực hiện randomized controlled trial năm 2024 về adaptive scaffolding, đo performance, cognitive load và engagement; nghiên cứu kiểu này cho thấy scaffold cần gắn với trạng thái người học và nhiệm vụ, không thể dùng một mức hỗ trợ cho tất cả (Faber et al., 2024). Tuy nhiên, adaptive scaffolding cũng có rủi ro: nếu hệ thống rút hỗ trợ dựa trên tín hiệu sai, người học bị bỏ rơi; nếu giữ hỗ trợ quá lâu, họ bị phụ thuộc.

Expertise reversal cũng áp dụng cho AI feedback. Người mới có thể cần feedback trực tiếp: “bước này sai vì em đổi dấu khi chuyển vế”. Người giỏi có thể cần feedback dạng câu hỏi: “có trường hợp biên nào phá vỡ lập luận này không?” Nếu hệ thống luôn giải thích chi tiết cho mọi người, người giỏi mất thời gian. Nếu hệ thống chỉ gợi mở cho người mới, người mới có thể không đủ dữ kiện để sửa.

Thiết kế tốt nên cho phép learner control có kiểm soát. Người học có thể chọn “gợi ý nhẹ”, “ví dụ tương tự”, “giải thích đầy đủ”, hoặc “ẩn hỗ trợ”. Nhưng không nên phó mặc tất cả cho người học, vì người mới thường không biết mình cần gì. Hệ thống có thể đề xuất mức hỗ trợ và cho quyền đổi, đồng thời dùng dữ liệu để kiểm tra: nếu người học liên tục mở lời giải đầy đủ nhưng vẫn sai bài tương tự, cần đổi chiến lược.

UX như sư phạm

UX trong EdTech không phải lớp sơn giao diện. Nó là sư phạm được vật chất hóa thành layout, nhịp tương tác, notification, dashboard, lựa chọn mặc định, lỗi hệ thống và cách feedback xuất hiện. Một nút “Show answer” đặt quá nổi bật là một quyết định giáo dục. Một notification nhắc học lúc người học đang nghỉ cũng là quyết định giáo dục. Một dashboard xếp hạng trước khi cho chiến lược học cũng là quyết định giáo dục.

Layout quyết định đường chú ý. Nếu màn hình học có video, transcript, chat AI, quiz, quảng bá khóa học, điểm streak và menu cùng xuất hiện, người học phải tự quản lý chú ý trong môi trường cạnh tranh. Với người mới, đó là gánh nặng. Layout tốt nên có hierarchy rõ: mục tiêu hiện tại, nội dung chính, hành động tiếp theo, hỗ trợ khi cần, và thông tin phụ có thể ẩn. Độ tối giản ở đây không phải phong cách thẩm mỹ; nó là giảm extraneous processing.

Notification quyết định nhịp. Một thông báo có thể giúp spaced repetition, nhắc deadline hoặc kéo người học quay lại sau khi quên. Nhưng notification quá nhiều làm người học học theo phản xạ, không theo kế hoạch. Trong hệ thống AI, notification càng dễ bị lạm dụng vì mô hình có thể dự đoán “thời điểm tương tác cao”. Câu hỏi đạo đức và sư phạm là: thông báo này phục vụ học tập hay phục vụ retention của sản phẩm? Một nhắc nhở tốt nói rõ mục đích: “Đã 6 ngày từ lần cuối em truy hồi khái niệm này; bài ngày mai cần nó.” Một nhắc nhở kém chỉ kích thích lo lắng: “Bạn đang tụt hạng.”

Dashboard quyết định người học nhìn bản thân như thế nào. Paulsen và Lindsay systematic review năm 2024 cho thấy learning analytics dashboards đang dịch chuyển từ analytics-driven sang student-focused và theory-informed hơn, nhưng khuyến nghị vẫn là dashboard phải gắn với learning sciences và affordances hỗ trợ hành động học (Paulsen & Lindsay, 2024). Một dashboard tốt không chỉ báo thời gian học, số bài đúng và vị trí trong lớp. Nó giúp người học hiểu chiến lược: dạng lỗi, mức tự tin, tiến bộ theo thời gian, bước tiếp theo.

Human-centred design càng quan trọng với LA/AI. Alfredo và cộng sự systematic review năm 2024 về human-centred learning analytics and AI in education chỉ ra rằng các hệ thống này có tiềm năng mở rộng nhưng cũng gây lo ngại về privacy, agency, trustworthiness và mức tham gia của stakeholder; end-user involvement trong thiết kế vẫn còn hạn chế (Alfredo et al., 2024). Topali và cộng sự cũng cho thấy nhiều giải pháp LA/AI khó được chấp nhận trong bối cảnh thật vì thiếu pedagogical contextualisation, thiếu tin cậy và chưa đủ chú ý tới nhu cầu stakeholder (Topali et al., 2024).

UX cũng quyết định lỗi được xử lý ra sao. Khi người học sai, hệ thống có làm họ xấu hổ không? Khi AI không chắc, nó có nói không chắc không? Khi bài quá khó, người học có đường quay lại không? Khi người học dùng công nghệ hỗ trợ, giao diện có hỗ trợ keyboard, screen reader, caption và contrast không? Accessibility không phải phần phụ; nó là điều kiện để tải nhận thức không bị đẩy lên vì rào cản giao diện.

Trong lớp học thật, giáo viên thường phải bù cho UX kém: giải thích cách dùng app, nhắc học sinh bấm đúng chỗ, sửa lỗi đăng nhập, dịch dashboard, lọc notification, và trấn an khi hệ thống báo “yếu”. Thiết kế EdTech tốt là thiết kế giảm nhu cầu bù đó. Nó không thay giáo viên, nhưng không bắt giáo viên trở thành nhân viên giải cứu giao diện.

Thực trạng triển khai

Hiện nay nhiều sản phẩm EdTech đã dùng ngôn ngữ của CLT và multimedia learning, nhưng triển khai không đồng đều. Video ngắn, microlearning, interactive simulation, VR lab, AI avatar, dashboard, chatbot và adaptive hints đều có thể hỗ trợ học. Nhưng mỗi công cụ chỉ hữu ích nếu nó giải đúng vấn đề nhận thức.

Microlearning có thể phù hợp với segmenting, nhưng nếu cắt quá vụn, người học mất cấu trúc khái niệm. Video có thể tốt cho demonstration, nhưng nếu không có pause, signaling và câu hỏi truy hồi, nó dễ thành xem thụ động. VR có thể tốt cho không gian, thao tác và tình huống hiếm, nhưng cũng dễ tăng extraneous load vì người học phải điều hướng môi trường, xử lý sensory input và học nội dung cùng lúc. Wen và cộng sự về VR labs cho thấy attentional guidance làm giảm cognitive load, một bằng chứng thực tế rằng immersive learning cần thiết kế chú ý chứ không chỉ thêm độ chìm (Wen et al., 2024).

AI chatbot đang là ví dụ nổi bật nhất của “tải nhận thức hai mặt”. Nó có thể giảm tải bằng cách giải thích vừa trình độ, trả lời câu hỏi ngay, tạo ví dụ và sửa lỗi. Nó cũng có thể tăng tải bằng cách tạo câu trả lời dài, không cấu trúc, hoặc đưa quá nhiều nhánh. Với người mới, câu trả lời AI cần ngắn, có cấu trúc, có bước tiếp theo và yêu cầu người học làm lại. Với người giỏi, AI có thể đưa phản biện, ca ngoại lệ và câu hỏi mở.

Trong học lập trình, một AI assistant có thể giải thích lỗi compiler rất hữu ích. Nhưng nếu nó viết lại toàn bộ code, người học mất cơ hội xây mental model. Thiết kế tốt có thể bắt đầu bằng signaling: dòng lỗi, biến liên quan, giả thuyết lỗi. Sau đó mới gợi câu hỏi: “Em nghĩ giá trị của biến này tại vòng lặp thứ ba là gì?” Nếu người học vẫn kẹt, AI đưa worked example nhỏ. Sau đó fading: bài tiếp theo chỉ gợi nhẹ.

Trong học khoa học, animation có thể giúp thấy quá trình không quan sát được, như phân tử, dòng điện, lực hoặc tế bào. Nhưng animation không tự tạo hiểu. Người học cần biết nhìn vào đâu, dừng ở điểm nào, dự đoán gì, so sánh gì. Nếu animation chạy liên tục, người học có thể nhớ chuyển động bề mặt mà không hiểu quan hệ nhân quả. Segmenting và signaling là điều kiện để animation thành học tập.

Trong dashboard, nhiều nền tảng vẫn ưu tiên số liệu dễ đo: thời gian online, số bài hoàn thành, điểm trung bình, streak. Những chỉ số này có thể hữu ích, nhưng không đủ. Một dashboard sư phạm cần nói về lỗi khái niệm, chiến lược học, mức tự tin, khoảng cách tới mục tiêu, và hành động kế tiếp. Nếu dashboard không giúp quyết định, nó chỉ là gánh nặng hiển thị.

Phân tích phản biện

Ảo tưởng đầu tiên là “giàu media thì học tốt hơn”. Hình, âm thanh, video, animation, avatar và VR chỉ có ích khi chúng làm rõ quan hệ học tập. Nếu chúng chỉ làm trải nghiệm trông hấp dẫn hơn, chúng có thể tăng extraneous processing. Đặc biệt với người mới, sự hấp dẫn bề mặt dễ che lấp thiếu cấu trúc.

Ảo tưởng thứ hai là “cá nhân hóa sẽ tự giảm tải nhận thức”. Cá nhân hóa có thể giảm tải nếu nó chọn đúng mức hỗ trợ, đúng sequence và đúng format. Nhưng cá nhân hóa cũng có thể tăng tải nếu liên tục đổi giao diện, đưa nhiều lựa chọn, hoặc giải thích quyết định thuật toán quá phức tạp. Người học cần sự ổn định đủ để xây thói quen và schema.

Ảo tưởng thứ ba là “người học thích gì thì tốt cho học”. Người học thường thích nội dung trơn tru, gợi ý nhanh, video dễ xem và lời giải đầy đủ. Nhưng học sâu đôi khi cần desirable difficulties: dự đoán, tự giải thích, truy hồi, sửa lỗi. UX tốt không đồng nghĩa loại bỏ mọi ma sát. Nó đặt ma sát đúng chỗ.

Ảo tưởng thứ tư là “AI có thể tự động chọn hình thức tối ưu”. AI có thể dự đoán hành vi, nhưng hành vi không phải học tập. Nếu hệ thống tối ưu lượt tương tác, thời gian ở lại hoặc tỉ lệ hoàn thành, nó có thể chọn nội dung dễ, phản hồi dễ chịu và nhắc nhở nhiều. Đó không nhất thiết là học tốt. Mục tiêu tối ưu phải gắn với retention, transfer, metacognition, equity và wellbeing.

Ảo tưởng thứ năm là “người học càng giỏi càng cần ít thiết kế”. Người giỏi có schema tốt hơn, nhưng họ vẫn cần thách thức đúng, phản hồi tinh và công cụ không cản trở. Expertise reversal không nói bỏ hỗ trợ cho người giỏi; nó nói đổi loại hỗ trợ. Từ hướng dẫn từng bước sang phản biện, từ ví dụ mẫu sang ca ngoại lệ, từ highlight cơ bản sang dữ liệu sâu hơn.

Nguyên tắc thiết kế

Nguyên tắc đầu tiên: loại bỏ nhiễu trước khi thêm tính năng. Mỗi hình, chữ, âm thanh, animation, avatar, thông báo và biểu đồ phải trả lời được câu hỏi: nó phục vụ mục tiêu học nào? Nếu không, ẩn hoặc bỏ.

Nguyên tắc thứ hai: chia nhỏ theo cấu trúc khái niệm, không chỉ theo thời lượng. Segment tốt kết thúc ở một đơn vị hiểu được: một quan hệ, một bước quyết định, một lỗi phổ biến, một điểm dự đoán. Cắt video thành đoạn 60 giây chưa chắc là segmenting tốt.

Nguyên tắc thứ ba: signaling phải chỉ vào quan hệ, không chỉ chỉ vào vật thể. Tô màu một công thức chưa đủ; cần chỉ ra biến nào liên hệ với hiện tượng nào, dữ kiện nào quyết định chiến lược, hoặc bước nào làm thay đổi lập luận.

Nguyên tắc thứ tư: worked examples phải có lý do, rồi fading. Người mới cần ví dụ đã giải, nhưng ví dụ nên giải thích vì sao chọn bước. Sau đó phải rút dần hỗ trợ để người học tự giải.

Nguyên tắc thứ năm: thiết kế theo expertise. Người mới cần hướng dẫn, người trung bình cần luyện phân biệt và fading, người giỏi cần bài transfer, phản biện và ca ngoại lệ. Không nên dùng cùng một giao diện hỗ trợ cho mọi mức.

Nguyên tắc thứ sáu: cho learner control có cấu trúc. Người học nên có thể tua lại, xem transcript, bật caption, mở gợi ý, ẩn lời giải, đổi tốc độ. Nhưng lựa chọn cần ít, rõ và có gợi ý, để control không biến thành tải nhận thức mới.

Nguyên tắc thứ bảy: dashboard phải dẫn tới hành động. Mọi chỉ số nên trả lời: người học nên làm gì tiếp, vì sao, và làm thế nào biết đã cải thiện? Nếu không, chỉ số nên bị giảm ưu tiên.

Nguyên tắc thứ tám: notification phải tôn trọng chú ý. Chỉ nhắc khi có lý do học tập rõ, ưu tiên nhắc theo kế hoạch của người học, và tránh dùng lo âu xã hội như tụt hạng, mất streak hoặc so sánh công khai làm động cơ chính.

Nguyên tắc thứ chín: thiết kế accessibility từ đầu. Caption, transcript, keyboard navigation, contrast, text alternatives, responsive layout và quyền chọn kênh không chỉ giúp một nhóm người học; chúng giảm rào cản nhận thức cho nhiều bối cảnh học.

Tổng kết chương

Tải nhận thức là một trong những thước đo thầm lặng của chất lượng EdTech. Một trải nghiệm học tốt không phải trải nghiệm có nhiều media nhất, nhiều AI nhất hay nhiều tương tác nhất. Nó là trải nghiệm giảm nhiễu không cần thiết, quản lý độ khó cốt lõi và kích hoạt xử lý sâu. Multimedia principles giúp ta quyết định khi nào dùng chữ, hình, âm thanh, video, animation hoặc VR. Worked examples, signaling và segmenting giúp người mới không lạc trong độ phức tạp. Expertise reversal nhắc rằng hỗ trợ phải thay đổi theo trình độ. UX nhắc rằng layout, notification, dashboard và nhịp tương tác đều là quyết định sư phạm.

AI có thể giúp cá nhân hóa các quyết định này, nhưng cũng có thể làm chúng rối hơn. Một AI tutor tốt không chỉ trả lời; nó quản lý tải nhận thức. Một dashboard tốt không chỉ hiển thị; nó giúp hành động. Một VR lab tốt không chỉ tạo cảm giác hiện diện; nó dẫn chú ý. Một avatar tốt không chỉ giống người; nó làm nội dung dễ xử lý hơn mà không chiếm sân khấu.

Chương 15 sẽ chuyển từ tải nhận thức sang động lực và tự điều chỉnh. Nếu chương này hỏi “trải nghiệm có đang bảo vệ khả năng xử lý của người học không?”, chương sau hỏi “trải nghiệm đó có đang nuôi autonomy, competence, relatedness và khả năng tự học lâu dài không, hay đang tạo phụ thuộc vào AI và phần thưởng ngắn hạn?”.

Tài liệu tham khảo

Alfredo, R., Echeverria, V., Jin, Y., Yan, L., Swiecki, Z., Gašević, D., & Martinez-Maldonado, R. (2024). Human-centred learning analytics and AI in education: A systematic literature review. Computers and Education: Artificial Intelligence, 6, 100215. https://doi.org/10.1016/j.caeai.2024.100215

Çeken, B., & Taşkın, N. (2022). Multimedia learning principles in different learning environments: A systematic review. Smart Learning Environments, 9, 19. https://doi.org/10.1186/s40561-022-00200-2

Faber, T. J. E., Dankbaar, M. E. W., van den Broek, W. W., Bruinink, L. J., Hogeveen, M., & van Merriënboer, J. J. G. (2024). Effects of adaptive scaffolding on performance, cognitive load and engagement in game-based learning: A randomized controlled trial. BMC Medical Education, 24, 943. https://doi.org/10.1186/s12909-024-05698-3

Kalyuga, S. (2007). Expertise reversal effect and its implications for learner-tailored instruction. Educational Psychology Review, 19, 509-539. https://doi.org/10.1007/s10648-007-9054-3

Liu, K., & Su, P. (2024). Effectiveness of facial anthropomorphism design for improving multimedia learning outcomes: Systematic review and meta-analysis. Smart Learning Environments, 11, 42. https://doi.org/10.1186/s40561-024-00332-7

Mayer, R. E. (2021). Multimedia Learning (3rd ed.). Cambridge University Press.

Mutlu-Bayraktar, D. (2024). A systematic review of emotional design research in multimedia learning. Education and Information Technologies, 29, 24603-24626. https://doi.org/10.1007/s10639-024-12823-8

Renkl, A., Atkinson, R. K., & Große, C. S. (2004). How fading worked solution steps works: A cognitive load perspective. Instructional Science, 32, 59-82. https://doi.org/10.1023/B:TRUC.0000021815.74806.f6

Sozio, G., Agostinho, S., Tindall-Ford, S., & Paas, F. (2024). Enhancing teaching strategies through Cognitive Load Theory: Process vs. product worked examples. Education Sciences, 14(8), 813. https://doi.org/10.3390/educsci14080813

Sweller, J. (1988). Cognitive load during problem solving: Effects on learning. Cognitive Science, 12(2), 257-285. https://doi.org/10.1207/s15516709cog1202_4

Sweller, J., Ayres, P., & Kalyuga, S. (2011). Cognitive Load Theory. Springer. https://doi.org/10.1007/978-1-4419-8126-4

Topali, P., Ortega-Arranz, A., Rodríguez-Triana, M. J., Er, E., Khalil, M., & Akçapınar, G. (2024). Designing human-centered learning analytics and artificial intelligence in education solutions: A systematic literature review. Behaviour & Information Technology. https://doi.org/10.1080/0144929X.2024.2345295

Wen, P., Lu, F., & Mohamad Ali, A. Z. (2024). Using attentional guidance methods in virtual reality laboratories reduces students' cognitive load and improves their academic performance. Virtual Reality, 28, 110. https://doi.org/10.1007/s10055-024-01012-0

Yu, S., Tian, L., Wang, G., & Nie, S. (2024). Which ERP components are effective in measuring cognitive load in multimedia learning? A meta-analysis based on relevant studies. Frontiers in Psychology, 15, 1401005. https://doi.org/10.3389/fpsyg.2024.1401005

Chương 15: Động lực, tự điều chỉnh và chống phụ thuộc AI

Bối cảnh / Vấn đề

Chương 13 và 14 đi vào trí nhớ, luyện tập, tải nhận thức và trải nghiệm học. Nhưng ngay cả khi hệ thống có retrieval tốt, spacing hợp lý, multimedia sạch và feedback đúng lúc, người học vẫn có thể không học bền. Họ có thể học vì sợ mất streak, vì bị nhắc liên tục, vì muốn vượt bạn, vì cần điểm, hoặc vì chatbot làm bài dễ quá nên không còn cảm giác phải cố gắng. Động lực không phải lớp trang trí đặt sau thiết kế nhận thức. Nó quyết định người học có bắt đầu, tiếp tục, chịu khó, tự kiểm tra, quay lại sau khi sai và dần trở thành người học tự chủ hay không.

AI làm câu hỏi động lực trở nên khó hơn. Một mặt, AI có thể hỗ trợ người học rất tốt: giải thích khi kẹt, tạo ví dụ cá nhân hóa, cho phản hồi tức thời, nhắc mục tiêu, giúp lập kế hoạch, giảm lo âu khi hỏi câu “ngớ ngẩn”, và làm người học cảm thấy mình có năng lực hơn. Mặt khác, AI có thể làm người học phụ thuộc: hỏi trước khi nghĩ, nhờ viết trước khi lập dàn ý, xin tóm tắt trước khi đọc, dùng AI để tránh khó khăn, và dần mất khả năng tự giám sát.

Vấn đề không phải AI có làm người học “lười” hay không theo nghĩa đạo đức đơn giản. Vấn đề là hệ thống đang phân phối công việc nhận thức, cảm xúc và điều hành như thế nào giữa người học và máy. Phần nào AI nên gánh để người học tiến xa hơn? Phần nào người học phải tự làm để năng lực không teo đi? Khi nào hỗ trợ là scaffolding, khi nào là ghostwriting? Khi nào nhắc nhở là giúp tự điều chỉnh, khi nào là thao túng hành vi?

Chương này dùng Self-Determination Theory, self-regulated learning, cognitive offloading và nghiên cứu gamification để đọc các câu hỏi đó. Trục chính không phải “làm sao tăng engagement bằng mọi giá”, mà là “làm sao nuôi autonomy, competence, relatedness và năng lực tự học dài hạn trong môi trường có AI”.

Nền tảng lý thuyết

Self-Determination Theory (SDT) cho rằng động lực chất lượng cao dựa trên ba nhu cầu tâm lý cơ bản: autonomy, competence và relatedness. Autonomy không phải “muốn làm gì thì làm”, mà là cảm giác hành động của mình có ý nghĩa và có sự đồng thuận bên trong. Competence là cảm giác mình đang tiến bộ và có khả năng tác động tới kết quả. Relatedness là cảm giác được kết nối, được công nhận và thuộc về một môi trường xã hội có ý nghĩa (Deci & Ryan, 2000; Ryan & Deci, 2020).

Trong EdTech, ba nhu cầu này dễ bị hiểu sai. Autonomy không phải thả người học vào một dashboard có 40 lựa chọn. Competence không phải bắn phá huy hiệu mỗi khi người học bấm đúng. Relatedness không phải thêm avatar hoặc chatbot xưng hô thân mật. Ba nhu cầu này phải được thiết kế qua nhiệm vụ, feedback, quyền lựa chọn, chuẩn mực lớp học, cách xử lý lỗi và mối quan hệ giữa người học với người khác.

Một systematic review và meta-analysis năm 2024 về các can thiệp dựa trên SDT trong giáo dục cho thấy các can thiệp này có thể cải thiện intrinsic motivation, autonomy và competence, đồng thời nhấn mạnh vai trò của thiết kế bền vững, bối cảnh và người triển khai (Bureau et al., 2024). Điều này quan trọng: động lực không chỉ đến từ một tính năng, mà từ hệ sinh thái tương tác lặp lại giữa người học, nhiệm vụ, giáo viên, bạn học và công cụ.

Self-regulated learning (SRL) bổ sung một lớp khác. Theo các mô hình của Zimmerman, Pintrich và Winne, người học tự điều chỉnh qua các pha như đặt mục tiêu, lập kế hoạch, chọn chiến lược, giám sát tiến độ, kiểm soát nỗ lực, đánh giá kết quả và điều chỉnh cho lần sau. AI có thể hỗ trợ cả ba pha: forethought, performance và reflection. Nhưng hỗ trợ không đồng nghĩa thay người học điều hành toàn bộ vòng lặp.

Lan và Zhou systematic review năm 2025 về AI-enabled SRL trong giáo dục đại học tìm thấy 14 nghiên cứu dùng chatbot, adaptive feedback, serious games và e-textbooks để hỗ trợ autonomy và các pha SRL. Review này nhấn mạnh sự khác biệt giữa human-centered SRL, nơi AI hỗ trợ người học tự điều chỉnh, và AI-centered SRL, nơi AI đóng vai trò điều hành chính; thiết kế cần giữ self-efficacy và agency của người học (Lan & Zhou, 2025). Đây là điểm then chốt của chương: AI tốt không chỉ làm học hiệu quả hơn, mà làm người học ngày càng tự chủ hơn.

Self-Determination Theory

Một hệ thống AI phục vụ autonomy sẽ cho người học lựa chọn có ý nghĩa, giải thích lý do của lộ trình, và cho phép người học tham gia vào quyết định học tập. Ví dụ, thay vì nói “làm bài này vì thuật toán chọn”, hệ thống có thể nói: “Có ba lựa chọn: ôn lỗi cũ, luyện dạng mới, hoặc làm bài transfer. Nếu em sắp kiểm tra, nên chọn ôn lỗi cũ; nếu em muốn thử thách, chọn transfer.” Người học vẫn được định hướng, nhưng không bị kéo như một đối tượng bị tối ưu hóa.

Autonomy cũng cần ranh giới. Người mới có thể bị quá tải nếu phải tự chọn mọi thứ. Vì vậy, lựa chọn nên có cấu trúc: ít lựa chọn, rõ trade-off, có đề xuất mặc định và có quyền thay đổi. Một app học tốt không hỏi “hôm nay bạn muốn học gì?” rồi mở ra toàn bộ thư viện. Nó có thể hỏi: “Em muốn củng cố, thử thách hay chuẩn bị bài mới?” Mỗi lựa chọn gắn với mục tiêu học cụ thể.

Competence trong môi trường AI không phải làm người học luôn cảm thấy giỏi. Nó là cảm giác tiến bộ thật. Feedback cần chỉ ra điều người học làm được, điều còn thiếu, và bước kế tiếp có thể thực hiện. Nếu AI chỉ khen chung chung, competence trở thành ảo giác. Nếu AI chỉ chấm lỗi, người học thấy bất lực. Feedback tốt nối nỗ lực với chiến lược: “Em đã chọn đúng công thức, nhưng nhầm điều kiện áp dụng; hãy so sánh hai ví dụ này.” Như chương 13 đã nói, mastery cần nhiều bằng chứng, không chỉ điểm.

Relatedness khó hơn trong EdTech AI. Chatbot có thể tạo cảm giác được phản hồi liên tục, nhưng không thay thế quan hệ với giáo viên và bạn học. Relatedness thật đến từ việc người học thấy mình được hiểu, được lắng nghe, được góp phần, và có người thật quan tâm đến tiến bộ của mình. AI có thể hỗ trợ relatedness gián tiếp: giúp giáo viên thấy ai cần check-in, giúp người học chuẩn bị câu hỏi trước khi thảo luận, hỗ trợ dịch và caption để nhiều người tham gia hơn. Nhưng nếu AI làm người học ít cần gặp người khác hơn, relatedness suy giảm.

Chiu đề xuất một công cụ phân loại hoạt động ChatGPT để thúc đẩy SRL bằng SDT, cho thấy có thể thiết kế hoạt động GenAI theo cách hỗ trợ autonomy, competence và relatedness trong các pha forethought, performance và reflection (Chiu, 2024). Điểm đáng chú ý không phải là ChatGPT tự tạo động lực, mà là giáo viên cần phân loại hoạt động theo nhu cầu tâm lý và pha tự điều chỉnh. Cùng một chatbot có thể hỗ trợ autonomy nếu người học dùng để lập kế hoạch, nhưng làm giảm autonomy nếu nó ra lệnh lộ trình không giải thích.

Nghiên cứu định tính về ChatGPT với sinh viên English for Academic Purposes ở New Zealand cũng dùng SDT để phân tích trải nghiệm học ngôn ngữ. Kết quả cho thấy ChatGPT có thể hỗ trợ cảm giác autonomy và competence qua phản hồi tức thời, hỗ trợ diễn đạt và cơ hội luyện tập, nhưng relatedness và chất lượng tương tác phụ thuộc vào cách công cụ được đặt trong môi trường học và quan hệ với giáo viên/bạn học (Abdulai et al., 2024). Điều này gợi ý rằng AI có thể giúp động lực, nhưng không nên bị xem là nguồn động lực độc lập.

Metacognitive laziness

Metacognition là khả năng nghĩ về việc mình đang nghĩ: đặt mục tiêu, chọn chiến lược, giám sát hiểu biết, phát hiện lỗi, đánh giá mức chắc chắn và điều chỉnh. Khi AI trả lời quá nhanh, người học có thể bỏ qua các bước này. Họ không cần tự hỏi “mình đang kẹt ở đâu?” vì có thể dán đề vào. Không cần lập kế hoạch viết vì AI có thể lập dàn ý. Không cần tự đánh giá câu trả lời vì AI nói câu nào “tốt hơn”.

“Metacognitive laziness” không phải lười theo nghĩa thiếu đạo đức. Nó là sự suy yếu của vòng tự giám sát khi môi trường luôn cung cấp lối tắt. Con người tự nhiên tiết kiệm nỗ lực nhận thức. Nếu hệ thống luôn đưa đáp án mượt, có vẻ hợp lý, người học dễ chọn đường nhanh hơn đường chậm. Zhai, Wibowo và Li systematic review năm 2024 về over-reliance on AI dialogue systems cho thấy phụ thuộc quá mức có thể ảnh hưởng đến decision-making, critical thinking và analytical reasoning, đặc biệt khi người dùng khó đánh giá độ tin cậy của đầu ra AI hoặc bị hấp dẫn bởi giải pháp nhanh (Zhai et al., 2024).

Metacognitive laziness thường bắt đầu rất nhỏ. Người học định tự đọc bài nhưng hỏi AI tóm tắt trước. Tóm tắt khá hay, nên lần sau họ làm vậy tiếp. Họ định tự sửa đoạn văn, nhưng AI sửa nhanh hơn. Họ định tự tìm lỗi logic, nhưng AI chỉ ra vài lỗi có vẻ đúng. Dần dần, việc tự đọc, tự sửa, tự kiểm tra trở thành bước phụ. Người học vẫn hoàn thành nhiệm vụ, thậm chí sản phẩm đẹp hơn, nhưng năng lực tự điều chỉnh không tăng tương xứng.

Một dấu hiệu nguy hiểm là người học không còn phân biệt phần nào là suy nghĩ của mình và phần nào là hỗ trợ của AI. Skulmowski bàn về GenAI như một công cụ externalization và anthropomorphization, cảnh báo nguy cơ người dùng khó theo dõi mức đóng góp của mình khi AI hỗ trợ, dẫn đến các hiệu ứng như placebo và ghostwriter effects (Skulmowski, 2024). Trong học tập, điều này nghĩa là người học có thể cảm thấy mình hiểu vì sản phẩm cuối mượt, nhưng không tự tái tạo được lập luận khi không có AI.

Thiết kế chống metacognitive laziness cần đặt câu hỏi trước khi hỗ trợ. Trước khi AI tóm tắt: “Em hãy viết ba ý chính em nhớ được.” Trước khi AI sửa bài: “Em đánh dấu hai chỗ em nghi ngờ.” Trước khi AI giải bài: “Em dự đoán bước đầu tiên.” Trước khi AI đánh giá nguồn: “Em nêu tiêu chí đáng tin.” Những câu hỏi này không nhằm làm khó vô ích; chúng giữ vòng tự giám sát còn hoạt động.

Một hệ thống tốt cũng nên lưu và hiển thị mức tự chủ: bao nhiêu phần người học làm trước khi nhận gợi ý, họ dùng loại gợi ý nào, họ có sửa dựa trên phản hồi hay chỉ chấp nhận, họ có thể giải thích lại sau đó không. Chỉ số “sản phẩm cuối đạt 8/10” không đủ. Cần biết quá trình tạo ra sản phẩm có phát triển metacognition hay không.

Cognitive offloading có kiểm soát

Cognitive offloading là việc dùng công cụ bên ngoài để giảm tải nhận thức: ghi chú, máy tính, bản đồ, lịch nhắc, tìm kiếm, spellcheck, code autocomplete, hoặc AI. Không phải offloading nào cũng xấu. Con người luôn học cùng công cụ. Vấn đề là kỹ năng nào được ủy quyền, ở giai đoạn nào, với mức kiểm soát nào, và liệu người học có hiểu phần được ủy quyền không.

Máy tính bỏ túi không làm toán học vô nghĩa. Nhưng nếu dùng quá sớm, người học không hình thành number sense. Spellcheck không làm viết kém đi nếu người học vẫn hiểu ngữ pháp và dùng nó để kiểm tra; nhưng nếu người học không biết vì sao câu được sửa, năng lực viết có thể không tăng. GenAI cũng vậy. Nó có thể là công cụ mở rộng năng lực, hoặc là đường vòng tránh năng lực.

Trong viết học thuật, AI có thể giúp brainstorm, tạo outline, phản biện lập luận, kiểm tra coherence, gợi nguồn cần tìm, hoặc đóng vai độc giả khó tính. Đây là offloading có thể tốt nếu người học vẫn giữ vai trò tác giả: đặt mục tiêu, chọn luận điểm, kiểm chứng nguồn, quyết định sửa gì, và chịu trách nhiệm. Nhưng nếu AI viết dàn ý, viết đoạn, sửa giọng, chọn ví dụ và kết luận, người học chỉ còn vai trò phê duyệt.

Zhou, Teng và Al-Samarraie nghiên cứu vai trò trung gian của GenAI self-regulation với critical thinking và problem-solving, nhấn mạnh rằng cách người học tự điều chỉnh khi dùng GenAI ảnh hưởng đến việc công cụ này hỗ trợ hay cản trở các kỹ năng nhận thức cao (Zhou et al., 2024). Đây là hướng đọc đúng: không hỏi đơn giản “AI có hại hay có lợi?”, mà hỏi người học dùng AI với chiến lược tự điều chỉnh nào.

Offloading có kiểm soát cần ba nguyên tắc. Thứ nhất, offload phần phụ để bảo vệ phần chính. Nếu mục tiêu là lập luận, AI có thể giúp sửa lỗi chính tả nhưng không nên thay người học xây luận điểm. Nếu mục tiêu là học Python cơ bản, autocomplete nên hạn chế để người học nhớ cú pháp và luồng điều khiển. Nếu mục tiêu là phân tích dữ liệu, AI có thể giúp viết code lặp lại, nhưng người học phải giải thích giả định thống kê.

Thứ hai, offloading phải đi kèm inspection. Người học cần kiểm tra đầu ra AI: đúng không, thiếu gì, thiên lệch gì, có nguồn không, có phù hợp tiêu chí không. Nếu không có bước inspection, offloading thành automation bias. Carnat phân tích automation bias trong generative LLMs và cảnh báo rằng human-in-the-loop không tự đủ nếu con người vẫn quá tin vào đầu ra có vẻ trôi chảy (Carnat, 2024). Trong giáo dục, “có giáo viên/ học sinh kiểm tra” không đủ; họ phải có năng lực và quy trình kiểm tra.

Thứ ba, offloading phải có fading. Khi người học mới bắt đầu, AI có thể hỗ trợ nhiều. Khi năng lực tăng, hệ thống giảm hỗ trợ hoặc chuyển từ làm hộ sang hỏi. Một AI writing assistant có thể ban đầu gợi cấu trúc đoạn, sau đó chỉ hỏi: “Claim của đoạn này là gì?” hoặc “Bằng chứng này có đủ gần với kết luận không?” Mục tiêu là người học dần nội hóa chiến lược.

Intentional friction

Friction thường bị xem là xấu trong thiết kế sản phẩm. Ít bước hơn, nhanh hơn, mượt hơn. Nhưng trong học tập, không phải mọi ma sát đều xấu. Một số ma sát bảo vệ suy nghĩ. Chương 14 đã gọi đây là ma sát nhận thức đúng chỗ: dự đoán trước khi xem, truy hồi trước khi đọc lại, giải thích trước khi nhận lời giải. Chương này nhấn mạnh mặt động lực và tự điều chỉnh của nó.

Intentional friction là thiết kế làm chậm người học ở đúng điểm để họ không bỏ qua thao tác học cốt lõi. Khi người học hỏi AI “giải bài này”, hệ thống có thể hỏi: “Em đã thử bước nào?” Khi người học xin tóm tắt, hệ thống yêu cầu họ chọn mục tiêu: ôn nhanh, hiểu cấu trúc, hay tìm luận điểm phản biện. Khi người học muốn xem đáp án, hệ thống yêu cầu confidence rating. Khi người học dán bài viết, AI hỏi: “Em muốn feedback về luận điểm, cấu trúc hay văn phong? Hãy tự đánh giá trước một điểm mạnh và một điểm yếu.”

Ma sát tốt khác với gây khó chịu. Nó ngắn, có lý do, gắn với mục tiêu học, và giảm dần khi người học chứng minh được năng lực. Ma sát xấu là captcha sư phạm: bắt người học làm thêm việc không liên quan, nhắc nhở đạo đức chung chung, hoặc khóa tính năng mà không giải thích. Nếu hệ thống nói “hãy tự suy nghĩ trước” nhưng không cho scaffold, người học yếu sẽ bị bỏ rơi.

Intentional friction nên dựa trên mức rủi ro của nhiệm vụ. Với câu hỏi tra cứu đơn giản, AI có thể trả lời nhanh. Với bài viết phân tích, cần yêu cầu outline trước. Với bài toán khái niệm, cần dự đoán và giải thử. Với đánh giá đạo đức hoặc ra quyết định quan trọng, cần yêu cầu nguồn, phản biện, giả định và trường hợp ngoại lệ. Không phải mọi tương tác với AI đều cần cùng một mức ma sát.

Trong SRL, ma sát có thể hỗ trợ ba pha. Ở forethought, hệ thống yêu cầu mục tiêu và kế hoạch trước khi bắt đầu. Ở performance, nó nhắc người học kiểm tra hiểu biết trước khi nhận gợi ý. Ở reflection, nó yêu cầu so sánh sản phẩm đầu và cuối, ghi lại quyết định sửa, và chọn chiến lược cho lần sau. Lan và Zhou nhấn mạnh AI có thể hỗ trợ cả ba pha SRL, nhưng cần giữ agency của người học (Lan & Zhou, 2025). Intentional friction là một cách giữ agency đó.

Một ví dụ cụ thể: trong AI tutor toán, nút “giải ngay” có thể bị thay bằng ba lựa chọn: “gợi ý nhẹ”, “xem ví dụ tương tự”, “kiểm tra lời giải của em”. Lời giải đầy đủ vẫn có, nhưng sau khi người học thử hoặc khi họ chọn lý do chính đáng. Trong AI writing, nút “rewrite” có thể yêu cầu người học chọn tiêu chí: rõ hơn, ngắn hơn, học thuật hơn, hay thuyết phục hơn. Sau khi AI gợi ý, người học phải chọn sửa nào nhận và giải thích vì sao. Ma sát nhỏ này chuyển người học từ nhận đầu ra sang ra quyết định.

Novelty effect decay

Công nghệ mới thường tạo động lực ban đầu. Người học thích chatbot vì nó lạ, nhanh, lịch sự, luôn sẵn sàng. Giáo viên thích dashboard vì nó cho cảm giác nhìn thấy lớp học rõ hơn. Trường thích nền tảng mới vì có năng lượng thay đổi. Nhưng novelty effect giảm. Sau vài tuần, điều còn lại không phải sự mới mẻ, mà là trải nghiệm có giúp người học cảm thấy tiến bộ, tự chủ và kết nối không.

Nghiên cứu về chatbot và motivation bắt đầu cho thấy bức tranh phức tạp. Yin, Goh và Hu nghiên cứu tương tác với educational chatbots và thấy cảm xúc được tạo ra trong tương tác, bao gồm cảm xúc tích cực, tiêu cực và ambivalent emotions, có liên hệ với learning motivation; thiết kế metacognitive feedback và emotion-aware interaction có thể ảnh hưởng cách người học trải nghiệm chatbot (Yin et al., 2024). Điều này nhắc rằng động lực không chỉ đến từ chatbot “có mặt”, mà từ chất lượng phản hồi, cảm xúc và cảm giác được hỗ trợ.

Một nghiên cứu longitudinal sơ bộ năm 2025 về SRL chatbots trong khóa academic listening cho thấy động lực có xu hướng tăng sau khi chuyển sang chatbot dùng generative AI, nhưng cũng có khác biệt cá nhân lớn (Yin et al., 2025). Đây là kiểu bằng chứng cần đọc thận trọng. GenAI có thể làm một số người học thấy được hỗ trợ hơn, nhưng cũng có thể khuếch đại chênh lệch: người có chiến lược tốt dùng AI để học sâu hơn, người thiếu chiến lược dùng AI để đi đường tắt.

Động lực dài hạn cần bốn nguồn. Thứ nhất là tiến bộ nhìn thấy được: người học biết mình tốt hơn ở đâu. Thứ hai là năng lực thật: nhiệm vụ khó vừa đủ, feedback cụ thể, cơ hội sửa. Thứ ba là ý nghĩa: người học hiểu vì sao nội dung này đáng học. Thứ tư là quan hệ: có người thật nhìn thấy nỗ lực và hỗ trợ khi kẹt. Phần thưởng ngắn hạn, streak và novelty có thể mở cửa, nhưng không thể là nền.

Novelty effect decay cũng là lý do không nên đánh giá EdTech chỉ bằng số liệu tuần đầu. Một chatbot có thể tăng số lượt tương tác ban đầu nhưng giảm học sâu sau đó. Một game học tập có thể làm học sinh hào hứng buổi đầu nhưng biến thành cuộc săn điểm. Một dashboard có thể làm giáo viên xem nhiều trong tháng đầu rồi bỏ vì không dẫn tới hành động. Bằng chứng triển khai cần theo dõi theo thời gian: retention, persistence, strategy use, quality of work, help-seeking, self-efficacy và transfer.

AI có thể chống novelty decay bằng cách tạo tiến bộ thật thay vì kích thích mới liên tục. Hệ thống nên giúp người học thấy “tôi đã từng cần gợi ý đầy đủ, giờ chỉ cần gợi ý nhẹ”, “tôi từng viết luận điểm mơ hồ, giờ biết dùng bằng chứng”, “tôi từng hỏi AI giải hộ, giờ biết dùng AI để phản biện”. Đây là động lực dựa trên competence và autonomy, bền hơn cảm giác mới lạ.

Gamification dưới kính hiển vi

Gamification thường được dùng để tăng engagement: điểm, huy hiệu, bảng xếp hạng, cấp độ, nhiệm vụ, streak, avatar, phần thưởng, thử thách. Nó có thể giúp người học bắt đầu và duy trì luyện tập, nhất là với kỹ năng cần lặp lại. Nhưng gamification cũng có thể làm học tập nghèo đi nếu người học tối ưu điểm thay vì hiểu, sợ mất streak hơn là tò mò, hoặc so sánh xã hội thay vì phát triển năng lực.

Meta-analysis và systematic review của Li, Hew và Du năm 2024 cho thấy gamification có thể tăng intrinsic motivation, perceptions of autonomy và relatedness, nhưng tác động lên competence ít hơn (Li et al., 2024). Đây là kết quả rất đáng chú ý. Gamification có thể làm người học hứng thú và cảm thấy kết nối hơn, nhưng không tự làm họ giỏi hơn. Muốn competence tăng, game mechanics phải gắn với phản hồi chất lượng, thử thách vừa sức, cơ hội sửa và mastery thật.

Jaramillo-Mediavilla và cộng sự systematic review năm 2024 về gamification trong giáo dục cũng ghi nhận tác động tích cực đến motivation và academic performance trong nhiều bối cảnh, nhưng kết quả phụ thuộc vào thiết kế, đối tượng, môn học và cách triển khai (Jaramillo-Mediavilla et al., 2024). Chon, Sharif và Saleh review gamification cho learning motivation trong khoa học cũng nhấn mạnh tính context-dependent, có nghiên cứu cho hiệu ứng thấp hoặc tiêu cực (Chon et al., 2024). Vì vậy, gamification không phải gia vị rắc lên mọi khóa học.

Gao năm 2024 lập luận rằng nghiên cứu gamification thường dùng SDT còn hời hợt, và cần hiểu sâu hơn các cơ chế dưới bề mặt (Gao, 2024). Từ góc nhìn SDT, câu hỏi không phải “có điểm/huy hiệu không?” mà là: cơ chế này hỗ trợ autonomy, competence, relatedness hay làm suy yếu chúng? Một badge có thể hỗ trợ competence nếu nó đánh dấu một kỹ năng thật. Nó có thể làm yếu autonomy nếu trở thành mồi nhử hành vi. Leaderboard có thể tạo relatedness trong nhóm hợp tác nhỏ, nhưng cũng có thể làm người yếu rút lui.

Gamification tốt trong học tập nên ưu tiên progress, mastery và collaboration hơn là status. Progress map cho thấy hành trình và lựa chọn. Mastery badges gắn với bằng chứng năng lực cụ thể. Challenge điều chỉnh theo trình độ. Streak có thể dùng, nhưng không nên phạt nặng khi người học nghỉ vì lý do thật. Leaderboard nếu dùng nên so với chính mình, nhóm nhỏ, hoặc mục tiêu hợp tác, thay vì xếp hạng toàn lớp công khai.

AI-supported gamification làm vấn đề phức tạp hơn. AI có thể cá nhân hóa thử thách, phát hiện lúc người học chán, điều chỉnh phần thưởng, hoặc tạo nhiệm vụ phù hợp. Nhưng nó cũng có thể tối ưu engagement theo cách thao túng: gửi nhắc đúng lúc dễ click, tăng phần thưởng khi người học sắp bỏ, hoặc dùng so sánh xã hội để kéo họ quay lại. Một hệ thống giáo dục không nên mượn logic casino của nền tảng tiêu dùng. Mục tiêu là học bền, không phải giữ người học trong app lâu nhất.

Thực trạng triển khai

Trong thực tế, nhiều hệ thống AI đang đứng giữa hai mô hình. Một mô hình là AI như coach tự điều chỉnh: giúp người học đặt mục tiêu, lập kế hoạch, chọn chiến lược, nhận feedback, phản tư và giảm dần hỗ trợ. Mô hình kia là AI như trợ lý làm thay: viết, giải, tóm tắt, sửa, chọn nguồn, và tối ưu sản phẩm. Cả hai đều có thể tồn tại trong cùng một công cụ. Khác biệt nằm ở thiết kế hoạt động.

Trong lớp viết, giáo viên có thể yêu cầu người học dùng AI để tạo ba phản biện cho luận điểm của mình, sau đó tự chọn và trả lời phản biện. Đây là AI hỗ trợ critical thinking. Nhưng nếu yêu cầu chỉ là “dùng AI để cải thiện bài viết”, nhiều người học sẽ để AI viết lại văn bản. Trong lớp lập trình, AI có thể được dùng để giải thích lỗi sau khi sinh viên dự đoán nguyên nhân. Nhưng nếu AI tự sửa code ngay, người học có thể không học debugging.

Trong học ngoại ngữ, chatbot có thể tạo môi trường luyện tập ít đe dọa, tăng cơ hội nói/viết, và phản hồi tức thời. Nhưng nếu chatbot luôn sửa câu ngay lập tức, người học có thể tập trung vào đáp án “chuẩn” hơn là giao tiếp có ý nghĩa. Nghiên cứu về chatbot, emotion và motivation cho thấy cảm xúc trong tương tác cần được thiết kế, không chỉ giả định chatbot luôn thân thiện là đủ (Yin et al., 2024).

Trong gamified learning, nhiều sản phẩm dùng streak, điểm và cấp độ vì dễ đo và dễ triển khai. Nhưng chúng thường bỏ qua feedback sâu, nhiệm vụ có ý nghĩa và quan hệ xã hội. Kết quả là động lực ban đầu có thể tăng, nhưng khi novelty giảm, người học chỉ còn lại cơ chế phần thưởng mỏng. Gamification tốt đòi hỏi thiết kế sư phạm nhiều hơn thiết kế điểm số.

Trong dashboard và learning analytics, AI có thể gợi chiến lược học. Nhưng nếu dashboard nói “em có nguy cơ thấp/cao” mà không cho hành động cụ thể, người học có thể lo lắng hoặc buông xuôi. Dashboard động lực tốt nên nói: “Em có ba lần bỏ dở bài khi gặp câu hỏi mở; hãy thử dùng khung lập dàn ý trước khi hỏi AI.” Nó phải nối dữ liệu với chiến lược, không nối dữ liệu với nhãn.

Phân tích phản biện

Ảo tưởng đầu tiên là “engagement là động lực”. Người học tương tác nhiều không có nghĩa họ học sâu. Họ có thể click vì phần thưởng, vì lo mất streak, vì giao diện gây nghiện, hoặc vì AI trả lời thú vị. Engagement chỉ có giá trị khi gắn với hành động học có ý nghĩa: truy hồi, giải thích, luyện tập, phản biện, sửa lỗi, hợp tác.

Ảo tưởng thứ hai là “AI cá nhân hóa thì người học tự chủ hơn”. Cá nhân hóa có thể tăng autonomy nếu người học hiểu, kiểm soát và tham gia quyết định. Nhưng nó có thể giảm autonomy nếu hệ thống âm thầm quyết định lộ trình, che giấu tiêu chí, và khiến người học chỉ đi theo đề xuất. Autonomy cần transparency và choice, không chỉ recommendation.

Ảo tưởng thứ ba là “giúp càng nhiều càng tốt”. Hỗ trợ quá nhiều có thể làm giảm competence thật. Người học thấy sản phẩm tốt hơn nhưng không biết tự làm lại. Đây là rủi ro của AI mạnh: nó làm khoảng cách giữa performance có hỗ trợ và competence độc lập trở nên lớn hơn. Thiết kế cần đo cả hai.

Ảo tưởng thứ tư là “gamification vô hại”. Điểm, badge, leaderboard và streak đều truyền thông điệp về điều gì được coi trọng. Nếu hệ thống thưởng tốc độ, người học tối ưu tốc độ. Nếu thưởng số câu, người học tối ưu số câu. Nếu thưởng tiến bộ và sửa lỗi, người học có thể chú ý đến mastery hơn. Game mechanics là chính sách sư phạm thu nhỏ.

Ảo tưởng thứ năm là “cấm AI sẽ bảo vệ tự điều chỉnh”. Cấm có thể cần trong một số đánh giá, nhưng không đủ như chiến lược giáo dục. Người học vẫn sẽ sống trong thế giới có AI. Mục tiêu là dạy họ dùng AI có kỷ luật: biết khi nào hỏi, hỏi như thế nào, kiểm chứng ra sao, giữ phần nào tự làm, và phản tư về sự phụ thuộc.

Nguyên tắc thiết kế

Nguyên tắc đầu tiên: thiết kế AI để nuôi autonomy, không chỉ tối ưu lộ trình. Hệ thống nên giải thích đề xuất, cho lựa chọn có cấu trúc, và giúp người học đặt mục tiêu của chính mình.

Nguyên tắc thứ hai: competence phải dựa trên tiến bộ thật. Feedback cần cụ thể, có thể hành động và nối với chiến lược. Không dùng lời khen rỗng để thay cho bằng chứng năng lực.

Nguyên tắc thứ ba: relatedness cần người thật. AI có thể hỗ trợ giao tiếp, rehearsal, dịch, tóm tắt và phát hiện người cần giúp, nhưng không nên thay thế hoàn toàn quan hệ giáo viên-bạn học-cộng đồng.

Nguyên tắc thứ tư: luôn yêu cầu nỗ lực trước hỗ trợ mạnh. Dự đoán trước lời giải, outline trước khi viết, tự đánh dấu lỗi trước khi AI sửa, confidence rating trước khi xem đáp án.

Nguyên tắc thứ năm: phân biệt support, scaffold và substitution. Support giúp làm việc dễ hơn. Scaffold giúp học để sau này tự làm. Substitution thay người học làm phần cần học. Thiết kế tốt ưu tiên scaffold.

Nguyên tắc thứ sáu: cognitive offloading phải có inspection và fading. Người học được dùng AI, nhưng phải kiểm tra đầu ra, giải thích lựa chọn, và dần giảm mức hỗ trợ khi năng lực tăng.

Nguyên tắc thứ bảy: gamification phải phục vụ mastery. Badge nên gắn với năng lực, streak không nên phạt đời sống thật, leaderboard phải cẩn thận, và challenge phải vừa sức.

Nguyên tắc thứ tám: đo phụ thuộc, không chỉ đo thành tích. Hệ thống nên theo dõi người học có thể làm gì không AI, cần bao nhiêu gợi ý, có tự phát hiện lỗi không, có giải thích được quyết định không, và có chuyển chiến lược sang nhiệm vụ mới không.

Nguyên tắc thứ chín: động lực dài hạn cần ý nghĩa. Hãy cho người học thấy nội dung này liên quan tới mục tiêu, dự án, cộng đồng hoặc năng lực thật nào. Phần thưởng ngắn hạn chỉ nên là cầu vào, không phải nền móng.

Tổng kết chương

AI có thể giúp người học tự chủ hơn, nhưng cũng có thể làm họ phụ thuộc hơn. Khác biệt không nằm ở bản thân công cụ, mà ở cách thiết kế hoạt động, feedback, quyền lựa chọn, ma sát, gamification và vai trò của người thật. Self-Determination Theory nhắc rằng động lực bền cần autonomy, competence và relatedness. Self-regulated learning nhắc rằng người học cần đặt mục tiêu, giám sát, điều chỉnh và phản tư. Cognitive offloading nhắc rằng dùng công cụ không xấu, nhưng phải biết kỹ năng nào đang được ủy quyền. Gamification nhắc rằng engagement không đồng nghĩa với học sâu.

Có năm điểm cần giữ lại. Thứ nhất, động lực chất lượng cao khác với tương tác nhiều. Thứ hai, AI nên hỗ trợ người học tự điều chỉnh, không chiếm quyền điều chỉnh. Thứ ba, phụ thuộc AI thường bắt đầu từ việc bỏ qua các bước metacognitive nhỏ. Thứ tư, intentional friction là cần thiết khi nó bảo vệ phần suy nghĩ cốt lõi. Thứ năm, gamification phải được đọc như thiết kế động lực, không phải lớp trang trí.

Chương 16 sẽ chuyển sang đánh giá trong môi trường AI. Nếu chương này hỏi làm sao người học không mất agency khi có AI, chương sau hỏi: ta nên đánh giá điều gì, bằng cách nào, khi sản phẩm cuối có thể được máy tạo ra và quá trình học trở nên quan trọng hơn bao giờ hết?

Tài liệu tham khảo

Abdulai, A.-F., et al. (2024). The impact of ChatGPT on English for Academic Purposes (EAP) students' language learning experience: A Self-Determination Theory perspective. Education Sciences, 14(7), 726. https://doi.org/10.3390/educsci14070726

Bureau, J. S., et al. (2024). A systematic review and meta-analysis of self-determination-theory-based interventions in the education context. Learning and Motivation, 87, 102015. https://doi.org/10.1016/j.lmot.2024.102015

Carnat, I. (2024). Human, all too human: Accounting for automation bias in generative large language models. International Data Privacy Law, 14(4), 299-314. https://doi.org/10.1093/idpl/ipae018

Chiu, T. K. F. (2024). A classification tool to foster self-regulated learning with generative artificial intelligence by applying self-determination theory: A case of ChatGPT. Educational Technology Research and Development, 72, 2401-2416. https://doi.org/10.1007/s11423-024-10366-w

Chon, V. F. A., Sharif, S., & Saleh, N. M. (2024). Gamification for enhancing students' learning motivation: A systematic review. Journal of Cognitive Sciences and Human Development, 10(2), 19-41. https://doi.org/10.33736/jcshd.7231.2024

Deci, E. L., & Ryan, R. M. (2000). The "what" and "why" of goal pursuits: Human needs and the self-determination of behavior. Psychological Inquiry, 11(4), 227-268. https://doi.org/10.1207/S15327965PLI1104_01

Gao, F. (2024). Advancing gamification research and practice with three underexplored ideas in Self-Determination Theory. TechTrends, 68, 661-671. https://doi.org/10.1007/s11528-024-00968-9

Jaramillo-Mediavilla, L., Basantes-Andrade, A., Cabezas-González, M., & Casillas-Martín, S. (2024). Impact of gamification on motivation and academic performance: A systematic review. Education Sciences, 14(6), 639. https://doi.org/10.3390/educsci14060639

Lan, M., & Zhou, X. (2025). A qualitative systematic review on AI empowered self-regulated learning in higher education. npj Science of Learning, 10, 21. https://doi.org/10.1038/s41539-025-00319-0

Li, L., Hew, K. F., & Du, J. (2024). Gamification enhances student intrinsic motivation, perceptions of autonomy and relatedness, but minimal impact on competency: A meta-analysis and systematic review. Educational Technology Research and Development, 72, 765-796. https://doi.org/10.1007/s11423-023-10337-7

Ryan, R. M., & Deci, E. L. (2020). Intrinsic and Extrinsic Motivation from a Self-Determination Theory Perspective: Definitions, Theory, Practices, and Future Directions. Contemporary Educational Psychology, 61, 101860. https://doi.org/10.1016/j.cedpsych.2020.101860

Skulmowski, A. (2024). Placebo or assistant? Generative AI between externalization and anthropomorphization. Educational Psychology Review, 36, 58. https://doi.org/10.1007/s10648-024-09894-x

Yin, J., Goh, T.-T., & Hu, Y. (2024). Interactions with educational chatbots: The impact of induced emotions and students' learning motivation. International Journal of Educational Technology in Higher Education, 21, 47. https://doi.org/10.1186/s41239-024-00480-3

Yin, J., et al. (2025). Do AI chatbots impact motivation? Insights from a preliminary longitudinal study. System, 128, 103544. https://doi.org/10.1016/j.system.2024.103544

Zhou, X., Teng, D., & Al-Samarraie, H. (2024). The mediating role of generative AI self-regulation on students' critical thinking and problem-solving. Education Sciences, 14(12), 1302. https://doi.org/10.3390/educsci14121302

Chương 16: Các mô hình đánh giá mới

Bối cảnh / Vấn đề

Trong nhiều thập niên, phần lớn hệ thống giáo dục vận hành trên một giả định khá ổn định: nếu một học sinh nộp bài luận, làm bài kiểm tra, viết báo cáo phòng thí nghiệm hoặc giải một bộ câu hỏi, sản phẩm đó là dấu vết tương đối đáng tin của năng lực người học. Giả định này chưa bao giờ hoàn hảo. Học thêm, gia sư, phụ huynh sửa bài, bài mẫu, đạo văn, ngân hàng đề và khác biệt điều kiện sống luôn làm đánh giá phức tạp. Nhưng GenAI làm vấn đề chuyển pha. Một sản phẩm cuối có thể trôi chảy, có cấu trúc, đúng văn phong và vượt mức năng lực độc lập của người học, trong khi quá trình tạo ra nó rất khó nhìn thấy nếu hệ thống chỉ nhận bài nộp cuối.

Điều này không có nghĩa là mọi bài viết sau ChatGPT đều vô nghĩa, cũng không có nghĩa là thi giấy truyền thống bỗng trở thành chuẩn vàng. Nó chỉ buộc giáo dục phải hỏi lại: ta đang đánh giá cái gì? Một sản phẩm? Một quá trình? Một năng lực độc lập? Một năng lực dùng công cụ? Một khả năng giải thích quyết định? Một sự tiến bộ cá nhân? Một năng lực hợp tác trong bối cảnh thật? Nếu không trả lời rõ, các trường dễ rơi vào hai phản xạ nghèo nàn: hoặc cấm AI và cố dùng detector như hàng rào, hoặc thả AI vào đánh giá mà không đổi mục tiêu, tiêu chí và bằng chứng.

Tốc độ thay đổi của hành vi người học khiến câu hỏi này không còn là chuyện tương lai. Khảo sát Student Generative AI Survey 2025 của HEPI và Kortext với 1.041 sinh viên đại học toàn thời gian ở Anh cho thấy 92% sinh viên đã dùng một dạng AI nào đó, tăng từ 66% năm 2024; 88% cho biết đã dùng GenAI cho assessment, tăng từ 53% năm trước (Freeman, 2025). Con số này không tự động chuyển sang mọi quốc gia hay bậc học, nhưng nó cho thấy một thực tế: trong các môi trường có tiếp cận công cụ, GenAI nhanh chóng trở thành một phần của cách người học chuẩn bị, viết, sửa, tìm ý và tự đánh giá.

Một scoping review năm 2024 về GenAI và đánh giá trong giáo dục đại học rà soát 969 bài ban đầu và chọn 32 nghiên cứu thực nghiệm để phân tích. Review này kết luận rằng đánh giá cần chuyển đổi để nuôi self-regulated learning, responsible learning và integrity; đồng thời giáo viên cần năng lực assessment literacy, AI literacy và digital literacy, còn tổ chức phải xem lại chính sách đánh giá thay vì chỉ thêm quy định chống gian lận (Xia et al., 2024). Nói cách khác, GenAI không chỉ là vấn đề “phát hiện bài do máy viết”. Nó là vấn đề thiết kế lại quan hệ giữa học, phản hồi, bằng chứng và trách nhiệm.

Chương này bàn về các mô hình đánh giá mới theo nghĩa thực dụng: không phải mọi mô hình đều mới về mặt lịch sử, nhưng chúng trở nên cấp thiết hơn trong môi trường AI. Formative assessment, stealth assessment, ipsative assessment, asset-based assessment, complex competency evaluation, authentic assessment và AI-assisted feedback đều đã có nền tảng trước GenAI. Điểm mới là chúng không còn là lựa chọn phụ cho những giáo viên thích đổi mới; chúng trở thành điều kiện để đánh giá còn giữ được giá trị giáo dục khi sản phẩm cuối dễ được tự động hóa.

Nền tảng lý thuyết

Đánh giá giáo dục có ít nhất ba chức năng: xác nhận kết quả, hỗ trợ học tập và điều hướng hành vi. Summative assessment xác nhận mức đạt ở một thời điểm: điểm cuối kỳ, bài thi chuẩn hóa, chứng chỉ, quyết định đỗ-trượt. Formative assessment hỗ trợ học trong quá trình: phản hồi, câu hỏi chẩn đoán, bài nháp, kiểm tra ngắn, quan sát, self-assessment, peer feedback. Trong thực tế, hai chức năng này thường trộn vào nhau. Một bài kiểm tra có thể vừa cho điểm vừa chỉ ra lỗ hổng. Một portfolio có thể vừa giúp người học phản tư vừa phục vụ chứng nhận.

Vấn đề là áp lực hệ thống thường kéo đánh giá về summative. Điểm số dễ quản trị, dễ báo cáo, dễ xếp hạng, dễ dùng cho tuyển sinh và trách nhiệm giải trình. Nhưng khi AI có thể tạo ra nhiều loại sản phẩm cuối, đánh giá dựa quá nhiều vào một lần nộp bài sẽ yếu đi. Nếu bài luận cuối kỳ có thể được soạn bởi AI, rubrics chỉ chấm văn phong và cấu trúc sẽ đo một hỗn hợp mờ giữa năng lực người học, khả năng dùng công cụ, chất lượng prompt, mức can thiệp của người khác và tiêu chí chấm của giáo viên. Kết quả vẫn là một điểm số, nhưng assessment argument phía sau bị thủng.

Khái niệm “assessment argument” rất quan trọng. Một đánh giá tốt không chỉ có câu hỏi và điểm. Nó phải có lập luận: từ hành vi quan sát được, ta có quyền suy ra năng lực nào, với mức chắc chắn nào, trong điều kiện nào. Evidence-centered design (ECD) diễn đạt điều này qua ba lớp: competency model xác định năng lực cần đo; evidence model xác định dấu hiệu quan sát nào chứng minh năng lực đó; task model thiết kế nhiệm vụ tạo ra dấu hiệu ấy (Mislevy, Steinberg, & Almond, 2003). Khi AI xuất hiện, ba lớp này đều phải được xem lại. Năng lực có thể bao gồm cả AI literacy; bằng chứng không chỉ là câu trả lời cuối; nhiệm vụ phải tạo cơ hội quan sát quá trình, lựa chọn, kiểm chứng và giải thích.

Đánh giá còn phải giữ bốn giá trị cốt lõi: validity, reliability, fairness và educational consequence. Validity hỏi: điểm số hoặc nhận xét có đo đúng điều cần đo không? Reliability hỏi: kết quả có ổn định, nhất quán và ít phụ thuộc vào ngẫu nhiên không? Fairness hỏi: người học có cơ hội hợp lý để thể hiện năng lực, không bị phạt vì nền tảng ngôn ngữ, thiết bị, điều kiện sống hoặc thiên lệch hệ thống không? Educational consequence hỏi: cách đánh giá này làm người học học theo hướng nào?

GenAI làm bốn giá trị này căng hơn. Arslan và cộng sự, trong bài perspective năm 2024 về GenAI và personalized educational assessment, cho rằng GenAI có cơ hội tăng engagement, performance và access, nhưng cũng đe dọa các giá trị cốt lõi của đánh giá: validity, reliability và fairness nếu đầu ra thiếu kiểm soát, có hallucination, bias, thiếu explainability hoặc không khớp mục tiêu đánh giá (Arslan et al., 2024). Đây là điểm cần giữ trong suốt chương: AI có thể làm đánh giá giàu hơn, nhưng chỉ khi thiết kế đánh giá đủ chặt để biết AI đang hỗ trợ phần nào và không được phép thay thế phần nào.

Một nền tảng khác là assessment for learning. Đánh giá không chỉ là đo sau khi học; nó có thể là một cơ chế học. Retrieval practice trong chương 13 đã cho thấy kiểm tra có thể giúp nhớ lâu hơn. Feedback trong chương 14 và 15 đã cho thấy phản hồi giúp người học điều chỉnh nếu nó cụ thể, kịp thời và được dùng. Nhưng feedback không tự động có tác dụng. Nếu người học không hiểu tiêu chí, không có cơ hội sửa, hoặc chỉ quan tâm điểm, feedback trở thành tiếng ồn. Wood và Pitt nghiên cứu learner-orchestrated self-generated feedback trong môi trường Google Drive/Classroom và nhấn mạnh vai trò của việc người học tự tạo feedback thông qua so sánh với bài của bạn, chiến lược uptake và phản hồi giáo viên; điều này liên quan trực tiếp đến agency và feedback literacy (Wood & Pitt, 2024).

Vì vậy, đánh giá mới không nên được hiểu là thêm công cụ chấm tự động. Nó là tái cấu trúc vòng học: nhiệm vụ tạo ra bằng chứng tốt hơn; người học thấy tiêu chí rõ hơn; giáo viên có dữ liệu quá trình chứ không chỉ sản phẩm; AI hỗ trợ phản hồi nhưng không thay thế phán đoán; hệ thống đo tiến bộ, năng lực phức hợp và khả năng tự điều chỉnh thay vì chỉ đo đáp án cuối.

Formative và summative trong môi trường AI

Trong môi trường AI, formative assessment trở nên quan trọng hơn vì nó nhìn vào quá trình, còn sản phẩm cuối ngày càng dễ được gia công. Một bài viết cuối kỳ vẫn có giá trị, nhưng giá trị của nó tăng lên nếu đi kèm outline ban đầu, bản nháp, nhật ký sửa, phản hồi đã nhận, lý do chọn nguồn, phần tự đánh giá và phần bảo vệ miệng. Một bài toán vẫn có giá trị, nhưng giá trị tăng nếu người học ghi lại chiến lược thử, lỗi gặp phải, cách kiểm chứng đáp án và lúc nào dùng AI để nhận gợi ý.

Điều này không có nghĩa là mọi bài đánh giá đều phải thành portfolio cồng kềnh. Formative có thể rất nhỏ: một câu confidence rating trước khi nộp đáp án; một câu hỏi “em chắc phần nào, chưa chắc phần nào?”; một bản giải thích vì sao chọn phương án; một micro-reflection sau khi AI góp ý; một phiếu exit ticket cuối buổi; một lần yêu cầu người học so sánh lời giải của mình với lời giải AI. Điểm chính là đánh giá phải tạo ra dấu vết của suy nghĩ, không chỉ dấu vết của sản phẩm.

Summative assessment vẫn cần thiết. Xã hội cần chứng nhận: bác sĩ, kỹ sư, giáo viên, kế toán, phi công, điều dưỡng, lập trình viên, nhà nghiên cứu đều cần bằng chứng rằng họ đạt chuẩn tối thiểu nào đó. Nhưng summative trong kỷ nguyên AI cần rõ điều kiện. Có thể có bài thi không AI để đo năng lực độc lập. Có thể có bài thi AI-allowed để đo năng lực dùng công cụ. Có thể có bài đánh giá hybrid: người học chuẩn bị với AI, nhưng phải giải thích và bảo vệ trước người thật. Sai lầm là trộn các điều kiện này mà không công bố. Nếu người học không biết phần nào được dùng AI, dùng đến đâu, phải khai báo ra sao, đánh giá sẽ biến thành trò đoán luật.

Xia và cộng sự ghi nhận GenAI tạo ra cơ hội cho feedback tức thời, self-assessment và perceived unbiased feedback, nhưng cũng làm tăng thách thức academic integrity và đòi hỏi giáo viên thiết kế assessment đa dạng hơn, nhấn mạnh higher-order thinking, authentic tasks và process of learning (Xia et al., 2024). Nói cách khác, formative không chỉ là “cho quiz nhiều hơn”. Nó là đưa bằng chứng quá trình vào trung tâm: người học làm gì trước khi có đáp án, dùng phản hồi thế nào, sửa ra sao, và có hiểu tiêu chí không.

Một thiết kế thực tế là phân tách ba lớp điểm. Lớp thứ nhất là knowledge check ngắn, thường xuyên, có thể không tính điểm cao, dùng để phát hiện lỗ hổng. Lớp thứ hai là process evidence: bản nháp, log quyết định, peer feedback, AI-use declaration, reflection. Lớp thứ ba là performance task hoặc defense: sản phẩm cuối, trình bày, giải thích, ứng dụng vào tình huống mới. Khi ba lớp này khớp nhau, giáo viên có assessment argument mạnh hơn. Nếu sản phẩm cuối rất tốt nhưng process evidence nghèo và defense yếu, có lý do để nghi ngờ năng lực độc lập hoặc yêu cầu bổ sung. Nếu sản phẩm cuối chưa bóng bẩy nhưng quá trình cho thấy tiến bộ, chiến lược tốt và hiểu sâu, giáo viên có cơ sở phản hồi công bằng hơn.

Một điểm cần thận trọng là workload. Nhiều giáo viên nghe “đánh giá quá trình” là thấy thêm việc: thêm bài nháp, thêm reflection, thêm log, thêm chấm. Vì vậy thiết kế phải chọn bằng chứng có giá trị cao. Không cần thu mọi thao tác. Không cần đọc toàn bộ lịch sử chỉnh sửa. Không cần biến mỗi nhiệm vụ thành hồ sơ điều tra. Hãy chọn vài dấu vết có khả năng phân biệt học thật với sản phẩm được làm hộ: kế hoạch ban đầu, một điểm sai đã sửa, một quyết định dùng/không dùng AI, một đoạn giải thích tiêu chí, một lần chuyển kiến thức sang bối cảnh mới.

Stealth assessment

Stealth assessment là đánh giá được nhúng vào hoạt động học, thường là game, simulation hoặc môi trường số giàu tương tác. Người học không phải dừng lại để “làm bài kiểm tra”; hệ thống suy luận năng lực từ hành động: chọn chiến lược nào, thử bao nhiêu lần, phản ứng với lỗi ra sao, dùng tài nguyên nào, hợp tác thế nào, có điều chỉnh sau feedback không. Khái niệm này gắn mạnh với công trình của Valerie Shute và Matthew Ventura về đánh giá trong trò chơi học tập (Shute & Ventura, 2013).

Giá trị của stealth assessment nằm ở chỗ nó đo được những năng lực khó bắt trong bài kiểm tra tĩnh: persistence, problem solving, systems thinking, creativity, computational thinking, collaboration, risk taking, troubleshooting. Một bài thi truyền thống thường hỏi người học sản phẩm cuối. Stealth assessment hỏi thêm: để đi đến sản phẩm đó, người học đã tương tác với hệ thống như thế nào? Dấu vết hành động có cho thấy chiến lược tốt không? Người học có học từ lỗi không? Có đổi hướng khi bằng chứng không ủng hộ giả thuyết không?

Một systematic review về stealth assessment tại ICLS 2023 xác định 93 nghiên cứu liên quan, gồm 41 bài journal, 27 conference papers, 14 book chapters, 10 dissertations và 1 book; các nghiên cứu trải từ học sinh lớp 3 đến người lớn, đánh giá cả năng lực khó đo như creativity, persistence, problem solving, computational thinking lẫn kiến thức môn học như toán, vật lý, genetics, reading và writing (Rahimi et al., 2023). Review này cũng cho thấy phần lớn nghiên cứu vẫn ở giai đoạn validation, còn việc dùng ước lượng stealth assessment để thích ứng và cung cấp feedback thời gian thực chưa phổ biến bằng. Đây là tín hiệu vừa tích cực vừa thận trọng: phương pháp có nền nghiên cứu đáng kể, nhưng triển khai đại trà phải giải quyết validity, transparency và đạo đức dữ liệu.

Trong môi trường AI, stealth assessment có thể mở rộng ngoài game. Một môi trường học viết có thể theo dõi người học lập dàn ý, dùng nguồn, so sánh lập luận, phản hồi với góp ý AI và sửa bản nháp. Một môi trường học lập trình có thể quan sát cách người học đọc lỗi, viết test, sửa bug, dùng AI để giải thích stack trace và kiểm chứng đoạn code gợi ý. Một phòng lab ảo có thể ghi lại thao tác thí nghiệm, lựa chọn biến, cách đọc dữ liệu và quyết định thử lại. Một simulation quản lý lớp học có thể đo khả năng phản ứng với tình huống học sinh khác nhau.

Nhưng “stealth” cũng có mặt tối. Nếu người học không biết mình đang bị đo, hoặc không hiểu dữ liệu nào được thu, mục tiêu đánh giá nào đang hoạt động, ai được xem dữ liệu, dữ liệu dùng để giúp hay phạt, thì đánh giá nhúng có thể biến thành giám sát ngầm. Một hệ thống tốt phải phân biệt rõ learning analytics phục vụ học tập với surveillance phục vụ kiểm soát. Đặc biệt với trẻ em, dữ liệu hành vi cần nguyên tắc tối thiểu hóa, bảo mật, quyền truy cập và giải thích được.

Một nguyên tắc thực dụng là “transparent stealth”: đánh giá được nhúng vào hoạt động để giảm gián đoạn, nhưng không bí mật về mục tiêu. Người học có thể không thấy mỗi mô hình thống kê, nhưng họ cần biết hệ thống đang theo dõi loại bằng chứng nào: chiến lược thử, cách dùng gợi ý, mức độc lập, sự tiến bộ, hợp tác, phản tư. Giáo viên cần biết ước lượng đó đáng tin đến đâu, dựa trên dữ liệu nào và không nên dùng ngoài phạm vi nào. Nếu stealth assessment trở thành hộp đen cho điểm, nó phản bội chính mục tiêu giáo dục.

Ipsative assessment

Ipsative assessment đánh giá người học so với chính họ qua thời gian, thay vì chỉ so với chuẩn chung hoặc bạn cùng lớp. Nó hỏi: so với tháng trước, em tiến bộ ở đâu? Chiến lược của em đã đổi thế nào? Lỗi nào giảm? Khả năng tự đánh giá có chính xác hơn không? Em dùng feedback tốt hơn chưa? Trong môi trường học bị ám ảnh bởi xếp hạng, ipsative assessment đưa một câu hỏi nhân bản và cũng rất thực dụng: người học có đang tăng năng lực thật không?

Ipsative không thay thế hoàn toàn criterion-referenced assessment. Xã hội vẫn cần biết người học có đạt chuẩn tối thiểu hay không. Một sinh viên y khoa không thể chỉ nói “em tiến bộ hơn chính em” nếu vẫn chưa đạt chuẩn an toàn bệnh nhân. Nhưng trong nhiều giai đoạn học, nhất là khi người học có xuất phát điểm khác nhau, so sánh với chính mình giúp giảm tác hại của xếp hạng sớm. Người yếu thấy tiến bộ nhỏ cũng có ý nghĩa. Người mạnh không ngủ quên trên vị trí cao nếu tiêu chí là tăng trưởng tiếp tục.

Kukol năm 2024 đề xuất kết hợp ipsative assessment với sociomaterial assessment trong giáo dục khoa học đại học. Bài viết nhấn mạnh bốn chủ đề: science education phù hợp với đánh giá sociomaterial, feedback ipsative hỗ trợ học, personal learning gain cần được đo, và đánh giá ipsative phải được dung hòa với hệ thống quy ước trong kỷ nguyên GenAI (Kukol, 2024). Ví dụ phòng thí nghiệm rất rõ: một sinh viên ban đầu vụng về với spectrophotometer, sau nhiều lần thực hành có thể thao tác chính xác hơn, hiểu calibration graph hơn, biết hỏi bạn và giáo viên đúng lúc hơn. Điểm cuối cùng không nói hết quá trình đó. Portfolio kỹ năng và phản tư theo thời gian cho thấy học diễn ra như thế nào.

Trong học viết ngoại ngữ, Ebrahimi và Ebadi nghiên cứu screencast-based ipsative assessment với sinh viên EFL tại Iran. Công nghệ screencast giúp giáo viên ghi phản hồi chi tiết, còn nguyên tắc ipsative giúp người học nhìn lại sản phẩm trước đó và phản tư về tiến bộ viết của mình (Ebrahimi & Ebadi, 2024). Điểm đáng chú ý là công nghệ không thay thế logic sư phạm; nó làm phản hồi cá nhân hóa và dấu vết tiến bộ dễ truy cập hơn.

AI có thể hỗ trợ ipsative assessment khá tốt nếu được thiết kế đúng. Nó có thể so sánh bản nháp 1 và bản nháp 3, chỉ ra loại lỗi giảm, phân tích sự thay đổi trong lập luận, theo dõi mức độ người học tự sửa trước khi hỏi, tạo bản đồ tiến bộ theo kỹ năng nhỏ, nhắc lại mục tiêu cũ và hỏi người học tự đánh giá. Nhưng AI cũng có thể làm hỏng ipsative nếu nó cải thiện sản phẩm thay người học. Khi bản nháp sau tốt hơn vì AI viết lại toàn bộ, “tiến bộ” là tiến bộ của sản phẩm, không nhất thiết là tiến bộ của người học.

Vì vậy, ipsative assessment trong môi trường AI cần đo thêm mức hỗ trợ. Một bản đồ tiến bộ nên phân biệt: người học tự làm, người học dùng gợi ý nhẹ, người học dùng feedback chi tiết, người học dùng AI tạo phương án, người học nhờ AI viết lại. Không phải mức nào cũng xấu. Nhưng nếu không ghi mức hỗ trợ, không thể biết tiến bộ thuộc về ai. Một kỹ năng được xem là vững khi người học có thể thực hiện lại với ít hỗ trợ hơn, giải thích được quyết định, và chuyển chiến lược sang nhiệm vụ mới.

Asset-based assessment

Nhiều hệ thống đánh giá vận hành theo deficit model: tìm lỗi, tô đỏ, xếp người học theo thiếu hụt so với chuẩn. Cách này có giá trị chẩn đoán, nhưng nếu nó là lăng kính duy nhất, người học dễ bị đóng khung: yếu toán, kém viết, thiếu tập trung, không có tư duy phản biện, thấp hơn chuẩn. Asset-based assessment bắt đầu từ câu hỏi khác: người học đang có tài sản nào? Họ hiểu gì, làm được gì, quan sát tốt ở đâu, có kinh nghiệm sống nào, ngôn ngữ nào, chiến lược nào, mạng lưới hỗ trợ nào, sở thích nào có thể trở thành đường vào học tập?

Asset-based không phải khen cho vui. Nó vẫn cần tiêu chuẩn và bằng chứng. Sự khác biệt là nó xem điểm mạnh như dữ liệu thiết kế, không phải lời động viên bên lề. Một học sinh viết câu còn lủng củng nhưng kể chuyện tốt có thể được giao nhiệm vụ xây dựng lập luận từ narrative trước. Một học sinh tính toán chậm nhưng giải thích bằng hình tốt có thể dùng sơ đồ để đi vào đại số. Một người học song ngữ có thể dùng kiến thức ngôn ngữ mẹ đẻ để phân tích khái niệm, thay vì bị xem là “thiếu tiếng Anh”. Một học viên nghề có kinh nghiệm thực địa có thể dùng tình huống công việc để chứng minh năng lực, không chỉ làm bài kiểm tra trừu tượng.

Trong môi trường AI, asset-based assessment có hai cơ hội. Thứ nhất, AI có thể giúp phát hiện pattern tích cực mà giáo viên quá tải dễ bỏ qua: người học luôn đặt câu hỏi tốt, biết sửa lỗi sau feedback, có vốn ví dụ phong phú, giải thích tốt cho bạn, kiên trì thử nhiều chiến lược. Thứ hai, AI có thể tạo nhiều con đường thể hiện năng lực: nói thay vì viết, sơ đồ trước khi văn bản, mô phỏng trước khi báo cáo, ví dụ cá nhân trước khi khái niệm trừu tượng, bản nháp đa ngôn ngữ trước khi bản cuối.

Nhưng đây cũng là vùng dễ bị lạm dụng. Nếu AI gán nhãn “thế mạnh” bằng dữ liệu nghèo, nó có thể đóng khung người học theo stereotype mới. Một học sinh ít nói trên nền tảng số không có nghĩa là thiếu năng lực hợp tác. Một người dùng nhiều hint không luôn là yếu; có thể nhiệm vụ không rõ hoặc nền tảng ngôn ngữ gây cản trở. Một học sinh chọn video không có nghĩa là “visual learner” theo huyền thoại learning styles. Asset-based assessment phải tránh biến thế mạnh thành hộp cố định.

Một thiết kế tốt là coi asset profile như giả thuyết tạm thời, do người học và giáo viên cùng kiểm chứng. Hệ thống có thể nói: “Trong ba nhiệm vụ gần đây, em giải thích bằng ví dụ cụ thể khá tốt; thử dùng thế mạnh này để viết đoạn mở đầu.” Người học có thể xác nhận, sửa hoặc bác bỏ. Giáo viên có thể thêm quan sát ngoài nền tảng. Asset-based assessment không phải hồ sơ tâm lý tự động; nó là cuộc đối thoại dựa trên bằng chứng về cách người học có thể tiến lên.

Asset-based cũng liên quan đến công bằng. Nếu assessment chỉ cho phép một dạng biểu hiện, nó sẽ ưu tiên người quen dạng đó. Nếu cho phép nhiều hình thức thể hiện nhưng tiêu chí mờ, fairness lại suy yếu. Vì vậy cần tách tiêu chí năng lực khỏi hình thức biểu đạt. Nếu mục tiêu là lập luận dựa trên bằng chứng, người học có thể thể hiện qua bài viết, trình bày miệng, poster nghiên cứu hoặc video giải thích, nhưng rubric phải giữ các tiêu chí chung: claim rõ, evidence phù hợp, reasoning hợp lý, counterargument được xử lý, nguồn đáng tin. Linh hoạt hình thức không có nghĩa là lỏng tiêu chuẩn.

Complex competency evaluation

Các năng lực quan trọng nhất trong kỷ nguyên AI thường là năng lực khó chấm tự động: tư duy phản biện, hợp tác, đạo đức, sáng tạo, judgment, transfer, giao tiếp trong bối cảnh thật, khả năng dùng công cụ mà không mất agency. Chúng phức hợp vì không nằm trong một hành vi đơn. Tư duy phản biện không chỉ là phát hiện lỗi logic trong một đoạn văn; nó gồm đặt câu hỏi, đánh giá nguồn, nhận diện giả định, cân nhắc trade-off, chịu sửa niềm tin khi có bằng chứng mới. Hợp tác không chỉ là có mặt trong nhóm; nó gồm phân chia việc, lắng nghe, xử lý xung đột, xây dựng trên ý tưởng người khác, chịu trách nhiệm chung. Đạo đức AI không chỉ là biết định nghĩa bias; nó là quyết định dùng hay không dùng AI trong tình huống có hậu quả.

Complex competency evaluation cần nhiệm vụ giàu bối cảnh. Một câu hỏi trắc nghiệm có thể kiểm tra thuật ngữ đạo đức, nhưng không đủ để biết người học có xử lý một case thật không. Một bài viết cá nhân có thể kiểm tra lập luận, nhưng không đủ để biết người học hợp tác ra sao. Một project đẹp có thể cho thấy sáng tạo, nhưng không đủ nếu ta không biết ai làm gì và quyết định nào được cân nhắc.

Thiết kế đánh giá năng lực phức hợp nên có ba lớp. Lớp đầu là scenario hoặc problem space có đủ ràng buộc: dữ liệu không hoàn hảo, stakeholder khác nhau, tiêu chí xung đột, thời gian hạn chế. Lớp thứ hai là artifact: proposal, prototype, policy memo, lesson plan, phân tích dữ liệu, kế hoạch can thiệp, sản phẩm truyền thông, mô hình giải thích. Lớp thứ ba là evidence of reasoning: process log, decision record, source critique, peer contribution, oral defense, reflection về giới hạn.

Trong bối cảnh AI, một năng lực mới cần đánh giá là evaluative judgement: khả năng nhận ra chất lượng công việc, tiêu chí phù hợp và điểm cần cải thiện, kể cả khi AI đưa ra đáp án có vẻ thuyết phục. Bearman, Tai, Dawson, Boud và cộng sự lập luận rằng thời của GenAI đòi hỏi phát triển evaluative judgement, vì người học phải biết đánh giá cả sản phẩm của mình, sản phẩm của AI và tiêu chí của nhiệm vụ (Bearman et al., 2024). Đây là năng lực nền cho mọi AI literacy thực chất. Người học không chỉ cần prompt tốt; họ cần biết khi nào một câu trả lời đáng tin, khi nào thiếu căn cứ, khi nào phù hợp mục tiêu và khi nào đẹp nhưng sai.

UNESCO AI Competency Framework for Teachers năm 2024 cũng đặt năng lực AI của giáo viên trong năm chiều: human-centred mindset, ethics of AI, AI foundations and applications, AI pedagogy và AI for professional learning (Miao & Cukurova, 2024). Dù khung này dành cho giáo viên, nó gợi ý một điểm rộng hơn: đánh giá trong thời AI phải mở rộng từ kiến thức môn học sang năng lực làm việc có trách nhiệm với hệ thống AI. Nếu giáo viên không có assessment literacy cho các năng lực này, họ sẽ hoặc cấm AI bằng quy định chung, hoặc chấm sản phẩm AI như sản phẩm người học.

Một thách thức của complex competency evaluation là reliability. Khi nhiệm vụ mở, chấm điểm dễ lệch giữa giáo viên. Cách giải không phải quay lại trắc nghiệm hoàn toàn, mà là tăng chất lượng rubric, dùng exemplars, calibration giữa người chấm, oral defense có câu hỏi chuẩn, và kết hợp nhiều nguồn bằng chứng. AI có thể hỗ trợ bằng cách gợi ý rubric, so sánh bài với tiêu chí, phát hiện thiếu bằng chứng, tạo câu hỏi defense. Nhưng AI không nên là người phán quyết cuối cho năng lực đạo đức, sáng tạo hoặc judgment trong bối cảnh giàu hệ quả. Con người cần giữ vai trò diễn giải và chịu trách nhiệm.

Authentic assessment

Authentic assessment yêu cầu người học thực hiện nhiệm vụ giống hoặc gần với cách kiến thức được dùng ngoài lớp học: viết policy memo cho một stakeholder cụ thể, phân tích dữ liệu thật, thiết kế bài học cho nhóm học sinh thật, tạo prototype, phỏng vấn người dùng, xây dựng portfolio, trình bày trước hội đồng, bảo vệ quyết định, sửa sản phẩm sau feedback. Trong thời GenAI, authentic assessment không phải vì nó “AI-proof” tuyệt đối. Không có nhiều thứ AI-proof. Giá trị của nó là làm nhiệm vụ giàu bối cảnh, có đối tượng thật, có quá trình và có trách nhiệm giải thích, khiến việc dùng AI phải được tích hợp như công cụ chứ khó thay thế toàn bộ năng lực.

Một bài luận chung chung “hãy phân tích tác động của AI tới giáo dục” rất dễ được AI viết. Một nhiệm vụ yêu cầu người học quan sát một lớp học cụ thể, phỏng vấn hai giáo viên, đối chiếu với khung lý thuyết, thiết kế can thiệp nhỏ, ghi lại phản hồi, sửa thiết kế và bảo vệ quyết định trước câu hỏi phản biện sẽ khó hơn nhiều. AI vẫn có thể hỗ trợ tóm tắt, đặt câu hỏi, gợi ý cấu trúc. Nhưng bằng chứng năng lực nằm trong lựa chọn bối cảnh, chất lượng quan sát, khả năng liên hệ lý thuyết, cách xử lý phản hồi và phần defense.

Xia và cộng sự ghi nhận trong các nghiên cứu về GenAI assessment, presentation, discussion, product design, creative/artistic work, podcast, storyboard, case-based questions và authentic assessment được xem như hướng giảm sự phụ thuộc vào bài kiểm tra kiến thức truyền thống và thúc đẩy higher-order thinking (Xia et al., 2024). Lye và Lim năm 2024 cũng bàn về nguyên tắc redesign assessment trong giáo dục đại học, nhấn mạnh rằng mối lo academic integrity không nên che khuất câu hỏi sâu hơn: cần tái thiết kế assessment để phù hợp với môi trường có GenAI, bao gồm cả bias, hallucination và giới hạn của mô hình (Lye & Lim, 2024).

Các thành phần thực dụng của authentic assessment gồm portfolio, oral defense, process log, peer review và public-facing product. Portfolio cho thấy tiến trình qua nhiều artifact, không chỉ một lần nộp. Oral defense kiểm tra người học có hiểu sản phẩm không, có trả lời được câu hỏi mới không, có giải thích quyết định không. Process log ghi lại những điểm rẽ quan trọng: chọn nguồn nào, bỏ ý nào, dùng AI ở đâu, vì sao sửa. Peer review tạo cơ hội học tiêu chí qua bài của người khác. Public-facing product đưa nhiệm vụ ra khỏi mô phỏng quá sạch của lớp học.

Tuy nhiên, authentic assessment có rủi ro. Nó có thể bất công nếu người học có điều kiện xã hội khác nhau: người có mạng lưới tốt dễ tìm project thật; người có thiết bị tốt làm sản phẩm đẹp hơn; người hướng ngoại dễ tỏa sáng trong presentation; người có thời gian rảnh dễ làm portfolio phong phú. Vì vậy authentic không tự động công bằng. Nó cần scaffold, lựa chọn hình thức, tiêu chí rõ, hỗ trợ tài nguyên và chuẩn tối thiểu về cơ hội.

Một thiết kế cân bằng là “bounded authenticity”: nhiệm vụ đủ thật để có bối cảnh và trách nhiệm, nhưng đủ giới hạn để công bằng và chấm được. Thay vì “hãy làm một dự án xã hội”, giáo viên có thể cung cấp ba case, bộ dữ liệu chung, stakeholder giả lập nhưng có ràng buộc thật, mẫu process log, lịch feedback và oral defense ngắn. Người học vẫn phải phân tích, quyết định và trình bày, nhưng không bị bỏ mặc trong một dự án quá rộng.

AI trong vòng phản hồi

AI có thể làm feedback nhanh hơn, thường xuyên hơn và cá nhân hóa hơn. Một giáo viên có 150 bài viết khó phản hồi sâu cho từng em mỗi tuần. AI có thể góp ý bản nháp, hỏi câu gợi mở, kiểm tra rubric, đưa ví dụ, tạo bài luyện lỗi cá nhân, gợi ý nguồn, giúp người học tự đánh giá trước khi nộp. Đây là cơ hội lớn nếu feedback là điểm nghẽn của học tập.

Nhưng feedback bằng AI chỉ có giá trị nếu nằm trong vòng phản hồi có tiêu chuẩn. Một vòng phản hồi tốt gồm: tiêu chí rõ; người học tạo sản phẩm hoặc nỗ lực ban đầu; feedback chỉ ra khoảng cách với tiêu chí; người học có cơ hội hành động; hệ thống hoặc giáo viên kiểm tra uptake; người học phản tư về chiến lược. Nếu AI chỉ phun nhận xét dài, vòng phản hồi không hoàn tất. Feedback không được dùng thì không phải feedback theo nghĩa giáo dục; nó chỉ là comment.

Brummer và cộng sự meta-analysis năm 2024 về digitally delivered instructional feedback, được nhắc ở chương 2 và 4, cho thấy feedback số có hiệu ứng tích cực trung bình lên học tập nhưng hiệu quả thay đổi theo focus, môn học, loại assessment và learner control (Brummer et al., 2024). Điều này nhắc rằng “AI feedback tức thời” không tự động tốt. Feedback có thể quá dài, quá chung, sai tiêu chí, gây lệ thuộc hoặc làm người học sửa bề mặt thay vì hiểu sâu.

AI feedback nên được phân tầng. Ở tầng thấp, nó xử lý lỗi kỹ thuật ít rủi ro: chính tả, định dạng trích dẫn, kiểm tra thiếu mục, câu hỏi ôn tập. Ở tầng trung, nó gợi ý theo tiêu chí: claim chưa rõ, evidence chưa đủ, reasoning còn nhảy bước, ví dụ chưa khớp. Ở tầng cao, nó đặt câu hỏi phản biện thay vì sửa hộ: giả định nào đang ẩn? Nếu stakeholder phản đối thì sao? Nguồn này có giới hạn gì? Ở tầng phán quyết, giáo viên hoặc hội đồng vẫn cần chịu trách nhiệm: điểm cuối, chuẩn đạt, đánh giá đạo đức, quyết định đỗ-trượt.

Một kỹ thuật tốt là yêu cầu người học phản hồi lại feedback. Sau khi AI góp ý, người học phải chọn ba điểm sẽ sửa, một điểm không sửa và lý do. Sau khi sửa, họ đánh dấu phần nào thay đổi do feedback. Điều này biến feedback thành hoạt động metacognitive. Nó cũng tạo bằng chứng quá trình. Nếu người học nhận 20 góp ý và chấp nhận hết, có thể họ đang outsource judgment. Nếu họ biết chọn, bỏ, điều chỉnh và giải thích, đó là dấu hiệu của evaluative judgement.

AI cũng có thể hỗ trợ peer assessment. Người học chấm chéo thường gặp ba vấn đề: tiêu chí không đều, feedback nông và thiên lệch quan hệ. AI có thể giúp giải thích rubric, gợi ý câu hỏi, kiểm tra feedback có cụ thể không, phát hiện nhận xét thiếu bằng chứng, hỗ trợ calibration bằng exemplar. Nhưng AI không nên làm mất vai trò của peer review như một hoạt động học. Lợi ích chính của peer assessment không chỉ là nhận feedback, mà là học cách nhìn chất lượng qua bài người khác. Nếu AI chấm hết, người học mất cơ hội phát triển con mắt đánh giá.

Vấn đề đạo đức lớn là dùng AI để chấm điểm. Chấm tự động có thể hữu ích ở nhiệm vụ cấu trúc rõ, đáp án hoặc tiêu chí ổn định, rủi ro thấp, có kiểm định chất lượng. Nhưng với bài viết mở, năng lực phức hợp hoặc quyết định có hậu quả cao, AI grading cần human-in-the-loop, audit, quyền khiếu nại và kiểm tra bias. HEPI 2025 cho thấy sinh viên có phản ứng không đồng nhất: một phần nói sẽ nỗ lực hơn nếu bài thi được đánh giá bởi AI, một phần nói sẽ nỗ lực ít hơn, và một phần không đổi (Freeman, 2025). Điều này gợi ý rằng việc AI tham gia chấm điểm không chỉ là vấn đề kỹ thuật; nó ảnh hưởng đến động lực, niềm tin và cảm giác công bằng.

Thực trạng triển khai

Trong nhiều trường, phản ứng đầu tiên với GenAI là sửa chính sách academic integrity. Điều này cần thiết, nhưng chưa đủ. Nếu assessment vẫn giữ dạng cũ, chính sách sẽ đuổi theo công cụ. Hôm nay cấm ChatGPT, ngày mai sinh viên dùng công cụ khác, model chạy trong trình soạn thảo, tiện ích paraphrase hoặc agent tự động. Càng đặt trọng tâm vào phát hiện, hệ thống càng dễ biến quan hệ giáo viên-người học thành nghi ngờ.

AI detectors là ví dụ rõ. Nghiên cứu của Liang và cộng sự năm 2023 trên Patterns cho thấy GPT detectors có thể thiên lệch với người viết tiếng Anh không phải bản ngữ, thường xuyên gán nhầm bài viết của họ là AI-generated và có thể bị vượt qua bằng prompting đơn giản (Liang et al., 2023). Chaka năm 2024 đánh giá 30 detector với bài luận sinh viên English L1 và L2, tập trung vào accuracy, false positive rates và true negative rates, tiếp tục cho thấy câu hỏi độ tin cậy của detector không thể xem nhẹ (Chaka, 2024). Với giáo dục Việt Nam, điểm này đặc biệt quan trọng vì nhiều người học viết bằng ngoại ngữ hoặc dùng tiếng Việt trong môi trường mà công cụ detector được huấn luyện chủ yếu trên tiếng Anh.

Điều đó không có nghĩa là bỏ qua gian lận. Nó nghĩa là không thể dựa một điểm số detector để kết luận đạo đức học thuật. Nếu dùng detector, nó chỉ nên là tín hiệu phụ trong quy trình có bằng chứng khác: lịch sử bản nháp, oral defense, trao đổi với người học, so khớp với năng lực đã quan sát, và quyền giải trình. Trong nhiều trường hợp, thiết kế assessment tốt hơn sẽ giảm nhu cầu dùng detector.

Ở cấp lớp học, giáo viên bắt đầu thử nhiều dạng: bài nộp kèm AI-use statement, yêu cầu bản nháp và reflection, presentation ngắn sau bài viết, viva voce cho dự án, bài tập cá nhân hóa theo dữ liệu địa phương, portfolio theo thời gian, rubric đánh giá cách dùng AI, và bài kiểm tra không AI để xác nhận nền tảng. Một số thiết kế cho phép AI ở giai đoạn brainstorming nhưng không ở giai đoạn writing; một số cho phép AI feedback nhưng yêu cầu người học khai báo; một số yêu cầu so sánh câu trả lời AI với nguồn học thuật.

Ở cấp tổ chức, câu hỏi khó hơn là chuẩn hóa. Nếu mỗi giảng viên có một luật AI khác nhau, người học rối. Nếu tổ chức ban một luật cứng cho mọi môn, assessment mất phù hợp bối cảnh. Cách hợp lý hơn là policy theo mức sử dụng AI: cấm trong nhiệm vụ đo năng lực độc lập; cho phép hạn chế với khai báo; khuyến khích dùng AI như công cụ học; yêu cầu dùng AI trong nhiệm vụ đánh giá AI literacy. Mỗi mức phải có ví dụ cụ thể, không chỉ câu chung “dùng AI có trách nhiệm”.

Một thực trạng khác là bất bình đẳng. Người học có tài khoản trả phí, máy tốt, tiếng Anh tốt và kinh nghiệm prompt sẽ có lợi thế nếu assessment cho phép AI nhưng không dạy cách dùng. Người học ít tiếp cận có thể vừa yếu công cụ vừa sợ vi phạm. HEPI 2025 ghi nhận dấu hiệu digital divide trong sử dụng AI, bao gồm khác biệt theo giới, điều kiện kinh tế và ngành học (Freeman, 2025). Vì vậy đánh giá trong môi trường AI phải đi cùng dạy AI literacy, cung cấp công cụ công bằng và thiết kế lựa chọn không trừng phạt người thận trọng.

Phân tích phản biện

Ảo tưởng thứ nhất là “AI làm assessment cũ chết hết”. Không đúng. Một số bài kiểm tra trực tiếp, thi vấn đáp, bài thực hành có giám sát, retrieval quiz, bài toán nền tảng và kiểm tra kỹ năng cơ bản vẫn có giá trị. Vấn đề là phải biết chúng đo gì và không đo gì. Thi giấy có thể đo kiến thức độc lập trong điều kiện hạn chế công cụ, nhưng không đo năng lực dùng AI trong công việc thật. Portfolio có thể đo tiến bộ và quá trình, nhưng khó chuẩn hóa. Authentic project có thể đo transfer, nhưng cần scaffold để công bằng.

Ảo tưởng thứ hai là “authentic assessment sẽ chống được AI”. Không có thiết kế nào chống hoàn toàn. AI có thể hỗ trợ phỏng vấn, phân tích dữ liệu, viết báo cáo, tạo slide, luyện oral defense. Mục tiêu không phải AI-proof, mà là AI-aware: nhiệm vụ làm rõ phần nào người học được dùng AI, phần nào phải tự chịu trách nhiệm, bằng chứng nào cho thấy hiểu thật, và cách kiểm tra năng lực độc lập khi cần.

Ảo tưởng thứ ba là “đánh giá quá trình luôn tốt hơn sản phẩm”. Quá trình có thể bị làm giả, quá tải và xâm phạm riêng tư. Một process log dài không tự động chứng minh học sâu. Một lịch sử chỉnh sửa không tự giải thích chất lượng quyết định. Đánh giá quá trình chỉ tốt khi dấu vết được chọn có ý nghĩa, liên kết với tiêu chí và không biến người học thành đối tượng bị giám sát liên tục.

Ảo tưởng thứ tư là “AI chấm khách quan hơn người”. AI có thể nhất quán trong một số tác vụ, nhưng nhất quán không đồng nghĩa công bằng hay đúng. Nếu rubric mơ hồ, dữ liệu huấn luyện lệch, prompt kém hoặc mô hình không hiểu bối cảnh lớp học, AI có thể tạo nhận xét tự tin nhưng sai. Người học có thể cảm thấy AI ít phán xét hơn, như Xia và cộng sự ghi nhận trong một số nghiên cứu, nhưng cảm nhận “ít thiên vị” không chứng minh hệ thống thật sự công bằng (Xia et al., 2024).

Ảo tưởng thứ năm là “nhiều dữ liệu hơn sẽ giải quyết đánh giá”. Dữ liệu hành vi nhiều có thể giúp thấy quá trình, nhưng cũng tăng nguy cơ suy diễn quá mức. Click nhiều không bằng hiểu sâu. Thời gian trên task dài có thể là kiên trì hoặc bối rối. Dùng nhiều hint có thể là yếu hoặc biết tìm hỗ trợ. Learning analytics cần lý thuyết học tập và diễn giải của giáo viên; nếu không, nó chỉ là bảng số.

Ảo tưởng thứ sáu là “asset-based assessment là hạ chuẩn”. Asset-based không hạ chuẩn; nó tìm đường vào chuẩn qua thế mạnh. Hạ chuẩn là bỏ tiêu chí vì muốn người học thấy dễ chịu. Asset-based đúng nghĩa vẫn yêu cầu claim, evidence, reasoning, kỹ năng và trách nhiệm, nhưng không giả định mọi người phải đi cùng một đường biểu đạt.

Nguyên tắc thiết kế

Nguyên tắc đầu tiên: bắt đầu từ assessment argument, không bắt đầu từ công cụ. Hãy viết rõ năng lực cần suy ra, bằng chứng quan sát, nhiệm vụ tạo bằng chứng và giới hạn diễn giải. Nếu không làm được bước này, đừng thêm AI grading, dashboard hay detector.

Nguyên tắc thứ hai: phân biệt năng lực độc lập và năng lực có công cụ. Một chương trình tốt cần cả hai. Người học phải có nền để không phụ thuộc AI, nhưng cũng phải biết dùng AI như công cụ nghề nghiệp. Assessment cần ghi rõ điều kiện: no-AI, AI-assisted, AI-required hoặc AI-evaluated.

Nguyên tắc thứ ba: tăng trọng lượng formative mà không làm quá tải. Chọn vài dấu vết quá trình có giá trị cao: kế hoạch, bản nháp, quyết định sửa, cách dùng feedback, giải thích tiêu chí, defense ngắn. Tránh thu dữ liệu chỉ vì có thể thu.

Nguyên tắc thứ tư: dùng authentic assessment có giới hạn. Nhiệm vụ nên gắn với bối cảnh thật hoặc gần thật, nhưng phải có scope, tài nguyên, tiêu chí và scaffold để người học có cơ hội công bằng.

Nguyên tắc thứ năm: thiết kế AI feedback như vòng hành động. Feedback phải gắn rubric, yêu cầu người học chọn và phản hồi lại, có cơ hội sửa, và kiểm tra uptake. Không để AI tạo feedback dài mà không có hành động tiếp theo.

Nguyên tắc thứ sáu: không dùng AI detector như bằng chứng duy nhất. Detector có nguy cơ false positive, thiên lệch ngôn ngữ và dễ bị vượt qua. Nếu dùng, chỉ xem là tín hiệu phụ trong quy trình công bằng.

Nguyên tắc thứ bảy: phát triển evaluative judgement. Người học phải học cách đánh giá chất lượng, so sánh với tiêu chí, kiểm chứng AI, nhận ra hallucination, và giải thích lựa chọn. Đây là năng lực assessment và AI literacy cùng lúc.

Nguyên tắc thứ tám: đưa ipsative và asset-based vào hệ thống, không chỉ lời khuyên cá nhân. Dashboard tiến bộ, portfolio, reflection, progress conference và feedback theo thế mạnh cần có cấu trúc. Nếu không, chúng sẽ bị điểm số cuối kỳ nuốt mất.

Nguyên tắc thứ chín: giữ con người ở các quyết định có hệ quả cao. AI có thể hỗ trợ chấm, gợi ý, phát hiện pattern và tạo câu hỏi. Nhưng quyết định cuối về đạt chuẩn, nghi ngờ misconduct, năng lực đạo đức hoặc đánh giá phức hợp cần người có trách nhiệm.

Nguyên tắc thứ mười: đánh giá phải dạy cách học. Nếu assessment khiến người học giấu quá trình, tối ưu điểm, sợ thử, sao chép AI hoặc săn rubric, nó đang dạy sai. Nếu assessment khiến người học lập kế hoạch, dùng feedback, kiểm chứng nguồn, giải thích quyết định và tiến bộ qua thời gian, nó đang làm đúng việc giáo dục.

Tổng kết chương

GenAI không làm đánh giá biến mất; nó làm lộ ra những điểm yếu đã tồn tại: phụ thuộc quá nhiều vào sản phẩm cuối, tiêu chí mờ, feedback chậm, đánh giá năng lực phức hợp bằng nhiệm vụ nghèo, và niềm tin quá lớn vào điểm số như bằng chứng đầy đủ. Phản ứng tốt không phải là cấm toàn bộ AI hay giao phó đánh giá cho AI. Phản ứng tốt là thiết kế lại assessment argument: năng lực nào cần đo, bằng chứng nào đủ mạnh, quá trình nào cần thấy, AI được phép hỗ trợ ở đâu, và con người phải giữ phán đoán ở đâu.

Có sáu điểm cần giữ. Thứ nhất, formative assessment trở nên trung tâm vì quá trình học là bằng chứng quan trọng hơn khi sản phẩm cuối dễ được tạo bởi máy. Thứ hai, stealth assessment mở khả năng đo năng lực qua hành động thật trong môi trường số, nhưng phải minh bạch và bảo vệ dữ liệu. Thứ ba, ipsative assessment giúp thấy tiến bộ cá nhân, đặc biệt khi người học có xuất phát điểm khác nhau. Thứ tư, asset-based assessment dùng thế mạnh như dữ liệu thiết kế, không phải lời khen rỗng. Thứ năm, năng lực phức hợp cần nhiệm vụ giàu bối cảnh, nhiều nguồn bằng chứng và defense. Thứ sáu, AI feedback chỉ có giá trị khi nằm trong vòng hành động có tiêu chí, uptake và phán đoán con người.

Chương 17 sẽ chuyển từ đánh giá sang tương tác Human-AI. Nếu chương này hỏi “ta biết người học đã học thật bằng chứng nào?”, chương sau hỏi “AI nên đóng vai gì trong quan hệ học tập: tutor, tool, tutee, peer, coach hay một vai khác?”. Hai câu hỏi này liên kết chặt: vai trò của AI trong học tập quyết định loại bằng chứng ta có thể và nên dùng để đánh giá.

Tài liệu tham khảo

Arslan, B., Lehman, B., Tenison, C., Sparks, J. R., López, A. A., Gu, L., & Zapata-Rivera, D. (2024). Opportunities and challenges of using generative AI to personalize educational assessment. Frontiers in Artificial Intelligence, 7, 1460651. https://doi.org/10.3389/frai.2024.1460651

Bearman, M., Tai, J., Dawson, P., Boud, D., & Ajjawi, R. (2024). Developing evaluative judgement for a time of generative artificial intelligence. Assessment & Evaluation in Higher Education, 49(6), 1-13. https://doi.org/10.1080/02602938.2024.2335321

Chaka, C. (2024). Accuracy pecking order: How 30 AI detectors stack up in detecting generative artificial intelligence content in university English L1 and English L2 student essays. Journal of Applied Learning and Teaching, 7(1). https://doi.org/10.37074/jalt.2024.7.1.33

Ebrahimi, B., & Ebadi, S. (2024). Exploring the impact of screencast-based ipsative assessment on EFL students' writing development. Language Testing in Asia, 14, 41. https://doi.org/10.1186/s40468-024-00315-y

Freeman, J. (2025). Student Generative AI Survey 2025. Higher Education Policy Institute Policy Note 61. https://www.hepi.ac.uk/reports/student-generative-ai-survey-2025/

Kukol, A. (2024). Combination of ipsative and sociomaterial assessment methodologies within university-level science education. Higher Education for the Future, 11(2). https://doi.org/10.1177/23476311241268970

Liang, W., Yuksekgonul, M., Mao, Y., Wu, E., & Zou, J. (2023). GPT detectors are biased against non-native English writers. Patterns, 4(7), 100779. https://doi.org/10.1016/j.patter.2023.100779

Lye, C. Y., & Lim, L. (2024). Generative artificial intelligence in tertiary education: Assessment redesign principles and considerations. Education Sciences, 14(6), 569. https://doi.org/10.3390/educsci14060569

Miao, F., & Cukurova, M. (2024). AI competency framework for teachers. UNESCO. https://www.unesco.org/en/articles/ai-competency-framework-teachers

Mislevy, R. J., Steinberg, L. S., & Almond, R. G. (2003). On the structure of educational assessments. Measurement: Interdisciplinary Research and Perspectives, 1(1), 3-62. https://doi.org/10.1207/S15366359MEA0101_02

Rahimi, S., Shute, V. J., Rouhollah, K., Kuba, R., Babaee, M., & Esmaeiligoujar, S. (2023). Stealth assessment: A systematic review of the literature. Proceedings of the 17th International Conference of the Learning Sciences. https://doi.org/10.22318/icls2023.395429

Shute, V. J., & Ventura, M. (2013). Stealth assessment: Measuring and supporting learning in video games. MIT Press. https://doi.org/10.7551/mitpress/9589.001.0001

Wood, J., & Pitt, E. (2024). Empowering agency through learner-orchestrated self-generated feedback. Assessment & Evaluation in Higher Education, 50(1), 1-17. https://doi.org/10.1080/02602938.2024.2365856

Xia, Q., Weng, X., Ouyang, F., Lin, T. J., & Chiu, T. K. F. (2024). A scoping review on how generative artificial intelligence transforms assessment in higher education. International Journal of Educational Technology in Higher Education, 21, 40. https://doi.org/10.1186/s41239-024-00468-z

Chương 17: Human-AI interaction: tutor, tool, tutee, peer, coach

Bối cảnh / Vấn đề

Khi AI đi vào giáo dục, câu hỏi thường được đặt sai ngay từ đầu. Người ta hỏi: “AI có thay giáo viên không?”, “AI có dạy tốt hơn lớp học không?”, “AI có làm học sinh lười không?”, “AI có nên bị cấm trong bài tập không?”. Những câu hỏi này không vô nghĩa, nhưng chúng quá thô. Chúng giả định AI là một thực thể có một vai trò cố định. Trong thực tế, cùng một hệ thống AI có thể là gia sư, công cụ, học trò, bạn học, cộng sự, người phản biện, huấn luyện viên tự điều chỉnh, trợ lý quan sát, hoặc bộ lọc dữ liệu cho giáo viên. Mỗi vai trò thay đổi nhiệm vụ học tập, quyền kiểm soát, loại bằng chứng, rủi ro phụ thuộc và trách nhiệm của con người.

Một chatbot trả lời “giải thích định luật Bernoulli cho em” đang đóng vai tutor. Cũng chatbot đó, khi người học yêu cầu “hãy giúp em viết lại đoạn này rõ hơn”, trở thành tool. Khi người học nói “tôi sẽ giải thích cho bạn cách dùng vòng lặp, bạn hãy hỏi lại nếu chưa hiểu”, AI trở thành tutee. Khi người học yêu cầu “hãy phản biện lập luận của tôi”, nó thành peer hoặc debate partner. Khi hệ thống theo dõi thói quen học, nhắc người học đặt mục tiêu và phản tư, nó thành coach hoặc observer. Nếu ta không phân biệt các vai trò này, tranh luận về AI trong giáo dục sẽ lẫn lộn: bằng chứng tích cực của AI tutor bị dùng để biện minh cho AI chấm điểm; rủi ro đạo văn của AI writing tool bị dùng để phủ định AI tutee; lợi ích phản hồi tức thời bị hiểu nhầm thành quyền tự động ra quyết định thay giáo viên.

Khung “tutor, tool, tutee” không mới. Robert Taylor đã dùng ba vai trò này để mô tả máy tính trong trường học từ năm 1980: computer as tutor khi máy dạy người học; computer as tool khi máy khuếch đại năng lực làm việc; computer as tutee khi người học học bằng cách dạy hoặc lập trình máy (Taylor, 1980). Điểm đáng chú ý là hơn bốn mươi năm sau, GenAI làm khung này sống lại theo cách mạnh hơn. Máy tính trước đây cần phần mềm được lập trình kỹ; GenAI có thể đối thoại, diễn giải, tạo nội dung, đặt câu hỏi, mô phỏng nhân vật và phản hồi theo ngữ cảnh. Vì vậy, vai trò không còn nằm trong loại phần mềm, mà nằm trong thiết kế tương tác.

Chương 16 đã bàn về đánh giá trong môi trường AI: khi sản phẩm cuối dễ được máy tạo, ta cần bằng chứng quá trình, năng lực phức hợp và phán đoán con người. Chương này đi vào lớp trước đó: trong quá trình học, AI đang tương tác với người học như ai? Vai trò ấy có nuôi agency, competence, relatedness, self-regulation và evaluative judgement không? Hay nó làm người học đi đường tắt, outsource suy nghĩ, mất cơ hội hợp tác thật, và để hệ thống giám sát thay cho quan hệ giáo dục?

Một cách nhìn thực dụng là: không có “AI trong giáo dục” nói chung. Có AI trong một vai trò, trong một nhiệm vụ, với một mức quyền, trong một bối cảnh tuổi, môn học, động lực, dữ liệu, chính sách và quan hệ người thật cụ thể. AI tutor trong vật lý nhập môn khác AI coach cho sinh viên tự học, khác AI peer trong lớp viết, khác AI tutee trong lập trình, khác AI observer trong hệ thống cảnh báo sớm. Muốn thiết kế nghiêm túc, phải chuyển từ câu hỏi “AI có tốt không?” sang “AI đang giữ vai nào trong hoạt động học này, và vai đó làm thay đổi quan hệ học tập nào?”.

Nền tảng lý thuyết

Human-AI interaction trong giáo dục nên được đọc như một hệ thống phân phối hoạt động, không phải một giao diện hỏi-đáp. Người học không chỉ nhận thông tin từ AI. Họ đặt mục tiêu, diễn giải câu trả lời, kiểm chứng nguồn, điều chỉnh prompt, chọn dùng hay bỏ qua gợi ý, so sánh với tiêu chí, trao đổi với giáo viên và bạn học. AI cũng không chỉ “trả lời”; nó định hình nhịp học, mức nỗ lực, cảm giác an toàn khi hỏi, độ rõ của feedback, loại nhiệm vụ được ưu tiên và cả cách người học hiểu vai trò của mình.

Từ góc nhìn distributed cognition, công cụ không đứng ngoài tư duy. Giấy nháp, máy tính, bản đồ khái niệm, IDE, search engine và AI đều phân phối một phần hoạt động nhận thức ra môi trường. Câu hỏi không phải “có dùng công cụ hay không”, mà là công cụ làm phần nào, người học giữ phần nào, và việc phân phối đó có làm năng lực của người học tăng lên hay mòn đi. Chương 15 đã gọi đây là cognitive offloading có kiểm soát. Trong chương này, ta thêm một lớp: offloading thay đổi theo vai trò AI. AI as tool thường offload thao tác. AI as tutor có thể offload định hướng. AI as peer có thể offload phản biện ban đầu. AI as coach có thể offload tự giám sát. AI as tutee thì ngược lại: nó buộc người học externalize hiểu biết để dạy lại.

Từ góc nhìn social constructivism, học không chỉ là hấp thụ nội dung mà là tham gia vào đối thoại, giải thích, tranh luận, phối hợp và dần sử dụng ngôn ngữ của cộng đồng tri thức. AI có thể tạo thêm đối thoại, nhưng không phải mọi đối thoại đều có giá trị xã hội như nhau. Một chatbot có thể giúp người học nhút nhát tập hỏi trước khi vào lớp. Nó cũng có thể làm người học ít cần gặp bạn và giáo viên hơn. Nó có thể mô phỏng nhiều quan điểm. Nó cũng có thể tạo cảm giác “đã tranh luận” trong khi người học chỉ đối thoại với một mô hình không có trách nhiệm xã hội, không có kinh nghiệm sống và không chịu hậu quả.

Từ góc nhìn self-regulated learning, AI có thể hỗ trợ các pha đặt mục tiêu, lập kế hoạch, thực hiện, giám sát và phản tư. Guan, Raković, Chen và Gašević systematic review về educational chatbots hỗ trợ SRL, công bố năm 2024, phân tích 27 nghiên cứu từ 2012 đến 2023. Họ thấy chatbot chủ yếu hỗ trợ người học tìm tài nguyên, dùng chiến lược học phù hợp và giám sát việc học, trong khi ít hỗ trợ hơn cho đặt mục tiêu, lập kế hoạch, phản tư về việc học trước đó và thích ứng cho lần học sau (Guan et al., 2024). Điểm này quan trọng: nhiều hệ thống tự gọi là coach, nhưng thực ra chỉ là resource recommender hoặc reminder. Coach đúng nghĩa phải giúp người học tự điều chỉnh tốt hơn, không chỉ đi theo lời nhắc.

Từ góc nhìn Human-AI teaming, vai trò của AI cần được phân định theo quyền quyết định. Human-in-the-loop nghĩa là con người tham gia vào quy trình và có thể kiểm tra hoặc phê duyệt trước khi kết quả có hiệu lực. Human-on-the-loop nghĩa là hệ thống có thể hoạt động tự động, nhưng con người giám sát, can thiệp khi cần và chịu trách nhiệm quản trị. Trong giáo dục, phân biệt này không phải chi tiết kỹ thuật. Nếu AI đề xuất bài luyện tiếp theo, giáo viên có thể on-the-loop. Nếu AI kết luận học sinh có nguy cơ bỏ học hoặc nghi ngờ gian lận, con người phải in-the-loop với quyền xem bằng chứng và phủ quyết. Nếu AI đưa feedback bản nháp, người học phải in-the-loop bằng cách chọn, phản biện và sửa, không chỉ chấp nhận.

Mollick và Mollick năm 2023 đề xuất bảy cách dùng AI trong lớp học: AI-tutor, AI-coach, AI-mentor, AI-teammate, AI-tool, AI-simulator và AI-student; họ nhấn mạnh người học phải giữ vai “human in the loop”, giám sát đầu ra, đánh giá lỗi và thiên lệch, và bổ sung phần con người mà AI không có (Mollick & Mollick, 2023). Khung này hữu ích vì nó chuyển AI từ vật thể công nghệ sang vai trò sư phạm. Tuy nhiên, không nên biến danh sách vai trò thành menu tính năng. Cùng một vai trò có thể tốt hoặc xấu tùy thiết kế nhiệm vụ, mức scaffold, tiêu chí đánh giá và quyền kiểm soát.

Một systematic review năm 2025 của Qian về ứng dụng sư phạm của GenAI trong giáo dục đại học cũng chỉ ra hai mặt này. Review ghi nhận các xu hướng mới như thúc đẩy sáng tạo, tư duy phản biện, learning autonomy và prompt literacy, nhưng đồng thời cảnh báo hiệu quả năng suất có thể đi cùng overreliance và outsourcing các kỹ năng nhận thức, metacognitive quan trọng; hướng nghiên cứu tương lai cần tập trung vào student-teacher-AI collaboration (Qian, 2025). Đây là tinh thần của chương: AI không nên được đặt vào một vai độc tôn. Giá trị nằm ở tam giác người học-giáo viên-AI, trong đó vai trò có thể thay đổi theo mục tiêu học.

AI as Tutor

AI as Tutor là vai trò dễ tưởng tượng nhất: người học hỏi, AI giải thích, đưa ví dụ, gợi ý bước tiếp theo, kiểm tra hiểu biết, điều chỉnh tốc độ. Vai trò này hấp dẫn vì nó chạm vào một giấc mơ lâu đời của giáo dục: mỗi người học có một gia sư riêng, không mệt, không phán xét, trả lời ngay, biết điều chỉnh theo nhu cầu cá nhân. Bloom từng đặt vấn đề “2 sigma” về hiệu quả của tutoring một-một so với dạy lớp thông thường (Bloom, 1984). AIEd nhiều thập niên qua cũng theo đuổi giấc mơ này qua intelligent tutoring systems. GenAI làm giấc mơ ấy có vẻ gần hơn vì giao diện tự nhiên hơn, chi phí thấp hơn và phạm vi nội dung rộng hơn.

Bằng chứng gần đây cho thấy vai trò tutor có tiềm năng thật, nhưng không đồng nhất. Létourneau và cộng sự systematic review năm 2025 về AI-driven intelligent tutoring systems trong K-12 phân tích 28 nghiên cứu với 4.597 học sinh. Kết quả nhìn chung tích cực với learning và performance, nhưng hiệu quả bị giảm khi so với non-intelligent tutoring systems; review cũng kêu gọi nghiên cứu dài hơn, mẫu đa dạng hơn và xem xét đạo đức (Létourneau et al., 2025). Nói đơn giản: ITS có thể giúp, nhưng không phải cứ thêm “AI” là vượt trội.

Một RCT năm 2025 của Kestin, Miller và cộng sự trong khóa vật lý đại học đưa ra kết quả đáng chú ý hơn. Nghiên cứu so sánh AI-powered tutor được thiết kế theo cùng nguyên tắc sư phạm với một lớp active learning, trong bối cảnh học thật. Sinh viên học với AI tutor đạt learning gains cao hơn trong ít thời gian hơn, đồng thời báo cáo engagement và motivation cao hơn (Kestin et al., 2025). Nhưng chính bài này cũng cho thấy điều kiện thành công rất cụ thể: tutor được thiết kế bởi giảng viên hiểu nội dung, có prompt và cấu trúc bài học cẩn thận, nội dung thuộc giai đoạn hiểu-áp dụng-phân tích trong vật lý nhập môn, và hệ thống được đặt trong một khóa học có sẵn.

Ở phía ngược lại, Bastani và cộng sự nghiên cứu GenAI trong học toán trung học và công bố phiên bản peer-reviewed năm 2025 trên PNAS. Trong thí nghiệm với gần một nghìn học sinh, việc dùng GPT-4 trong luyện tập làm tăng performance khi công cụ còn hiện diện, nhưng khi AI bị lấy đi, nhóm dùng giao diện không có guardrails làm bài kém hơn nhóm không có AI. Phiên bản GPT Tutor có safeguard giảm đáng kể tác động xấu này (Bastani et al., 2025). Bài học không phải “AI tutor xấu”, mà là tutor không có thiết kế bảo vệ học tập có thể biến thành nạng. Người học hoàn thành bài luyện tốt hơn nhưng không hình thành năng lực độc lập tương ứng.

Một AI tutor tốt phải làm ít nhất năm việc. Thứ nhất, nó phải chẩn đoán mức hiểu hiện tại thay vì trả lời ngay cùng một cách cho mọi người. Thứ hai, nó phải scaffold theo mức: gợi ý nhẹ trước, ví dụ sau, lời giải đầy đủ cuối cùng. Thứ ba, nó phải yêu cầu người học nỗ lực trước khi nhận hỗ trợ mạnh. Thứ tư, nó phải kiểm tra transfer: sau khi giải thích, người học có làm được bài tương tự, bài đảo chiều hoặc bài trong bối cảnh mới không. Thứ năm, nó phải biết khi nào chuyển người học sang giáo viên hoặc bạn học, nhất là khi có dấu hiệu hiểu sai dai dẳng, lo âu, mất động lực hoặc vấn đề ngoài học thuật.

AI tutor cũng cần “pedagogical humility”. Nó không nên giả giọng người biết tất cả. Nó phải thừa nhận giới hạn, khuyến khích kiểm chứng, liên kết với nguồn học chính thức và không tạo cảm giác mọi câu hỏi đều có một đáp án mượt. Trong các môn có tranh luận, tutor phải giúp người học thấy nhiều quan điểm, tiêu chí đánh giá và vùng bất định. Trong các môn có chuẩn an toàn, tutor phải đặt ranh giới rõ: không thay giáo viên, bác sĩ, kỹ sư giám sát, hoặc quy trình thực hành được cấp phép.

Điểm khó nhất là agency. Tutor càng mạnh càng dễ tước quyền điều hành của người học. Nếu AI luôn chọn bài, giải thích, nhắc, đánh giá, động viên và sửa, người học có thể trở thành hành khách. Tutor tốt phải dần rút scaffold: ban đầu hỏi nhiều, gợi ý nhiều; sau đó yêu cầu người học tự dự đoán, tự giải thích, tự chọn chiến lược; cuối cùng kiểm tra xem người học có thể học tiếp mà không cần tutor không. Mục tiêu của tutor không phải giữ người học trong cuộc trò chuyện mãi, mà là làm người học bớt cần nó cho cùng loại nhiệm vụ.

AI as Tool

AI as Tool là vai trò phổ biến nhất trong đời sống học tập hằng ngày. Người học dùng AI để viết nháp, sửa câu, dịch, tóm tắt, tạo flashcards, tìm ví dụ, sinh code, debug, phân tích dữ liệu, tạo hình, mô phỏng tình huống, lập kế hoạch dự án, chuẩn bị slide, luyện phỏng vấn. Trong vai trò này, AI không “dạy” trực tiếp; nó khuếch đại năng lực làm việc. Nó giống máy tính, spreadsheet, IDE, search engine, grammar checker hoặc phần mềm thiết kế, nhưng linh hoạt hơn vì giao tiếp bằng ngôn ngữ tự nhiên.

Vai trò tool có giá trị lớn vì nhiều hoạt động học bị cản bởi thao tác phụ. Một người học có ý tưởng nhưng yếu diễn đạt có thể dùng AI để làm rõ câu. Một sinh viên mới học lập trình có thể hỏi AI giải thích lỗi compiler. Một nhóm làm dự án có thể dùng AI để tạo cấu trúc họp, danh sách giả định, hoặc bản đồ stakeholder. Một học sinh khiếm thị hoặc gặp rào cản ngôn ngữ có thể dùng AI để chuyển đổi định dạng, tóm tắt, đọc to, giải thích thuật ngữ. Nếu thiết kế đúng, AI tool giảm tải những phần không phải mục tiêu học chính để người học tập trung vào reasoning, decision và creation.

Nhưng vai trò tool cũng dễ trượt thành substitution. Nếu mục tiêu học là viết luận, AI viết thay làm mất cơ hội học. Nếu mục tiêu là phân tích nguồn, AI tóm tắt nguồn thay quá sớm làm người học không đọc. Nếu mục tiêu là debug, AI sửa code mà người học không hiểu làm mất kỹ năng chẩn đoán. Cùng một thao tác có thể là hỗ trợ hoặc thay thế tùy mục tiêu. Grammarly có thể phù hợp khi mục tiêu là lập luận khoa học, nhưng không phù hợp nếu mục tiêu là học cấu trúc câu. Code completion có thể phù hợp với lập trình viên có kinh nghiệm, nhưng có thể làm người mới bỏ qua syntax và logic cơ bản.

Albadarin và cộng sự systematic review năm 2024 về 14 nghiên cứu thực nghiệm ChatGPT trong giáo dục ghi nhận người học dùng ChatGPT như trợ lý thông minh ảo: nhận feedback tức thời, câu trả lời theo nhu cầu, giải thích chủ đề phức tạp; đồng thời dùng để tăng kỹ năng viết và ngôn ngữ qua tạo ý, soạn bài, tóm tắt, dịch, paraphrase và kiểm tra ngữ pháp. Nhưng review cũng ghi nhận một số nghiên cứu cho thấy overuse có thể ảnh hưởng tiêu cực đến năng lực đổi mới và hợp tác; các tác giả nhấn mạnh cần training, support và guideline rõ ràng để phát triển kỹ năng đánh giá thông tin và giữ tương tác người-người trong hoạt động học (Albadarin et al., 2024).

Điểm cốt lõi của AI as Tool là người học phải giữ quyền tác giả nhận thức. Họ không nhất thiết tự gõ mọi câu, nhưng phải tự xác định mục tiêu, tiêu chí chất lượng, nguồn đáng tin, quyết định sửa, và trách nhiệm cuối. Một workflow tốt có thể là: người học viết ý chính trước, AI hỏi làm rõ, người học chọn cấu trúc, AI góp ý khoảng trống, người học kiểm chứng nguồn, AI đề xuất diễn đạt, người học quyết định bản cuối và giải thích những chỗ dùng AI. Workflow xấu là: người học đưa đề, AI tạo bài, người học nộp sau vài chỉnh sửa bề mặt.

Trong lớp học, vai trò tool cần được khai báo bằng luật sử dụng cụ thể. Không nên chỉ nói “được dùng AI có trách nhiệm”. Cần phân biệt: được dùng để brainstorm nhưng phải ghi lại ý tự chọn; được dùng để sửa ngôn ngữ nhưng không tạo lập luận; được dùng để debug nhưng phải giải thích lỗi; được dùng để phân tích dữ liệu nhưng phải kiểm tra công thức; được dùng để tạo hình minh họa nhưng phải khai báo prompt và chỉnh sửa. Khi luật cụ thể, AI tool trở thành một phần của nghề học. Khi luật mơ hồ, nó trở thành vùng xám đạo đức.

Một nguyên tắc hay là “tool plus explanation”. Bất cứ khi nào AI làm phần quan trọng, người học phải giải thích được: tôi yêu cầu gì, AI đề xuất gì, tôi giữ gì, bỏ gì, vì sao, bằng chứng nào xác nhận, phần nào tôi vẫn chưa chắc. Chính yêu cầu giải thích này biến công cụ thành cơ hội học. Nếu không, AI tool chỉ làm sản phẩm đẹp hơn và năng lực mờ hơn.

AI as Tutee

AI as Tutee đảo chiều quyền lực. Thay vì người học hỏi AI, người học dạy AI. Họ giải thích khái niệm, đặt câu hỏi cho AI, sửa lỗi của AI, kiểm chứng câu trả lời, tạo ví dụ, chỉ ra misconception, hướng dẫn AI từng bước. Đây là vai trò có giá trị sư phạm sâu vì dạy người khác buộc người học tổ chức lại hiểu biết. Learning-by-teaching, self-explanation và protégé effect đều dựa trên cơ chế này: khi ta phải dạy, ta nhận ra lỗ hổng của mình.

Taylor gọi computer as tutee là khi người học lập trình máy để máy làm điều gì đó; trong quá trình ấy, người học phải hiểu đủ rõ để biến kiến thức thành chỉ dẫn (Taylor, 1980). Với GenAI, tutee không nhất thiết là lập trình theo nghĩa truyền thống. Người học có thể “dạy” một chatbot bằng giải thích tự nhiên, tạo ví dụ, sửa hiểu sai, đặt luật phản hồi. Nhưng GenAI mạnh quá cũng tạo nghịch lý: nếu AI có vẻ biết mọi thứ, người học sẽ không thấy mình thật sự dạy nó. Một tutee tốt đôi khi phải biết ít hơn, hỏi lại, mắc lỗi có chủ đích, hoặc giới hạn kiến thức để người học có đất dạy.

Nghiên cứu gần đây bắt đầu khai thác hướng này. Liu và cộng sự năm 2024 nghiên cứu teachable Q&A agent trong đọc hiểu với 95 học sinh lớp 5 qua chương trình đọc 9 tuần. Họ cho thấy hoạt động huấn luyện chatbot theo learning-by-teaching làm tăng reading interest và engagement, dù việc tạo câu hỏi đa dạng cũng đặt ra thách thức cần rèn luyện (Liu et al., 2024). Trong lập trình, Jin, Lee, Shin và Kim đề xuất môi trường TeachYou với AlgoBo, một LLM-based tutee chatbot có thể mô phỏng hiểu sai và hỏi “why/how”; nghiên cứu với 40 người mới học thuật toán cho thấy câu hỏi của tutee tạo ra hội thoại đậm đặc kiến thức hơn (Jin et al., 2024). Một nghiên cứu quasi-experimental khác về teachable ChatGPT agent trong lập trình ghi nhận cải thiện knowledge gains, programming abilities và SRL, nhưng ít tác động tới error-correction vì ChatGPT có xu hướng tạo code đúng, làm giảm cơ hội luyện debug (Chen et al., 2024).

Những kết quả này cho thấy AI as Tutee không chỉ là trò đổi vai. Nó có thể thiết kế để kéo người học lên các tầng phân tích và đánh giá trong Bloom: giải thích, phát hiện lỗi, tạo ví dụ, phản biện, sửa misconception. Khi người học dạy AI về phân số, họ phải phân biệt tử số/mẫu số, tạo ví dụ sai và đúng, giải thích vì sao cộng phân số khác cộng số nguyên. Khi người học dạy AI viết code, họ phải diễn đạt invariant, điều kiện dừng, complexity và test case. Khi người học dạy AI phân tích văn học, họ phải chỉ ra bằng chứng trong văn bản, không chỉ nói cảm nhận.

Vai trò này đặc biệt hữu ích để chống phụ thuộc AI. Nếu người học chỉ hỏi AI, họ dễ xem AI là thẩm quyền. Nếu người học phải sửa AI, họ học rằng AI có thể sai, tiêu chí nằm ngoài AI, và mình có trách nhiệm kiểm chứng. Một bài tập tốt có thể yêu cầu: “AI dưới đây giải sai. Hãy tìm lỗi, giải thích vì sao sai, sửa lại, và viết prompt để AI không lặp lỗi.” Hoặc: “Hãy dạy AI một khái niệm sao cho nó làm được ba bài kiểm tra; nếu AI sai, hãy phân tích liệu lỗi nằm ở giải thích của em, prompt, hay giới hạn của mô hình.”

Tuy nhiên, AI as Tutee cần thiết kế cẩn thận. Nếu AI quá ngu giả tạo, người học thấy không thật. Nếu AI quá giỏi, người học mất vai trò. Nếu AI hỏi quá nhiều câu máy móc, hoạt động thành thủ tục. Nếu AI chấp nhận mọi giải thích của người học, misconception được củng cố. Tutee tốt cần có knowledge state rõ, misconception có chủ đích, câu hỏi theo vùng phát triển gần, và cơ chế phản hồi cho giáo viên biết người học đang dạy đúng hay sai.

Một ứng dụng mạnh là “teach-back assessment”. Sau khi học một chủ đề, người học phải dạy AI, rồi AI làm một nhiệm vụ. Điểm không chỉ nằm ở việc AI làm đúng, mà ở chất lượng giải thích, cách xử lý lỗi, khả năng tạo ví dụ và phản tư. Đây là dạng đánh giá quá trình phù hợp với chương 16: sản phẩm cuối không phải bài luận do AI có thể viết, mà là dấu vết người học điều khiển, kiểm chứng và sửa một đối tác máy.

AI as Peer/Collaborator

AI as Peer hoặc Collaborator không phải là gia sư đứng trên, cũng không phải công cụ nằm dưới. Nó là đối tác ngang hàng trong một phần hoạt động: cùng brainstorm, đóng vai người phản biện, tranh luận, viết đôi, pair programming, mô phỏng khách hàng, đóng vai stakeholder, tạo phương án đối lập, giúp nhóm chuẩn bị debate, hoặc làm “đồng nghiệp thử ý tưởng”. Vai trò này hấp dẫn vì nhiều hoạt động học tốt cần đối thoại, nhưng không phải lúc nào người học cũng có bạn phù hợp, đủ thời gian, đủ tự tin hoặc đủ nền để tranh luận.

Trong học ngôn ngữ, human-AI interaction được nghiên cứu khá nhiều vì ngôn ngữ cần tương tác. Wang, Cheung và Chai thematic review năm 2024 về phát triển học ngôn ngữ trong human-AI interaction phân tích 49 nghiên cứu và nhận diện ba mô hình: AI-directed với giáo viên làm facilitator và người học là recipient; AI/teacher-codirected với người học là collaborator; và AI/teacher/learner-codirected (Wang et al., 2024). Ba mô hình này vượt ra khỏi học ngôn ngữ. Chúng cho thấy mức agency của người học thay đổi theo cách AI được đặt vào tương tác. AI peer tốt thuộc các mô hình đồng điều hướng, nơi người học không chỉ nhận đầu vào mà tham gia quyết định hướng đối thoại.

Trong giáo dục phổ thông, Tang và cộng sự năm 2024 trình bày một proof of concept về dialogic GenAI trong trung học ở Western Australia. Nhóm nghiên cứu đặt GenAI không phải như nguồn tri thức cuối cùng, mà như dialogic agent giúp đối thoại hợp tác và đồng kiến tạo kiến thức; học sinh được khuyến khích đặt câu hỏi tiếp nối, tích hợp nhiều quan điểm và phát triển epistemic skills (Tang et al., 2024). Đây là hình dung tốt về AI as Peer: nó không nói “đây là câu trả lời”, mà mở thêm tiếng nói để người học đối thoại, nghi ngờ, hỏi lại và tổng hợp.

AI peer có thể hữu ích trong bốn tình huống. Thứ nhất, khi người học cần rehearsal trước tương tác người thật: luyện phỏng vấn, luyện thuyết trình, luyện hội thoại ngoại ngữ, thử giải thích ý tưởng. Thứ hai, khi người học cần phản biện nhanh: AI đóng vai reviewer khó tính, khách hàng hoài nghi, nhà hoạch định chính sách, phụ huynh, bệnh nhân, người dùng cuối. Thứ ba, khi nhóm cần đa dạng hóa ý tưởng: AI tạo phương án khác, đặt câu hỏi “nếu ngược lại thì sao?”. Thứ tư, khi người học cần cộng sự kỹ thuật: pair programming, kiểm tra test case, mô phỏng dữ liệu, tạo prototype.

Nhưng AI peer có một rủi ro tinh vi: nó mô phỏng xã hội mà không thay thế xã hội. Một người bạn học thật có kinh nghiệm, mục tiêu, cảm xúc, trách nhiệm và quyền lợi riêng. Họ có thể không đồng ý vì lý do thật. Họ có thể bị ảnh hưởng bởi quyết định của nhóm. Họ có thể học từ mình và mình học từ họ. AI thì không có stakes như vậy. Nó có thể tạo “ảo giác hợp tác”: người học thấy mình đã làm việc nhóm, nhưng thực ra chỉ tối ưu ý tưởng với một mô hình luôn sẵn sàng phục vụ.

Vì vậy AI peer nên được dùng như cầu nối, không phải thay thế mặc định cho peer thật. Một thiết kế tốt là: người học tranh luận với AI trước để chuẩn bị, sau đó vào nhóm người thật với câu hỏi tốt hơn. Hoặc nhóm dùng AI để tạo ba quan điểm đối lập, rồi người học phân vai và phản biện lẫn nhau. Hoặc AI đóng vai reviewer vòng đầu, còn peer review người thật tập trung vào tiêu chí sâu hơn. AI peer mở rộng không gian đối thoại; nó không nên hút hết nhu cầu đối thoại khỏi lớp học.

Trong sáng tạo, vai trò collaborator cần tiêu chí rõ về quyền tác giả. Nếu AI góp ý cấu trúc, tạo biến thể hình ảnh, đề xuất câu chữ hoặc sinh code, sản phẩm là kết quả đồng sáng tạo ở mức nào? Người học có được tính điểm phần nào? Có cần khai báo không? Ai chịu trách nhiệm nếu nội dung sai, vi phạm bản quyền hoặc tái tạo định kiến? Những câu hỏi này không thể giải quyết bằng cảm tính. Chúng phải đi vào rubric và policy của chương trình.

AI as Coach/Observer

AI as Coach hoặc Observer tập trung vào thói quen, metacognition, động lực và rủi ro. Nó không nhất thiết dạy nội dung. Nó hỏi: hôm nay mục tiêu của em là gì? Em đã thử chiến lược nào? Em tự tin bao nhiêu? Em đang trì hoãn vì khó, vì chán, hay vì không biết bắt đầu? Em đã dùng feedback lần trước chưa? Em có đang hỏi AI quá sớm không? Em cần nghỉ hay cần chia nhỏ nhiệm vụ? Ở cấp hệ thống, observer có thể phát hiện dấu hiệu bỏ học, giảm tương tác, lặp lỗi, hoặc rủi ro phụ thuộc.

Vai trò này liên quan trực tiếp chương 15. Động lực và tự điều chỉnh không tự sinh ra từ nội dung tốt. Người học cần nhắc nhở, kế hoạch, phản tư, cảm giác tiến bộ và quan hệ hỗ trợ. AI coach có thể hữu ích vì nó luôn sẵn, ít phán xét, có thể nhớ mục tiêu, ghi lại tiến trình và cá nhân hóa câu hỏi. Một sinh viên không dám nói với giảng viên “em chưa hiểu gì từ tuần 3” có thể nói với chatbot. Một học sinh trì hoãn bài viết có thể được coach chia nhiệm vụ thành bước nhỏ. Một người tự học có thể dùng AI để lập kế hoạch spacing và retrieval.

Guan et al. (2024) cho thấy educational chatbots hỗ trợ SRL có tiềm năng, nhưng các nghiên cứu hiện tại hỗ trợ không đều các pha SRL. Chúng thường giúp tài nguyên, chiến lược và monitoring nhiều hơn là goal-setting, planning, reflection và adaptation. Đây là lời nhắc quan trọng cho thiết kế coach. Nếu hệ thống chỉ nhắc “đến giờ học rồi” hoặc “bạn còn ba bài chưa làm”, đó chưa phải coach. Coach đúng nghĩa giúp người học hiểu tại sao họ kẹt, chọn chiến lược, thử lại và học từ dữ liệu của chính mình.

AI observer cũng có thể hỗ trợ giáo viên. Nó có thể tóm tắt pattern lớp học: nhiều em sai cùng một misconception, nhóm này ít tương tác, học sinh kia dừng ở bước lập kế hoạch, phản hồi của AI bị bỏ qua, bài tập này tạo quá nhiều hint requests. Nếu dữ liệu được trình bày tốt, giáo viên có thể can thiệp đúng lúc. Nếu trình bày kém, dashboard chỉ tăng tải nhận thức và tạo áp lực giám sát.

Rủi ro lớn của coach/observer là trượt sang surveillance. Khi mọi click, thời gian dừng, đoạn chat, lỗi, cảm xúc dự đoán và mức “engagement” đều bị thu, người học có thể sống trong lớp học như một không gian bị quan sát liên tục. Điều này đặc biệt nguy hiểm với trẻ em và nhóm yếu thế. Một hệ thống có thể nói nó “cá nhân hóa”, nhưng thực chất tạo hồ sơ hành vi khó xóa. Một cảnh báo rủi ro có thể giúp can thiệp, nhưng cũng có thể dán nhãn học sinh.

Vì vậy coach/observer cần nguyên tắc dữ liệu chặt. Thu ít nhất có thể. Giải thích dữ liệu nào được thu và dùng để làm gì. Tách dữ liệu hỗ trợ học tập khỏi dữ liệu kỷ luật. Cho người học quyền xem và phản hồi về hồ sơ của mình. Không dùng dự đoán như kết luận. Luôn có người thật kiểm tra trước khi hành động có hậu quả. Và quan trọng nhất: coach phải phục vụ agency của người học, không phục vụ sự tiện lợi của hệ thống quản lý.

Một thiết kế tốt là “reflective coach” thay vì “compliance coach”. Reflective coach hỏi người học nhìn lại mục tiêu, chiến lược, mức hiểu và bước tiếp theo. Compliance coach chỉ nhắc nộp bài, giữ streak, tăng minutes-on-platform. Reflective coach có thể làm người học tự chủ hơn. Compliance coach có thể làm học tập thành chuỗi tuân thủ được tối ưu hóa.

Human-in-the-loop và human-on-the-loop

Các vai trò trên chỉ có ý nghĩa nếu ta phân định rõ con người giữ quyền gì. Trong lớp học có AI, “human-centered” không thể chỉ là khẩu hiệu. Nó phải được dịch thành quyền quyết định, quyền giải thích, quyền phủ quyết, quyền truy cập dữ liệu và trách nhiệm khi sai.

Human-in-the-loop phù hợp khi quyết định có hậu quả trực tiếp hoặc khi mô hình dễ sai theo cách khó phát hiện. Chấm điểm cuối kỳ, kết luận misconduct, đề xuất can thiệp tâm lý, chuyển nhóm năng lực, đánh giá rủi ro bỏ học, nhận xét đạo đức hoặc năng lực phức hợp đều cần con người xem bằng chứng. AI có thể chuẩn bị dữ liệu, gợi ý câu hỏi, phát hiện pattern, nhưng không nên tự động ra quyết định.

Human-on-the-loop phù hợp với quy trình rủi ro thấp hơn hoặc có thể đảo ngược: đề xuất bài luyện, nhắc lịch học, gợi ý tài nguyên, phân loại câu hỏi phổ biến, tạo feedback nháp. Nhưng on-the-loop không có nghĩa là con người chỉ xuất hiện trên giấy. Giáo viên phải có dashboard hiểu được, cảnh báo khi hệ thống lệch, cách sửa tiêu chí, và thời gian thực tế để giám sát. Một con người bị giao giám sát 10.000 quyết định tự động mà không có khả năng can thiệp thật không phải human-on-the-loop; đó là trách nhiệm tượng trưng.

Trong quan hệ người học-AI, human-in-the-loop còn có nghĩa người học phải giữ phán đoán. Khi AI góp ý bài viết, người học chọn sửa hay không. Khi AI tạo code, người học chạy test và giải thích. Khi AI đề xuất nguồn, người học kiểm chứng. Khi AI phản biện, người học đánh giá phản biện có hợp lý không. Nếu hệ thống thiết kế để người học bấm “accept all”, human-in-the-loop đã biến mất dù người học vẫn chạm vào giao diện.

Trong quan hệ giáo viên-AI, human-in-the-loop nghĩa giáo viên không bị biến thành người thực thi đề xuất thuật toán. Nếu hệ thống nói “học sinh A cần can thiệp”, giáo viên phải thấy vì sao, có thể thêm hiểu biết bối cảnh, và có thể bác bỏ. Nếu hệ thống nói “bài này nên cho 7 điểm”, giáo viên phải thấy tiêu chí, bằng chứng, độ bất định và có quyền sửa. Nếu AI gợi ý lesson plan, giáo viên phải chỉnh theo lớp, văn hóa, mục tiêu và ràng buộc thực tế.

Một nguyên tắc quản trị là trách nhiệm không được đẩy xuống nơi yếu nhất. Khi AI sai, nhà trường không thể nói “giáo viên chịu trách nhiệm” nếu giáo viên không có thông tin, thời gian hoặc quyền sửa. Nhà cung cấp không thể nói “người dùng phải kiểm tra” nếu hệ thống được bán như tự động chính xác. Người học không thể bị phạt vì luật AI mơ hồ. Human-in-the-loop chỉ thật khi con người có năng lực, thời gian, thông tin và quyền hành để làm vòng lặp ấy có ý nghĩa.

Thực trạng triển khai

Hiện nay, AI trong giáo dục đang triển khai không đều giữa các vai trò. Vai trò tool lan nhanh nhất vì người học và giáo viên có thể dùng ngay các công cụ chung như ChatGPT, Claude, Gemini, Copilot, Grammarly, NotebookLM, Perplexity, Canva, IDE assistant. Điều này tạo đổi mới từ dưới lên, nhưng cũng tạo vùng xám: mỗi người dùng theo cách riêng, không chắc tiêu chí học tập, không chắc chính sách, không chắc dữ liệu.

Vai trò tutor đang phát triển mạnh ở STEM, lập trình, ngôn ngữ và các môn có cấu trúc tương đối rõ. Harvard thử PS2 Pal trong vật lý; CS50 có các trợ lý AI như duck debugger; nhiều nền tảng luyện toán, ngôn ngữ và coding đưa chatbot vào quy trình. Lợi ích dễ thấy là phản hồi tức thời và giảm rào cản hỏi. Nhưng thành công phụ thuộc mạnh vào thiết kế nội dung, guardrails, đo transfer và liên kết với lớp học. Một tutor chung chung không biết syllabus, lỗi thường gặp và tiêu chí môn học có thể trả lời trôi chảy mà lệch.

Vai trò tutee còn ít phổ biến hơn, nhưng rất đáng chú ý vì nó phù hợp với mục tiêu AI literacy. Thay vì chỉ dạy người học “prompt thế nào để AI trả lời”, ta dạy họ “làm sao kiểm tra, sửa, dạy lại và giới hạn AI”. Trong lập trình, teachable agent có thể mô phỏng misconception. Trong đọc hiểu, chatbot được học sinh huấn luyện bằng câu hỏi-trả lời. Trong khoa học, AI có thể đóng vai học sinh hiểu sai để người học giải thích lại. Đây là hướng chống phụ thuộc tốt hơn nhiều so với chỉ cảnh báo “đừng tin AI”.

Vai trò peer/collaborator xuất hiện trong viết, ngôn ngữ, thiết kế, debate, nghiên cứu và project-based learning. Giáo viên dùng AI để tạo stakeholder giả lập, reviewer, khách hàng, nhân vật lịch sử, đối thủ tranh luận. Người học dùng AI để thử ý tưởng trước khi đưa cho nhóm. Nhưng nếu lớp học không có hoạt động người-người đủ mạnh, AI peer có thể làm nghèo tương tác xã hội. Một lớp viết mà người học chỉ nhận feedback từ AI sẽ mất cơ hội học cách đọc bài bạn, diễn đạt nhận xét tế nhị và thương lượng ý nghĩa với người thật.

Vai trò coach/observer đang đi cùng learning analytics, LMS, chatbot hỗ trợ học tập và hệ thống cảnh báo sớm. Một số ứng dụng chỉ nhắc tiến độ. Một số cố gắng hỗ trợ SRL. Một số chuyển sang giám sát hành vi. Ở đây khác biệt giữa hỗ trợ và kiểm soát rất mỏng. Cùng một dashboard “engagement” có thể giúp giáo viên hỏi thăm đúng lúc, hoặc làm học sinh bị quy thành chỉ số.

Một thực trạng chung là nhiều triển khai thiếu phân vai. Trường nói “chúng tôi dùng AI để cá nhân hóa”, nhưng không nói AI là tutor, tool, coach hay evaluator. Giáo viên nói “được dùng AI”, nhưng không nói dùng trong pha nào của nhiệm vụ. Sản phẩm nói “AI companion”, nhưng companion có thể là bạn học, gia sư, trợ lý cảm xúc hoặc giám sát viên. Khi vai trò mờ, kỳ vọng mờ; khi kỳ vọng mờ, đánh giá hiệu quả và rủi ro cũng mờ.

Phân tích phản biện

Ảo tưởng thứ nhất là “AI tutor cho mọi người” sẽ tự động dân chủ hóa giáo dục. AI có thể mở rộng tiếp cận, đặc biệt ở nơi thiếu giáo viên hoặc thiếu hỗ trợ ngoài giờ. Nhưng người có thiết bị tốt, kết nối ổn định, tiếng Anh tốt, kỹ năng prompt và nền tảng kiến thức đủ để kiểm chứng sẽ hưởng lợi nhiều hơn. Người yếu nhất có thể nhận câu trả lời nhiều hơn nhưng hiểu ít hơn nếu không có scaffold và người thật.

Ảo tưởng thứ hai là “AI ít phán xét nên tốt hơn giáo viên”. Người học có thể thấy chatbot dễ hỏi hơn vì không sợ xấu hổ. Đây là lợi ích thật. Nhưng giáo dục không chỉ cần câu trả lời không phán xét; nó cần quan hệ có trách nhiệm. Giáo viên biết lịch sử học sinh, thấy cảm xúc, hiểu bối cảnh gia đình, điều chỉnh mục tiêu và chịu trách nhiệm đạo đức. AI có thể làm giảm rào cản hỏi, nhưng không nên trở thành nơi duy nhất người học tìm hỗ trợ.

Ảo tưởng thứ ba là “AI peer thay được học nhóm”. AI có thể phản biện nhanh và mô phỏng nhiều vai, nhưng nó không có tính đối xứng xã hội. Nó không cần được lắng nghe theo nghĩa con người, không phát triển bản sắc cùng nhóm, không có trách nhiệm chung với sản phẩm. Học nhóm thật dạy cả kiến thức lẫn năng lực thương lượng, lắng nghe, xung đột và chăm sóc. AI peer nên chuẩn bị hoặc mở rộng học nhóm, không thay toàn bộ.

Ảo tưởng thứ tư là “AI tool trung lập”. Công cụ nào cũng mang thiên kiến thiết kế. AI viết theo phong cách nào, ưu tiên nguồn nào, đề xuất cấu trúc nào, sửa giọng văn theo chuẩn nào, từ chối nội dung nào, lưu dữ liệu gì, tất cả đều định hình học tập. Khi AI làm văn của mọi người giống nhau hơn, ta không chỉ có vấn đề đạo văn mà còn có vấn đề đồng nhất hóa giọng nói.

Ảo tưởng thứ năm là “coach càng theo dõi nhiều càng hỗ trợ tốt”. Dữ liệu nhiều không bằng hiểu tốt. Theo dõi quá mức có thể làm người học tối ưu chỉ số thay vì học, hoặc che giấu khó khăn vì sợ bị dán nhãn. Một coach tốt cần biết khi nào không hỏi, không đo, không nhắc, để người học có không gian tự điều chỉnh.

Ảo tưởng thứ sáu là “human-in-the-loop giải quyết mọi rủi ro”. Vòng lặp con người có thể chỉ là hình thức nếu con người quá tải, không hiểu mô hình, không có quyền sửa hoặc bị áp lực tin hệ thống. Human oversight phải được thiết kế như một năng lực tổ chức: đào tạo, thời gian, quyền truy cập dữ liệu, quy trình khiếu nại, audit và trách nhiệm rõ.

Nguyên tắc thiết kế

Nguyên tắc đầu tiên: gọi tên vai trò AI trước khi chọn công cụ. Trong hoạt động này, AI là tutor, tool, tutee, peer, coach, observer hay evaluator? Một hệ thống có thể đổi vai, nhưng mỗi pha phải rõ vai. Người học cần biết khi nào nên nghe, khi nào nên điều khiển, khi nào nên phản biện.

Nguyên tắc thứ hai: thiết kế quyền điều khiển theo mục tiêu học. Nếu mục tiêu là fluency, AI có thể hỗ trợ nhanh. Nếu mục tiêu là reasoning, AI phải hỏi trước khi giải. Nếu mục tiêu là evaluative judgement, AI phải tạo đầu ra cần kiểm chứng. Nếu mục tiêu là self-regulation, AI phải giúp người học lập kế hoạch và phản tư, không chỉ nhắc deadline.

Nguyên tắc thứ ba: tutor phải có guardrails học tập. Hãy dùng hint ladder, yêu cầu dự đoán, confidence rating, self-explanation, fading và transfer check. Không để tutor trả lời đầy đủ quá sớm trong nhiệm vụ người học cần luyện.

Nguyên tắc thứ tư: tool phải đi cùng trách nhiệm tác giả. Người học được dùng AI để tăng năng suất, nhưng phải khai báo phần dùng, kiểm chứng đầu ra, giải thích quyết định và chịu trách nhiệm bản cuối. Rubric nên chấm cả sản phẩm và cách dùng công cụ.

Nguyên tắc thứ năm: tutee phải có knowledge state thiết kế. AI cần biết ít hơn ở điểm có chủ đích, hỏi lại, mắc lỗi hợp lý và buộc người học giải thích. Nếu AI quá toàn năng, người học không học bằng dạy; họ chỉ đang prompt một chuyên gia giả.

Nguyên tắc thứ sáu: peer AI phải dẫn về cộng đồng học thật. Dùng AI để chuẩn bị câu hỏi, tạo phản biện, luyện trình bày và mở rộng quan điểm; sau đó đưa vào thảo luận người-người, peer review hoặc sản phẩm công khai.

Nguyên tắc thứ bảy: coach phải phục vụ agency. Mọi nhắc nhở, dashboard và phân tích thói quen nên giúp người học hiểu mình hơn và chọn chiến lược tốt hơn. Tránh thiết kế chỉ tối ưu compliance, minutes-on-platform hoặc streak.

Nguyên tắc thứ tám: observer phải tối thiểu hóa dữ liệu và giải thích được. Thu dữ liệu cần thiết, công bố mục đích, cho người học quyền xem, không dùng dự đoán như kết luận, và luôn có người thật trước quyết định có hậu quả.

Nguyên tắc thứ chín: phân tầng human-in-the-loop. Rủi ro thấp có thể để AI đề xuất và con người giám sát. Rủi ro cao phải có con người phê duyệt trước. Với trẻ em, dữ liệu nhạy cảm, đánh giá cuối kỳ và can thiệp tâm lý, ngưỡng giám sát phải cao hơn.

Nguyên tắc thứ mười: đánh giá vai trò bằng learning transfer, không chỉ satisfaction. Người học thích AI không có nghĩa là học sâu. Cần đo họ có làm được khi không có AI, có giải thích được quyết định, có phát hiện lỗi AI, có chuyển chiến lược sang nhiệm vụ mới và có hợp tác tốt hơn với người thật không.

Tổng kết chương

Human-AI interaction trong giáo dục không phải một vấn đề đơn lẻ. AI có thể là tutor, tool, tutee, peer, collaborator, coach, observer hoặc một tổ hợp đổi vai theo thời điểm. Mỗi vai có lợi ích và rủi ro riêng. Tutor có thể cá nhân hóa hỗ trợ, nhưng cũng tạo phụ thuộc nếu thiếu guardrails. Tool có thể tăng năng suất và tiếp cận, nhưng dễ thay thế phần cần học. Tutee có thể kích hoạt learning-by-teaching và kiểm chứng AI, nhưng cần thiết kế để người học thật sự có gì để dạy. Peer có thể mở rộng đối thoại, nhưng không thay thế quan hệ xã hội thật. Coach có thể hỗ trợ self-regulation, nhưng có thể trượt thành giám sát nếu phục vụ hệ thống hơn người học.

Điểm then chốt là vai trò phải rõ, quyền quyết định phải rõ, bằng chứng học tập phải rõ. Không có thiết kế tốt nếu chỉ nói “thêm AI vào lớp học”. Thiết kế tốt bắt đầu bằng câu hỏi: hoạt động học này cần người học làm phần nhận thức nào? AI nên làm phần nào để mở rộng năng lực mà không lấy mất cơ hội học? Người thật cần xuất hiện ở đâu? Dữ liệu nào được thu? Ai chịu trách nhiệm khi AI sai? Người học có trở nên tự chủ hơn sau tương tác này không?

Chương 18 sẽ chuyển sang AI literacy và năng lực giáo viên. Nếu chương này phân tích các vai AI có thể giữ trong hoạt động học, chương sau hỏi: người học và giáo viên cần biết gì để dùng, đánh giá, giới hạn và đồng thiết kế các vai đó một cách có trách nhiệm.

Tài liệu tham khảo

Bastani, H., Bastani, O., Sungu, A., Ge, H., Kabakcı, Ö., & Mariman, R. (2025). Generative AI without guardrails can harm learning: Evidence from high school mathematics. Proceedings of the National Academy of Sciences, 122(26), e2422633122. https://doi.org/10.1073/pnas.2422633122

Chen, A., Wei, Y., Le, H., & Zhang, Y. (2024). Learning-by-teaching with ChatGPT: The effect of teachable ChatGPT agent on programming education. arXiv. https://arxiv.org/abs/2412.15226

Duong, T. T. M., Can, V. D., & Nguyen, V. H. (2024). The use of ChatGPT in teaching and learning: A systematic review through SWOT analysis approach. Frontiers in Education, 9, 1328769. https://doi.org/10.3389/feduc.2024.1328769

Guan, R., Raković, M., Chen, G., & Gašević, D. (2024). How educational chatbots support self-regulated learning? A systematic review of the literature. Education and Information Technologies. https://doi.org/10.1007/s10639-024-12881-y

Jin, H., Lee, S., Shin, H., & Kim, J. (2024). Teach AI how to code: Using large language models as teachable agents for programming education. arXiv. https://arxiv.org/abs/2309.14534

Kestin, G., Miller, K., Klales, A., Milbourne, T., & Ponti, G. (2025). AI tutoring outperforms in-class active learning: An RCT introducing a novel research-based design in an authentic educational setting. Scientific Reports, 15, 17458. https://doi.org/10.1038/s41598-025-97652-6

Létourneau, A., Deslandes Martineau, M., Charland, P., Karran, J. A., Boasen, J., & Léger, P. M. (2025). A systematic review of AI-driven intelligent tutoring systems (ITS) in K-12 education. npj Science of Learning, 10, 29. https://doi.org/10.1038/s41539-025-00320-7

Liu, C.-C., Chen, W.-J., Lo, F.-Y., Chang, C.-H., & Lin, H.-M. (2024). Teachable Q&A agent: The effect of chatbot training by students on reading interest and engagement. Journal of Educational Computing Research, 62(4). https://doi.org/10.1177/07356331241236467

Mollick, E. R., & Mollick, L. (2023). Assigning AI: Seven approaches for students, with prompts. SSRN Electronic Journal. https://doi.org/10.2139/ssrn.4475995

Qian, Y. (2025). Pedagogical applications of generative AI in higher education: A systematic review of the field. TechTrends, 69, 1105-1120. https://doi.org/10.1007/s11528-025-01100-1

Tang, K.-S., Cooper, G., Rappa, N., Cooper, M., Sims, C., & Nonis, K. (2024). A dialogic approach to transform teaching, learning & assessment with generative AI in secondary education: A proof of concept. Pedagogies: An International Journal, 19(3), 493-503. https://doi.org/10.1080/1554480X.2024.2379774

Taylor, R. P. (1980). The computer in school: Tutor, tool, tutee. Teachers College Press.

Wang, F., Cheung, A. C. K., & Chai, C. S. (2024). Language learning development in human-AI interaction: A thematic review of the research landscape. System, 125, 103424. https://doi.org/10.1016/j.system.2024.103424

Chương 18: Học tập xã hội, hòa nhập và AI literacy

Bối cảnh / Vấn đề

Chương 17 đã phân tích AI có thể giữ nhiều vai trò trong hoạt động học: tutor, tool, tutee, peer, coach. Nhưng một câu hỏi còn nền tảng hơn nằm phía sau mọi vai trò đó: người học và giáo viên cần biết gì để sống, học, làm việc và ra quyết định trong một môi trường có AI? Nếu câu trả lời chỉ là “biết viết prompt”, giáo dục sẽ thu hẹp một năng lực xã hội phức tạp thành mẹo thao tác. Nếu câu trả lời chỉ là “biết công nghệ nguy hiểm”, giáo dục sẽ biến người học thành người né tránh thay vì người tham gia có trách nhiệm.

AI literacy không phải là một gói kỹ năng nhỏ gắn thêm vào môn Tin học. Nó là năng lực hiểu AI, dùng AI, đánh giá AI, đặt câu hỏi về tác động đạo đức-xã hội của AI, và nhận ra khi nào không nên dùng AI. Một học sinh có AI literacy không chỉ biết yêu cầu chatbot tóm tắt một bài đọc. Em cần biết bản tóm tắt có thể sai, thiếu bối cảnh, thiên lệch theo dữ liệu huấn luyện, không thay thế việc đọc nguồn gốc, và có thể làm em tưởng mình đã hiểu. Một sinh viên có AI literacy không chỉ biết dùng AI để viết nháp. Sinh viên đó cần biết khai báo phần hỗ trợ, kiểm chứng nguồn, giữ trách nhiệm tác giả, bảo vệ dữ liệu cá nhân, và phân biệt hỗ trợ diễn đạt với thay thế lập luận. Một công dân có AI literacy không chỉ biết “AI là gì”. Người đó cần biết hệ thống nào đang phân loại, đề xuất, chấm điểm, dự báo hoặc giám sát mình; dữ liệu nào được dùng; ai hưởng lợi; ai chịu rủi ro; và có quyền phản biện hay không.

Vấn đề trở nên khó hơn vì AI literacy phân bố không đều. Người học có thiết bị tốt, tiếng Anh tốt, người lớn hướng dẫn, tài khoản trả phí và vốn văn hóa cao thường học cách dùng AI nhanh hơn. Người học yếu thế có thể chỉ tiếp cận bản miễn phí chậm hơn, ít tính năng hơn, hỗ trợ ngôn ngữ kém hơn, hoặc bị cấm dùng công cụ trong khi nhóm có lợi thế vẫn dùng ở nhà. Khi trường học không dạy AI literacy một cách công bằng, nó không làm giảm khoảng cách; nó hợp thức hóa một khoảng cách mới.

UNESCO gọi đây là nguy cơ “AI divide”: chênh lệch không chỉ ở kết nối Internet, mà ở khả năng tiếp cận, hiểu, sử dụng và hưởng lợi từ AI. Báo cáo năm 2025 của UNESCO về quyền người học nhấn mạnh rằng đến năm 2024 vẫn có khoảng 2,6 tỷ người chưa có Internet, và các nhóm dễ bị tổn thương như trẻ em gái, người học vùng nông thôn, người khuyết tật và cộng đồng bị thiệt thòi chịu tác động nặng hơn từ khoảng cách số (UNESCO, 2025a). Một trang tổng hợp chính sách số của UNESCO cũng nêu rằng chỉ khoảng 40% trường tiểu học và 50% trường trung học cơ sở trên thế giới có kết nối Internet (UNESCO, 2026). Nếu nền hạ tầng cơ bản còn không đều, việc nói “AI cho mọi người” mà không bàn đến quyền truy cập, ngôn ngữ, chi phí và năng lực giáo viên sẽ là một lời hứa mỏng.

AI literacy còn là vấn đề xã hội vì trường học không chỉ là nơi truyền nội dung. Trường học là không gian người học hình thành bản sắc, học cách tranh luận, nhận phản hồi, xây quan hệ, nhận ra mình thuộc về một cộng đồng, và được người lớn nhìn thấy không chỉ như một tập hợp dữ liệu hiệu suất. AI có thể hỗ trợ những quá trình đó: dịch ngôn ngữ, tạo phụ đề, đọc văn bản, giải thích thuật ngữ, gợi ý phản hồi, mở cơ hội thực hành cho người học ngại hỏi. Nhưng AI cũng có thể làm nghèo quan hệ giáo dục nếu mọi khó khăn đều được đẩy sang chatbot, mọi dấu hiệu cảm xúc bị quy thành dữ liệu, mọi hỗ trợ cá nhân hóa trở thành đường học riêng lẻ, và mọi bất ổn của người học được xử lý bằng nhắc nhở tự động thay vì quan tâm thật.

Vì vậy, chương này đặt AI literacy trong ba vòng tròn chồng lên nhau. Vòng thứ nhất là năng lực cá nhân: người học và giáo viên biết hiểu, dùng, đánh giá và phản tư về AI. Vòng thứ hai là năng lực phê phán: biết hỏi về dữ liệu, thiên kiến, quyền lực, mục tiêu tối ưu và trách nhiệm. Vòng thứ ba là năng lực xã hội-hòa nhập: dùng AI để giảm rào cản, mở rộng tham gia, tôn trọng khác biệt ngôn ngữ-văn hóa, và giữ trường học như một cộng đồng người-người.

Nếu bỏ vòng thứ nhất, người học không đủ kỹ năng thực hành. Nếu bỏ vòng thứ hai, họ trở thành người tiêu dùng công cụ. Nếu bỏ vòng thứ ba, AI literacy trở thành đặc quyền của nhóm đã mạnh. Một chương trình AI literacy nghiêm túc phải giữ cả ba.

Nền tảng lý thuyết

AI literacy nên được hiểu như một dạng literacy xã hội, không chỉ là kiến thức kỹ thuật. Trong truyền thống nghiên cứu literacy, biết đọc không chỉ là nhận diện chữ; đó là biết dùng văn bản trong những bối cảnh xã hội cụ thể, hiểu mục đích, thể loại, quyền lực, nguồn tin, người đọc và hậu quả. Tương tự, biết AI không chỉ là hiểu neural network, machine learning hay transformer ở mức khái niệm. Người học cần biết AI được dùng trong tình huống nào, bởi ai, để đạt mục tiêu nào, với dữ liệu nào, theo tiêu chí nào, và kết quả ấy ảnh hưởng đến người thật ra sao.

Allen và Kendeou đề xuất khung ED-AI Lit cho giáo dục với sáu thành phần: Knowledge, Evaluation, Collaboration, Contextualization, Autonomy và Ethics. Điểm mạnh của khung này là nó không tách AI literacy khỏi học tập. Người học cần hiểu AI hoạt động ra sao, đánh giá giới hạn và thiên lệch, cộng tác với AI và con người, dùng AI trong bối cảnh thực, giữ quyền tự chủ khi tương tác với hệ thống, và nhận diện các vấn đề đạo đức như công bằng, minh bạch, trách nhiệm và riêng tư (Allen & Kendeou, 2024). Đây là một khung phù hợp với tinh thần của cuốn sách: AI literacy không phải môn phụ, mà là năng lực xuyên môn.

UNESCO năm 2024 đưa ra hai khung năng lực bổ sung nhau: AI competency framework for students và AI competency framework for teachers. Khung cho học sinh nêu 12 năng lực qua bốn chiều: tư duy lấy con người làm trung tâm, đạo đức AI, kỹ thuật và ứng dụng AI, thiết kế hệ thống AI; đồng thời chia theo ba mức tiến triển: Understand, Apply, Create (Miao, Shiohira, & Lao, 2024). Cách chia này quan trọng vì nó tránh hai cực đoan. Một cực là chỉ dạy người học “dùng công cụ”. Cực kia là chỉ dạy kiến thức kỹ thuật trừu tượng. UNESCO đặt người học vào vai công dân và người đồng kiến tạo: hiểu hệ thống, dùng có trách nhiệm, và khi phù hợp có thể tham gia thiết kế giải pháp.

Khung cho giáo viên của UNESCO nêu 15 năng lực qua năm chiều: human-centred mindset, ethics of AI, AI foundations and applications, AI pedagogy, và AI for professional learning; cũng chia theo ba mức Acquire, Deepen, Create (Miao & Cukurova, 2024). Điểm đáng chú ý là “AI pedagogy” được đặt ngang với hiểu biết kỹ thuật và đạo đức. Giáo viên không chỉ cần biết AI là gì; họ cần biết AI thay đổi nhiệm vụ học, phản hồi, đánh giá, tương tác lớp học, vai trò của giáo viên và agency của người học như thế nào.

Nền tảng thứ hai là critical AI literacy. Nếu AI literacy trả lời câu hỏi “làm sao hiểu và dùng AI”, critical AI literacy hỏi thêm: “AI này phục vụ cấu trúc quyền lực nào?”. Người học cần biết mọi hệ thống AI đều được xây từ dữ liệu, mục tiêu tối ưu, lựa chọn thiết kế, giả định về người dùng và cơ chế triển khai. Không có mô hình nào đứng ngoài xã hội. Một hệ thống gợi ý tài nguyên học tập có thể tối ưu số phút sử dụng thay vì hiểu sâu. Một hệ thống chấm viết có thể thưởng cho văn phong giống dữ liệu huấn luyện hơn là lập luận tốt. Một mô hình phát hiện gian lận có thể nghi ngờ người học viết khác “mẫu bình thường” của nó. Một dashboard cảnh báo sớm có thể giúp can thiệp, nhưng cũng có thể dán nhãn “rủi ro” lên người học nghèo, người học đi làm thêm, hoặc người học có trách nhiệm gia đình.

Nền tảng thứ ba là học tập xã hội. Vygotsky cho rằng học diễn ra trong tương tác xã hội, qua ngôn ngữ, công cụ và hỗ trợ trong vùng phát triển gần (Vygotsky, 1978). Wenger nhấn mạnh học là tham gia vào cộng đồng thực hành: người học không chỉ tiếp nhận kiến thức, mà dần trở thành thành viên có năng lực trong một cộng đồng có chuẩn mực, ngôn ngữ, công cụ và bản sắc riêng (Wenger, 1998). Khi AI đi vào lớp học, nó không chỉ thêm một công cụ cá nhân. Nó thay đổi ai nói với ai, ai được nghe, ai được hỗ trợ, ai bị bỏ qua, ai có quyền đánh giá, và người học thấy mình thuộc về cộng đồng hay chỉ tương tác với máy.

Nền tảng thứ tư là giáo dục hòa nhập. Universal Design for Learning (UDL) xem khác biệt người học là điều dự đoán được, không phải lỗi ngoại lệ. CAST phiên bản UDL Guidelines 3.0, phát hành năm 2024, nhấn mạnh ba nhóm lựa chọn: Engagement, Representation, và Action & Expression, với mục tiêu phát triển learner agency có mục đích, biết phản tư, có nguồn lực, xác thực, chiến lược và hướng đến hành động (CAST, 2024). Khi áp dụng vào AI, UDL nhắc ta rằng công nghệ tốt không bắt người học thích nghi với một đường học hẹp. Nó mở nhiều con đường để tham gia, hiểu, biểu đạt và nhận hỗ trợ.

Nhưng hòa nhập không đồng nghĩa với “cá nhân hóa tự động”. Một hệ thống cá nhân hóa có thể giúp người học khiếm thị nghe văn bản, người học dyslexia nhận phiên bản dễ đọc hơn, người học đa ngôn ngữ chuyển đổi giữa ngôn ngữ nhà và ngôn ngữ học thuật. Nhưng nó cũng có thể cô lập người học vào đường học riêng, giảm cơ hội hợp tác, hoặc biến khác biệt thành nhãn cố định. Nghiên cứu scoping review của Pagliara và cộng sự về AI trong inclusive education cho thấy AI thường được dùng để hỗ trợ personalized learning và accessibility, nhưng lĩnh vực này vẫn còn phân mảnh, mẫu nghiên cứu nhỏ, và cần chú ý các vấn đề đạo đức như riêng tư, tiếp cận và thiên lệch (Pagliara et al., 2024).

Nền tảng thứ năm là đo lường. Nếu AI literacy trở thành mục tiêu giáo dục, người ta sẽ muốn đánh giá nó. Nhưng đo lường sớm thường dễ tạo cảm giác chắc chắn giả. Lintner systematic review năm 2024 về AI literacy scales phân tích 22 nghiên cứu xác thực 16 thang đo. Review ghi nhận nhiều thang có structural validity và internal consistency tốt, nhưng rất ít thang được kiểm tra về content validity, reliability, construct validity và responsiveness; không có thang nào trong review được kiểm tra về cross-cultural validity và measurement error; phần lớn là self-report thay vì performance-based (Lintner, 2024). Điều này đặt một cảnh báo lớn: không thể nhập một bài test AI literacy từ bối cảnh khác, dịch sang tiếng Việt, rồi dùng điểm số như bằng chứng chắc chắn về năng lực.

Từ các nền tảng trên, có thể rút ra một luận điểm xuyên suốt: AI literacy là năng lực tham gia có hiểu biết trong một hệ sinh thái kỹ thuật-xã hội. Nó bao gồm hiểu công nghệ, dùng công cụ, phán đoán bằng chứng, giữ quyền tự chủ, nhận diện rủi ro đạo đức, bảo vệ người yếu thế, và duy trì quan hệ học tập lành mạnh.

AI literacy cho người học

AI literacy cho người học có thể được chia thành bốn lớp: hiểu AI, dùng AI, đánh giá AI, và tham gia có trách nhiệm trong xã hội có AI. Bốn lớp này không phải bậc thang cứng. Người học có thể vừa dùng vừa hiểu, vừa đánh giá vừa đặt câu hỏi đạo đức. Nhưng nếu thiết kế chương trình, bốn lớp giúp tránh việc dạy AI literacy thành danh sách mẹo rời rạc.

Lớp thứ nhất là hiểu AI. Ở mức phổ thông, người học không cần biến thành kỹ sư AI, nhưng cần hiểu một số ý cơ bản. AI hiện đại học mẫu từ dữ liệu; nó dự đoán đầu ra dựa trên xác suất và cấu trúc đã học; nó không “hiểu” như con người có trải nghiệm sống, mục đích đạo đức và trách nhiệm xã hội; nó có thể tạo câu trả lời nghe hợp lý nhưng sai; nó phản ánh thiên lệch, thiếu hụt và cấu trúc quyền lực trong dữ liệu và thiết kế. Với GenAI, người học cần hiểu thêm rằng một câu trả lời trôi chảy không đồng nghĩa với đúng, một trích dẫn có thể không tồn tại, một bản tóm tắt có thể bỏ mất chi tiết quan trọng, và một lời khuyên có thể tự tin quá mức.

Hiểu AI cũng bao gồm hiểu sự khác nhau giữa các loại hệ thống. Một công cụ kiểm tra ngữ pháp, chatbot, hệ thống gợi ý video, bộ lọc tuyển sinh, dashboard học tập, phần mềm proctoring và mô hình tạo ảnh đều là AI theo nghĩa rộng, nhưng rủi ro không giống nhau. Hệ thống tạo gợi ý học tập có mức hậu quả khác hệ thống tự động ra quyết định kỷ luật. Một chatbot mở để luyện câu hỏi khác với một mô hình bị tích hợp vào đánh giá chính thức. Người học cần học cách phân loại mức rủi ro: AI đang tư vấn, hỗ trợ, tạo nội dung, dự báo, xếp hạng, giám sát hay quyết định?

Lớp thứ hai là dùng AI. Đây là phần dễ được chú ý nhất, nhưng cũng dễ bị hiểu sai nhất. Dùng AI không chỉ là viết prompt hay. Dùng AI là biết đặt mục tiêu học, cung cấp bối cảnh, yêu cầu định dạng, đưa tiêu chí, kiểm tra đầu ra, yêu cầu giải thích, so sánh nhiều nguồn, và tích hợp kết quả vào sản phẩm của mình. Một prompt tốt không chỉ dài. Nó rõ về nhiệm vụ, vai trò, giới hạn, nguồn được phép dùng, tiêu chí chất lượng và cách xử lý bất định.

Ví dụ, thay vì hỏi “giải thích quang hợp”, người học có thể hỏi: “Em đang học lớp 7, đã biết cây cần ánh sáng và nước nhưng chưa hiểu vai trò của CO2. Hãy giải thích quang hợp bằng ba bước, đưa một ví dụ thí nghiệm đơn giản, rồi hỏi em hai câu để kiểm tra hiểu biết. Nếu phần nào còn gây tranh luận ở cấp cao hơn, hãy nói rõ không cần học sâu ở lớp 7.” Prompt này không chỉ yêu cầu câu trả lời. Nó tạo một tương tác có scaffold, kiểm tra hiểu và giới hạn mức độ.

Nhưng prompt literacy chỉ là một phần của AI literacy. Người học còn cần workflow literacy: biết đưa AI vào quy trình học lúc nào. Trong viết, một workflow tốt có thể là: tự đọc nguồn, ghi ý chính, viết luận điểm, nhờ AI phản biện chỗ yếu, sửa dàn ý, viết nháp, dùng AI kiểm tra độ rõ, tự kiểm chứng trích dẫn, khai báo phần AI hỗ trợ. Workflow kém là đưa đề bài vào, nhận bài hoàn chỉnh, chỉnh vài câu rồi nộp. Trong lập trình, workflow tốt có thể là tự mô tả thuật toán, nhờ AI tạo test case, tự code, hỏi AI giải thích lỗi, rồi viết lại bằng lời của mình. Workflow kém là nhận code chạy được nhưng không hiểu.

Lớp thứ ba là đánh giá AI. Đây là phần cần được dạy có hệ thống. Người học phải biết đánh giá tính đúng, tính đầy đủ, tính phù hợp bối cảnh, nguồn, thiên lệch, mức bất định và hậu quả. Một quy tắc thực tế là “AI không tự làm bằng chứng cho chính nó”. Nếu AI đưa một thông tin quan trọng, người học phải tìm nguồn độc lập. Nếu AI nêu số liệu, người học phải truy về báo cáo gốc. Nếu AI tóm tắt một bài nghiên cứu, người học phải kiểm tra abstract, phương pháp và giới hạn. Nếu AI gợi ý quyết định có ảnh hưởng đến người khác, người học phải đặt câu hỏi đạo đức.

Đánh giá AI không chỉ là bắt lỗi. Nó là evaluative judgement: năng lực nhận ra chất lượng trong một lĩnh vực. Một học sinh chưa hiểu thế nào là lập luận lịch sử tốt sẽ khó đánh giá bài viết lịch sử do AI tạo. Một sinh viên chưa hiểu chuẩn phương pháp nghiên cứu sẽ khó thấy AI bịa cách chọn mẫu. Vì vậy, AI literacy phải gắn với tri thức môn học. Dạy người học “hãy kiểm chứng” mà không dạy tiêu chí kiểm chứng trong từng môn thì lời khuyên ấy rỗng. Trong khoa học, kiểm chứng liên quan đến dữ liệu, phương pháp, khả năng tái lập và giới hạn suy luận. Trong văn học, kiểm chứng liên quan đến văn bản, bối cảnh, bằng chứng diễn giải và tính thuyết phục. Trong toán, kiểm chứng liên quan đến logic bước giải, điều kiện áp dụng và phản ví dụ. Trong nghề nghiệp, kiểm chứng liên quan đến chuẩn an toàn, pháp lý và trách nhiệm chuyên môn.

Lớp thứ tư là tham gia có trách nhiệm. Người học cần biết các chuẩn khai báo sử dụng AI, quyền tác giả, riêng tư, dữ liệu nhạy cảm, nội dung độc hại, định kiến và tác động môi trường. Một quy định tốt không chỉ nói “không gian lận”. Nó giúp người học phân biệt mức sử dụng: brainstorming, phản hồi, chỉnh ngôn ngữ, tạo cấu trúc, tạo nội dung, phân tích dữ liệu, tạo sản phẩm cuối. Mỗi mức có yêu cầu khai báo và giới hạn khác nhau. Người học cũng cần biết không đưa dữ liệu cá nhân, thông tin sức khỏe, bài làm của bạn học, tài liệu nội bộ hoặc dữ liệu trẻ em vào công cụ không được phép.

AI literacy cần được phát triển theo lứa tuổi. Ở tiểu học, trọng tâm không phải giải thích mô hình thống kê phức tạp. Trọng tâm là: máy có thể giúp nhưng có thể sai; phải hỏi người lớn khi nội dung lạ hoặc gây lo; không chia sẻ thông tin riêng; dùng AI để khám phá và diễn đạt, không để lừa người khác; biết tôn trọng bạn học khi công cụ tạo hình, giọng nói hoặc văn bản. Ở trung học cơ sở và trung học phổ thông, có thể dạy sâu hơn về dữ liệu, thiên lệch, nguồn tin, thuật toán đề xuất, hallucination, tác giả, trích dẫn, kiểm chứng và tác động xã hội. Ở đại học và giáo dục nghề, AI literacy phải đi vào chuẩn ngành: y tế, luật, kỹ thuật, tài chính, giáo dục, báo chí, thiết kế, phần mềm và nghiên cứu khoa học đều có rủi ro riêng.

Một sai lầm phổ biến là biến AI literacy thành một module một lần: một buổi giới thiệu AI, một bài quiz đạo đức, một hướng dẫn prompt. Cách làm này không đủ. Allen và Kendeou nhấn mạnh AI literacy cần được tích hợp xuyên chương trình K-16, qua nhiều lĩnh vực học thuật, thay vì bị nhốt trong một môn riêng (Allen & Kendeou, 2024). Người học cần gặp AI trong bài đọc, bài viết, thí nghiệm, dự án nhóm, phản biện nguồn, dữ liệu, nghệ thuật, mô phỏng nghề nghiệp và hoạt động công dân. Mỗi lần gặp, giáo viên không chỉ hỏi “có dùng AI không?”, mà hỏi “AI đã thay đổi quá trình học như thế nào?”.

Một chương trình AI literacy tốt có thể dùng lỗi của AI như tài nguyên học. Cho học sinh một câu trả lời sai nhưng thuyết phục, yêu cầu tìm lỗi và sửa. Cho sinh viên so sánh ba bản tóm tắt khác nhau của cùng một bài báo, xem bản nào bỏ qua giới hạn nghiên cứu. Cho nhóm học sinh thiết kế quy tắc lớp về AI, rồi phản biện quy tắc ấy từ góc nhìn người học khuyết tật, người học không có Internet ở nhà, giáo viên chấm bài và phụ huynh. Những hoạt động này dạy AI literacy như phán đoán trong tình huống thật, không phải thuộc định nghĩa.

AI competency cho giáo viên

Nếu người học cần AI literacy, giáo viên cần một năng lực rộng hơn: AI competency. Giáo viên không chỉ là người dùng công cụ. Họ là người thiết kế nhiệm vụ học, tổ chức tương tác, chọn bằng chứng đánh giá, bảo vệ quyền lợi người học, điều chỉnh theo bối cảnh lớp, và đưa công nghệ vào một quan hệ giáo dục có trách nhiệm. Một giáo viên biết dùng chatbot để viết kế hoạch bài dạy chưa chắc có AI competency. Năng lực thật nằm ở khả năng quyết định AI nên xuất hiện ở đâu, vắng mặt ở đâu, hỗ trợ ai, làm gì, dưới tiêu chí nào, và con người giữ quyền kiểm soát ra sao.

Khung UNESCO cho giáo viên hữu ích vì nó đặt năng lực AI trên năm chiều. Chiều human-centred mindset yêu cầu giáo viên giữ agency của con người, quyền giáo dục, trách nhiệm xã hội và tính bền vững ở trung tâm. Điều này nghe chung, nhưng rất thực tế: giáo viên không nên để công cụ quyết định mục tiêu bài học; không nên hy sinh người học yếu thế để tối ưu hiệu suất chung; không nên dùng AI để tăng khối lượng bài tập chỉ vì chấm dễ hơn; không nên để dashboard thay thế sự quan sát tinh tế của người dạy.

Chiều ethics of AI yêu cầu giáo viên hiểu các vấn đề công bằng, riêng tư, minh bạch, an toàn, trách nhiệm và tác động xã hội. Giáo viên cần biết câu hỏi nào phải đặt trước khi dùng một công cụ: dữ liệu học sinh đi đâu, có cần đồng ý của phụ huynh không, hệ thống có lưu prompt không, ai có quyền xem dashboard, mô hình có được dùng để huấn luyện tiếp không, có cách khiếu nại kết quả không, có phương án thay thế cho người học không thể hoặc không muốn dùng công cụ không. Đây không phải việc của riêng ban công nghệ. Trong lớp học, giáo viên là người thấy hậu quả đầu tiên.

Chiều AI foundations and applications giúp giáo viên hiểu đủ về AI để không bị phụ thuộc vào quảng cáo sản phẩm. Giáo viên không cần xây mô hình, nhưng cần biết AI có thể hallucinate, thiếu cập nhật, nhạy với prompt, khó giải thích, có thể tái tạo định kiến, và thường hoạt động khác nhau theo ngôn ngữ. Họ cũng cần biết công cụ nào là GenAI, công cụ nào là phân tích dữ liệu học tập, công cụ nào là adaptive learning, công cụ nào chỉ là tự động hóa quy tắc. Không phân biệt các loại này, giáo viên dễ dùng sai rủi ro.

Chiều AI pedagogy là phần trung tâm. Giáo viên cần biết thiết kế hoạt động trong đó AI không làm mất mục tiêu học. Nếu mục tiêu là học viết lập luận, AI có thể phản biện dàn ý nhưng không viết hộ luận điểm. Nếu mục tiêu là học giải toán, AI có thể đưa gợi ý từng mức nhưng không nhảy thẳng đến lời giải. Nếu mục tiêu là học hợp tác, AI có thể gợi vai trò trong nhóm hoặc tóm tắt điểm khác biệt, nhưng không thay tranh luận giữa người học. Nếu mục tiêu là học ngoại ngữ, AI có thể làm đối tác luyện nói, nhưng giáo viên vẫn cần thiết kế feedback về phát âm, ngữ dụng và văn hóa.

Chiều AI for professional learning nhắc rằng giáo viên cũng là người học suốt đời. AI có thể giúp giáo viên phân tích phản hồi học sinh, tạo biến thể bài tập, đọc nghiên cứu, chuẩn bị ví dụ, chỉnh ngôn ngữ tài liệu, thiết kế rubric, hoặc phản tư sau giờ dạy. Nhưng nếu dùng không cẩn thận, AI có thể làm giáo viên xa rời chuyên môn: bài dạy trông đầy đủ nhưng không ăn vào khó khăn thật của lớp; rubric nghe chuẩn nhưng không phù hợp mục tiêu; phản hồi trơn tru nhưng không có dấu vết quan sát người học.

Ba mức Acquire, Deepen, Create của UNESCO có thể chuyển thành lộ trình phát triển nghề nghiệp. Ở mức Acquire, giáo viên cần hiểu khái niệm cơ bản, chính sách trường, rủi ro riêng tư, cách dùng an toàn, và một số hoạt động mẫu. Ở mức Deepen, giáo viên bắt đầu tái thiết kế nhiệm vụ học và đánh giá: dùng AI để tạo scaffold, feedback, phản biện, mô phỏng, phân hóa hỗ trợ, nhưng vẫn giữ bằng chứng quá trình và phán đoán người dạy. Ở mức Create, giáo viên cùng đồng nghiệp xây hướng dẫn địa phương, thiết kế hoạt động mới, đánh giá tác động, tham gia chọn công cụ, cố vấn đồng nghiệp và phản hồi cho nhà trường về rủi ro.

Đào tạo giáo viên về AI thường thất bại khi nó bị biến thành buổi trình diễn công cụ. Một buổi tập huấn hai giờ có thể giúp giáo viên biết vài prompt, nhưng không thay đổi thực hành lớp học nếu không có thời gian thử, quan sát, điều chỉnh, chia sẻ và nhận hỗ trợ. Giáo viên cần professional learning gắn với công việc thật: cùng phân tích một bài học, cùng thiết kế phiên bản có AI và không AI, dạy thử, xem bài làm của học sinh, thảo luận lỗi, sửa tiêu chí, rồi quyết định có dùng tiếp không.

Một mô hình thực tế là cộng đồng thực hành nhỏ trong trường. Mỗi nhóm giáo viên chọn một vấn đề cụ thể: học sinh viết phản hồi nguồn yếu; học sinh ngại nói ngoại ngữ; lớp toán có nhiều mức chênh; sinh viên copy code mà không hiểu; học sinh khuyết tật cần nhiều định dạng tài liệu. Nhóm thử một can thiệp AI nhỏ, đặt tiêu chí trước, thu bằng chứng, chia sẻ cả thất bại. Cách này chậm hơn mua nền tảng và yêu cầu dùng toàn trường, nhưng nó tôn trọng chuyên môn giáo viên và bối cảnh địa phương.

Rủi ro lớn nhất là biến AI competency thành checklist tuân thủ. Nếu giáo viên phải chứng minh đã học đủ module, tick đủ kỹ năng, dùng đủ công cụ, hệ thống có thể tạo áp lực hình thức. Năng lực AI không đo được bằng số prompt đã viết. Nó thể hiện ở phán đoán: giáo viên biết chọn không dùng AI khi hoạt động cần im lặng suy nghĩ; biết dừng chatbot khi học sinh quá phụ thuộc; biết yêu cầu giải thích khi bài làm quá trơn; biết cho phép AI hỗ trợ ngôn ngữ khi mục tiêu không phải kiểm tra ngữ pháp; biết bảo vệ học sinh khỏi công cụ giám sát quá mức.

Một rủi ro khác là teacher surveillance. Công nghệ quản trị có thể dùng AI để chấm “hiệu quả” giáo viên qua dữ liệu hẹp: điểm quiz, thời gian đăng nhập, số hoạt động số hóa, số phản hồi gửi đi. Nếu năng lực giáo viên bị đánh giá qua dấu vết công cụ, giáo viên sẽ tối ưu công cụ thay vì học tập. AI competency phải đi cùng quyền nghề nghiệp: giáo viên có quyền hiểu hệ thống, phản biện dữ liệu, tham gia quyết định mua sắm, từ chối ứng dụng gây hại, và được hỗ trợ thay vì bị giám sát.

Chương 19 sẽ đi sâu hơn vào agency giáo viên. Ở đây, điểm cần giữ là: không có AI literacy bền vững cho học sinh nếu giáo viên không có năng lực, thời gian, quyền và cộng đồng để dạy nó.

Critical AI Literacy

Critical AI literacy bắt đầu từ một thói quen hỏi. Không phải hỏi để phủ định mọi công nghệ, mà hỏi để dùng công nghệ mà không đánh mất phán đoán. Trong lớp học, thói quen này có thể được dạy qua một bộ câu hỏi ổn định:

1. Dữ liệu nào được dùng để huấn luyện, vận hành hoặc đánh giá hệ thống? 2. Ai được đại diện tốt trong dữ liệu, ai bị thiếu, ai bị hiểu sai? 3. Hệ thống đang tối ưu mục tiêu nào: đúng kiến thức, tốc độ, engagement, điểm số, tiết kiệm chi phí, hay kiểm soát hành vi? 4. Ai hưởng lợi nếu hệ thống được dùng: người học, giáo viên, nhà trường, nhà cung cấp, nhà quản lý, hay nhóm khác? 5. Ai chịu rủi ro nếu hệ thống sai? 6. Người bị ảnh hưởng có biết, có đồng ý, có quyền giải thích, có quyền khiếu nại và có lựa chọn thay thế không? 7. Có cần AI trong trường hợp này không, hay một giải pháp sư phạm đơn giản hơn tốt hơn?

Bảy câu hỏi này có thể đi vào nhiều bài học. Trong môn Ngữ văn, học sinh có thể phân tích một công cụ chấm bài tự động: nó đánh giá văn phong nào, có thưởng cho câu dài và từ vựng học thuật không, có hiểu giọng văn địa phương không, có phân biệt lỗi ngôn ngữ với ý tưởng mới không. Trong môn Lịch sử, học sinh có thể hỏi một chatbot về một sự kiện gây tranh luận, rồi kiểm tra nguồn, so sánh góc nhìn, tìm phần bị bỏ qua. Trong môn Toán hoặc Tin học, người học có thể xem một mô hình phân loại đơn giản và thử thay đổi dữ liệu để thấy thiên lệch. Trong Giáo dục công dân, lớp có thể thảo luận có nên dùng AI để dự báo nguy cơ bỏ học, và điều kiện nào làm việc đó có trách nhiệm.

Critical AI literacy đặc biệt cần thiết với các hệ thống tưởng như trung tính. Ví dụ, một công cụ gợi ý bài luyện có vẻ chỉ giúp cá nhân hóa. Nhưng nếu nó tối ưu “làm đúng nhanh”, học sinh đã yếu nền tảng có thể bị cho nhiều bài dễ để giữ tỷ lệ đúng, trong khi không được đẩy lên nhiệm vụ sâu hơn. Một dashboard cảnh báo học sinh “ít tương tác” có thể bỏ qua học sinh đọc tài liệu giấy, học nhóm ngoài nền tảng, hoặc sống trong gia đình chỉ có một thiết bị chung. Một công cụ đánh giá nói tự tin “bài viết này có khả năng do AI tạo” có thể gây hậu quả kỷ luật dù mô hình không đủ đáng tin trong bối cảnh đa ngôn ngữ. Một hệ thống proctoring có thể diễn giải ánh mắt, ánh sáng phòng, khuôn mặt hoặc chuyển động cơ thể theo chuẩn hẹp và gây áp lực lớn cho người học khuyết tật hoặc người học ở không gian gia đình đông người.

Critical AI literacy cũng cần đi vào GenAI tạo nội dung. Người học phải biết các mô hình ngôn ngữ có xu hướng tạo câu trả lời phù hợp về hình thức, không nhất thiết đúng về nội dung. Chúng có thể tái tạo định kiến về giới, nghề nghiệp, dân tộc, vùng miền hoặc năng lực. Chúng có thể trả lời tốt hơn bằng tiếng Anh so với ngôn ngữ ít tài nguyên hơn. Chúng có thể xử lý giọng chuẩn tốt hơn giọng địa phương. Chúng có thể làm người học tin rằng mọi vấn đề đều có thể giải bằng lời khuyên nhanh, trong khi nhiều vấn đề cần đọc sâu, thử nghiệm, đối thoại và thời gian.

Một bài tập hữu ích là “audit nhỏ”. Học sinh hoặc sinh viên chọn một công cụ AI quen thuộc và kiểm tra nó trên một tập tình huống có chủ đích. Ví dụ: yêu cầu tạo hình “bác sĩ”, “kỹ sư”, “giáo viên mầm non”, “lãnh đạo cộng đồng” rồi phân tích giới, tuổi, sắc tộc, bối cảnh. Hoặc yêu cầu chatbot giải thích cùng một khái niệm bằng tiếng Việt chuẩn, tiếng Việt có yếu tố địa phương, tiếng Anh, và ngôn ngữ của cộng đồng thiểu số nếu công cụ hỗ trợ; so sánh độ chính xác, độ tôn trọng và mức chi tiết. Hoặc đưa cùng một bài viết có ý tưởng mạnh nhưng lỗi ngữ pháp và một bài viết trơn tru nhưng lập luận yếu vào công cụ phản hồi; xem công cụ đánh giá điều gì.

Điểm quan trọng là critical AI literacy không được biến thành thái độ hoài nghi rỗng. Nếu người học chỉ nghe “AI có thiên lệch, AI nguy hiểm, AI sai”, họ có thể hoặc sợ hãi, hoặc bỏ qua lời cảnh báo vì trải nghiệm hằng ngày cho thấy AI vẫn hữu ích. Cách dạy tốt hơn là cho người học thấy cả năng lực và giới hạn trong cùng một hoạt động. AI có thể giúp tìm ví dụ, nhưng ví dụ cần kiểm chứng. AI có thể giúp tạo phản biện, nhưng phản biện có thể thiếu bối cảnh. AI có thể giúp người học yếu diễn đạt, nhưng không nên xóa giọng riêng. AI có thể giúp dịch, nhưng bản dịch có thể làm mất sắc thái văn hóa.

Critical AI literacy cũng không nên chỉ đặt gánh nặng lên cá nhân. Nếu mọi rủi ro được giải bằng “người học phải cảnh giác” hoặc “giáo viên phải kiểm tra”, hệ thống và nhà cung cấp thoát trách nhiệm. Người học cần kỹ năng, nhưng nhà trường vẫn phải có chính sách bảo vệ dữ liệu, quy trình mua sắm, tiêu chí minh bạch, kênh khiếu nại, hướng dẫn khai báo và phương án thay thế. Giáo viên cần năng lực, nhưng không thể một mình kiểm định mô hình, đọc điều khoản pháp lý, xử lý an ninh dữ liệu và thiết kế toàn bộ chương trình AI literacy.

Vì vậy, critical AI literacy có hai mặt: năng lực cá nhân và thiết kế thể chế. Trong lớp, nó dạy người học đặt câu hỏi sắc. Ở cấp trường, nó buộc tổ chức không mua và triển khai công nghệ như thể công cụ tự nó trung tính.

Inclusive Pedagogy

Inclusive pedagogy trong môi trường AI bắt đầu từ một nguyên tắc đơn giản: công nghệ phải giảm rào cản cho người học yếu thế, không chỉ tăng tốc cho người đã có vốn học tập cao. Nếu AI chủ yếu giúp học sinh giỏi viết nhanh hơn, sinh viên có tiếng Anh tốt nghiên cứu nhanh hơn, phụ huynh có tiền mua tài khoản tốt hơn, giáo viên ở trường giàu có công cụ tốt hơn, thì AI đang làm điều ngược với hòa nhập.

AI có nhiều khả năng hỗ trợ hòa nhập thật. Speech-to-text giúp người học khó viết tay hoặc khó gõ có thể diễn đạt ý tưởng. Text-to-speech giúp người học khiếm thị, dyslexia hoặc mệt mỏi khi đọc dài tiếp cận văn bản. Phụ đề tự động giúp người học khiếm thính và cả người học đang ở môi trường ồn. Dịch máy và giải thích song ngữ giúp người học đa ngôn ngữ đi từ ngôn ngữ nhà sang ngôn ngữ học thuật. Công cụ tạo bản tóm tắt nhiều mức có thể giúp người học mới vào chủ đề tiếp cận văn bản khó trước khi đọc sâu. AI có thể chuyển một khái niệm thành sơ đồ, ví dụ cụ thể, câu hỏi luyện tập, hoặc hội thoại nhập vai. Với người học lo âu khi hỏi trước lớp, chatbot có thể là nơi thử câu hỏi ban đầu trước khi tham gia thảo luận.

Nhưng khả năng hỗ trợ không tự biến thành hòa nhập. Một công cụ đọc to nhưng không hỗ trợ tiếng Việt tốt có thể vô dụng với học sinh Việt Nam. Một chatbot nói giọng thân thiện nhưng đòi kết nối mạnh có thể loại người học vùng yếu hạ tầng. Một hệ thống adaptive learning có giao diện phức tạp có thể làm người học rối hơn. Một công cụ dịch có thể giúp người học nhập cư hiểu bài, nhưng nếu giáo viên dùng nó để khỏi xây quan hệ ngôn ngữ với gia đình, nó lại làm nghèo giao tiếp. Một công cụ phát hiện cảm xúc qua khuôn mặt có thể được quảng cáo là hỗ trợ wellbeing, nhưng có nguy cơ diễn giải sai người học neurodivergent, người học có biểu cảm văn hóa khác, hoặc người học không muốn bị quan sát liên tục.

UDL giúp chuyển câu hỏi từ “AI có tính năng gì?” sang “rào cản học tập nằm ở đâu?”. Nếu rào cản là nội dung chỉ có một dạng văn bản dài, AI có thể tạo nhiều cách biểu đạt: âm thanh, sơ đồ, ví dụ, từ vựng đơn giản hơn, bản song ngữ. Nếu rào cản là người học chỉ có một cách nộp bài, AI và công nghệ hỗ trợ có thể mở nhiều cách biểu đạt: nói, viết, trình bày, mô hình, video, sơ đồ, code, sản phẩm thực hành. Nếu rào cản là động lực và cảm giác thuộc về, AI không thể một mình giải quyết, nhưng có thể giúp giáo viên tạo lựa chọn phù hợp sở thích, kết nối bài học với bối cảnh người học, và giảm xấu hổ khi luyện tập ban đầu.

Điểm cốt lõi của UDL 3.0 là không xem người học như “trung bình cộng”. CAST nhấn mạnh việc thiết kế môi trường có nhiều lựa chọn để giảm rào cản và phát triển agency (CAST, 2024). Trong môi trường AI, điều này có nghĩa là không bắt mọi người học dùng cùng một chatbot, cùng một ngôn ngữ, cùng một định dạng, cùng một tốc độ. Có người học cần AI đọc văn bản. Có người học cần AI giúp lập kế hoạch. Có người học cần không gian không AI để tập trung. Có người học cần công cụ offline hoặc low-bandwidth. Có người học cần phiên bản không thu thập dữ liệu. Hòa nhập là thiết kế một hệ sinh thái có lựa chọn có ý nghĩa, không phải ép tất cả vào một “cá nhân hóa” do hệ thống quyết định.

Review của Pagliara và cộng sự cho thấy các ứng dụng AI trong inclusive education thường tập trung vào personalized learning và accessibility, nhưng nghiên cứu còn ít, phân tán và cần chú ý hơn đến đạo đức, bias, privacy và accessibility (Pagliara et al., 2024). Một systematic review năm 2025 của Melo-López và cộng sự cũng ghi nhận AI có thể tăng accessibility qua tài liệu thích ứng, mô tả hình ảnh cho người khiếm thị, transcript cho người khiếm thính, và giảm một phần tải hành chính cho giáo viên; nhưng các trở ngại gồm thiếu đào tạo AI, hạ tầng không đủ, riêng tư và tiếp cận công bằng (Melo-López et al., 2025). Hai kết quả này cùng chỉ về một điều: AI có tiềm năng hòa nhập, nhưng điều kiện triển khai quyết định phần lớn.

Một nguyên tắc thiết kế quan trọng là asset-based. Người học yếu thế không chỉ là người thiếu năng lực cần bù đắp. Họ có ngôn ngữ, kinh nghiệm, chiến lược sống, quan hệ cộng đồng và cách hiểu thế giới riêng. AI trong giáo dục hòa nhập không nên chỉ sửa “lỗi” của người học để họ giống chuẩn thống trị hơn. Nó nên giúp người học dùng thế mạnh của mình để tiếp cận mục tiêu học. Ví dụ, học sinh song ngữ có thể dùng AI để so sánh cách một khái niệm được diễn đạt trong hai ngôn ngữ, phát hiện sắc thái, rồi tạo sản phẩm giải thích cho cộng đồng của mình. Người học dyslexia có thể dùng text-to-speech và mind map để xử lý ý tưởng phức tạp mà không bị chặn bởi tốc độ đọc. Người học có kinh nghiệm lao động gia đình có thể dùng AI để chuyển kinh nghiệm thực tế thành ví dụ toán, kinh tế hoặc khoa học.

Inclusive pedagogy cũng yêu cầu giữ tương tác nhóm. Nếu cá nhân hóa bằng AI làm mỗi người học đi một đường riêng, lớp học có thể mất cơ hội học từ khác biệt. Người học mạnh không học cách giải thích cho bạn. Người học yếu không nhận được hỗ trợ đồng đẳng. Nhóm không học thương lượng, phân vai, lắng nghe và phản biện. AI nên hỗ trợ hợp tác: gợi vai trò, tóm tắt ý kiến khác nhau, nhắc nhóm nghe thành viên im lặng, tạo câu hỏi thảo luận theo nhiều mức, hoặc giúp nhóm chuyển mâu thuẫn thành tiêu chí. Nhưng mục tiêu vẫn là quan hệ học tập giữa người học với nhau.

Một thiết kế hòa nhập cần có phương án thay thế. Nếu bài tập yêu cầu dùng AI, nhà trường phải đảm bảo người học có quyền truy cập công bằng, dữ liệu an toàn, hướng dẫn rõ, và lựa chọn khác nếu vì lý do tôn giáo, riêng tư, khuyết tật, hạ tầng hoặc chính sách gia đình mà không thể dùng. Nếu công cụ có bản trả phí và bản miễn phí chênh lệch lớn, giáo viên không nên thiết kế nhiệm vụ khiến tài khoản trả phí trở thành lợi thế đánh giá. Nếu công cụ hoạt động kém bằng tiếng Việt, bài học không nên đánh giá thấp người học vì lỗi của hệ thống.

Nói ngắn gọn, inclusive pedagogy trong thời AI không hỏi “công cụ này thông minh đến đâu?”. Nó hỏi “công cụ này làm ai có thêm quyền tham gia, ai bị đẩy ra ngoài, và ta cần thiết kế gì để lợi ích không chỉ đến với nhóm đã mạnh?”.

Cultural and Cross-Linguistic Validity

AI trong giáo dục thường được phát triển, kiểm thử và truyền thông trong một số ngôn ngữ và bối cảnh chiếm ưu thế, đặc biệt là tiếng Anh và các hệ thống giáo dục có hạ tầng cao. Điều này tạo ra một vấn đề âm thầm: công cụ có thể trông mạnh trong demo quốc tế nhưng yếu khi đi vào lớp học địa phương. Cultural and cross-linguistic validity không phải chi tiết phụ. Nó quyết định công cụ có hiểu người học thật hay không.

Ngôn ngữ không chỉ là lớp vỏ của nội dung. Ngôn ngữ mang cách lập luận, cách xưng hô, sắc thái lịch sự, quan hệ tuổi tác, văn hóa lớp học, ví dụ quen thuộc, và chuẩn đánh giá. Một chatbot có thể dịch câu trả lời tiếng Anh sang tiếng Việt khá trôi chảy nhưng vẫn dùng ví dụ xa lạ, giọng văn không phù hợp lứa tuổi, hoặc thuật ngữ không khớp chương trình. Một công cụ phản hồi bài viết có thể đánh giá cao văn phong trực tiếp kiểu Anglo-American nhưng không hiểu cách học sinh Việt Nam dẫn dắt, dùng thành ngữ, hoặc kết hợp giọng cá nhân với văn nghị luận. Một hệ thống nhận diện giọng nói có thể xử lý tốt giọng chuẩn nhưng kém với vùng miền, người nói lắp, người học khiếm thính luyện phát âm, hoặc người nói pha nhiều ngôn ngữ.

Với tiếng Việt, các vấn đề cụ thể gồm dấu thanh, tách từ, từ đồng âm, đại từ xưng hô, vùng miền, code-switching, tiếng lóng, văn bản thiếu dấu, thuật ngữ chuyên ngành được mượn từ tiếng Anh, và khoảng cách giữa ngôn ngữ đời sống với ngôn ngữ học thuật. Một mô hình tạo phản hồi học thuật bằng tiếng Việt có thể dùng câu dài, từ Hán Việt nặng, hoặc giọng “mẫu” không phù hợp người học nhỏ tuổi. Một công cụ dịch có thể làm mất quan hệ xưng hô hoặc sắc thái tôn trọng. Một hệ thống chấm nói có thể nhầm khác biệt vùng miền với lỗi phát âm.

Văn hóa cũng ảnh hưởng đến dữ liệu và tiêu chí. Một bài toán có bối cảnh thẻ tín dụng, xe điện, bảo hiểm y tế tư nhân hoặc đời sống ký túc xá kiểu Mỹ có thể không gần với học sinh nông thôn Việt Nam. Một bài đọc về tranh luận xã hội có thể giả định quyền phát biểu cá nhân giống nhau ở mọi lớp học. Một công cụ gợi ý nghề nghiệp có thể dựa trên dữ liệu thị trường lao động không khớp địa phương. Một hệ thống cảnh báo sớm có thể diễn giải việc nghỉ học hoặc nộp bài muộn mà không hiểu mùa vụ, trách nhiệm gia đình, đi làm thêm, khoảng cách di chuyển, hoặc nghĩa vụ chăm sóc.

Cross-linguistic validity đặc biệt quan trọng với đánh giá. Nếu một thang đo AI literacy được xây bằng tiếng Anh, thử trên sinh viên đại học ở một nước có hạ tầng cao, rồi dịch sang tiếng Việt cho học sinh trung học, điểm số có thể phản ánh khả năng hiểu câu hỏi, kinh nghiệm dùng công cụ, vốn công nghệ gia đình hoặc sự quen thuộc với khái niệm phương Tây nhiều hơn là AI literacy thật. Lintner năm 2024 cảnh báo rõ rằng trong 16 thang AI literacy được review, không có thang nào được kiểm tra về cross-cultural validity và measurement error (Lintner, 2024). Đây là lời nhắc trực tiếp cho các hệ thống giáo dục: đừng vội biến AI literacy thành điểm chuẩn nếu công cụ đo chưa được kiểm tra trong ngôn ngữ, văn hóa và nhóm tuổi cụ thể.

Tương tự, rubrics, AI detectors, mô hình affect detection, writing analytics, adaptive tutors và dashboards đều cần kiểm tra địa phương. Một rubric viết do AI hỗ trợ có thể không hiểu yêu cầu bài thi quốc gia. Một AI detector có thể sai cao với người học viết tiếng Anh như ngôn ngữ thứ hai. Một mô hình phân tích cảm xúc có thể diễn giải im lặng là không tham gia, trong khi ở một lớp học, im lặng có thể là tôn trọng, lo lắng, suy nghĩ, hoặc chiến lược tránh nổi bật. Một dashboard so sánh người học theo thời gian online có thể phạt người học tải tài liệu về đọc offline.

Địa phương hóa không phải là dịch giao diện. Địa phương hóa gồm kiểm tra dữ liệu, ví dụ, thuật ngữ, chuẩn chương trình, quy định pháp lý, quyền riêng tư, hạ tầng, thiết bị, thói quen gia đình, văn hóa lớp học, và cách giáo viên thực sự dạy. Một sản phẩm “hỗ trợ tiếng Việt” nhưng không có nghiên cứu với học sinh Việt Nam, giáo viên Việt Nam và bài học Việt Nam thì mới chỉ hỗ trợ ngôn ngữ ở mức bề mặt.

Một quy trình tối thiểu trước khi triển khai rộng nên gồm năm bước. Thứ nhất, kiểm thử ngôn ngữ với nhiều vùng miền, độ tuổi, mức năng lực và bối cảnh thiết bị. Thứ hai, kiểm thử văn hóa với ví dụ, hình ảnh, vai xã hội, giới, dân tộc, vùng miền và bối cảnh gia đình. Thứ ba, kiểm thử sư phạm với nhiệm vụ thật, bài làm thật, giáo viên thật, không chỉ prompt demo. Thứ tư, kiểm thử công bằng: hệ thống có sai khác theo giới, ngôn ngữ, khuyết tật, thu nhập, vùng, trường công-tư, thiết bị không. Thứ năm, tạo cơ chế phản hồi và sửa sau triển khai, vì validity không phải nhãn một lần.

Trong nghiên cứu, cần nhiều hơn các nghiên cứu đa ngôn ngữ và đa bối cảnh. Nhiều bài về AI trong giáo dục vẫn dựa trên mẫu nhỏ, tự báo cáo, sinh viên đại học, và bối cảnh thuận lợi. Điều này không vô nghĩa, nhưng không đủ để kết luận cho hệ thống phổ thông lớn và đa dạng. Những nghiên cứu cần ưu tiên gồm: AI literacy bằng ngôn ngữ địa phương; hiệu quả GenAI với người học không dùng tiếng Anh; tác động AI lên học sinh khuyết tật trong lớp hòa nhập; phản hồi tự động trong các thể loại viết địa phương; và cách giáo viên điều chỉnh công cụ theo văn hóa lớp học.

Ở cấp chính sách, nguyên tắc là không nhập khẩu điểm cắt. Nếu một nền tảng nói học sinh “đạt AI literacy level 3”, nhà trường cần hỏi level ấy được xây từ đâu. Nếu một dashboard nói học sinh có “risk score 0.78”, cần hỏi score ấy có được hiệu chỉnh theo bối cảnh địa phương không. Nếu một công cụ chấm nói bài viết “thiếu critical thinking”, cần hỏi tiêu chí critical thinking trong công cụ có khớp mục tiêu môn học không. Không có câu hỏi này, AI có thể mang chuẩn ẩn của nơi khác vào lớp học và gọi đó là khách quan.

Wellbeing và quan hệ người-người

Trường học là một không gian xã hội trước khi là một hệ thống phân phối nội dung. Người học cần được thấy, được nghe, được thử sai, được thuộc về, được nhận phản hồi từ người có trách nhiệm, được va chạm với quan điểm khác, và được hỗ trợ khi khó khăn không chỉ là học thuật. AI có thể làm một số việc rất tốt, nhưng nó không thay thế đầy đủ quan hệ người-người. Một chatbot có thể trả lời lúc nửa đêm; nó không biết lịch sử gia đình của học sinh theo cách giáo viên chủ nhiệm biết. Một hệ thống coach có thể nhắc lập kế hoạch; nó không cảm nhận được sự thay đổi nhỏ trong nét mặt, im lặng, quan hệ bạn bè hoặc niềm tự hào sau một tiến bộ khó nhọc. Một dashboard có thể báo vắng mặt; nó không hiểu vì sao học sinh vắng.

AI có thể hỗ trợ wellbeing theo một số cách. Nó có thể giảm xấu hổ khi người học hỏi lại điều cơ bản. Nó có thể giúp người học lo âu luyện nói trước khi nói với người thật. Nó có thể hỗ trợ lập kế hoạch, chia nhỏ nhiệm vụ, nhắc nghỉ, tạo checklist, hoặc giúp người học diễn đạt cảm xúc trước khi gặp giáo viên. Nó có thể dịch thông tin giữa nhà trường và gia đình. Nó có thể giúp giáo viên phát hiện một số dấu hiệu cần quan tâm khi được dùng với dữ liệu phù hợp và quy trình bảo vệ quyền riêng tư.

Nhưng wellbeing là vùng rủi ro cao. Nếu AI được thiết kế như người bạn cảm xúc luôn có mặt, người học có thể hình thành phụ thuộc, chia sẻ dữ liệu nhạy cảm, hoặc nhận lời khuyên không phù hợp. Nếu AI được dùng để giám sát engagement, cảm xúc hoặc hành vi, người học có thể thấy mình bị theo dõi liên tục. Nếu hệ thống tự động gửi cảnh báo về “tâm trạng thấp” mà không có quy trình hỗ trợ người thật, nó có thể tạo báo động giả hoặc bỏ sót người cần giúp. Nếu nhà trường dùng AI để thay cố vấn học tập, người học gặp khó khăn có thể bị đẩy sang một hội thoại không chịu trách nhiệm.

Một nguyên tắc rõ ràng là AI không nên giả làm nhà trị liệu, giáo viên chủ nhiệm hay bạn thân. Nó có thể hỗ trợ tự phản tư, cung cấp tài nguyên, gợi ý câu hỏi để nói với người lớn, hoặc nhắc người học tìm hỗ trợ. Nhưng khi có dấu hiệu nguy cơ an toàn, khủng hoảng tâm lý, bạo lực, tự hại, lạm dụng, hoặc áp lực nghiêm trọng, hệ thống phải chuyển sang con người và quy trình chuyên môn. Ngay cả trong các tình huống nhẹ hơn, AI nên tạo cầu nối tới quan hệ người thật: “hãy mang bản kế hoạch này trao đổi với giáo viên”, “hãy hỏi một bạn cùng nhóm”, “hãy gửi câu hỏi này cho cố vấn”, thay vì giữ người học trong vòng chat.

Quan hệ người-người cũng quan trọng với học tập xã hội. Khi người học tranh luận với bạn, họ không chỉ xử lý nội dung. Họ học lắng nghe, sửa lời, chịu trách nhiệm với phát ngôn, nhận ra cảm xúc người khác, điều chỉnh quyền lực nhóm, và xây niềm tin. AI peer có thể mô phỏng phản biện, nhưng không có vị trí xã hội như bạn học. Nó không bị tổn thương nếu bị ngắt lời, không có lịch sử chung với lớp, không đem theo kinh nghiệm sống, không cần được tôn trọng theo nghĩa đạo đức giống con người. Nếu học sinh thay mọi phản biện đồng đẳng bằng AI, họ mất một phần quan trọng của giáo dục công dân.

Điều này không có nghĩa AI không nên tham gia học tập xã hội. Nó có thể giúp nhóm chuẩn bị tốt hơn: tạo câu hỏi trước thảo luận, tóm tắt điểm đồng thuận và bất đồng, gợi vai trò facilitator, evidence checker, skeptic, connector; nhắc nhóm nghe người ít nói; đề xuất câu hỏi debrief. Nhưng AI nên làm rõ hơn quan hệ giữa người học, không làm mờ nó. Sau một buổi dùng AI phản biện, lớp vẫn cần hỏi: bạn nào thay đổi ý kiến, vì sao; nhóm đã lắng nghe nhau ra sao; bằng chứng nào thuyết phục; điểm nào còn bất đồng; ai chưa được nghe đủ?

Wellbeing cũng liên quan đến agency. Một môi trường học có AI ở khắp nơi có thể khiến người học thấy mình luôn được tối ưu, nhắc nhở, đánh giá, dự đoán. Nếu mọi hành vi đều thành dữ liệu, người học có thể mất không gian thử, chơi, im lặng, lạc hướng và tự tìm lại. Học tập cần một mức ma sát lành mạnh. Không phải khó khăn nào cũng cần được AI xóa ngay. Có những khoảnh khắc người học cần vật lộn với ý tưởng, cần tự chọn chiến lược, cần chờ phản hồi từ người thật, cần trải nghiệm sự không chắc chắn.

Thiết kế tốt phải phân biệt hỗ trợ với kiểm soát. Hỗ trợ cho người học quyền chọn, giải thích, điều chỉnh và từ chối. Kiểm soát làm người học bị dẫn dắt mà không hiểu. Hỗ trợ mở ra đối thoại với giáo viên và bạn học. Kiểm soát đóng người học vào lộ trình hệ thống. Hỗ trợ nhìn wellbeing như quan hệ, ý nghĩa và agency. Kiểm soát nhìn wellbeing như chỉ số rủi ro cần giảm.

Một trường học lành mạnh trong thời AI cần bảo vệ những không gian không đo lường quá mức: thảo luận mở, đọc sâu, viết riêng tư, trò chuyện với giáo viên, hỗ trợ đồng đẳng, hoạt động nghệ thuật, chơi, dự án cộng đồng, và những khoảng im lặng để suy nghĩ. AI có thể đứng gần những không gian đó, nhưng không nên chiếm chúng.

Thực trạng triển khai

Thực trạng triển khai AI literacy hiện nay không đồng đều. Một số trường và đại học đã có hướng dẫn sử dụng GenAI, workshop cho giáo viên, chính sách khai báo AI trong bài tập, hoặc module AI literacy cho sinh viên năm nhất. Một số hệ thống giáo dục đang xây khung năng lực dựa trên các tài liệu như UNESCO 2024. Nhưng ở nhiều nơi, phản ứng vẫn là chắp vá: cấm chung, cho phép mơ hồ, hoặc để từng giáo viên tự xử lý. Người học vì thế nhận tín hiệu lẫn lộn. Môn này cấm hoàn toàn, môn khác cho dùng không khai báo, giáo viên này khuyến khích prompt, giáo viên khác coi mọi hỗ trợ AI là gian lận.

Sự chắp vá này gây bất công. Người học có người lớn hiểu AI ở nhà sẽ biết cách dùng mà không bị phát hiện hoặc biết cách dùng có lợi cho học tập. Người học không có hướng dẫn sẽ hoặc tránh hoàn toàn, hoặc dùng sai, hoặc vi phạm vì không hiểu ranh giới. Khi trường chỉ nói “đừng gian lận” mà không dạy workflow hợp lệ, AI literacy trở thành vốn ngầm.

Trong đào tạo giáo viên, thực trạng thường nghiêng về công cụ hơn sư phạm. Các buổi tập huấn phổ biến xoay quanh cách tạo kế hoạch bài dạy, câu hỏi quiz, rubric, email phụ huynh, hoặc hình ảnh minh họa. Những việc này hữu ích, nhưng chưa đủ. Giáo viên cần thảo luận sâu hơn: bài tập nào nên đổi khi học sinh có AI, đánh giá nào còn đo năng lực thật, khi nào cho phép AI hỗ trợ ngôn ngữ là công bằng, khi nào AI feedback làm học sinh phụ thuộc, dữ liệu học sinh có được bảo vệ không, và cách xử lý khi AI làm sai. Nếu đào tạo chỉ dừng ở năng suất, giáo viên có thể làm việc nhanh hơn nhưng không nhất thiết dạy tốt hơn.

Ở cấp tổ chức, nhiều trường triển khai AI nhanh hơn năng lực quản trị. Một công cụ được thử vì nhà cung cấp tặng tài khoản, vì giáo viên thấy tiện, vì sinh viên đã dùng, hoặc vì lãnh đạo muốn “bắt kịp”. Nhưng quy trình đánh giá tác động, bảo vệ dữ liệu, kiểm tra accessibility, kiểm thử ngôn ngữ, tham vấn giáo viên và người học thường đi sau. Điều này đặc biệt nguy hiểm với công cụ có dữ liệu trẻ em, đánh giá học tập, giám sát hành vi hoặc wellbeing.

Về hòa nhập, khoảng cách rất rõ. Người học có thiết bị riêng, kết nối ổn định và tiếng Anh tốt tiếp cận công cụ mạnh hơn. Người học dùng điện thoại cũ, dữ liệu di động hạn chế, không gian học đông người hoặc ngôn ngữ địa phương gặp nhiều rào cản hơn. Công cụ có thể được quảng cáo là miễn phí, nhưng giới hạn lượt dùng, tốc độ, chất lượng mô hình và tính năng nâng cao thường tạo phân tầng. Khi bài tập yêu cầu dùng AI mà không bảo đảm truy cập, trường đã đưa bất bình đẳng vào thiết kế đánh giá.

Về đo lường, nhiều nơi đang muốn biết học sinh “có AI literacy chưa”, nhưng công cụ đo còn non. Lintner cho thấy lĩnh vực thang đo AI literacy đang phát triển, nhưng thiếu kiểm tra cross-cultural validity, measurement error và performance-based assessment (Lintner, 2024). Điều này có nghĩa là nhà trường nên thận trọng. Có thể dùng khảo sát để hiểu nhu cầu và thái độ, nhưng không nên dùng điểm self-report để xếp hạng học sinh, giáo viên hoặc trường. Một học sinh tự tin nói “em biết dùng AI” có thể chỉ biết tạo bài nhanh. Một học sinh thận trọng nói “em chưa biết nhiều” có thể có phán đoán tốt hơn.

Về chính sách, UNESCO đã đưa ra khung cho học sinh và giáo viên, đồng thời nhấn mạnh tiếp cận human-centred, rights-based và inclusion-equity trong AI education (Miao et al., 2024; Miao & Cukurova, 2024; UNESCO, 2025a). Nhưng tài liệu quốc tế chỉ là điểm khởi đầu. Mỗi hệ thống giáo dục cần dịch thành chương trình, hoạt động, tài nguyên, đào tạo giáo viên, chuẩn đánh giá và quy trình mua sắm phù hợp địa phương. Nếu khung năng lực chỉ nằm trong văn bản, nó không chạm lớp học.

Một thực tế nữa là học sinh đã học AI literacy ngoài trường, nhưng không đều và không luôn đúng. Các em học qua TikTok, YouTube, bạn bè, diễn đàn, nhóm chat, hướng dẫn prompt, hoặc thử-sai. Điều này tạo năng lực thực hành nhanh nhưng thiếu nền tảng phê phán. Trường học không nên xem mình là nơi duy nhất dạy AI literacy. Vai trò của trường là làm rõ, hệ thống hóa, đặt tiêu chí, sửa hiểu lầm, bảo vệ người yếu thế, và kết nối kỹ năng cá nhân với trách nhiệm xã hội.

Phân tích phản biện

Rủi ro đầu tiên là AI literacy bị cá nhân hóa trách nhiệm. Khi một hệ thống gây hại, người ta có thể nói người dùng chưa đủ literacy. Khi học sinh bị lộ dữ liệu, lỗi thành “không biết bảo vệ riêng tư”. Khi giáo viên dùng công cụ sai, lỗi thành “chưa được đào tạo”. Khi AI thiên lệch, lỗi thành “người dùng không kiểm chứng”. Tất nhiên cá nhân cần năng lực, nhưng trách nhiệm không thể dồn hết xuống người học và giáo viên. Nhà cung cấp phải minh bạch hơn. Nhà trường phải quản trị tốt hơn. Cơ quan chính sách phải đặt chuẩn rõ hơn. AI literacy không thay thế AI governance.

Rủi ro thứ hai là critical AI literacy bị biến thành diễn ngôn xa lớp học. Nếu bài học chỉ nói về thuật toán, chủ nghĩa giám sát, quyền lực dữ liệu và đạo đức ở mức trừu tượng, người học có thể thấy xa rời bài tập hằng ngày. Critical AI literacy mạnh nhất khi gắn với tình huống cụ thể: công cụ chấm bài này đánh giá gì, chatbot này bỏ sót nguồn nào, bài viết này dùng AI đến đâu là hợp lệ, dashboard này có thể làm giáo viên hiểu sai học sinh nào. Chính việc đi từ trường hợp thật lên khái niệm làm phê phán có lực.

Rủi ro thứ ba là hòa nhập bị dùng như ngôn ngữ tiếp thị. Nhiều công cụ nói “personalized”, “accessible”, “inclusive”, nhưng không chứng minh được với nhóm người học yếu thế. Một sản phẩm có phụ đề tự động chưa chắc accessible nếu phụ đề sai với tiếng Việt, không có chỉnh sửa, giao diện không dùng được với screen reader, hoặc dữ liệu âm thanh bị lưu không rõ. Một chatbot có thể nói nhiều ngôn ngữ nhưng vẫn không hiểu văn hóa học thuật địa phương. Một hệ thống adaptive có thể “cá nhân hóa” bằng cách cho người học yếu làm bài dễ mãi. Hòa nhập phải được đo bằng tham gia, agency, cảm giác thuộc về và kết quả có ý nghĩa, không chỉ bằng số tính năng hỗ trợ.

Rủi ro thứ tư là competency framework trở thành kiểm soát giáo viên. Khung năng lực có ích khi giúp giáo viên phát triển. Nó có hại khi biến thành thang đánh giá hình thức hoặc yêu cầu tuân thủ công cụ. Nếu giáo viên bị buộc phải dùng AI để chứng minh “đổi mới”, họ mất quyền phán đoán. Nếu nhà trường dùng khung năng lực để xếp loại giáo viên mà không cấp thời gian, thiết bị, hỗ trợ và cộng đồng, đó không phải phát triển nghề nghiệp. Giáo viên cần được xem là đồng thiết kế AI literacy, không phải đối tượng cần cập nhật.

Rủi ro thứ năm là tính hợp lệ đa văn hóa bị xem là việc quá chậm. Trong áp lực triển khai nhanh, nhà trường có thể bỏ qua kiểm thử địa phương. Nhưng triển khai nhanh với công cụ sai có thể tạo tổn hại lâu dài: học sinh bị chấm sai, giáo viên mất niềm tin, phụ huynh phản đối, dữ liệu bị lộ, người học yếu thế bị đẩy ra ngoài. Validity tốn thời gian, nhưng không tốn bằng sửa hậu quả của quyết định vội.

Rủi ro thứ sáu là wellbeing bị dữ liệu hóa quá mức. Khi trường muốn chăm sóc người học tốt hơn, AI có thể được dùng để phát hiện rủi ro. Nhưng nếu mọi cảm xúc, tương tác và thói quen học thành chỉ số, người học có thể mất quyền riêng tư và không gian trưởng thành. Không phải mọi dấu hiệu buồn, im lặng, chậm nộp bài hoặc ít online đều là vấn đề cần can thiệp tự động. Một số cần quan sát tinh tế, đối thoại và bối cảnh. Hệ thống wellbeing phải có giới hạn rõ, consent, data minimization, con người chịu trách nhiệm và quy trình hỗ trợ thật.

Rủi ro cuối cùng là AI literacy bị tách khỏi bất bình đẳng vật chất. Không thể dạy “dùng AI có trách nhiệm” cho mọi người như nhau nếu một số học sinh không có thiết bị, không có kết nối, không có không gian yên tĩnh, không có người lớn hướng dẫn, hoặc phải làm việc sau giờ học. AI literacy phải đi cùng chính sách truy cập: thiết bị chung, tài khoản do trường cấp, tài liệu offline, thư viện, hỗ trợ sau giờ, công cụ low-bandwidth, và hoạt động không phụ thuộc tài khoản trả phí.

Phân tích phản biện không làm AI literacy yếu đi. Nó làm AI literacy thật hơn. Một năng lực chỉ nói về cơ hội mà không nói về quyền lực, hạ tầng, văn hóa và quan hệ con người thì không đủ cho giáo dục.

Nguyên tắc thiết kế

Nguyên tắc thứ nhất: dạy AI literacy như năng lực nền của thời đại, nhưng không biến nó thành môn kỹ thuật khô. Người học cần hiểu khái niệm AI, nhưng luôn trong nhiệm vụ thật: đọc, viết, tính toán, thiết kế, tranh luận, nghiên cứu, làm dự án, giải quyết vấn đề cộng đồng. Mỗi môn học nên có một số hoạt động AI literacy đặc thù của môn đó.

Nguyên tắc thứ hai: dạy bằng use-case và failure-case. Người học cần thấy AI giúp gì và sai như thế nào. Một bài học tốt có thể bắt đầu bằng một câu trả lời AI nghe hợp lý nhưng sai; một bản dịch mất sắc thái; một hình ảnh tạo định kiến; một phản hồi bài viết quá chú trọng ngữ pháp; một tóm tắt bỏ qua giới hạn nghiên cứu. Từ lỗi cụ thể, giáo viên dẫn tới khái niệm về dữ liệu, mô hình, thiên lệch, nguồn và trách nhiệm.

Nguyên tắc thứ ba: luôn gắn sử dụng AI với tiêu chí kiểm chứng. Không nói chung “hãy kiểm tra lại”. Hãy dạy kiểm tra gì trong từng môn: nguồn gốc, tác giả, phương pháp, logic, phản ví dụ, dữ liệu, ngữ cảnh, chuẩn nghề nghiệp, quyền riêng tư, hậu quả. AI literacy phải gắn với evaluative judgement của lĩnh vực.

Nguyên tắc thứ tư: phân biệt hỗ trợ và thay thế. Trong mỗi bài tập, giáo viên nên nói rõ phần nào AI được hỗ trợ, phần nào người học phải tự làm, phần nào cần khai báo, phần nào bị cấm. Quy định nên cụ thể theo mục tiêu học. Nếu mục tiêu là luyện ngôn ngữ, AI sửa câu có thể bị giới hạn. Nếu mục tiêu là phân tích khoa học, AI chỉnh diễn đạt có thể được phép nhưng nguồn và lập luận phải do người học kiểm soát.

Nguyên tắc thứ năm: thiết kế khai báo AI như phản tư, không chỉ như thủ tục kỷ luật. Thay vì yêu cầu “có/không dùng AI”, có thể yêu cầu người học ghi: tôi dùng công cụ nào, để làm phần gì, đầu ra nào được giữ, đầu ra nào bị bỏ, tôi kiểm chứng ra sao, tôi chịu trách nhiệm phần nào. Mẫu khai báo này biến AI use thành bằng chứng quá trình.

Nguyên tắc thứ sáu: phát triển năng lực giáo viên bằng cộng đồng thực hành. Tập huấn một lần không đủ. Trường cần thời gian để giáo viên thử hoạt động, xem bài làm, thảo luận rủi ro, chia sẻ prompt, sửa rubric, và xây quy định chung. Giáo viên cần quyền tham gia chọn công cụ và phản hồi chính sách.

Nguyên tắc thứ bảy: thiết kế hòa nhập từ đầu. Trước khi triển khai, hỏi: người học không có thiết bị thì sao, người học khuyết tật dùng được không, công cụ hỗ trợ tiếng Việt và ngôn ngữ địa phương ra sao, có bản low-bandwidth không, có phương án không AI không, dữ liệu có an toàn không, tài khoản trả phí có tạo lợi thế không. Hòa nhập không phải bước sửa sau cùng.

Nguyên tắc thứ tám: kiểm thử địa phương trước khi mở rộng. Mọi công cụ đánh giá, phản hồi, dashboard, AI detector, chatbot học tập hoặc hệ thống wellbeing cần được thử với dữ liệu, ngôn ngữ, lứa tuổi, môn học và bối cảnh thật. Không dùng điểm số hoặc nhãn tự động cho quyết định quan trọng nếu chưa có bằng chứng validity phù hợp.

Nguyên tắc thứ chín: giữ quan hệ người-người là trung tâm. AI nên tạo thêm cơ hội hỏi, giải thích, chuẩn bị, phản biện và nhận hỗ trợ; nhưng nó không nên thay thế thảo luận, mentoring, chăm sóc, hợp tác và sự hiện diện của giáo viên. Một thiết kế tốt thường hỏi: sau khi dùng AI, người học sẽ nói gì với bạn, hỏi gì giáo viên, sửa gì trong nhóm, hoặc đem hiểu biết nào vào cộng đồng?

Nguyên tắc thứ mười: đo điều quan trọng, không chỉ đo điều dễ. Số lượt dùng AI, số phút online, số prompt, số bài hoàn thành không đủ. Cần quan sát agency, khả năng kiểm chứng, chất lượng phản tư, khả năng giải thích lựa chọn, chuyển giao sang nhiệm vụ mới, mức tham gia của người học yếu thế, cảm giác thuộc về, và niềm tin giữa giáo viên-người học.

Nguyên tắc thứ mười một: tạo quyền từ chối và quyền khiếu nại. Người học cần biết khi nào họ có thể không dùng AI, khi nào có lựa chọn thay thế, dữ liệu nào được thu, ai xem, lưu bao lâu, và làm sao phản biện kết quả tự động. AI literacy không chỉ là dùng đúng công cụ, mà là hiểu quyền của mình trong hệ thống.

Nguyên tắc thứ mười hai: bắt đầu nhỏ nhưng thiết kế thật. Một trường không cần triển khai nền tảng lớn ngay. Có thể bắt đầu bằng ba hoạt động: dạy học sinh kiểm chứng một câu trả lời AI; dạy giáo viên thiết kế một bài tập có khai báo AI; kiểm thử accessibility và ngôn ngữ của một công cụ với nhóm học sinh đa dạng. Những bước nhỏ này có giá trị hơn một tuyên bố lớn nhưng thiếu quy trình.

Tổng kết chương

AI literacy là năng lực sống trong một môi trường học tập và xã hội có AI. Nó không chỉ là prompt literacy, không chỉ là kiến thức kỹ thuật, và không chỉ là cảnh báo đạo đức. Người học cần hiểu AI, dùng AI, đánh giá AI và tham gia có trách nhiệm. Giáo viên cần năng lực sư phạm, đạo đức, kỹ thuật và nghề nghiệp để thiết kế hoạt động trong đó AI hỗ trợ học tập mà không lấy mất agency.

Critical AI literacy giúp người học hỏi về dữ liệu, thiên kiến, mục tiêu tối ưu, quyền lực, lợi ích và rủi ro. Nó không nhằm phủ định AI, mà giúp dùng AI với phán đoán. Inclusive pedagogy nhắc rằng công nghệ phải giảm rào cản cho người học yếu thế, không chỉ tăng lợi thế cho người đã mạnh. Cultural and cross-linguistic validity nhắc rằng công cụ AI không thể được xem là “khách quan toàn cầu” nếu chưa được kiểm tra trong ngôn ngữ, văn hóa và bối cảnh địa phương. Wellbeing nhắc rằng trường học vẫn là không gian xã hội: AI có thể hỗ trợ, nhưng không được làm nghèo quan hệ giáo dục.

Nếu chương 17 hỏi “AI đang giữ vai nào trong tương tác học tập?”, chương 18 hỏi “con người cần năng lực gì để tương tác ấy công bằng, có hiểu biết và có trách nhiệm?”. Chương tiếp theo sẽ đi sâu vào người giữ vai trò then chốt trong việc biến năng lực ấy thành thực hành: giáo viên, agency nghề nghiệp và phát triển chuyên môn trong thời AI.

Tài liệu tham khảo

Allen, L. K., & Kendeou, P. (2024). ED-AI Lit: An Interdisciplinary Framework for AI Literacy in Education. Policy Insights from the Behavioral and Brain Sciences, 11(1), 3-10. https://doi.org/10.1177/23727322231220339

CAST. (2024). Universal Design for Learning Guidelines 3.0. https://udlguidelines.cast.org/

Gouseti, A., James, F., Fallin, L., & Burden, K. (2024). The ethics of using AI in K-12 education: A systematic literature review. Technology, Pedagogy and Education. https://doi.org/10.1080/1475939X.2024.2428601

Lintner, T. (2024). A systematic review of AI literacy scales. npj Science of Learning, 9, 50. https://doi.org/10.1038/s41539-024-00264-4

Melo-López, V.-A., Basantes-Andrade, A., Gudiño-Mejía, C.-B., & Hernández-Martínez, E. (2025). The Impact of Artificial Intelligence on Inclusive Education: A Systematic Review. Education Sciences, 15(5), 539. https://doi.org/10.3390/educsci15050539

Miao, F., & Cukurova, M. (2024). AI competency framework for teachers. UNESCO. https://www.unesco.org/en/articles/ai-competency-framework-teachers

Miao, F., Shiohira, K., & Lao, N. (2024). AI competency framework for students. UNESCO. https://www.unesco.org/en/articles/ai-competency-framework-students

Pagliara, S. M., Bonavolontà, G., Pia, M., Falchi, S., Zurru, A. L., Fenu, G., & Mura, A. (2024). The Integration of Artificial Intelligence in Inclusive Education: A Scoping Review. Information, 15(12), 774. https://doi.org/10.3390/info15120774

UNESCO. (2025a). AI and education: Protecting the rights of learners. https://www.unesco.org/en/articles/ai-and-education-protecting-rights-learners

UNESCO. (2026). AI and technologies in education. https://www.unesco.org/en/digital-education

Vygotsky, L. S. (1978). Mind in society: The development of higher psychological processes. Harvard University Press.

Wenger, E. (1998). Communities of practice: Learning, meaning, and identity. Cambridge University Press.

Chương 19: Giáo viên trong hệ sinh thái AI

Bối cảnh / Vấn đề

Mọi cuộc bàn luận nghiêm túc về AI trong giáo dục cuối cùng đều quay lại giáo viên. Không phải vì giáo viên là lực cản phải “thuyết phục”, cũng không phải vì giáo viên là người dùng cuối cần học thêm vài mẹo công cụ. Lý do sâu hơn là: giáo dục không vận hành bằng công nghệ đơn lẻ, mà bằng phán đoán nghề nghiệp trong bối cảnh sống. Một hệ thống AI có thể tạo bài tập, gợi ý phản hồi, phân tích lỗi, dự báo nguy cơ, tóm tắt dữ liệu lớp, soạn email phụ huynh hoặc đề xuất kế hoạch bài học. Nhưng việc quyết định điều gì đáng học, học sinh nào đang cần gì, phản hồi nào nên đưa lúc này, dữ liệu nào đáng tin, ngoại lệ nào cần chú ý, và quan hệ lớp học đang thay đổi ra sao vẫn là công việc của người dạy.

Khi AI đi vào trường học, giáo viên thường bị đặt vào hai hình ảnh đối lập. Một bên xem họ là người được “giải phóng” khỏi việc lặp lại: AI viết giáo án, chấm bài, cá nhân hóa tài liệu, quản trị lớp và giúp giáo viên có thêm thời gian tương tác với học sinh. Bên kia lo rằng giáo viên sẽ bị thay thế, bị giám sát, bị hạ vai trò thành người vận hành nền tảng, hoặc bị buộc theo dashboard thay vì theo hiểu biết sư phạm. Cả hai hình ảnh đều có phần đúng, nhưng đều quá đơn giản. AI có thể giảm một số việc và tạo thêm việc khác. Nó có thể mở rộng tầm nhìn của giáo viên hoặc làm họ lệ thuộc vào đề xuất máy. Nó có thể giúp giáo viên thiết kế sâu hơn hoặc khiến thiết kế bài học trở thành lắp ráp nội dung. Nó có thể tăng agency của giáo viên hoặc làm agency ấy bị gói trong giao diện.

Chương 18 đã bàn về AI literacy của người học và năng lực AI của giáo viên. Chương này đi sâu hơn vào vị trí nghề nghiệp của giáo viên trong hệ sinh thái AI. Câu hỏi không còn là “giáo viên có biết dùng AI không?”, mà là “AI làm thay đổi quyền phán đoán, trách nhiệm, kỹ năng, khối lượng việc và quan hệ nghề nghiệp của giáo viên như thế nào?”. Đây là câu hỏi triển khai, nhưng cũng là câu hỏi đạo đức. Nếu giáo viên chỉ được yêu cầu dùng công cụ do tổ chức mua, theo chính sách do người khác viết, với dữ liệu do nền tảng định nghĩa, trong thời gian không được cấp thêm, ta không thể gọi đó là đổi mới sư phạm. Đó là chuyển gánh nặng.

UNESCO năm 2024 đặt khung năng lực AI cho giáo viên trên các nguyên tắc bảo vệ quyền của giáo viên, tăng cường human agency và thúc đẩy tính bền vững. Khung này nêu 15 năng lực qua năm chiều: human-centred mindset, ethics of AI, AI foundations and applications, AI pedagogy, và AI for professional learning; đi qua ba mức Acquire, Deepen, Create (Miao & Cukurova, 2024). Điểm đáng chú ý là UNESCO không xem giáo viên như người tiêu thụ công cụ, mà như người cần năng lực để đánh giá, tích hợp, điều chỉnh và tham gia định hình AI trong giáo dục.

Tuy vậy, khoảng cách giữa khung năng lực và lớp học thật còn lớn. Tan, Cheng và Ling systematic review về AI trong dạy học và phát triển nghề nghiệp giáo viên, công bố năm 2025, tổng hợp 95 nghiên cứu từ 2015 đến 2024. Họ cho thấy nghiên cứu nghiêng nhiều về ứng dụng AI trong dạy học hơn là phát triển nghề nghiệp giáo viên: 65% nghiên cứu tập trung vào ứng dụng AI trong dạy học, chỉ 35% đi vào AI hỗ trợ professional development (Tan et al., 2025). Nói cách khác, lĩnh vực này đã nói nhiều về AI giúp học sinh học như thế nào, nhưng vẫn nói chưa đủ về việc giáo viên học, thay đổi, kiểm soát và làm chủ AI ra sao.

Thực tế sử dụng cũng cho thấy lời hứa giảm tải chưa tự động thành kết quả. Khảo sát Science Teaching Survey 2024 của Royal Society of Chemistry tại Anh và Ireland ghi nhận 44% giáo viên khoa học đã từng dùng AI trong vai trò giảng dạy, thường cho email, báo cáo, thư gửi phụ huynh, câu hỏi quiz, worksheet và kế hoạch bài học. Nhưng chỉ 3% nói AI đã giảm tải rất nhiều; các rào cản gồm thời gian học cách dùng công cụ và thời gian kiểm tra, sửa nội dung không chính xác (Royal Society of Chemistry, 2024). Đây là một tín hiệu quan trọng: một công cụ có thể làm một tác vụ nhanh hơn nhưng vẫn không giảm workload tổng thể nếu giáo viên phải kiểm tra thêm, sửa thêm, nhập dữ liệu thêm, giải thích chính sách thêm, hoặc xử lý lỗi thêm.

Vì vậy, chương này đặt giáo viên ở trung tâm của hệ sinh thái AI theo năm trục: teacher agency, deskilling và reskilling, professional development, co-design, và workload thật. Năm trục này liên kết chặt với nhau. Agency không tồn tại nếu giáo viên không có năng lực. Năng lực không phát triển nếu professional development chỉ là workshop mẹo công cụ. Professional development không bền nếu giáo viên không tham gia co-design. Co-design không có nghĩa nếu workload thực tế tăng. Và workload không thể hiểu đúng nếu chỉ đo số phút tiết kiệm trong một tác vụ nhỏ.

Một hệ sinh thái AI trưởng thành không hỏi: “công cụ này thay được giáo viên làm gì?”. Nó hỏi: “công cụ này giúp giáo viên thấy rõ hơn, quyết định tốt hơn, can thiệp đúng hơn, hợp tác sâu hơn, và bảo vệ người học tốt hơn ở đâu?”. Nếu câu trả lời không rõ, công cụ nên được xem là giả thuyết cần thử nghiệm, không phải giải pháp sẵn có.

Nền tảng lý thuyết

Teacher agency thường bị hiểu đơn giản là “giáo viên có quyền chọn”. Nhưng trong nghiên cứu giáo dục, agency không chỉ là đặc điểm cá nhân hay thái độ chủ động. Priestley, Biesta và Robinson đề xuất cách nhìn ecological: agency là điều giáo viên đạt được trong tương tác giữa năng lực cá nhân, lịch sử nghề nghiệp, mục tiêu tương lai và điều kiện hiện tại của môi trường (Priestley et al., 2015). Một giáo viên có chuyên môn cao vẫn có thể ít agency nếu chương trình quá cứng, thời khóa biểu quá nặng, dữ liệu bị khóa trong nền tảng, chính sách cấm đoán mơ hồ, hoặc văn hóa trường không cho thử nghiệm. Ngược lại, một giáo viên đang học công nghệ mới có thể phát triển agency nếu được hỗ trợ, có cộng đồng, có thời gian thử, có quyền điều chỉnh và có kênh phản hồi.

Trong thời AI, cách nhìn ecological càng cần thiết. Agency của giáo viên không nằm trong việc họ có tài khoản chatbot hay không. Nó nằm ở việc họ có quyền hiểu hệ thống, có dữ liệu đủ nghĩa, có quyền thay đổi gợi ý, có thể bỏ qua đề xuất máy, có thể giải thích quyết định với học sinh và phụ huynh, có thể phản biện vendor, có thể tham gia chính sách trường, và có thời gian biến công cụ thành hoạt động sư phạm. Nếu AI chỉ đưa ra khuyến nghị còn giáo viên luôn phải chịu trách nhiệm, nhưng không được quyền nhìn thấy bằng chứng hoặc điều chỉnh hệ thống, đó là trách nhiệm không đi kèm quyền lực.

Nền tảng thứ hai là tri thức nghề nghiệp của giáo viên. Shulman gọi pedagogical content knowledge (PCK) là loại tri thức đặc thù của giáo viên: không chỉ biết nội dung, cũng không chỉ biết phương pháp, mà biết cách làm một nội dung trở nên học được đối với người học cụ thể (Shulman, 1986). Mishra và Koehler sau đó mở rộng thành TPACK: tri thức công nghệ, sư phạm và nội dung tương tác với nhau trong thiết kế dạy học (Mishra & Koehler, 2006). AI không làm PCK và TPACK hết giá trị. Nó làm chúng phức tạp hơn. Giáo viên không chỉ hỏi “dùng công cụ nào”, mà phải hỏi “AI thay đổi cách biểu diễn nội dung này ra sao, misconception nào có thể được phát hiện, feedback nào nên tự động, phần nào cần người thật, và công nghệ này có phù hợp văn hóa lớp học không?”.

Một số nghiên cứu gần đây đề xuất mở rộng TPACK cho thời AI. Mah và cộng sự, trong nghiên cứu năm 2026 về 532 giáo viên K-12 ở Đức và Đan Mạch, tổng hợp các hướng AI-TPACK và nhấn mạnh giáo viên cần hiểu AI như công cụ dạy, nội dung học và công cụ học; ngay cả giáo viên không định dùng AI trong lớp vẫn cần AI literacy vì học sinh và xã hội đã dùng AI (Mah et al., 2026). Đây là điểm then chốt: năng lực AI của giáo viên không phải phụ kiện cho giáo viên “thích công nghệ”. Nó là một phần của năng lực nghề nghiệp trong bối cảnh mới.

Nền tảng thứ ba là human-AI collaboration. Trong giáo dục, nói “human-in-the-loop” không đủ nếu con người chỉ được phê duyệt ở cuối quy trình. Giáo viên cần ở trong vòng thiết kế mục tiêu, chọn dữ liệu, cấu hình tiêu chí, diễn giải đầu ra, can thiệp khi hệ thống sai, và đánh giá tác động sau triển khai. Nếu AI chỉ tạo ra đề xuất, giáo viên cần biết mức chắc chắn, nguồn dữ liệu, giả định, giới hạn và nhóm người học mà hệ thống dễ sai. Nếu AI chấm bài, giáo viên cần xem bằng chứng theo rubric, trường hợp biên và quyền override. Nếu AI gợi ý học sinh có nguy cơ, giáo viên cần biết mô hình dựa trên dấu hiệu nào và can thiệp nào có sẵn. Không có khả năng diễn giải và phản hồi, human-in-the-loop trở thành nhãn quản trị.

Nền tảng thứ tư là professional learning. Nghiên cứu về phát triển nghề nghiệp giáo viên trước thời AI đã chỉ ra rằng đào tạo hiệu quả thường có nội dung chuyên môn rõ, học chủ động, tính liên kết với chương trình, thời lượng đủ, cộng tác, thực hành, phản hồi và coaching (Desimone, 2009; Darling-Hammond et al., 2017). AI không làm những nguyên tắc này mất đi. Nó làm nhu cầu ấy cấp bách hơn. Một workshop giới thiệu công cụ có thể tạo tò mò, nhưng không đủ để thay đổi cách giáo viên thiết kế bài học, đánh giá, quản trị dữ liệu, xử lý gian lận, hỗ trợ người học yếu thế và giữ quan hệ lớp học.

Nghiên cứu gần đây củng cố điểm này. Brandão, Pedro và Zagalo integrative literature review năm 2024 về professional development cho tương lai có GenAI nhấn mạnh giáo viên cần được chuẩn bị về năng lực kỹ thuật, đạo đức, sư phạm và chính sách, không chỉ thao tác công cụ (Brandão et al., 2024). Tan và cộng sự năm 2025 chỉ ra khoảng trống nghiên cứu về AI cho professional development của giáo viên và kêu gọi chú ý hơn tới thách thức công nghệ, đạo đức và tích hợp có trách nhiệm (Tan et al., 2025). Mah và cộng sự năm 2026 thấy cơ hội PD liên quan đến AI trong K-12 còn được sử dụng hạn chế, nhưng tần suất tham gia và mức hài lòng với PD có tương quan tích cực với các chiều chất lượng dạy học tự báo cáo như cognitive activation, classroom management, individualization và supportive climate (Mah et al., 2026). Dù đây không chứng minh quan hệ nhân quả, nó cho thấy PD không phải chi phí phụ. Nó là điều kiện để AI đi vào dạy học có chất lượng.

Nền tảng thứ năm là co-design và human-centred AI. Alfredo và cộng sự systematic review năm 2024 về human-centred learning analytics và AI trong giáo dục phân tích 108 bài. Họ ghi nhận nghiên cứu đã quan tâm hơn đến human control, nhưng end-user involvement trong thiết kế thực tế vẫn còn hạn chế; việc loại giáo viên và học sinh khỏi thiết kế có thể dẫn đến thiếu tin cậy và công cụ không khớp nhu cầu (Alfredo et al., 2024). Topali và cộng sự review các giải pháp human-centred learning analytics và AI cũng chỉ ra adoption trong bối cảnh thật còn hạn chế vì bỏ qua nhu cầu stakeholder, thiếu contextualisation sư phạm và mức tin cậy thấp; nhiều nghiên cứu không báo cáo đánh giá đầy đủ sau thiết kế (Topali et al., 2024). Đây là nền tảng cho một nguyên tắc rất thực dụng: công nghệ giáo dục không thể chỉ được thiết kế cho giáo viên. Nó phải được thiết kế với giáo viên.

Nền tảng cuối cùng là workload như một hệ thống, không phải từng tác vụ. Workload của giáo viên gồm dạy trực tiếp, chuẩn bị bài, chấm và phản hồi, quản lý lớp, liên hệ phụ huynh, họp, báo cáo, nhập dữ liệu, hỗ trợ học sinh, học chuyên môn, xử lý công nghệ, và lao động cảm xúc. AI có thể giảm thời gian tạo worksheet nhưng tăng thời gian kiểm chứng. Nó có thể giảm thời gian viết nhận xét nhưng tăng số thông báo cần quản lý. Nó có thể tóm tắt dashboard nhưng tạo áp lực can thiệp cho nhiều học sinh hơn mà không có thêm nhân lực. Vì vậy, đánh giá workload phải đo tổng thể quy trình, không chỉ demo một tác vụ.

Từ các nền tảng này, có thể đặt ra tiêu chuẩn cho chương: AI trong tay giáo viên chỉ có ý nghĩa nếu nó tăng năng lực phán đoán, không làm mòn chuyên môn; tăng quyền can thiệp, không chỉ tăng trách nhiệm; giảm tải tổng thể, không chỉ chuyển tải sang dạng khó thấy hơn; và mở rộng cộng đồng nghề nghiệp, không cô lập giáo viên trong tương tác với nền tảng.

Teacher Agency

Teacher agency trong hệ sinh thái AI có thể được hiểu qua bốn quyền nghề nghiệp: quyền thấy, quyền quyết định, quyền điều chỉnh, và quyền phản biện.

Quyền thấy là quyền hiểu tình huống và dữ liệu. Nếu một hệ thống AI nói “học sinh A có nguy cơ tụt lại”, giáo viên cần thấy vì sao: vắng mặt, bài nộp muộn, lỗi khái niệm, giảm tương tác, điểm quiz, hay so sánh với nhóm nào. Nếu AI gợi ý bài luyện tiếp theo, giáo viên cần biết hệ thống dựa trên mastery model nào. Nếu chatbot phản hồi bài viết, giáo viên cần biết nó dùng rubric nào và có giới hạn gì. Không có quyền thấy, giáo viên chỉ nhận nhãn. Nhãn có vẻ tiện, nhưng làm nghèo phán đoán.

Quyền quyết định là quyền chọn mục tiêu, mức dùng và thời điểm dùng AI. Giáo viên phải có quyền nói: bài này không dùng AI vì mục tiêu là suy nghĩ độc lập; bài kia cho dùng AI để phản biện; hoạt động nhóm này dùng AI làm thư ký; tuần này không dùng dashboard vì cần quan sát lớp trực tiếp; dữ liệu này không đủ để kết luận; học sinh này cần gặp người thật. Nếu công cụ được triển khai theo kiểu bắt buộc, giáo viên bị biến thành người thực thi quy trình. Khi đó AI không mở rộng agency, mà thay đổi agency thành compliance.

Quyền điều chỉnh là quyền sửa, cấu hình, bỏ qua hoặc bổ sung đề xuất AI. Một lesson plan do AI tạo có thể là bản nháp, nhưng giáo viên phải được quyền thay ví dụ, đổi trình tự, bỏ hoạt động không phù hợp, thêm câu hỏi cho misconception của lớp, và điều chỉnh cho học sinh khuyết tật hoặc đa ngôn ngữ. Một dashboard có thể gợi nhóm cần hỗ trợ, nhưng giáo viên phải được quyền gom nhóm khác dựa trên quan hệ xã hội, động lực, lịch sử học tập và quan sát tại lớp. Một công cụ feedback có thể gợi câu chữ, nhưng giáo viên phải được quyền đổi giọng, mức nghiêm khắc và trọng tâm phản hồi.

Quyền phản biện là quyền đặt câu hỏi với hệ thống và tổ chức. Giáo viên cần kênh nói rằng công cụ đang sai với nhóm học sinh cụ thể, rubric không phù hợp, dữ liệu tạo thêm việc, cảnh báo quá nhiều, tính năng gây rủi ro riêng tư, hoặc chính sách khai báo AI không khả thi. Nếu phản hồi của giáo viên không đi vào chu trình cải tiến, co-design chỉ là nghi thức.

Roe và Perkins critical scoping review năm 2024 về GenAI và agency trong giáo dục cho thấy văn liệu còn ít, nhưng nổi lên ba chủ đề: control in digital spaces, variable engagement and access, và changing notions of agency. Họ cảnh báo rằng GenAI có thể tăng agency qua cá nhân hóa và hỗ trợ, nhưng cũng có thể làm sâu thêm bất bình đẳng và giảm autonomy trong một số bối cảnh (Roe & Perkins, 2024). Dù review này xem cả learner và teacher agency, bài học áp dụng trực tiếp cho giáo viên: agency không phải tự tăng vì có thêm công cụ. Nó tăng khi quyền kiểm soát, quyền truy cập và khả năng tham gia được thiết kế có chủ ý.

Frøsig và Romero năm 2024, trong khung hybrid intelligence cho learning design, lập luận rằng GenAI có thể hỗ trợ teacher agency qua ideation và co-creation, nhưng cũng có thể làm yếu agency khi giáo viên bị hạn chế khả năng hành động, tác động, ra quyết định, lựa chọn và giữ lập trường (Frøsig & Romero, 2024). Đây là một cách nói sắc: giáo viên không chỉ cần “được dùng AI”. Họ cần có quyền giữ lập trường nghề nghiệp trước AI.

Một ví dụ đơn giản là lesson planning. Nếu AI tạo kế hoạch bài học dựa trên chuẩn chương trình, thời lượng và mức lớp, giáo viên có thể tiết kiệm thời gian ban đầu. Nhưng agency phụ thuộc vào thiết kế workflow. Workflow tốt: giáo viên nhập mục tiêu, mô tả lớp, misconception đã thấy, ràng buộc thiết bị, nhu cầu hòa nhập; AI tạo vài phương án; giáo viên chọn, chỉnh, yêu cầu giải thích; AI gợi câu hỏi kiểm tra hiểu; giáo viên thử và ghi nhận tác động; nhóm chuyên môn thảo luận. Workflow xấu: hệ thống tạo giáo án chuẩn, nhà trường yêu cầu dùng, giáo viên chỉ sửa bề mặt, và dashboard sau đó đo “mức hoàn thành” theo checklist. Cùng là AI lesson planning, nhưng một bên mở rộng thiết kế, bên kia chuẩn hóa nghề dạy.

Ví dụ khác là feedback. AI có thể phân loại lỗi bài viết, gợi phản hồi theo rubric, hoặc nhóm bài có lỗi giống nhau để giáo viên phản hồi theo cụm. Đây là khả năng tốt nếu giáo viên dùng nó để nhìn lớp rõ hơn và tiết kiệm thời gian phản hồi lặp lại. Nhưng nếu AI tự động gửi feedback hàng loạt với giọng chung, người học có thể nhận phản hồi nhanh nhưng không cảm thấy được hiểu; giáo viên có thể mất cơ hội đọc sâu bài làm và thấy sự tiến bộ, bối cảnh hoặc tín hiệu cảm xúc. Feedback không chỉ là thông tin sửa lỗi. Nó là quan hệ sư phạm.

Teacher agency cũng liên quan đến assessment integrity. Trong kỷ nguyên GenAI, giáo viên phải thiết kế điều kiện đánh giá mới: bài nào không AI, bài nào AI-allowed, bài nào cần khai báo, bài nào bảo vệ miệng, bài nào đánh giá quá trình. Nếu tổ chức chỉ đưa ra lệnh cấm hoặc công cụ phát hiện AI, giáo viên bị kéo vào vai cảnh sát. Nếu tổ chức trao quyền thiết kế lại đánh giá, giáo viên trở lại vai trò sư phạm: tạo bằng chứng tốt hơn về học tập.

Yang và Appleget nghiên cứu năm 2024 với pre-service teachers cho thấy nhiều người học sư phạm thấy GenAI hữu ích trong hoạt động phương pháp đọc, nhưng cũng lo rằng GenAI có thể giới hạn sáng tạo và teacher agency (Yang & Appleget, 2024). Lo ngại này đáng chú ý vì nó xuất hiện ngay ở nhóm giáo viên tương lai, những người thường được giả định sẽ thoải mái hơn với công nghệ. Họ không chỉ hỏi công cụ có dùng được không; họ hỏi công cụ có làm họ bớt là người thiết kế không.

Teacher agency không có nghĩa giáo viên luôn đúng hoặc không cần dữ liệu. Agency cũng không có nghĩa mỗi giáo viên tự do làm mọi thứ theo ý mình. Trong hệ thống giáo dục, cần chuẩn chương trình, công bằng, trách nhiệm giải trình và chính sách chung. Nhưng chuẩn tốt phải để lại không gian phán đoán. AI tốt phải làm không gian ấy thông minh hơn, không làm nó hẹp lại. Giáo viên cần dữ liệu để soi lại trực giác, nhưng cũng cần quyền chất vấn dữ liệu. Họ cần công cụ để tạo phương án, nhưng cũng cần quyền bỏ phương án. Họ cần hỗ trợ workload, nhưng không nên bị biến thành người kiểm duyệt sản phẩm máy.

Một dấu hiệu thực tế để đánh giá agency là hỏi giáo viên sau khi dùng AI: “Anh/chị có hiểu lớp mình hơn không? Có quyết định tốt hơn không? Có thêm lựa chọn sư phạm không? Có kiểm soát được rủi ro không? Có thể giải thích vì sao dùng hoặc không dùng công cụ không? Có kênh sửa hệ thống không?”. Nếu câu trả lời chủ yếu là “tôi phải làm theo vì trường mua rồi”, agency đang giảm.

Deskilling và Reskilling

Tự động hóa luôn đi kèm hai khả năng: giảm việc lặp lại và làm mòn kỹ năng. Trong giáo dục, hai khả năng này cùng tồn tại. AI có thể giúp giáo viên thoát khỏi những thao tác ít giá trị: viết mười phiên bản câu hỏi giống nhau, chuyển văn bản thành nhiều mức đọc, soạn email nhắc lịch, tạo bản nháp rubric, tóm tắt phản hồi khảo sát, nhóm lỗi bài làm. Nhưng AI cũng có thể làm giáo viên ít luyện một số kỹ năng cốt lõi: thiết kế câu hỏi tốt, phân tích bài làm, viết phản hồi có giọng, chọn ví dụ phù hợp, đọc dữ liệu lớp, xây nhiệm vụ theo mục tiêu học, và dự đoán misconception.

Deskilling không xảy ra vì công cụ làm một việc. Nó xảy ra khi giáo viên không còn tham gia vào tiêu chí, lý do và phản tư của việc đó. Nếu AI tạo câu hỏi trắc nghiệm và giáo viên chỉ dùng ngay, kỹ năng thiết kế câu hỏi yếu dần. Nếu AI viết phản hồi và giáo viên chỉ bấm gửi, kỹ năng nhận diện lỗi trọng tâm yếu dần. Nếu AI gom nhóm học sinh và giáo viên chỉ theo nhóm ấy, kỹ năng quan sát quan hệ lớp yếu dần. Nếu AI tạo lesson plan và giáo viên không còn tự hỏi vì sao hoạt động này trước hoạt động kia, PCK bị mòn.

Nhưng tự động hóa không nhất thiết dẫn đến deskilling. Nó có thể dẫn đến reskilling nếu phần được giải phóng được dùng cho công việc cấp cao hơn. Ví dụ, AI có thể tạo mười câu hỏi đầu tiên, còn giáo viên dùng thời gian để kiểm tra cognitive demand, chỉnh distractor theo misconception thật, và thêm câu hỏi yêu cầu giải thích. AI có thể tóm tắt bài làm theo cụm lỗi, còn giáo viên dùng thời gian để thiết kế mini-lesson cho từng cụm. AI có thể soạn bản nháp phản hồi, còn giáo viên dùng thời gian để viết một câu cá nhân hóa có tác động. AI có thể tạo nhiều mức tài liệu, còn giáo viên dùng thời gian để xem mức nào giữ được mục tiêu học và mức nào làm đơn giản hóa quá mức.

Reskilling trong thời AI gồm ít nhất sáu nhóm năng lực.

Nhóm thứ nhất là learning design. Giáo viên cần thiết kế nhiệm vụ mà AI là một phần của quá trình học, không phá mục tiêu. Điều này gồm biết khi nào cho AI brainstorm, khi nào yêu cầu người học tự làm trước, khi nào dùng AI phản biện, khi nào dùng AI làm tutee, khi nào cấm AI để đo năng lực độc lập, và khi nào đánh giá năng lực dùng AI có trách nhiệm. Learning design cũng gồm khả năng thiết kế bằng chứng quá trình: bản nháp, prompt log, phản tư, bảo vệ miệng, peer review, sản phẩm trung gian.

Nhóm thứ hai là data interpretation. AI và learning analytics đưa nhiều tín hiệu về lớp học, nhưng tín hiệu cần diễn giải. Giáo viên cần biết dữ liệu nào là proxy, dữ liệu nào thiếu, dashboard nào dễ gây hiểu nhầm, cảnh báo nào cần kiểm tra bằng quan sát, và khi nào mô hình có thể sai với một nhóm học sinh. Data interpretation không biến giáo viên thành data scientist. Nó giúp giáo viên không bị dashboard dẫn đi.

Nhóm thứ ba là AI audit ở mức lớp học. Giáo viên cần biết thử công cụ với bài làm thật, ngôn ngữ thật, nhóm học sinh thật; xem nó sai ở đâu; kiểm tra bias; thử prompt khác; so sánh với rubric; và ghi lại trường hợp cần human review. Đây là kỹ năng thực hành. Một tổ chuyên môn có thể cùng thử: công cụ feedback này phản hồi thế nào với bài viết có ý mạnh nhưng lỗi chính tả, với bài trơn nhưng rỗng, với bài của học sinh song ngữ, với bài dùng ví dụ địa phương. Kết quả audit giúp quyết định dùng, sửa hoặc bỏ.

Nhóm thứ tư là facilitation. Khi AI làm nhiều nội dung và feedback cá nhân, giá trị của giờ học trực tiếp càng nằm ở thảo luận, tranh luận, thực hành, debrief, sensemaking và quan hệ. Giáo viên cần giỏi hơn trong việc tổ chức đối thoại, đặt câu hỏi sâu, kết nối người học, xử lý hiểu sai công khai, và biến kết quả AI thành cuộc trò chuyện. Đây là reskilling xã hội, không phải kỹ thuật.

Nhóm thứ năm là assessment redesign. Chương 16 đã nói đánh giá trong kỷ nguyên AI cần thay đổi. Với giáo viên, điều này nghĩa là biết thiết kế bài đánh giá có điều kiện sử dụng AI rõ ràng; xây rubric cho quá trình và sản phẩm; đánh giá oral defense, portfolio, authentic task, collaborative product; và phân biệt năng lực độc lập với năng lực dùng công cụ. Nếu không reskill assessment, giáo viên sẽ bị kẹt giữa cấm đoán và nghi ngờ.

Nhóm thứ sáu là communication và boundary-setting. Giáo viên phải giải thích với học sinh, phụ huynh và đồng nghiệp về AI use: phần nào được phép, vì sao, khai báo thế nào, dữ liệu nào không đưa vào công cụ, khi nào cần hỏi người thật, và làm gì khi AI sai. Đây là kỹ năng chính sách ở cấp lớp. Không có nó, quy định trường dễ biến thành khẩu hiệu.

Deskilling và reskilling còn phụ thuộc vào mức độ tự động hóa. Có thể chia thành bốn mức. Mức hỗ trợ: AI gợi ý, giáo viên làm chính. Mức đồng sản xuất: AI tạo bản nháp, giáo viên chỉnh sâu và chịu trách nhiệm. Mức bán tự động: AI thực hiện phần lớn, giáo viên kiểm duyệt trường hợp bất thường. Mức tự động: AI quyết định hoặc gửi kết quả mà giáo viên chỉ giám sát từ xa. Càng lên cao, rủi ro deskilling và automation bias càng lớn, nhất là ở tác vụ có hệ quả sư phạm hoặc đạo đức.

Không phải mọi tác vụ đều cần giữ giáo viên làm chính. Một số việc hành chính có thể tự động hóa mạnh nếu ít rủi ro và có kiểm soát: chuyển định dạng tài liệu, tạo lịch nhắc, tóm tắt thông báo, phân loại câu hỏi thường gặp. Nhưng với tác vụ liên quan đến đánh giá năng lực, hỗ trợ học sinh yếu thế, wellbeing, kỷ luật, định hướng học tập hoặc giao tiếp nhạy cảm, giáo viên phải giữ vai trò quyết định. Nguyên tắc là: tự động hóa nơi tiêu chí rõ, hậu quả thấp, lỗi dễ sửa; tăng cường phán đoán con người nơi bối cảnh dày, hậu quả cao, lỗi khó sửa.

Một ảo tưởng phổ biến là “AI sẽ làm phần nhàm chán, giáo viên làm phần sáng tạo”. Trong thực tế, phần nhàm chán và phần sáng tạo đan vào nhau. Chấm bài lặp lại có thể mệt, nhưng đọc lỗi lặp lại giúp giáo viên hiểu lớp. Soạn câu hỏi mất thời gian, nhưng quá trình soạn làm giáo viên sắc hơn về mục tiêu. Viết nhận xét nhiều khi nặng, nhưng cũng là lúc giáo viên nối tri thức với con người cụ thể. Vì vậy, không nên tự động hóa một tác vụ chỉ vì nó lặp lại. Cần hỏi: trong tác vụ này có phần nào nuôi phán đoán nghề nghiệp? Phần nào có thể chuyển cho AI mà không mất hiểu biết? Phần nào nên giữ lại hoặc thiết kế lại?

Reskilling tốt không phải thêm gánh nặng vô hạn. Giáo viên không thể vừa dạy, vừa làm kỹ sư prompt, vừa làm auditor, vừa làm data analyst, vừa làm chuyên gia pháp lý. Tổ chức phải phân vai. Một số năng lực cần phổ cập cho mọi giáo viên. Một số cần nhóm chuyên môn, instructional coach, data lead, AI lead hoặc tổ hỗ trợ. Nếu mọi thứ dồn vào từng giáo viên cá nhân, reskilling trở thành kiệt sức có ngôn ngữ đẹp.

Professional Development

Professional development về AI cho giáo viên phải theo tiến trình nghề nghiệp, không phải chuỗi workshop mẹo công cụ. Sự khác biệt này rất lớn. Workshop mẹo công cụ thường bắt đầu từ tính năng: đây là cách viết prompt, đây là cách tạo quiz, đây là cách sinh rubric, đây là cách dùng chatbot để viết email. Tiến trình nghề nghiệp bắt đầu từ vấn đề dạy học: học sinh không đọc nguồn sâu, phản hồi bài viết quá chậm, đánh giá bị GenAI làm yếu, lớp có nhiều mức năng lực, giáo viên thiếu thời gian chuẩn bị, người học không biết khai báo AI, phụ huynh lo về dữ liệu. Công cụ chỉ được đưa vào sau khi vấn đề rõ.

Một lộ trình PD hợp lý có thể theo ba mức Acquire, Deepen, Create của UNESCO, nhưng cần cụ thể hóa cho nhà trường.

Ở mức Acquire, mục tiêu là an toàn và nền tảng. Giáo viên hiểu AI là gì, GenAI khác search engine ra sao, hallucination là gì, dữ liệu và riêng tư cần lưu ý gì, chính sách trường quy định gì, học sinh đang dùng AI thế nào, và một số workflow cơ bản có thể hỗ trợ công việc. Mức này nên giúp giáo viên bớt sợ và bớt kỳ vọng quá mức. Nó cũng phải làm rõ ranh giới: không đưa dữ liệu nhạy cảm của học sinh vào công cụ công khai, không dùng AI để ra quyết định high-stakes, không tin trích dẫn chưa kiểm chứng, không gửi feedback tự động không đọc.

Ở mức Deepen, mục tiêu là thiết kế lại hoạt động học. Giáo viên làm việc theo môn, cấp lớp và vấn đề thật. Tổ Ngữ văn thử bài viết có AI-allowed với yêu cầu khai báo và bảo vệ luận điểm. Tổ Toán thử AI gợi hint theo tầng nhưng yêu cầu học sinh giải thích bước. Tổ Ngoại ngữ dùng AI làm đối tác luyện hội thoại nhưng có debrief về lỗi văn hóa và ngữ dụng. Tổ Khoa học dùng AI để tạo phản ví dụ và kiểm tra lập luận thí nghiệm. Giáo viên không chỉ học công cụ; họ học thiết kế điều kiện học.

Ở mức Create, giáo viên tham gia xây chính sách, tài nguyên và đổi mới địa phương. Họ cùng viết hướng dẫn sử dụng AI theo môn, tạo ngân hàng hoạt động đã thử, thiết kế rubric khai báo AI, audit công cụ, tham gia procurement, cố vấn đồng nghiệp, và nghiên cứu tác động. Đây là mức mà teacher agency rõ nhất. Giáo viên không chỉ dùng AI trong hệ thống; họ định hình hệ thống.

PD về AI cũng cần theo chu kỳ: học, thử, quan sát, phản tư, sửa, chia sẻ. Một chu kỳ có thể kéo dài 6-8 tuần. Tuần đầu chọn vấn đề và thiết kế hoạt động. Tuần hai thử với một lớp hoặc một nhóm nhỏ. Tuần ba thu bài làm, prompt log, phản hồi học sinh và quan sát workload. Tuần bốn họp tổ chuyên môn phân tích. Tuần năm sửa. Tuần sáu thử lại. Cuối chu kỳ, nhóm ghi lại điều kiện áp dụng, rủi ro và tài nguyên dùng lại. Cách làm này chậm hơn tập huấn đại trà, nhưng tạo năng lực thật.

Mah và cộng sự năm 2026 cho thấy giáo viên K-12 ở Đức và Đan Mạch còn ở giai đoạn đầu tích hợp AI; 36,1% giáo viên trong mẫu báo cáo chưa dùng AI hiện tại, và trong số người dùng, ứng dụng thiên về tối ưu hóa thực hành sẵn có hơn là mở ra khả năng dạy học mới. Họ cũng thấy AI được dùng nhiều cho cognitive activation như tạo tài liệu và nhiệm vụ, ít hơn cho individualization, supportive climate, và gần như không đáng kể cho classroom management (Mah et al., 2026). Kết quả này gợi ý PD không nên chỉ dạy giáo viên tạo nội dung nhanh hơn. Nó cần mở rộng tưởng tượng sư phạm: AI có thể hỗ trợ thảo luận, phản tư, hợp tác, differentiated feedback và quan hệ lớp học như thế nào, nếu có điều kiện phù hợp.

PD cũng cần giải quyết niềm tin. Giáo viên không tin AI vì ba lý do khác nhau: công cụ có thể sai, tổ chức có thể dùng công cụ để kiểm soát họ, và họ có thể thấy công nghệ đe dọa giá trị nghề dạy. Một chương trình PD tốt không gạt những lo ngại này đi. Nó cho giáo viên kiểm thử lỗi, hiểu giới hạn, đặt câu hỏi đạo đức, và thảo luận điều gì không nên tự động hóa. Niềm tin không đến từ lời khẳng định “AI an toàn”. Nó đến từ quyền kiểm tra và quyền từ chối.

PD cần phân hóa theo vai trò. Giáo viên mới vào nghề cần hỗ trợ khác giáo viên nhiều kinh nghiệm. Giáo viên tiểu học cần ví dụ khác giảng viên đại học. Giáo viên dạy nghề cần AI gắn với chuẩn nghề và an toàn thực hành. Giáo viên giáo dục đặc biệt cần trọng tâm accessibility, privacy và assistive technology. Tổ trưởng chuyên môn cần năng lực dẫn dắt cộng đồng thực hành. Lãnh đạo trường cần hiểu procurement, governance, workload và change management. Nếu tất cả cùng học một workshop chung, nội dung sẽ hoặc quá nông, hoặc quá xa.

PD cũng cần liên kết với chính sách đánh giá giáo viên. Nếu trường khuyến khích AI nhưng vẫn đánh giá giáo viên theo số hoạt động số hóa, số tài nguyên tạo ra hoặc mức dùng nền tảng, giáo viên sẽ dùng AI để đáp ứng chỉ số. Nếu trường đánh giá theo chất lượng học tập, bằng chứng phản tư, cải thiện nhiệm vụ và chia sẻ chuyên môn, AI sẽ được đặt đúng chỗ hơn. Chỉ số sai có thể phá PD tốt.

Một cấu trúc hỗ trợ nên có các lớp sau:

1. Hướng dẫn chung về an toàn, riêng tư, khai báo và ranh giới. 2. Cộng đồng thực hành theo môn hoặc cấp lớp. 3. Người hỗ trợ chuyên môn có hiểu biết AI, không chỉ IT. 4. Kho hoạt động đã thử trong bối cảnh địa phương. 5. Thời gian chính thức trong lịch làm việc để thử và phản tư. 6. Kênh báo lỗi, phản hồi vendor và cập nhật chính sách. 7. Cơ chế chia sẻ thất bại mà không bị phạt.

Điểm cuối rất quan trọng. AI trong giáo dục còn mới, công cụ thay đổi nhanh, bằng chứng còn đang phát triển. Nếu văn hóa trường chỉ cho phép báo cáo thành công, giáo viên sẽ giấu lỗi hoặc dùng công cụ theo cách an toàn bề mặt. Một hệ sinh thái học tập cần xem thất bại có phân tích là dữ liệu chuyên môn.

Professional development về AI nên kết thúc mỗi chu kỳ bằng ba câu hỏi: Người học học gì tốt hơn? Giáo viên hiểu lớp tốt hơn ở đâu? Workload tổng thể thay đổi ra sao? Nếu không trả lời được ba câu này, PD dễ trôi thành kỹ năng công cụ.

Co-design với giáo viên

Co-design với giáo viên không phải mời vài giáo viên xem demo sau khi sản phẩm gần xong. Nó là việc giáo viên tham gia từ đặt vấn đề, xác định tiêu chí, thiết kế workflow, thử nghiệm, đánh giá và quyết định mở rộng. Trong giáo dục, co-design đặc biệt quan trọng vì lớp học là môi trường dày bối cảnh. Một tính năng có vẻ hợp lý với nhà phát triển có thể thất bại vì thời lượng tiết học, sĩ số, văn hóa hỏi đáp, thiết bị, lịch kiểm tra, quy định dữ liệu, trình độ đọc của học sinh hoặc nhịp làm việc của giáo viên.

Co-design bắt đầu bằng problem framing. Thay vì hỏi “giáo viên muốn AI làm gì?”, nên hỏi “phần nào trong công việc hiện đang làm giảm chất lượng dạy học?”. Câu trả lời có thể không phải “cần chatbot”. Có thể là: giáo viên mất quá nhiều thời gian nhập điểm nhiều nơi; bài làm của học sinh đến quá muộn để phản hồi kịp; phụ huynh nhận thông báo rời rạc; học sinh yếu không biết bắt đầu hỏi gì; tổ chuyên môn không có thời gian phân tích lỗi chung; học sinh dùng AI nhưng quy định không rõ. Nếu vấn đề là dữ liệu silo, chatbot không giải quyết được. Nếu vấn đề là rubric mơ hồ, AI chấm bài chỉ làm mơ hồ nhanh hơn.

Sau problem framing là workflow mapping. Giáo viên mô tả quy trình thật: trước giờ học làm gì, trong lớp làm gì, sau lớp làm gì, dùng hệ thống nào, nhập dữ liệu ở đâu, lỗi thường xảy ra chỗ nào, ai chịu trách nhiệm, thời điểm nào quá tải, học sinh và phụ huynh tham gia ra sao. Nhiều công cụ thất bại vì không hiểu workflow này. Chúng thêm một dashboard mới mà không bỏ dashboard cũ, thêm một bước khai báo mà không nối với LMS, thêm feedback mà không có thời gian cho học sinh sửa, thêm cảnh báo mà không có người can thiệp.

Sau workflow mapping là prototyping với dữ liệu và tình huống thật. Giáo viên cần thử công cụ trên bài làm thật đã ẩn danh, prompt thật, lớp thật hoặc mô phỏng gần thật. Một công cụ lesson planning phải được thử với chương trình cụ thể, thời lượng cụ thể, mức lớp cụ thể, ngôn ngữ cụ thể. Một công cụ feedback phải được thử với bài làm tốt, bài yếu, bài khác thường, bài của người học đa ngôn ngữ, bài có lỗi chính tả, bài có ý tưởng mới. Một dashboard phải được thử với giáo viên đang có ít thời gian, không phải chỉ trong phòng lab.

Alfredo và cộng sự năm 2024 cho thấy human-centred LA/AIED đã quan tâm đến human control nhưng end-user involvement còn hạn chế trong thiết kế thực tế (Alfredo et al., 2024). Topali và cộng sự cũng chỉ ra nhiều giải pháp thiếu contextualisation sư phạm và thiếu đánh giá trong bối cảnh xác thực (Topali et al., 2024). Những kết quả này giải thích vì sao nhiều sản phẩm EdTech có vẻ tốt trên slide nhưng khó sống trong trường. Chúng được thiết kế như giải pháp kỹ thuật trước khi trở thành giải pháp nghề nghiệp.

Co-design cũng cần học sinh, nhưng chương này nhấn mạnh giáo viên vì họ đứng ở giao điểm của mục tiêu học, tổ chức lớp, chính sách và dữ liệu. Tuy vậy, giáo viên không thể đại diện hoàn toàn cho người học. Với công cụ ảnh hưởng trực tiếp đến học sinh, co-design nên có cả hai nhóm. Một nghiên cứu năm 2025 về co-design AI-powered learning analytics trong mô phỏng điều dưỡng đã tổ chức các phiên với sinh viên, giáo viên và phiên chung để thiết kế công cụ phản tư nhóm; quy trình gồm phỏng vấn, prototyping, focus group và workshop (Martinez-Maldonado et al., 2025). Điểm đáng học không phải lĩnh vực điều dưỡng cụ thể, mà là cách đưa stakeholder vào nhiều giai đoạn thay vì chỉ khảo sát ý kiến sau cùng.

Co-design với giáo viên cũng cần phân biệt các cấp quyết định. Ở cấp lớp, giáo viên đồng thiết kế hoạt động và workflow. Ở cấp tổ chuyên môn, giáo viên đồng thiết kế rubric, tài nguyên, chuẩn khai báo và tiêu chí dùng AI. Ở cấp trường, giáo viên tham gia chọn công cụ, chính sách dữ liệu, kế hoạch PD và quy trình hỗ trợ. Ở cấp hệ thống, đại diện giáo viên tham gia khung năng lực, procurement, chuẩn công bằng và đánh giá tác động. Nếu chỉ co-design ở cấp lớp nhưng công cụ và chính sách đã bị khóa ở cấp trên, agency vẫn hẹp.

Một mô hình co-design thực tế có thể gồm năm vòng.

Vòng một: xác định vấn đề và baseline. Ví dụ, giáo viên mất trung bình bốn giờ mỗi tuần cho phản hồi bài viết, học sinh ít dùng feedback để sửa, và phản hồi đến quá muộn. Baseline gồm thời gian giáo viên, chất lượng feedback, mức học sinh sửa, và cảm nhận của học sinh.

Vòng hai: thiết kế nguyên mẫu nhỏ. AI chỉ dùng để nhóm lỗi và gợi phản hồi theo rubric, không gửi tự động. Giáo viên chỉnh phản hồi và thêm nhận xét cá nhân. Học sinh phải nộp bản sửa và phản tư.

Vòng ba: thử với một lớp hoặc một chủ đề. Thu dữ liệu: thời gian giáo viên, lỗi AI, mức học sinh hiểu feedback, chất lượng bản sửa, cảm giác được hỗ trợ.

Vòng bốn: phân tích cùng giáo viên và học sinh. Có giảm thời gian thật không? Feedback có tốt hơn không? AI sai ở nhóm nào? Học sinh có dùng feedback không? Giáo viên có hiểu lớp hơn không?

Vòng năm: quyết định sửa, mở rộng hoặc dừng. Nếu mở rộng, viết hướng dẫn, ranh giới và điều kiện áp dụng. Nếu dừng, ghi lại lý do để tránh lặp lại.

Co-design không nên bị lãng mạn hóa. Nó tốn thời gian, có xung đột, và không phải mọi ý kiến đều tương thích. Giáo viên có thể muốn công cụ linh hoạt, quản lý muốn chuẩn hóa, IT muốn bảo mật, học sinh muốn tiện, phụ huynh muốn ít dữ liệu, vendor muốn mở rộng tính năng. Co-design tốt không phải làm hài lòng tất cả, mà làm trade-off hiện rõ và có trách nhiệm.

Một nguy cơ là “participation washing”: tổ chức nói có giáo viên tham gia nhưng chỉ ở mức góp ý bề mặt. Dấu hiệu gồm: vấn đề đã được định nghĩa trước, công cụ đã mua trước, giáo viên chỉ được chọn màu giao diện hoặc mẫu prompt, phản hồi không có tác động, thời gian tham gia không được tính vào workload, và quyết định cuối không giải thích. Co-design thật phải có quyền ảnh hưởng.

Giáo viên cũng cần được trả công hoặc giảm tải cho co-design. Không thể yêu cầu họ thiết kế tương lai giáo dục vào buổi tối sau khi chấm bài. Nếu tổ chức coi co-design là nghiêm túc, nó phải nằm trong thời gian làm việc, có hỗ trợ dữ liệu, có người điều phối, và có kết quả quay lại lớp học.

Một lợi ích phụ nhưng quan trọng của co-design là nó phát triển năng lực giáo viên. Khi giáo viên tham gia đặt tiêu chí, thử lỗi, phân tích dữ liệu và sửa workflow, họ học AI sâu hơn nhiều so với nghe hướng dẫn. Co-design vì vậy vừa là phương pháp phát triển sản phẩm, vừa là professional development.

Workload thật

Workload thật là nơi nhiều lời hứa AI gặp thực tế. Một công cụ có thể làm một việc nhanh hơn nhưng không làm ngày làm việc ngắn hơn. Nó có thể tiết kiệm 20 phút soạn worksheet nhưng mất 25 phút kiểm chứng, chỉnh ví dụ, sửa tiếng Việt, nhập lại vào LMS, giải thích với học sinh và xử lý lỗi. Nó có thể giúp viết email nhanh hơn nhưng làm số email tăng lên vì phản hồi dễ gửi hơn. Nó có thể tạo dashboard đẹp nhưng giáo viên phải xem thêm mỗi ngày, phân loại cảnh báo, ghi can thiệp, và báo cáo lên quản lý. Workload không phải tổng thời gian từng tác vụ trong demo. Nó là trải nghiệm tổng thể của một tuần làm việc.

Khảo sát RSC 2024 rất hữu ích vì nó làm mát kỳ vọng. 44% giáo viên khoa học trong khảo sát đã dùng AI, nhưng chỉ 3% nói AI giảm workload rất nhiều. Nhiều giáo viên nêu rào cản là thời gian học công cụ và thời gian kiểm tra nội dung sai (Royal Society of Chemistry, 2024). Đây không phải bằng chứng rằng AI vô ích. Nó là bằng chứng rằng giảm tải cần thiết kế hệ thống, không chỉ cấp công cụ.

Có năm dạng “tải ẩn” thường bị bỏ qua.

Dạng thứ nhất là verification load. AI tạo nội dung nhanh, nhưng giáo viên phải kiểm tra độ đúng, độ phù hợp chương trình, độ tuổi, văn hóa, ngôn ngữ, nguồn, bản quyền và rủi ro thiên lệch. Với môn có kiến thức chính xác cao như khoa học, toán, lịch sử hoặc pháp luật, verification load có thể lớn. Nếu giáo viên không có thời gian kiểm chứng, họ hoặc không dùng, hoặc dùng với rủi ro.

Dạng thứ hai là integration load. Nội dung do AI tạo phải được đưa vào hệ thống thật: LMS, slide, worksheet, bảng điểm, email, tài liệu in, hoạt động nhóm. Nếu công cụ không tích hợp tốt, giáo viên copy-paste nhiều nơi, sửa định dạng, đổi file, kiểm tra link, xử lý lỗi đăng nhập. Một công cụ “tiết kiệm thời gian” nhưng không khớp hạ tầng sẽ tạo tải tích hợp.

Dạng thứ ba là policy load. Khi AI xuất hiện, giáo viên phải giải thích luật sử dụng, xử lý khai báo, phân biệt hỗ trợ hợp lệ và gian lận, trả lời phụ huynh, xử lý tranh chấp, và cập nhật chính sách khi công cụ thay đổi. Nếu trường không có hướng dẫn rõ, policy load rơi xuống từng giáo viên.

Dạng thứ tư là emotional load. Giáo viên phải trấn an học sinh sợ bị phát hiện sai, xử lý nghi ngờ đạo văn, giữ quan hệ khi phải hỏi về AI use, đối phó cảm giác nghề nghiệp bị hạ giá, và hỗ trợ học sinh phụ thuộc công cụ. AI có thể giảm thao tác nhưng tăng lao động cảm xúc nếu triển khai thiếu tinh tế.

Dạng thứ năm là monitoring load. Dashboard, cảnh báo, analytics và hệ thống adaptive tạo thêm tín hiệu. Mỗi tín hiệu đặt ra câu hỏi: có cần can thiệp không, ai làm, khi nào, ghi nhận ở đâu, nếu không can thiệp có trách nhiệm không? Một cảnh báo chỉ có ích nếu tổ chức có workflow can thiệp. Nếu không, nó tạo guilt load: giáo viên thấy nhiều vấn đề hơn nhưng không có thời gian xử lý.

Workload thật cần đo bằng đơn vị workflow. Ví dụ, muốn biết AI feedback có giảm tải không, không chỉ đo thời gian AI sinh phản hồi. Phải đo toàn bộ vòng: chuẩn bị rubric, nộp bài, chạy công cụ, kiểm tra lỗi, chỉnh feedback, gửi cho học sinh, học sinh đọc, học sinh sửa, giáo viên xem bản sửa, xử lý khiếu nại, và học sinh học được gì. Nếu AI giảm 30% thời gian phản hồi nhưng học sinh ít dùng feedback hơn, đó không phải thành công. Nếu AI giảm thời gian chấm nhưng tăng thời gian xử lý nghi ngờ gian lận, cần tính lại.

Chính phủ Anh năm 2024 công bố dự án tạo “content store” gồm lesson plans, curriculum guidance và teaching materials để giúp công cụ GenAI đáng tin hơn cho giáo viên, với mục tiêu hỗ trợ chấm homework và tiết kiệm thời gian (Department for Science, Innovation and Technology & Department for Education, 2024). EEF cùng năm cũng công bố trial về ChatGPT cho lesson planning nhằm xem liệu hỗ trợ giáo viên dùng GenAI có giảm giờ làm tổng thể và duy trì chất lượng bài học không (Education Endowment Foundation, 2024). Điểm đáng chú ý ở đây là câu hỏi nghiên cứu đúng: không chỉ “AI có tạo giáo án nhanh không”, mà là “có giảm overall working hours và giữ lesson quality không”. Đây là chuẩn đánh giá workload nên dùng rộng hơn.

Một công cụ giảm workload thật thường có bốn đặc điểm. Thứ nhất, nó bỏ được việc cũ, không chỉ thêm việc mới. Nếu giáo viên dùng dashboard mới nhưng vẫn phải làm báo cáo cũ, workload tăng. Thứ hai, nó tích hợp vào hệ thống hiện có. Nếu phải copy dữ liệu nhiều nơi, lợi ích mất. Thứ ba, nó làm đầu ra đủ tin cậy để kiểm tra nhanh hơn làm lại. Nếu giáo viên phải sửa quá nhiều, công cụ chỉ tạo bản nháp rẻ nhưng không tiết kiệm. Thứ tư, nó giảm tải ở nơi giáo viên thật sự đau, không chỉ nơi dễ demo. Nhiều giáo viên không thiếu ý tưởng worksheet; họ thiếu thời gian phản hồi sâu, xử lý chênh lệch lớp, liên hệ gia đình, và nghỉ ngơi.

Workload cũng phải tính theo thời gian học công cụ. Một công cụ có thể có lợi sau ba tháng, nhưng giai đoạn đầu luôn tăng tải. Nếu trường không cấp thời gian học và hỗ trợ, giáo viên sẽ phải học ngoài giờ. Khi đó “AI giảm tải” trở thành nghịch lý: để được giảm tải, giáo viên phải làm thêm.

Workload còn liên quan đến phân phối lợi ích. AI có thể giúp giáo viên nhiều kinh nghiệm tiết kiệm thời gian vì họ biết kiểm tra nhanh, chỉnh nhanh, và có tiêu chí rõ. Giáo viên mới có thể mất nhiều thời gian hơn vì chưa có PCK đủ mạnh để đánh giá đầu ra. Giáo viên ở trường có hạ tầng tốt được lợi hơn giáo viên phải xử lý thiết bị yếu. Giáo viên dạy môn nhiều tài liệu tiếng Anh có thể được lợi hơn giáo viên dạy bằng ngôn ngữ ít tài nguyên. Vì vậy, đánh giá workload phải phân nhóm, không chỉ lấy trung bình.

Một nguy cơ là AI được dùng để hợp thức hóa tăng kỳ vọng. Nếu AI giúp tạo phản hồi nhanh, quản lý có thể yêu cầu phản hồi nhiều hơn. Nếu AI giúp tạo tài liệu, chương trình có thể yêu cầu tài liệu cá nhân hóa cho từng học sinh. Nếu AI giúp viết báo cáo, tổ chức có thể yêu cầu báo cáo chi tiết hơn. Khi năng suất tăng bị thu hết thành tiêu chuẩn mới, giáo viên không được giảm tải; họ chỉ bị đẩy lên mức sản lượng cao hơn. Đây là productivity trap.

Một nguyên tắc công bằng là: nếu AI được triển khai với mục tiêu giảm tải, tổ chức phải xác định việc nào sẽ được bỏ, giảm hoặc đơn giản hóa. Không thể chỉ nói “AI sẽ giúp làm nhanh hơn” rồi giữ nguyên mọi yêu cầu cũ. Ví dụ, nếu AI hỗ trợ tóm tắt tiến độ học sinh, trường có thể bỏ một biểu mẫu báo cáo trùng lặp. Nếu AI giúp phản hồi quiz, giáo viên có thể giảm chấm tay câu hỏi thấp giá trị. Nếu AI tạo tài liệu phân hóa, tổ chuyên môn có thể chia sẻ tài nguyên chung thay vì mỗi giáo viên tự làm lại. Giảm tải phải được thiết kế như một thay đổi tổ chức.

Cuối cùng, workload thật phải bao gồm wellbeing của giáo viên. Một giáo viên có thể làm nhanh hơn nhưng căng thẳng hơn vì luôn phải cảnh giác lỗi AI, nghi ngờ bài làm, xem cảnh báo, cập nhật chính sách và học công cụ mới. Nếu AI làm giáo viên mất cảm giác làm chủ, mất niềm vui thiết kế, hoặc mất quan hệ với học sinh, workload cảm xúc tăng. Một hệ sinh thái AI tốt phải giúp giáo viên có thêm thời gian và năng lượng cho phần nghề nghiệp có ý nghĩa: giải thích, lắng nghe, thiết kế, phản hồi, nâng đỡ, và cùng học sinh suy nghĩ.

Thực trạng triển khai

Thực trạng triển khai AI cho giáo viên hiện nay có thể mô tả bằng bốn chữ: nhanh, không đều, nhiều kỳ vọng, thiếu cấu trúc.

Nhanh vì GenAI đã đi vào đời sống giáo viên trước khi nhiều hệ thống có chính sách. Giáo viên dùng AI để viết email, tạo câu hỏi, soạn hoạt động, sửa văn bản, dịch tài liệu, tạo rubric, tóm tắt nghiên cứu, hoặc chuẩn bị slide. Một số người dùng hằng ngày, một số thử vài lần rồi bỏ, một số tránh vì lo đạo đức hoặc thiếu thời gian. Trong nhiều trường, thực tế dùng AI đi trước hướng dẫn chính thức.

Không đều vì năng lực, hạ tầng và văn hóa khác nhau. Một giáo viên có tiếng Anh tốt, thiết bị tốt, cộng đồng chuyên môn mở và lãnh đạo ủng hộ sẽ học nhanh. Một giáo viên quá tải, dạy nhiều lớp, không có thời gian thử, thiếu chính sách rõ, hoặc từng gặp công cụ sai sẽ thận trọng hơn. Một trường có IT mạnh và quy trình dữ liệu tốt có thể tích hợp AI vào workflow. Một trường vẫn nhập điểm thủ công nhiều nơi sẽ thấy AI chỉ thêm rối.

Nhiều kỳ vọng vì AI được gắn với giải quyết hàng loạt vấn đề: thiếu giáo viên, workload, cá nhân hóa, feedback nhanh, đánh giá, phụ đạo, quản trị. Nhưng nhiều vấn đề này có gốc tổ chức, không phải chỉ thiếu công cụ. Thiếu giáo viên không thể giải bằng chatbot nếu điều kiện làm việc kém. Workload không giảm nếu yêu cầu báo cáo tăng. Cá nhân hóa không có nghĩa nếu lớp quá đông và giáo viên không có thời gian can thiệp. Feedback nhanh không có nghĩa nếu học sinh không được sửa.

Thiếu cấu trúc vì PD, governance và evaluation chưa theo kịp. Nhiều nơi có workshop nhưng chưa có lộ trình. Có chính sách cấm hoặc cho phép nhưng chưa có hoạt động mẫu. Có công cụ nhưng chưa có tiêu chí kiểm thử. Có dashboard nhưng chưa có workflow can thiệp. Có mong muốn giảm tải nhưng chưa bỏ việc cũ. Có nói co-design nhưng giáo viên tham gia muộn.

Ở cấp hệ thống, một số chính phủ bắt đầu đầu tư vào AI cho giáo viên. Dự án của Anh về content store và công cụ hỗ trợ chấm, tạo tài liệu là một ví dụ (Department for Science, Innovation and Technology & Department for Education, 2024). Các thử nghiệm như EEF trial về ChatGPT cho lesson planning cho thấy hướng tiếp cận dựa trên bằng chứng hơn: kiểm tra workload và chất lượng thay vì chỉ công bố công cụ (Education Endowment Foundation, 2024). Tuy nhiên, các thử nghiệm này cũng nhắc rằng bằng chứng cần thời gian, và kết quả ở một bối cảnh không tự chuyển sang bối cảnh khác.

Ở cấp nghiên cứu, các review gần đây cho thấy sự chuyển dịch từ “AI thay giáo viên làm gì” sang “AI hỗ trợ giáo viên phát triển và quyết định ra sao”, nhưng tốc độ còn chậm. Tan và cộng sự chỉ ra professional development vẫn ít được nghiên cứu hơn ứng dụng dạy học (Tan et al., 2025). Alfredo và Topali cùng cộng sự chỉ ra stakeholder involvement và contextualisation vẫn là lỗ hổng trong human-centred AI/LA (Alfredo et al., 2024; Topali et al., 2024). Mah và cộng sự cho thấy giáo viên đang dùng AI nhiều hơn cho tối ưu hóa nội dung hơn là thay đổi sâu instructional quality (Mah et al., 2026). Những kết quả này hợp lại thành một bức tranh: giáo viên chưa được đặt đủ sớm và đủ sâu trong hệ sinh thái AI.

Ở cấp trường, một mô hình triển khai tốt thường có các dấu hiệu sau. Lãnh đạo không mở đầu bằng mua sản phẩm, mà bằng chọn vấn đề. Giáo viên được cấp thời gian thử. Tổ chuyên môn có hoạt động mẫu và ranh giới rõ. Dữ liệu học sinh được bảo vệ. Công cụ được pilot nhỏ trước. Workload được đo trước và sau. Học sinh được dạy AI literacy. Phụ huynh được truyền thông. Có kênh phản hồi và quyền dừng. Đây không phải mô hình quá phức tạp, nhưng đòi hỏi kỷ luật triển khai.

Một mô hình yếu thường có dấu hiệu ngược lại. Trường mua công cụ vì đang thịnh hành. Giáo viên được gửi link hướng dẫn. Chính sách dùng AI mơ hồ. Ai nhiệt tình thì dùng, ai không dùng thì bị xem là chậm. Không đo workload. Không kiểm tra bias. Không rõ dữ liệu đi đâu. Không có phương án cho người học không dùng được. Sau vài tháng, công cụ hoặc bị bỏ, hoặc trở thành một nghĩa vụ hành chính nữa.

Thực trạng này không nên dẫn đến bi quan. Nó chỉ cho thấy AI trong giáo dục đang ở giai đoạn mà năng lực tổ chức quan trọng hơn tính năng. Một công cụ trung bình trong tổ chức biết học có thể tốt hơn công cụ mạnh trong tổ chức triển khai vội.

Phân tích phản biện

Rủi ro thứ nhất là rhetorics of empowerment: ngôn ngữ trao quyền nhưng thực tế giảm quyền. Nhà trường có thể nói AI giúp giáo viên sáng tạo hơn, nhưng đồng thời áp đặt template bài học, dashboard chuẩn và chỉ số dùng nền tảng. Vendor có thể nói giáo viên “in control”, nhưng không cho xem logic hệ thống, không cho sửa tiêu chí, không có export dữ liệu, và không có kênh phản hồi hiệu quả. Trao quyền không nằm trong khẩu hiệu; nó nằm trong quyền thiết kế và quyền từ chối.

Rủi ro thứ hai là automation bias. Khi AI đưa đề xuất trôi chảy, có vẻ hợp lý và được trình bày trong giao diện chính thức, giáo viên có thể tin quá nhanh, nhất là khi quá tải. Automation bias không phải lỗi cá nhân yếu kém. Nó là phản ứng dễ hiểu trong môi trường nhiều việc. Thiết kế hệ thống phải chống bias này: hiển thị mức chắc chắn, nguồn, lý do, trường hợp cần kiểm tra, so sánh phương án, và nhắc giáo viên dùng bằng chứng khác.

Rủi ro thứ ba là chuẩn hóa quá mức. AI tạo nội dung và kế hoạch bài học có thể làm nhiều lớp học trở nên giống nhau hơn: cùng cấu trúc, cùng ví dụ, cùng giọng văn, cùng kiểu câu hỏi. Chuẩn hóa có thể hữu ích cho chất lượng tối thiểu, nhưng nguy hiểm nếu làm mất bản sắc môn học, bối cảnh địa phương và phong cách giáo viên. Giáo dục cần chuẩn, nhưng cũng cần sự sống của người dạy.

Rủi ro thứ tư là làm mờ trách nhiệm. Nếu AI gợi ý sai và giáo viên dùng, ai chịu trách nhiệm? Nếu trường bắt dùng công cụ, vendor thiết kế mô hình, giáo viên phê duyệt trong 30 giây vì quá tải, và học sinh bị thiệt, trách nhiệm không thể chỉ đặt lên giáo viên. Hệ sinh thái AI cần phân định trách nhiệm: nhà cung cấp chịu trách nhiệm về an toàn, minh bạch và giới hạn; tổ chức chịu trách nhiệm procurement, policy và support; giáo viên chịu trách nhiệm phán đoán trong phạm vi họ có quyền và thông tin; học sinh chịu trách nhiệm khai báo và dùng đúng quy định.

Rủi ro thứ năm là surveillance của giáo viên. AI và analytics có thể đo thời gian phản hồi, số tài nguyên tạo, mức dùng nền tảng, điểm học sinh, tương tác lớp, và nhiều tín hiệu khác. Một số dữ liệu có thể hỗ trợ phát triển chuyên môn. Nhưng nếu dùng để xếp hạng, giám sát vi mô hoặc phạt giáo viên mà không hiểu bối cảnh, nó làm giảm trust. Giáo viên sẽ tối ưu chỉ số hoặc né hệ thống. Dữ liệu nghề nghiệp phải phục vụ học tập nghề, không trở thành cơ chế kiểm soát lạnh.

Rủi ro thứ sáu là PD bị thương mại hóa. Nhiều chương trình đào tạo AI do vendor cung cấp sẽ tự nhiên tập trung vào sản phẩm của họ. Điều này không xấu nếu minh bạch, nhưng không đủ. Giáo viên cần vendor-neutral AI literacy: hiểu nguyên tắc, rủi ro, workflow, đánh giá công cụ, và quyền dữ liệu. Nếu PD chỉ dạy một nền tảng, giáo viên bị khóa vào hệ sinh thái cụ thể và khó chuyển năng lực sang bối cảnh khác.

Rủi ro thứ bảy là “reskilling” trở thành tên gọi mới của việc làm thêm. Giáo viên được yêu cầu học AI, thiết kế lại đánh giá, cập nhật chính sách, kiểm tra dữ liệu, hỗ trợ học sinh, trấn an phụ huynh và vẫn dạy như cũ. Nếu không giảm yêu cầu khác, reskilling sẽ làm kiệt sức. Một tổ chức nghiêm túc phải hỏi: để giáo viên học AI, chúng ta bỏ bớt gì, đơn giản hóa gì, chia sẻ gì, hỗ trợ gì?

Rủi ro thứ tám là bỏ quên giáo viên không nằm trong nhóm tiên phong. Nhiều chương trình AI dựa vào vài giáo viên hào hứng. Họ tạo ví dụ, chia sẻ workshop, thử công cụ. Nhưng mở rộng ra toàn trường cần hỗ trợ nhóm thận trọng, nhóm quá tải, nhóm ít tự tin, nhóm có lo ngại đạo đức chính đáng. Nếu chỉ nghe nhóm tiên phong, chính sách sẽ đánh giá thấp rào cản.

Rủi ro cuối cùng là thay đổi nghề dạy theo hướng ít quan hệ hơn. Nếu AI lấy dần các điểm chạm giữa giáo viên và học sinh như hỏi bài, phản hồi, gợi ý bước tiếp, hỗ trợ cảm xúc nhẹ, giải thích ngoài giờ, giáo viên có thể có thêm thời gian trên giấy nhưng ít hiểu học sinh hơn trong thực tế. Một số điểm chạm mệt nhưng quan trọng. Khi tự động hóa, cần giữ những điểm chạm nuôi quan hệ và phán đoán.

Phản biện ở đây không nhằm giữ nguyên nghề dạy như cũ. Nghề dạy luôn thay đổi theo sách in, bảng đen, radio, truyền hình, máy tính, Internet, LMS và dữ liệu. Vấn đề là thay đổi theo hướng nào. AI nên làm giáo viên thành người thiết kế, người diễn giải, người kết nối và người bảo vệ học tập tốt hơn. Nó không nên làm họ thành người duyệt nội dung máy, quản dashboard và gánh trách nhiệm cho quyết định họ không thật sự kiểm soát.

Nguyên tắc thiết kế

Nguyên tắc thứ nhất: đặt teacher agency thành yêu cầu thiết kế, không phải lợi ích phụ. Mỗi công cụ cần trả lời: giáo viên thấy được gì, quyết định được gì, điều chỉnh được gì, phản hồi được gì, và từ chối được gì? Nếu câu trả lời mơ hồ, công cụ chưa sẵn sàng cho lớp học.

Nguyên tắc thứ hai: phân loại tác vụ theo rủi ro và giá trị nghề nghiệp. Tác vụ rủi ro thấp, tiêu chí rõ, lỗi dễ sửa có thể tự động hóa mạnh hơn. Tác vụ liên quan đến đánh giá, wellbeing, kỷ luật, hỗ trợ người học yếu thế và định hướng học tập phải giữ phán đoán con người ở trung tâm.

Nguyên tắc thứ ba: dùng AI để tăng PCK, không thay PCK. Công cụ nên giúp giáo viên thấy misconception, tạo ví dụ tốt hơn, thiết kế scaffold, phân tích bài làm và chọn can thiệp. Nó không nên chỉ tạo giáo án chung nghe hợp lý.

Nguyên tắc thứ tư: thiết kế PD theo vấn đề dạy học. Bắt đầu từ workflow thật và mục tiêu học, sau đó mới chọn công cụ. PD cần có chu kỳ thử, quan sát, phản tư và sửa; có cộng đồng thực hành; có thời gian chính thức; và có quyền nói về rủi ro.

Nguyên tắc thứ năm: co-design từ đầu. Giáo viên phải tham gia problem framing, workflow mapping, prototyping, pilot, evaluation và scale-up. Sự tham gia phải có quyền ảnh hưởng, có thời gian được công nhận, và có phản hồi quay lại.

Nguyên tắc thứ sáu: đo workload tổng thể. Đánh giá AI bằng toàn bộ quy trình: chuẩn bị, kiểm chứng, tích hợp, truyền thông, can thiệp, sửa lỗi, học sinh dùng kết quả và tác động đến wellbeing giáo viên. Không dùng thời gian tạo bản nháp làm proxy cho giảm tải.

Nguyên tắc thứ bảy: khi thêm AI, bỏ hoặc giảm việc cũ. Nếu mục tiêu là giảm tải, phải chỉ rõ yêu cầu nào được loại bỏ, biểu mẫu nào được gộp, dashboard nào được thay, báo cáo nào được đơn giản hóa. Không có bước này, AI dễ thành lớp việc mới.

Nguyên tắc thứ tám: giữ dữ liệu nghề nghiệp của giáo viên trong logic phát triển, không giám sát. Nếu thu dữ liệu về sử dụng AI của giáo viên, cần minh bạch mục đích, giới hạn truy cập, cách diễn giải, quyền phản hồi và cam kết không dùng chỉ số thô để xếp hạng.

Nguyên tắc thứ chín: thiết kế quyền kiểm chứng. Mọi đề xuất AI quan trọng cần có lý do, nguồn, mức chắc chắn, dấu hiệu giới hạn và cách yêu cầu human review. Giao diện nên khuyến khích phán đoán, không làm giáo viên bấm duyệt trong mù mờ.

Nguyên tắc thứ mười: xây năng lực theo vai trò. Mọi giáo viên cần AI literacy nền tảng. Tổ trưởng chuyên môn cần năng lực dẫn dắt thiết kế và đánh giá. Lãnh đạo cần governance và workload. IT cần dữ liệu, bảo mật và tích hợp. Không dồn mọi năng lực lên từng giáo viên.

Nguyên tắc thứ mười một: bảo vệ bản sắc và giọng nghề nghiệp của giáo viên. AI có thể tạo bản nháp, nhưng tài liệu, phản hồi và hoạt động nên giữ được bối cảnh lớp, phong cách người dạy và quan hệ với học sinh. Sự đều đặn của máy không nên thay sự tinh tế của người.

Nguyên tắc thứ mười hai: pilot như nghiên cứu nhỏ. Trước khi mở rộng, đặt giả thuyết, baseline, tiêu chí, nhóm thử, rủi ro, dữ liệu cần thu, quyền dừng và câu hỏi học được. Pilot không phải bản demo kéo dài. Nó là một cách học có kỷ luật.

Tổng kết chương

Giáo viên là điểm tựa của hệ sinh thái AI trong giáo dục vì họ giữ phán đoán trong bối cảnh. AI có thể giúp họ tạo tài liệu, phản hồi nhanh hơn, nhìn dữ liệu lớp rõ hơn, phân hóa hỗ trợ và học chuyên môn. Nhưng AI cũng có thể làm mòn kỹ năng, tăng giám sát, chuẩn hóa bài học, chuyển trách nhiệm không kèm quyền lực, và tạo workload ẩn.

Teacher agency không chỉ là thái độ cởi mở với công nghệ. Nó gồm quyền thấy, quyền quyết định, quyền điều chỉnh và quyền phản biện. Deskilling không phải số phận tất yếu, nhưng reskilling chỉ xảy ra nếu giáo viên được phát triển năng lực thiết kế, diễn giải dữ liệu, audit AI, điều phối học tập xã hội, thiết kế lại đánh giá và đặt ranh giới. Professional development phải đi theo tiến trình nghề nghiệp, có cộng đồng thực hành và thời gian thật. Co-design phải bắt đầu từ vấn đề của giáo viên và lớp học, không phải từ sản phẩm đã xong. Workload phải được đo tổng thể, vì tiết kiệm một tác vụ không có nghĩa giảm tải thật.

Chương 20 sẽ mở rộng từ giáo viên sang tổ chức học tập: trường học, trung tâm, đại học và doanh nghiệp đào tạo vận hành như hệ thống ra sao; vì sao pilot, change management, implementation science và năng lực tổ chức quyết định công nghệ sống hay chết trong thế giới thật.

Tài liệu tham khảo

Brandão, A., Pedro, L., & Zagalo, N. (2024). Teacher professional development for a future with generative artificial intelligence: An integrative literature review. Digital Education Review, 45, 151-157. https://doi.org/10.1344/der.2024.45.151-157

Darling-Hammond, L., Hyler, M. E., & Gardner, M. (2017). Effective Teacher Professional Development. Learning Policy Institute. https://learningpolicyinstitute.org/product/effective-teacher-professional-development-report

Department for Science, Innovation and Technology & Department for Education. (2024). Teachers to get more trustworthy AI tech, helping them mark homework and save time. GOV.UK. https://www.gov.uk/government/news/teachers-to-get-more-trustworthy-ai-tech-as-generative-tools-learn-from-new-bank-of-lesson-plans-and-curriculums-helping-them-mark-homework-and-save

Desimone, L. M. (2009). Improving impact studies of teachers' professional development: Toward better conceptualizations and measures. Educational Researcher, 38(3), 181-199. https://doi.org/10.3102/0013189X08331140

Education Endowment Foundation. (2024). Can using ChatGPT for lesson planning cut teacher workload? https://educationendowmentfoundation.org.uk/news/can-using-chatgpt-for-lesson-planning-cut-teacher-workload

Frøsig, T. B., & Romero, M. (2024). Teacher agency in the age of generative AI: Towards a framework of hybrid intelligence for learning design. arXiv. https://doi.org/10.48550/arXiv.2407.06655

Mah, D.-K., Groß, N., Egloffstein, M., & Prilop, C. N. (2026). Artificial intelligence in K-12 instruction: The role of teacher professional development. Smart Learning Environments, 13, 16. https://doi.org/10.1186/s40561-026-00442-4

Martinez-Maldonado, R., Echeverria, V., & collaborators. (2025). Co-designing AI-powered learning analytics: Bringing students and teachers together. International Journal of Educational Technology in Higher Education. https://doi.org/10.1186/s41239-025-00572-8

Miao, F., & Cukurova, M. (2024). AI competency framework for teachers. UNESCO. https://www.unesco.org/en/articles/ai-competency-framework-teachers

Mishra, P., & Koehler, M. J. (2006). Technological pedagogical content knowledge: A framework for teacher knowledge. Teachers College Record, 108(6), 1017-1054. https://doi.org/10.1111/j.1467-9620.2006.00684.x

Priestley, M., Biesta, G., & Robinson, S. (2015). Teacher Agency: An Ecological Approach. Bloomsbury Academic.

Roe, J., & Perkins, M. (2024). Generative AI and agency in education: A critical scoping review and thematic analysis. arXiv. https://doi.org/10.48550/arXiv.2411.00631

Royal Society of Chemistry. (2024). 44% of teachers have used AI, but workload remains unchanged. https://www.rsc.org/policy-and-campaigning/education/the-science-teaching-survey/44-of-teachers-have-used-ai-but-workload-remains-unchanged

Shulman, L. S. (1986). Those who understand: Knowledge growth in teaching. Educational Researcher, 15(2), 4-14. https://doi.org/10.3102/0013189X015002004

Tan, X., Cheng, K. S., & Ling, M. H. A. (2025). Artificial intelligence in teaching and teacher professional development: A systematic review. Computers and Education: Artificial Intelligence, 8, 100355. https://doi.org/10.1016/j.caeai.2024.100355

Topali, P., Ortega-Arranz, A., Rodriguez-Triana, M. J., Er, E., Khalil, M., & Akçapınar, G. (2024). Designing human-centered learning analytics and artificial intelligence in education solutions: A systematic literature review. Behaviour & Information Technology. https://doi.org/10.1080/0144929X.2024.2345295

Yang, S., & Appleget, C. (2024). An exploration of preservice teachers' perceptions of Generative AI: Applying the technological Acceptance Model. Journal of Digital Learning in Teacher Education, 40(3), 159-172. https://doi.org/10.1080/21532974.2024.2367573

Chương 20: Tổ chức học tập như hệ thống vận hành

Bối cảnh / Vấn đề

Một công nghệ giáo dục không đi vào lớp học như một vật thể độc lập. Nó đi vào lịch học, ngân sách, hạ tầng mạng, quy chế điểm, quan hệ giáo viên-học sinh, kỳ vọng phụ huynh, năng lực IT, dữ liệu sẵn có, thói quen họp tổ chuyên môn, thời gian chuẩn bị bài, cách lãnh đạo ra quyết định, hợp đồng vendor, và cả những kinh nghiệm thất bại trước đó của nhà trường. Vì vậy, cùng một nền tảng có thể tạo tác động ở một nơi và gây mệt mỏi ở nơi khác. Cùng một chatbot có thể trở thành trợ lý học tập trong một chương trình có hướng dẫn rõ, nhưng thành nguồn gian lận hoặc nhiễu trong một chương trình không có thiết kế đánh giá. Cùng một dashboard có thể giúp cố vấn can thiệp sớm ở đại học, nhưng trở thành thêm một màn hình phải xem ở trường phổ thông nếu không có workflow can thiệp.

Các chương trước đã đi từ công nghệ, học tập, đánh giá, dữ liệu, tương tác người-AI, AI literacy và giáo viên. Chương này đổi cấp phân tích: tổ chức học tập như một hệ thống vận hành. Câu hỏi không phải “công cụ này có tốt không?” mà là “tổ chức nào, với mục tiêu nào, dữ liệu nào, năng lực nào, quy trình nào, văn hóa nào, và cơ chế học hỏi nào có thể làm công cụ này sống được?”. Đây là điểm nhiều dự án EdTech bỏ qua. Họ làm pilot nhỏ, thấy kết quả hoặc phản hồi tích cực, rồi kỳ vọng mở rộng tự nhiên. Nhưng mở rộng không phải nhân bản. Mở rộng là thay đổi hệ thống.

Trong giáo dục, thất bại triển khai thường bị đọc sai. Khi một nền tảng không được dùng, người ta nói giáo viên chống đổi mới. Khi dashboard không tạo tác động, người ta nói dữ liệu chưa đủ. Khi học sinh không học sâu hơn, người ta nói công cụ chưa thông minh. Khi AI tạo thêm việc, người ta nói giáo viên chưa được đào tạo. Những nguyên nhân này có thể đúng một phần, nhưng thường bỏ qua tầng tổ chức. Có thể giáo viên không dùng vì công cụ không khớp lịch dạy. Dashboard không tạo tác động vì không có người chịu trách nhiệm can thiệp. Dữ liệu không đủ vì hệ thống thông tin phân mảnh. AI tạo thêm việc vì tổ chức không bỏ quy trình cũ. Đào tạo không hiệu quả vì chỉ diễn ra một lần, không gắn với nhiệm vụ thật.

Chương 19 đã lập luận rằng giáo viên cần agency, professional development, co-design và workload thật được tính đúng. Nhưng giáo viên không thể tự tạo điều kiện triển khai một mình. Một giáo viên có thể thiết kế tốt trong lớp của mình, nhưng nếu LMS không tích hợp, nếu chính sách dữ liệu không rõ, nếu lãnh đạo chỉ đo số lượt dùng, nếu phụ huynh không được truyền thông, nếu hỗ trợ kỹ thuật chậm, nếu tổ chuyên môn không có thời gian, thì đổi mới sẽ phụ thuộc vào nỗ lực cá nhân. Nỗ lực cá nhân có thể tạo điểm sáng, nhưng không tạo hệ thống bền vững.

Implementation science giúp ta đặt tên cho vấn đề này. Bằng chứng về hiệu quả của một can thiệp không tự chuyển thành kết quả khi triển khai. Giữa “có nghiên cứu ủng hộ” và “có tác động trong trường học này” là một chuỗi công việc: chọn đúng vấn đề, kiểm tra fit, chuẩn bị tổ chức, đào tạo, phân vai, hỗ trợ, đo implementation outcomes, học từ dữ liệu, thích nghi với bối cảnh, giữ fidelity với thành phần cốt lõi, và quyết định mở rộng hay dừng. Ryan, Prieto-Rodriguez, Miller và Gore scoping review năm 2024 về implementation science trong mở rộng can thiệp ở trường học cho thấy lĩnh vực này đang tăng nhưng vẫn ở giai đoạn đầu; nghiên cứu còn phân mảnh, thuật ngữ chưa nhất quán, ít điều tra dài hạn, và cần báo cáo rõ bối cảnh, rào cản, thuận lợi, nhiều implementation outcomes và intervention outcomes (Ryan et al., 2024).

Điểm này rất phù hợp với EdTech và AI. Công cụ càng mạnh, triển khai càng không thể ngẫu hứng. AI đụng đến dữ liệu, quyền riêng tư, đánh giá, agency giáo viên, công bằng, workload và niềm tin. Một trường có thể thử một chatbot trong hai tuần và thấy học sinh thích. Nhưng để đưa chatbot vào chương trình chính thức, cần trả lời hàng loạt câu hỏi: mục tiêu học là gì, người học nào dùng, dữ liệu nào được nhập, giáo viên thấy gì, phụ huynh được thông báo ra sao, khi AI sai thì xử lý thế nào, có phương án thay thế không, đánh giá có thay đổi không, học sinh có phụ thuộc không, ai theo dõi tác động sau ba tháng, và điều kiện nào buộc dừng.

Một bài học từ các dự án triển khai công nghệ là “pilot thành công” thường không chứng minh được khả năng mở rộng. Pilot có thêm người hỗ trợ, giáo viên tình nguyện, học sinh được chú ý hơn, thiết bị được chuẩn bị kỹ hơn, vendor phản hồi nhanh hơn, lãnh đạo quan tâm hơn, và novelty effect làm mọi người hào hứng hơn. Khi mở rộng, những điều kiện đó biến mất. Giáo viên không còn tình nguyện mà bị yêu cầu dùng. Lớp đông hơn. Hạ tầng không đồng đều. IT quá tải. Chính sách phát sinh. Dữ liệu bẩn. Tài khoản lỗi. Tính mới giảm. Nếu pilot không đo điều kiện triển khai, nó chỉ là bằng chứng của một bối cảnh đặc biệt.

Vì vậy, chương này bàn về năm vấn đề. Thứ nhất, các loại tổ chức học tập khác nhau có mục tiêu, dữ liệu, ràng buộc và văn hóa khác nhau. Trường phổ thông, trung tâm học thêm, đại học và doanh nghiệp đào tạo không nên dùng cùng một logic triển khai. Thứ hai, implementation science cung cấp ngôn ngữ để đọc pilot, adoption, fidelity, adaptation và scaling. Thứ ba, hiệu quả EdTech phải được hỏi theo công thức “works for whom, under what conditions”, không đọc như thuộc tính cố định của sản phẩm. Thứ tư, change management nhắc rằng công nghệ mới đụng đến thói quen, quyền lực, ngân sách, niềm tin và trách nhiệm. Thứ năm, hệ sinh thái cần support organisations, research-practice partnerships, evidence intermediaries, standards bodies và cộng đồng thực hành, vì từng trường riêng lẻ khó tự làm hết R&D, procurement, evaluation và capacity building.

Nếu chương 19 đặt giáo viên ở trung tâm, chương 20 đặt giáo viên vào tổ chức. Không phải để làm mờ vai trò của họ, mà để tránh đổ lên họ trách nhiệm mà hệ thống phải cùng gánh.

Nền tảng lý thuyết

Nền tảng đầu tiên là tổ chức học tập như một hệ thống phức hợp. Trường học không hoạt động như dây chuyền sản xuất tuyến tính. Một thay đổi nhỏ trong lịch học có thể ảnh hưởng đến chuyên cần, năng lượng giáo viên, thời gian phản hồi, chất lượng họp tổ, và cách phụ huynh cảm nhận. Một dashboard mới không chỉ thêm dữ liệu; nó thay đổi cuộc họp chuyên môn, quyền ra quyết định, cách học sinh bị nhìn thấy, và kỳ vọng can thiệp. Một công cụ AI viết phản hồi không chỉ tiết kiệm chữ; nó thay đổi quan hệ giữa giáo viên, bài làm và học sinh. Vì vậy, triển khai công nghệ trong giáo dục phải được đọc như thay đổi trong một hệ thống xã hội-kỹ thuật (socio-technical system).

Trong hệ thống phức hợp, nguyên nhân không đơn giản. Công cụ A không tạo kết quả B trong mọi nơi. Công cụ tạo cơ chế nào đó, cơ chế ấy chỉ hoạt động khi bối cảnh cho phép. Realist evaluation gọi đây là logic context-mechanism-outcome: một chương trình hiệu quả khi nó kích hoạt cơ chế phù hợp cho nhóm người phù hợp trong điều kiện phù hợp (Pawson & Tilley, 1997). Công thức thực dụng là: “cái gì hiệu quả, cho ai, trong hoàn cảnh nào, vì sao?”. Với EdTech, câu hỏi này mạnh hơn câu hỏi “công cụ có hiệu quả không?”. Một adaptive practice system có thể hiệu quả cho fluency toán ở lớp 5 khi giáo viên dùng dữ liệu mỗi tuần để dạy lại, nhưng không hiệu quả cho transfer nếu chỉ cho học sinh làm bài một mình. Một chatbot viết có thể giúp sinh viên English as an Additional Language diễn đạt rõ hơn trong bài nghiên cứu, nhưng làm yếu năng lực lập luận nếu được dùng trước khi đọc nguồn. Một AI tutor có thể tăng learning gain trong vật lý đại học khi được thiết kế bởi giảng viên và gắn với active learning, nhưng không chắc chuyển sang môn khác, lứa tuổi khác, hoặc bối cảnh thiếu hỗ trợ.

Nền tảng thứ hai là implementation science. Implementation science nghiên cứu cách đưa thực hành dựa trên bằng chứng vào sử dụng thường xuyên trong bối cảnh thật. Các khung như Active Implementation Frameworks (AIF) nhấn mạnh bốn giai đoạn không tuyến tính: Exploration, Installation, Initial Implementation và Full Implementation; cùng các implementation drivers như competency, organization và leadership (Fixsen et al., 2005; Fixsen et al., 2019). Trong giáo dục, các giai đoạn này giúp tránh một sai lầm phổ biến: mua hoặc thử công cụ trước khi hiểu nhu cầu, readiness và năng lực tổ chức.

Exploration không phải xem demo. Nó là giai đoạn hỏi: vấn đề nào đáng giải quyết, dữ liệu hiện tại nói gì, ai bị ảnh hưởng, giải pháp nào có bằng chứng, công cụ có fit với văn hóa và hạ tầng không, rủi ro dữ liệu là gì, và tổ chức có đủ khả năng triển khai không. Installation không phải gửi tài khoản. Nó là chuẩn bị hạ tầng, chính sách, đào tạo, phân vai, tài liệu, hỗ trợ kỹ thuật, quy trình dữ liệu, tiêu chí đánh giá, và thời gian. Initial Implementation là dùng thật trong phạm vi nhỏ, chấp nhận lỗi, hỗ trợ sát, đo và sửa. Full Implementation là khi thực hành mới được tích hợp vào quy trình thường ngày, không phụ thuộc vào vài cá nhân nhiệt tình.

Nordmark và cộng sự năm 2024 báo cáo một dự án bốn năm triển khai hệ thống tài liệu học số và learning analytics dashboards ở K-12 Thụy Điển, dựa trên implementation science và AIF. Sau hai năm pilot, họ nhấn mạnh vai trò của quan điểm giáo viên, co-design công nghệ theo mục tiêu dạy-học, và bác bỏ ý tưởng “one-size-fits-all” hay giải pháp nhanh trong một năm học. Dự án cũng cho thấy những việc tưởng nền như consent, dữ liệu, bảo mật, lịch workshop, thiết bị, kết nối và đội triển khai địa phương có thể là phần tốn thời gian nhất nhưng quyết định tính bền vững (Nordmark et al., 2024). Đây là một case rất gần với tinh thần chương này: công nghệ không sống nhờ tính năng, mà nhờ năng lực triển khai.

Nền tảng thứ ba là improvement science. Nếu implementation science hỏi làm sao đưa một thực hành vào bối cảnh thật, improvement science hỏi làm sao tổ chức học nhanh và có kỷ luật từ thay đổi nhỏ. Bryk và cộng sự mô tả tư duy “learning to improve”: xác định vấn đề cụ thể, hiểu hệ thống tạo ra vấn đề, xây lý thuyết cải tiến, đo lường để học, thử thay đổi qua các chu kỳ nhỏ, và kết nối nhiều đơn vị trong networked improvement communities để tăng tốc học hỏi (Bryk et al., 2015). Trong EdTech, improvement science giúp tránh hai cực đoan: một bên là triển khai đại trà quá sớm; bên kia là pilot mãi không học được gì chung. Thay đổi nhỏ có đo lường tốt có thể tạo tri thức triển khai tốt hơn nhiều so với demo lớn nhưng không có vòng học.

Nền tảng thứ tư là diffusion of innovations và change management. Rogers cho thấy đổi mới lan truyền qua nhận thức về lợi thế tương đối, mức tương thích, độ phức tạp, khả năng thử nghiệm và khả năng quan sát kết quả (Rogers, 2003). Trong trường học, giáo viên không chỉ hỏi công cụ có hay không. Họ hỏi nó có tốt hơn cách hiện tại không, có khớp mục tiêu của tôi không, có dễ thử không, có làm tôi mất mặt trước lớp không, có ai giúp khi lỗi không, kết quả có thấy được không. Fullan nhấn mạnh thay đổi giáo dục là quá trình xã hội phức tạp, trong đó ý nghĩa của thay đổi phải được xây dựng bởi người tham gia, không thể chỉ truyền xuống từ kế hoạch (Fullan, 2016). AI càng làm điều này rõ hơn: chính sách “hãy dùng AI có trách nhiệm” không tạo thay đổi nếu giáo viên và người học chưa cùng xây nghĩa của “có trách nhiệm” trong hoạt động thật.

Nền tảng thứ năm là evidence-informed practice. Education Endowment Foundation bản hướng dẫn năm 2024 về implementation trong trường học định nghĩa implementation như việc ra và hành động theo các quyết định dựa trên bằng chứng; đồng thời nhấn mạnh bằng chứng không tự tạo cải thiện nếu không có hạ tầng thực hành, thời gian, nguồn lực và tương tác xã hội trong trường (Sharples, Eaton, & Boughelaf, 2024). EEF cũng tổ chức quy trình thành các giai đoạn Explore, Prepare, Deliver và Sustain. Với EdTech, điều này nghĩa là bằng chứng phải đi qua bối cảnh trường, chuyên môn giáo viên và dữ liệu nội bộ, thay vì được dùng như tem marketing.

Nền tảng thứ sáu là human-centred và participatory design ở cấp tổ chức. Chương 19 đã bàn co-design với giáo viên. Ở cấp tổ chức, co-design mở rộng thành stakeholder governance: giáo viên, học sinh, phụ huynh, IT, lãnh đạo, chuyên gia dữ liệu, bộ phận pháp lý, nhà cung cấp, và đôi khi cơ quan quản lý đều có quyền lợi và rủi ro khác nhau. CIRCLS Emerging Technology Adoption Framework cho PK-12 nhấn mạnh việc đưa lãnh đạo, chuyên viên công nghệ, giáo viên, học sinh và gia đình vào ba giai đoạn: initial evaluation, adoption và post-adoption (Ruiz et al., 2022). Điểm quan trọng không phải tên khung, mà là nguyên tắc: procurement và adoption là quá trình cộng đồng, không chỉ là quyết định mua.

Các nền tảng này dẫn đến một quan điểm chung: EdTech không phải “giải pháp” cắm vào tổ chức. Nó là một can thiệp vào hệ thống. Muốn có tác động, tổ chức phải học cách vận hành, thích nghi, đo lường và chịu trách nhiệm.

Các loại tổ chức học tập

Không có “tổ chức giáo dục” chung. Trường phổ thông, trung tâm học thêm, đại học, doanh nghiệp đào tạo, nền tảng trực tuyến đại chúng, tổ chức phi lợi nhuận và cơ quan quản lý giáo dục có mục tiêu và ràng buộc khác nhau. Nếu thiết kế và triển khai AI như nhau cho tất cả, ta sẽ bỏ qua điều kiện tạo tác động.

Trường phổ thông là tổ chức vừa dạy kiến thức, vừa chăm sóc xã hội, vừa thực hiện nghĩa vụ công. Người học thường là trẻ em và vị thành niên, dữ liệu nhạy cảm, phụ huynh có vai trò lớn, chương trình và đánh giá bị quản lý chặt, giáo viên chịu workload cao, ngân sách hạn chế, và công bằng là yêu cầu trung tâm. Trong trường phổ thông, AI không thể chỉ được đánh giá bằng learning gain ngắn hạn. Nó phải được đánh giá bằng an toàn dữ liệu, phù hợp lứa tuổi, tác động đến quan hệ lớp học, khả năng hỗ trợ giáo viên, accessibility, fairness, và khả năng vận hành trong lịch học dày. Một chatbot có thể rất hữu ích cho luyện viết, nhưng nếu học sinh dưới 13 tuổi dùng tài khoản cá nhân không rõ dữ liệu, trường đã tạo rủi ro vượt quá lợi ích.

Trường phổ thông cũng có đặc điểm là thay đổi phải đi qua tập thể giáo viên. Một giáo viên tiên phong có thể tạo hoạt động tốt, nhưng học sinh đi qua nhiều môn, nhiều giáo viên và nhiều quy định. Nếu môn này cấm AI, môn kia cho dùng tự do, môn khác yêu cầu khai báo nhưng không có mẫu, người học sẽ học luật ngầm chứ không học AI literacy. Vì vậy, triển khai AI ở phổ thông cần tối thiểu một baseline chung: chính sách dữ liệu, hướng dẫn khai báo, hoạt động mẫu theo cấp học, professional development, kênh phụ huynh, và cơ chế hỗ trợ kỹ thuật.

Trung tâm học thêm và tổ chức đào tạo ngoài trường có logic khác. Họ thường bị áp lực kết quả ngắn hạn, sự hài lòng của phụ huynh, giữ chân học viên, lịch linh hoạt, chi phí vận hành và cạnh tranh thị trường. AI ở đây dễ được dùng để tạo nội dung nhanh, cá nhân hóa bài luyện, báo cáo tiến độ, chatbot chăm sóc học viên, hoặc tối ưu lịch học. Lợi thế là tốc độ thử nghiệm nhanh hơn trường công, dữ liệu tập trung hơn, và quy trình có thể thay đổi linh hoạt hơn. Rủi ro là đo lường dễ bị kéo về điểm số ngắn hạn, thời lượng học, tỷ lệ tái đăng ký và marketing. Nếu không có chuẩn sư phạm, AI có thể làm drill dày hơn, báo cáo đẹp hơn, nhưng không tạo hiểu sâu.

Với trung tâm, câu hỏi triển khai nên là: AI có giúp giáo viên thấy lỗi học viên rõ hơn không, có giúp phụ huynh hiểu tiến bộ thật không, có giảm chênh lệch hỗ trợ giữa học viên trả gói khác nhau không, có giữ được chất lượng khi mở rộng không, và có tránh biến học tập thành tối ưu retention không. Một trung tâm dùng AI nghiêm túc cần định nghĩa learning outcomes vượt qua “làm thêm nhiều bài”, có rubric chất lượng feedback, audit nội dung, và training giáo viên theo mục tiêu học chứ không chỉ theo sales promise.

Đại học lại có ràng buộc khác. Người học trưởng thành hơn, tự chủ hơn, nhưng nhiệm vụ học phức tạp hơn: nghiên cứu, viết học thuật, lab, studio, seminar, internship, chuyên môn nghề nghiệp, academic integrity và chuẩn ngành. Đại học có nhiều quyền tự chủ học thuật, nhưng cũng phân mảnh mạnh theo khoa, môn, giảng viên, hệ thống LMS, thư viện, phòng khảo thí, trung tâm hỗ trợ học tập và quy chế. AI trong đại học chạm trực tiếp vào đánh giá, nghiên cứu, xuất bản, đạo văn, năng lực nghề và chuẩn kiểm định.

Triển khai AI ở đại học không thể chỉ ban hành chính sách từ trung tâm. Một khoa Luật cần quy định khác khoa Mỹ thuật, khoa Y, khoa Kỹ thuật, khoa Ngôn ngữ hay khoa Kinh doanh. Có bài cần cấm AI để đo năng lực độc lập. Có bài cần cho AI để đo năng lực nghề nghiệp trong môi trường có công cụ. Có bài cần oral defense. Có bài cần process portfolio. Đại học cần một khung chung về integrity, dữ liệu và disclosure, nhưng phải cho phép từng ngành cụ thể hóa. Nếu không, chính sách sẽ hoặc quá chung, hoặc quá cứng.

Doanh nghiệp đào tạo và learning and development trong tổ chức có logic khác nữa. Mục tiêu thường gắn với năng lực công việc, hiệu suất, compliance, onboarding, reskilling, knowledge management và chuyển giao vào hành vi. Người học là nhân viên có thời gian hạn chế. Dữ liệu học tập có thể liên quan đến đánh giá hiệu suất, thăng tiến hoặc rủi ro pháp lý. AI có thể hỗ trợ tạo microlearning, job aids, simulation, coaching, search tri thức nội bộ, phân tích skill gaps, và cá nhân hóa lộ trình. Nhưng rủi ro là học tập bị đồng nhất với productivity, dữ liệu học tập bị dùng để giám sát nhân viên, và nội dung AI không khớp thực hành công việc.

Trong doanh nghiệp, hiệu quả AI training không nên đo chỉ bằng completion rate hay quiz. Cần đo transfer vào công việc, giảm lỗi, tăng chất lượng quyết định, giảm thời gian onboarding, an toàn, compliance thật, và phản hồi từ quản lý trực tiếp. Một AI coach cho nhân viên bán hàng có thể cải thiện rehearsal, nhưng nếu script không phù hợp văn hóa khách hàng hoặc bị dùng để theo dõi từng câu nói, nó có thể gây phản tác dụng. Một enterprise knowledge chatbot có thể tiết kiệm thời gian tìm tài liệu, nhưng nếu tri thức nội bộ lỗi thời, chatbot chỉ phân phối lỗi nhanh hơn.

Nền tảng học trực tuyến quy mô lớn, như MOOC hoặc app tự học, có một cấu trúc khác: ít quan hệ trực tiếp, nhiều dữ liệu hành vi, chi phí biên thấp, khả năng A/B testing cao, nhưng retention thấp và transfer khó kiểm chứng. AI có thể giúp tutoring, feedback, community moderation và personalization. Tuy nhiên, tổ chức loại này cần đặc biệt chú ý đến metric trap. Nếu tối ưu completion, hệ thống có thể làm bài dễ hơn. Nếu tối ưu engagement, nó có thể kéo dài thời gian màn hình. Nếu tối ưu conversion, nó có thể làm giáo dục bị kéo về growth funnel. Một nền tảng học trực tuyến nghiêm túc cần tách metric vận hành khỏi metric học tập: số lượt quay lại không thay thế được delayed transfer.

Tổ chức phi lợi nhuận và dự án phát triển giáo dục thường có mục tiêu công bằng, tiếp cận, vùng khó khăn, người học yếu thế hoặc hệ thống công. Họ có thể đóng vai trò quan trọng trong thử nghiệm và hỗ trợ triển khai, nhưng cũng đối mặt với ràng buộc tài trợ ngắn hạn, đo lường theo donor, và nguy cơ dự án kết thúc khi funding kết thúc. AI trong bối cảnh này phải được thiết kế cho sustainability: ai vận hành sau dự án, dữ liệu ở đâu, giáo viên địa phương có năng lực tiếp tục không, chi phí license năm sau thế nào, có bản offline không, có phù hợp ngôn ngữ địa phương không.

Cuối cùng là cơ quan quản lý và hệ thống giáo dục cấp vùng/quốc gia. Họ không trực tiếp dạy từng bài, nhưng quyết định chuẩn dữ liệu, procurement, chính sách quyền riêng tư, khung năng lực, hạ tầng, funding, đánh giá và quy mô. Nếu cấp hệ thống mua một nền tảng AI chung mà không có pilot, local adaptation và quyền phản hồi của trường, rủi ro rất lớn. Ngược lại, nếu cấp hệ thống chỉ để từng trường tự lo, bất bình đẳng sẽ tăng. Vai trò đúng của cấp hệ thống là tạo chuẩn bảo vệ, hạ tầng chung, nguồn lực hỗ trợ, dữ liệu liên thông, danh mục công cụ được kiểm định, và không gian cho địa phương hóa.

Sự khác nhau giữa các tổ chức dẫn đến một nguyên tắc: không đánh giá AI bằng cùng một bộ tiêu chí phẳng. Cùng là chatbot, ở tiểu học cần age-appropriateness và phụ huynh; ở đại học cần academic integrity; ở doanh nghiệp cần bảo mật tri thức nội bộ; ở nền tảng mở cần moderation và scale; ở trung tâm cần tránh tối ưu retention thay học tập. Công nghệ giống nhau, nhưng hệ thống vận hành khác nhau.

Implementation Science

Implementation science đưa vào EdTech một kỷ luật thường thiếu: phân biệt innovation outcomes, implementation outcomes và learning outcomes. Một công cụ có thể được triển khai đúng nhưng không cải thiện học tập vì lý thuyết sư phạm sai. Một công cụ có thể có lý thuyết tốt nhưng không tạo tác động vì triển khai kém. Một công cụ có thể cải thiện điểm ở nhóm nhỏ nhưng không mở rộng vì thiếu hạ tầng. Nếu không phân biệt các tầng này, tổ chức sẽ không biết sửa cái gì.

Innovation outcomes trả lời: công cụ hoặc can thiệp có thiết kế đúng không, tính năng có hoạt động không, nội dung có đúng không, UX có dùng được không. Implementation outcomes trả lời: công cụ có được chấp nhận không, được dùng đến đâu, dùng có fidelity không, có phù hợp bối cảnh không, chi phí ra sao, có bền vững không, có mở rộng được không. Learning outcomes trả lời: người học có hiểu sâu hơn, nhớ lâu hơn, transfer tốt hơn, tự điều chỉnh tốt hơn, hoàn thành tốt hơn, hoặc wellbeing tốt hơn không. Một báo cáo EdTech nghiêm túc phải có cả ba, không chỉ learning gain hoặc usage.

Pilot nên được thiết kế để học về cả ba tầng. Một pilot tệ hỏi: “người dùng có thích không?”. Một pilot tốt hỏi: vấn đề ban đầu là gì; công cụ kích hoạt cơ chế học nào; ai dùng; dùng khi nào; giáo viên cần hỗ trợ gì; dữ liệu có đủ không; lỗi nào xuất hiện; workload thay đổi ra sao; nhóm nào hưởng lợi; nhóm nào gặp rào cản; điều kiện nào cần để mở rộng; nếu dừng thì vì sao. Pilot không phải buổi trình diễn nhỏ. Nó là một thí nghiệm triển khai có trách nhiệm.

Giai đoạn Exploration nên bắt đầu bằng problem diagnosis. Ví dụ, trường nói muốn mua AI tutor vì “học sinh yếu toán”. Nhưng chẩn đoán có thể cho thấy vấn đề không phải thiếu giải thích, mà là học sinh không luyện truy hồi, giáo viên không có dữ liệu lỗi kịp thời, bài tập về nhà không được làm vì thiếu thiết bị, hoặc chương trình chạy quá nhanh. Nếu nguyên nhân là thiếu thiết bị ở nhà, AI tutor online không giải quyết. Nếu nguyên nhân là thiếu feedback trong lớp, một công cụ phân tích lỗi cho giáo viên có thể phù hợp hơn. Nếu nguyên nhân là anxiety và mất niềm tin, cần hỗ trợ quan hệ, không chỉ bài luyện.

Exploration cũng cần fit assessment. Fit gồm nhiều lớp: mục tiêu học, chương trình, age, ngôn ngữ, dữ liệu, thiết bị, bandwidth, thời gian giáo viên, luật riêng tư, chính sách đánh giá, văn hóa lớp, phụ huynh, và chi phí. CIRCLS framework đặt initial evaluation như giai đoạn hỏi nhiều stakeholder trước khi adoption (Ruiz et al., 2022). Với AI, fit assessment nên thêm câu hỏi: mô hình dùng dữ liệu gì, có lưu prompt không, có dùng dữ liệu học sinh để huấn luyện không, có hỗ trợ ngôn ngữ địa phương không, có human override không, có audit log không, có giải thích giới hạn không, và có thể xuất dữ liệu khi rời vendor không.

Giai đoạn Installation là nơi nhiều dự án thất bại dù chưa “triển khai” theo nghĩa lớp học. Installation gồm thiết lập tài khoản, tích hợp LMS/SIS, phân quyền, consent, chính sách dữ liệu, chuẩn khai báo, tài liệu hướng dẫn, lịch training, helpdesk, quy trình xử lý lỗi, baseline data, và tiêu chí đo. Nếu bỏ qua, Initial Implementation sẽ biến thành chữa cháy. Nordmark và cộng sự cho thấy trong dự án Thụy Điển, những việc như data collection, data sharing, storage, consent nhiều ngôn ngữ, GDPR, hệ thống tự động upload dữ liệu và đội triển khai địa phương tốn nhiều thời gian nhưng là bước cốt lõi (Nordmark et al., 2024).

Initial Implementation là giai đoạn dễ lộn xộn. Người dùng gặp lỗi. Giả định sai lộ ra. Giáo viên cần hỗ trợ gần hơn dự kiến. Học sinh dùng công cụ theo cách không lường trước. Dữ liệu thiếu. Phụ huynh hỏi. Vendor cần sửa. Đây không phải dấu hiệu thất bại, mà là bản chất của triển khai thật. AIF nhấn mạnh các giai đoạn không tuyến tính và có thể cần quay lại hoạt động trước đó khi đánh giá cho thấy vấn đề (Fixsen et al., 2019). Tổ chức triển khai tốt không cố che lỗi; họ tạo vòng học nhanh.

Full Implementation chỉ nên được công bố khi thực hành mới không còn phụ thuộc vào nhóm dự án đặc biệt. Giáo viên mới vào trường được onboarding. Tài liệu được cập nhật. Dữ liệu ổn định. Hỗ trợ kỹ thuật có SLA rõ. Quy trình can thiệp nằm trong lịch làm việc. Chính sách được hiểu. Tác động được theo dõi. Chi phí nằm trong ngân sách thường xuyên. Nếu chỉ có vài giáo viên tiên phong dùng tốt, đó chưa phải full implementation.

Fidelity và adaptation là cặp khái niệm rất quan trọng. Fidelity nghĩa là giữ các thành phần cốt lõi của can thiệp. Adaptation nghĩa là điều chỉnh cho phù hợp bối cảnh. Trong EdTech, nếu không giữ fidelity, công cụ có thể bị dùng sai cơ chế học. Một AI tutor thiết kế theo scaffold có thể bị dùng như máy cho đáp án. Một formative assessment platform có thể bị dùng như bài kiểm tra điểm số. Một dashboard can thiệp sớm có thể bị dùng để xếp hạng lớp. Nhưng nếu không adaptation, công cụ sẽ không khớp địa phương. Một bộ tài liệu tiếng Anh dịch máy sang tiếng Việt, một workflow thiết kế cho lớp 20 học sinh áp vào lớp 45 học sinh, hay một chính sách AI đại học áp vào tiểu học đều có thể thất bại.

Lovett và cộng sự năm 2024, trong bài về adaptation trong chương trình social and emotional learning, cho rằng cần vượt qua cách nhìn fidelity đơn giản để hiểu cảnh quan adaptation của giáo viên (Lovett et al., 2024). Bài học cho EdTech là: không phải mọi adaptation đều là “làm sai”. Có adaptation giữ cơ chế cốt lõi và tăng fit. Có adaptation phá cơ chế. Tổ chức cần phân biệt. Ví dụ, giáo viên thay ví dụ trong AI lesson plan cho phù hợp địa phương là adaptation tốt. Giáo viên bỏ phần self-explanation vì thiếu thời gian trong một bài học mục tiêu reasoning có thể phá cơ chế học.

Một cách thực dụng là xác định “core components” và “adaptable periphery”. Core components là phần phải giữ để can thiệp có cơ chế học. Với spaced repetition, core là lịch truy hồi có khoảng cách và yêu cầu nhớ lại trước khi xem đáp án; periphery là giao diện, ngữ cảnh câu hỏi, thời lượng phiên. Với AI feedback, core có thể là phản hồi theo tiêu chí, cơ hội sửa, và phản tư uptake; periphery là giọng văn, số lượng nhận xét, vị trí trong LMS. Với dashboard can thiệp sớm, core là cảnh báo dẫn đến hành động hỗ trợ có người chịu trách nhiệm; periphery là màu sắc biểu đồ hoặc cách nhóm dữ liệu. Nếu không định nghĩa core, fidelity trở thành “dùng đúng sản phẩm” thay vì “giữ đúng cơ chế”.

Implementation outcomes cần được đo. Proctor và cộng sự trong implementation science thường nêu các outcomes như acceptability, adoption, appropriateness, feasibility, fidelity, cost, penetration và sustainability (Proctor et al., 2011). Trong EdTech, có thể dịch thành: người dùng có chấp nhận không; công cụ có được đưa vào thực hành không; có phù hợp vấn đề không; có khả thi trong lịch và hạ tầng không; có được dùng đúng cơ chế không; chi phí đầy đủ là gì; tỷ lệ lớp/môn dùng ra sao; có bền sau khi dự án kết thúc không. Nếu chỉ đo learning outcomes mà không đo implementation outcomes, ta không biết vì sao kết quả tốt hoặc xấu.

Ryan và cộng sự năm 2024 cho thấy trong nghiên cứu scaling ở trường học, chỉ khoảng hai phần ba nghiên cứu báo cáo implementation outcome, và một phần ba trong số đó chỉ báo cáo một outcome; họ kêu gọi báo cáo nhiều outcomes, bối cảnh, rào cản, thuận lợi và intervention outcomes để vượt qua đo fidelity đơn thuần (Ryan et al., 2024). Với AI education, đây là cảnh báo sớm. Nếu các nghiên cứu và pilot chỉ báo cáo điểm số hoặc satisfaction, hệ thống sẽ học sai.

Implementation science không làm triển khai chậm đi vì quan liêu. Nó làm rõ việc nào phải làm trước để tránh chậm hơn về sau. Một tháng chuẩn bị dữ liệu, policy và support có thể tiết kiệm sáu tháng chữa cháy. Một pilot nhỏ có baseline tốt có thể tránh mua nhầm sản phẩm toàn hệ thống. Một quyết định dừng sớm dựa trên bằng chứng là thành công quản trị, không phải thất bại hình ảnh.

Works For Whom, Under What Conditions

Hiệu quả EdTech không phải thuộc tính cố định của sản phẩm. Nó là quan hệ giữa sản phẩm, người học, giáo viên, môn học, nhiệm vụ, hạ tầng, dữ liệu, thời gian và tổ chức. Vì vậy, một câu hỏi triển khai tốt luôn có dạng: công cụ này hiệu quả cho ai, trong điều kiện nào, qua cơ chế nào, so với baseline nào, với chi phí và rủi ro nào?

Người học khác nhau hưởng lợi khác nhau. Một AI writing assistant có thể giúp người học có ý tưởng nhưng yếu diễn đạt. Nhưng với người học chưa biết lập luận, nó có thể tạo văn bản trơn tru che mất khoảng trống tư duy. Một tutor toán có thể giúp học sinh thiếu fluency luyện tập thêm, nhưng với học sinh đã hiểu, nó có thể nhàm chán nếu không có nhiệm vụ transfer. Một công cụ dịch có thể mở quyền tham gia cho người học đa ngôn ngữ, nhưng cũng có thể làm họ ít luyện ngôn ngữ học thuật nếu không có scaffold. Một dashboard cảnh báo có thể giúp cố vấn phát hiện người học im lặng, nhưng cũng có thể gắn nhãn sai người học nghèo vì dữ liệu online ít.

Môn học khác nhau cần cơ chế khác nhau. Trong toán cơ bản, drill có feedback tức thời có thể hữu ích cho fluency. Trong lịch sử, vấn đề là nguồn, bối cảnh, quan điểm và lập luận, nên AI cần hỗ trợ kiểm chứng và tranh luận, không chỉ trả lời. Trong lập trình, AI có thể giúp debug, nhưng nếu người học nhận code hoàn chỉnh quá sớm, họ mất cơ hội đọc lỗi. Trong nghệ thuật, AI tạo hình có thể mở thử nghiệm, nhưng câu hỏi quyền tác giả và phong cách trở nên trung tâm. Trong y khoa, mô phỏng AI có thể luyện quyết định, nhưng chuẩn an toàn và supervision cao hơn nhiều. Không có thiết kế “AI học tập” chung cho mọi môn.

Giáo viên khác nhau cũng tạo điều kiện khác nhau. Một giáo viên có PCK mạnh có thể dùng AI như cộng sự thiết kế và vẫn kiểm soát chất lượng. Một giáo viên mới có thể bị cuốn theo đầu ra trôi chảy. Một tổ chuyên môn có văn hóa phân tích bài làm sẽ biến dashboard thành cuộc thảo luận học tập. Một tổ chỉ họp để hoàn thành biên bản sẽ biến dashboard thành báo cáo. Nói một công cụ “hiệu quả” mà không nói giáo viên được hỗ trợ thế nào là thiếu một nửa cơ chế.

Hạ tầng và thời gian quyết định nhiều hơn người ta tưởng. Một app adaptive tốt trên giấy sẽ thất bại nếu lớp chỉ có thiết bị chia sẻ, mạng chập chờn, tai nghe thiếu, đăng nhập phức tạp, hoặc giáo viên mất 10 phút đầu giờ xử lý kỹ thuật. Một hệ thống AI feedback có thể hữu ích nếu học sinh có thời gian sửa bài sau phản hồi; nếu chương trình chạy tiếp ngay, feedback chỉ là thông tin chết. Một chatbot hỗ trợ tự học có thể tốt nếu người học có không gian học cá nhân; nếu học sinh ở nhà phải dùng điện thoại chung và không có dữ liệu di động, thiết kế ấy làm tăng bất bình đẳng.

Thời lượng và novelty effect cũng quan trọng. Nhiều nghiên cứu EdTech ngắn hạn đo engagement hoặc điểm ngay sau can thiệp. Nhưng giáo dục quan tâm retention, transfer và thói quen bền. Một công cụ mới có thể tạo hứng thú trong hai tuần đầu. Sau đó, nếu nhiệm vụ nông hoặc workload tăng, tác động giảm. Vì vậy, tổ chức cần đo delayed outcomes, usage sau novelty, và cách công cụ trở thành thói quen hoặc bị bỏ.

Baseline quyết định cách đọc hiệu quả. So AI tutor với không hỗ trợ sẽ dễ có kết quả tích cực. So với giáo viên giỏi dùng formative assessment, kết quả có thể khác. So AI feedback với không feedback khác với so AI feedback với peer feedback có rubric. So dashboard với không dữ liệu khác với so dashboard với cuộc họp tổ chuyên môn phân tích bài làm. Benchmark đúng không nhất thiết là so AI với con người theo nghĩa thi đấu. Benchmark đúng là so với thực hành hiện tại hoặc phương án khả thi tốt nhất trong cùng điều kiện.

Chi phí cũng phải đọc theo điều kiện. License chỉ là một phần. Chi phí đầy đủ gồm thiết bị, tích hợp, training, thời gian giáo viên, hỗ trợ kỹ thuật, bảo mật, data governance, migration, nội dung địa phương hóa, đánh giá tác động, và exit plan. Một công cụ rẻ nhưng cần nhiều giờ giáo viên kiểm tra có thể đắt hơn công cụ đắt nhưng tích hợp tốt và giảm quy trình cũ. Một nền tảng miễn phí có thể trả bằng dữ liệu, lock-in hoặc quảng cáo. Chương 22 sẽ đi sâu vào kinh tế học EdTech, nhưng ở đây cần nhớ: chi phí triển khai là điều kiện hiệu quả.

Tác động phụ phải được tính vào câu hỏi “works”. Một công cụ tăng điểm quiz nhưng làm người học phụ thuộc hint không hẳn là thành công. Một AI writing tool tăng chất lượng văn bản nộp nhưng làm giáo viên không biết năng lực thật của người học là gì. Một dashboard giảm dropout nhưng làm cố vấn giám sát quá mức. Một hệ thống proctoring giảm gian lận bề mặt nhưng tăng lo âu và sai lệch với người học khuyết tật. Hiệu quả giáo dục không thể tách khỏi agency, equity, wellbeing và trust.

Một cách viết câu hỏi đánh giá tốt là:

1. Với nhóm người học nào? 2. Trong môn học và nhiệm vụ nào? 3. Với giáo viên có mức hỗ trợ nào? 4. Trong hạ tầng và chính sách dữ liệu nào? 5. Qua cơ chế học tập nào? 6. So với baseline nào? 7. Trong thời gian bao lâu? 8. Đo outcome nào, ngay sau và trì hoãn? 9. Tác động phụ nào xuất hiện? 10. Chi phí đầy đủ và điều kiện mở rộng là gì?

Ví dụ, thay vì nói “AI tutor cải thiện học toán”, một câu nghiêm túc hơn là: “Trong lớp 6, với học sinh yếu fluency phân số, khi giáo viên dùng báo cáo lỗi mỗi tuần để dạy lại 15 phút, AI tutor có giúp tăng độ chính xác và retention sau bốn tuần so với bài luyện giấy có feedback giáo viên không, và workload giáo viên thay đổi ra sao?”. Câu hỏi dài hơn, nhưng có ích hơn.

Realist evaluation hữu ích vì nó không thất vọng khi kết quả khác nhau giữa bối cảnh. Nó xem heterogeneity là dữ liệu. Nếu công cụ hiệu quả ở trường A nhưng không ở trường B, câu hỏi không phải trường nào “đúng”, mà là cơ chế nào được kích hoạt ở A và bị chặn ở B. Có thể A có tổ chuyên môn tốt hơn. Có thể B thiếu thiết bị. Có thể giáo viên A dùng AI như scaffold, giáo viên B dùng như đáp án. Có thể học sinh A có nền tảng khác. Tri thức triển khai nằm ở khác biệt này.

Đối với AI, câu hỏi “works for whom” còn phải đi vào bias và cultural validity. Một mô hình tạo phản hồi có thể tốt với bài viết tiếng Anh chuẩn, nhưng yếu với người học đa ngôn ngữ. Một speech-to-text có thể tốt với giọng chuẩn nhưng kém với vùng miền. Một tutor có thể tốt với chương trình Mỹ nhưng lệch với chương trình Việt Nam. Một AI detector có thể sai với người học viết tiếng Anh như ngôn ngữ thứ hai. Nếu chỉ báo cáo accuracy trung bình, tổ chức sẽ bỏ qua nhóm chịu rủi ro.

Vì vậy, hiệu quả EdTech cần được đọc như bản đồ điều kiện, không như huy hiệu sản phẩm. Một sản phẩm có thể là “promising” trong một vùng điều kiện, “not ready” trong vùng khác, và “harmful” trong vùng rủi ro cao. Tổ chức trưởng thành không hỏi vendor “sản phẩm có hiệu quả không?”, mà hỏi “bằng chứng của các ông bà nằm ở bối cảnh nào, nhóm người học nào, điều kiện triển khai nào, và chúng tôi cần kiểm thử gì trước khi dùng cho bối cảnh của mình?”.

Change Management

Công nghệ mới đụng đến thói quen, quyền lực, ngân sách, niềm tin và trách nhiệm. Vì vậy, change management trong EdTech không phải truyền thông “sắp có công cụ mới” và tổ chức tập huấn. Nó là quá trình thiết kế điều kiện để con người thay đổi thực hành mà không mất ý nghĩa nghề nghiệp, không bị quá tải, và không bị buộc tin vào hệ thống họ không hiểu.

Thói quen là lực mạnh. Giáo viên đã có cách soạn bài, giao bài, chấm, liên hệ phụ huynh, ghi chú, họp tổ, và xử lý ngoại lệ. Học sinh đã có cách làm bài, hỏi bạn, đối phó deadline, dùng công cụ ngoài trường. Phụ huynh đã có kênh liên lạc quen. Nhân viên IT đã có quy trình xử lý ticket. Lãnh đạo đã có mẫu báo cáo. Một công nghệ mới chen vào các thói quen này. Nếu nó không thay thế cái cũ mà chỉ thêm cái mới, tổ chức sẽ phản ứng bằng cách dùng bề mặt, né tránh hoặc làm song song.

Quyền lực cũng thay đổi. Dashboard có thể làm lãnh đạo nhìn thấy dữ liệu lớp nhanh hơn, nhưng cũng làm giáo viên cảm thấy bị giám sát. AI assessment có thể làm bộ phận khảo thí kiểm soát rubric tốt hơn, nhưng làm giảng viên mất quyền chấm. Chatbot hỗ trợ học sinh có thể chuyển một phần quan hệ học tập từ giáo viên sang nền tảng. Procurement tập trung có thể tiết kiệm chi phí, nhưng làm từng khoa hoặc trường mất quyền chọn. Nếu không nói rõ quyền lực thay đổi thế nào, tổ chức sẽ có kháng cự ngầm.

Ngân sách tạo trade-off. Mua license AI nghĩa là không mua thứ khác, hoặc cần tăng học phí, hoặc cần cắt thời gian hỗ trợ. Một công cụ có thể rẻ trong năm đầu vì khuyến mãi, rồi đắt ở năm ba khi dữ liệu và quy trình đã khóa. Một triển khai nghiêm túc cần ngân sách cho training, support, evaluation và maintenance, không chỉ license. Nếu ngân sách chỉ đủ mua sản phẩm nhưng không đủ triển khai, sản phẩm sẽ bị đổ lỗi cho thất bại mà thật ra lỗi nằm ở thiết kế tài chính.

Niềm tin là tài sản triển khai. Giáo viên cần tin rằng công cụ phục vụ học tập, không phải giám sát họ. Học sinh cần tin rằng dữ liệu của mình không bị dùng bất công. Phụ huynh cần tin rằng nhà trường hiểu rủi ro. Lãnh đạo cần tin rằng giáo viên sẽ dùng phán đoán nghề nghiệp. Vendor cần bị buộc vào trách nhiệm minh bạch. Niềm tin không đến từ khẩu hiệu. Nó đến từ quy trình: tham vấn sớm, giải thích dữ liệu, pilot nhỏ, báo cáo lỗi, quyền phản hồi, quyết định dừng khi cần, và sự nhất quán giữa lời nói với chỉ số đánh giá.

Trách nhiệm phải được phân định. Khi AI đề xuất can thiệp, ai xem? Khi cảnh báo bị bỏ qua, ai chịu trách nhiệm? Khi AI phản hồi sai, ai sửa? Khi học sinh khiếu nại điểm, ai quyết định? Khi dữ liệu bị rò rỉ, ai thông báo? Khi công cụ không đáp ứng accessibility, ai xử lý? Nếu trách nhiệm không rõ, người dùng tuyến đầu thường gánh. Change management tốt phải viết workflow trách nhiệm trước khi mở rộng.

Một mô hình thay đổi thực dụng có thể đi qua sáu bước.

Bước một: tạo narrative vấn đề, không narrative công nghệ. Thay vì “năm nay trường triển khai AI”, hãy nói “chúng ta đang có ba vấn đề: phản hồi đến chậm, học sinh dùng AI không rõ ranh giới, và giáo viên mất nhiều thời gian tạo tài liệu phân hóa. Chúng ta sẽ thử công cụ A để giải quyết phần nào, với tiêu chí rõ”. Con người dễ tham gia hơn khi thấy vấn đề thật.

Bước hai: xác định coalition triển khai. Không chỉ ban giám hiệu và IT. Cần giáo viên ở các mức kinh nghiệm, học sinh, phụ huynh nếu liên quan, nhân viên dữ liệu, người phụ trách pháp lý, hỗ trợ học tập và đại diện môn học. Coalition không phải để mọi người đồng ý ngay, mà để rủi ro được nhìn từ nhiều phía.

Bước ba: giảm tải trước khi thêm việc. Nếu yêu cầu giáo viên thử AI feedback, hãy giảm một loại báo cáo hoặc cho thời gian họp chuyên môn để phân tích. Nếu yêu cầu dùng dashboard, hãy bỏ bảng tính cũ. Nếu yêu cầu học sinh khai báo AI, hãy tạo mẫu đơn giản và tích hợp vào LMS. Không giảm tải, change management biến thành yêu cầu đạo đức với người đã quá tải.

Bước bốn: truyền thông theo nhóm. Giáo viên cần biết workflow và quyền phán đoán. Học sinh cần biết ranh giới sử dụng và quyền dữ liệu. Phụ huynh cần biết mục tiêu, an toàn và cách hỗ trợ ở nhà. IT cần biết integration và support. Lãnh đạo cần biết chỉ số nào nên xem và chỉ số nào không nên dùng để phạt. Một email chung không đủ.

Bước năm: tạo feedback loop. Mỗi triển khai cần kênh báo lỗi kỹ thuật, lỗi sư phạm, lỗi dữ liệu, rủi ro đạo đức và workload. Feedback phải có người đọc, thời hạn phản hồi và log quyết định. Nếu giáo viên báo vấn đề mà không thấy gì thay đổi, họ sẽ ngừng báo.

Bước sáu: củng cố bằng thay đổi cấu trúc. Nếu pilot thành công, tổ chức phải cập nhật lịch họp, tài liệu onboarding, chính sách dữ liệu, ngân sách, vai trò hỗ trợ, rubric, và quy trình đánh giá. Nếu không, thay đổi sống nhờ ký ức của nhóm pilot và biến mất khi người đó rời đi.

Change management cũng cần chống “initiative fatigue”. Trường học thường bị nhiều sáng kiến cùng lúc: chương trình mới, kiểm tra mới, LMS mới, chính sách AI, an toàn dữ liệu, đổi lịch, dự án kỹ năng số. Mỗi sáng kiến có lý riêng, nhưng tổng lại làm tổ chức mất năng lượng. Lãnh đạo cần có danh mục thay đổi: cái gì đang chạy, cái gì dừng, cái gì ưu tiên, cái gì chờ. Một triển khai AI có trách nhiệm có thể bắt đầu bằng câu: “Chúng ta sẽ không thêm dự án X trong học kỳ này để tập trung vào Y”.

Một điểm khó là xử lý sự khác biệt tốc độ adoption. Rogers phân biệt innovators, early adopters, early majority, late majority và laggards (Rogers, 2003). Trong trường học, nhóm tiên phong hữu ích nhưng không đại diện cho tất cả. Nhóm thận trọng không nhất thiết chống đổi mới; họ có thể nhìn rủi ro mà nhóm tiên phong bỏ qua. Change management tốt dùng nhóm tiên phong để học nhanh, nhưng lắng nghe nhóm thận trọng để thiết kế mở rộng thực tế. Nếu tổ chức chỉ tôn vinh người dùng nhiều nhất, nó sẽ làm phần còn lại im lặng.

Với AI, change management còn phải tính tốc độ thay đổi của chính công cụ. Một chính sách viết cho phiên bản chatbot năm nay có thể lỗi thời năm sau. Vì vậy, chính sách nên dựa trên nguyên tắc và điều kiện sử dụng hơn là tên công cụ. Professional development nên dạy workflow và phán đoán hơn là nút bấm. Procurement nên có điều khoản cập nhật, audit và exit. Tổ chức cần năng lực thích nghi liên tục, không chỉ một kế hoạch triển khai.

Support Organisations và Ecosystem Builders

Từng trường riêng lẻ khó tự làm hết mọi việc cần cho EdTech và AI: đọc nghiên cứu, kiểm định vendor, viết chính sách dữ liệu, thiết kế PD, xây chuẩn interoperability, đo tác động, audit bias, hỗ trợ kỹ thuật, tạo cộng đồng thực hành, và thương lượng hợp đồng. Vì vậy, hệ sinh thái cần các tổ chức hỗ trợ và ecosystem builders. Đây là tầng trung gian giữa nhà trường, nghiên cứu, thị trường và chính sách.

Support organisations có thể là trường nghiên cứu, tổ chức phi lợi nhuận, trung tâm đổi mới giáo dục, viện nghiên cứu, mạng lưới trường, hiệp hội nghề nghiệp, cơ quan kiểm định, tổ chức chuẩn dữ liệu, hoặc đơn vị hỗ trợ công nghệ của hệ thống. Vai trò của họ không phải bán giải pháp nhanh. Vai trò là giúp tổ chức học tập đặt câu hỏi đúng, dùng bằng chứng đúng, triển khai có kỷ luật, và chia sẻ bài học giữa bối cảnh.

Research-practice partnerships (RPPs) là một mô hình quan trọng. RPP đưa nhà nghiên cứu và người thực hành vào quan hệ dài hạn để cùng xác định vấn đề, thiết kế nghiên cứu, diễn giải dữ liệu và cải thiện thực hành. Arce-Trigatti, Henrick, Schmidt và Wright năm 2024 nhấn mạnh RPP có thể hỗ trợ cải thiện giáo dục và chuyển đổi công bằng vì chúng đưa nhiều khu vực cùng làm việc với nghiên cứu để giải quyết thách thức phức tạp và bất bình đẳng dai dẳng (Arce-Trigatti et al., 2024). Trong EdTech AI, RPP có thể giúp tránh cả hai lỗi: nghiên cứu xa lớp học và triển khai không có bằng chứng.

Networked improvement communities (NICs) là một mô hình khác. NICs kết nối nhiều trường hoặc tổ chức quanh một vấn đề thực hành chung, dùng improvement science và chu kỳ thử nhỏ để học nhanh hơn. Bộ Giáo dục Hoa Kỳ mô tả NICs như cách tận dụng chuyên môn và quan hệ giữa nhà nghiên cứu và người thực hành, thử can thiệp trong chu kỳ nhanh, truyền thông kết quả trong mạng lưới, và mở rộng tri thức cải tiến (U.S. Department of Education, 2024). Với AI, một NIC có thể cùng thử cách dạy khai báo AI trong bài viết, cách dùng dashboard can thiệp sớm, hoặc cách giảm workload feedback. Mỗi trường thử trong bối cảnh của mình, nhưng dữ liệu và bài học được chia sẻ có cấu trúc.

Evidence intermediaries như EEF, What Works Clearinghouse, Digital Promise, EdTech Evidence Exchange hoặc các tổ chức tương tự đóng vai trò dịch bằng chứng thành hướng dẫn có thể dùng. Tuy nhiên, evidence intermediary tốt không chỉ nói “công cụ nào có bằng chứng”. Họ giúp đọc chất lượng nghiên cứu, bối cảnh, chi phí, implementation requirements, và rủi ro. Trong AI education, vai trò này càng quan trọng vì thị trường thay đổi nhanh và nhiều claim khó kiểm chứng.

Standards bodies và interoperability organisations cũng là ecosystem builders. Chương 11 đã bàn về LTI, xAPI, OneRoster và các chuẩn giúp tránh silo. Trong triển khai AI, chuẩn dữ liệu và interoperability quyết định khả năng tích hợp, portability, audit và exit. Nếu dữ liệu học tập bị khóa trong một nền tảng, tổ chức mất quyền học từ dữ liệu của chính mình và khó chuyển vendor. Nếu hệ thống không có chuẩn danh tính, lớp học, lịch, điểm, và nội dung, giáo viên sẽ nhập tay. Support organisations ở tầng chuẩn giúp giảm tải hệ sinh thái, dù người học ít khi nhìn thấy.

EdTech brokers là một dạng trung gian mới cần đọc cẩn thận. Ortegón, Decuypere và Williamson năm 2024 mô tả edtech brokers như các tổ chức đứng giữa ngành EdTech, trường công, trung tâm nghiên cứu và chính phủ, hướng dẫn trường trong procurement và sử dụng sư phạm EdTech; họ có thể định hình lại ranh giới giữa giáo dục công và thị trường EdTech (Ortegón et al., 2024). Broker có thể hữu ích nếu giúp trường đánh giá sản phẩm, đàm phán, triển khai và dùng bằng chứng. Nhưng broker cũng có thể tạo xung đột lợi ích nếu gần vendor hơn trường, hoặc thúc đẩy market logic vào quyết định giáo dục công. Vì vậy, ecosystem builders cần minh bạch về funding, tiêu chí và lợi ích.

Support organisations cũng cần xây capacity địa phương thay vì tạo phụ thuộc. Một đơn vị tư vấn có thể triển khai giúp trường trong năm đầu, nhưng nếu sau đó trường không có đội nội bộ, dự án sẽ yếu. Hỗ trợ tốt thường có nguyên tắc “build, not own”: cùng làm với trường, chuyển giao tài liệu, đào tạo nhóm nòng cốt, tạo routine họp, và giúp trường tự đo. Với AI, điều này nghĩa là trường không chỉ nhận prompt library, mà học cách tự audit prompt, tự đánh giá công cụ, tự cập nhật chính sách và tự thiết kế hoạt động.

Một hệ sinh thái EdTech AI lành mạnh cần ít nhất bảy loại năng lực trung gian:

1. Evidence synthesis: tổng hợp nghiên cứu, chỉ rõ mức chắc chắn, bối cảnh và khoảng trống. 2. Procurement support: giúp trường đặt tiêu chí, hỏi vendor, đọc hợp đồng, tránh lock-in. 3. Data governance support: tư vấn privacy, security, retention, access, consent và audit. 4. Professional learning: thiết kế PD theo môn, vai trò và chu kỳ thực hành. 5. Implementation coaching: hỗ trợ Explore, Prepare, Deliver, Sustain, không chỉ training ban đầu. 6. Evaluation and improvement: giúp đo implementation outcomes, learning outcomes, equity và workload. 7. Community building: tạo mạng lưới chia sẻ bài học, thất bại và tài nguyên.

Nếu thiếu tầng này, từng trường sẽ tự thương lượng với thị trường trong thế yếu. Trường lớn, giàu dữ liệu, có IT mạnh và đội nghiên cứu sẽ tiến nhanh. Trường nhỏ hoặc yếu hạ tầng sẽ phụ thuộc quảng cáo vendor. Khoảng cách hệ thống tăng. Vì vậy, support organisations không phải phần phụ; chúng là hạ tầng công bằng.

Tuy nhiên, hệ sinh thái cũng có rủi ro quá tải trung gian. Quá nhiều khung, chuẩn, hướng dẫn, badge, chứng nhận và mạng lưới có thể làm trường rối. Ryan và cộng sự cảnh báo lĩnh vực implementation science trong trường học đang dùng nhiều công cụ khái niệm phân mảnh, và đề xuất giảm số khung để xây nền nghiên cứu vững hơn (Ryan et al., 2024). Với EdTech AI cũng vậy: tổ chức hỗ trợ cần làm rõ, không làm nhiễu. Một trường đang triển khai AI không cần 15 framework khác nhau. Nó cần một quy trình đủ tốt, người hỗ trợ đủ hiểu, và thời gian học từ thực hành.

Thực trạng triển khai

Thực trạng triển khai EdTech và AI hiện nay có vài mẫu hình lặp lại.

Mẫu hình thứ nhất là pilot nhanh, scale chậm hoặc không scale. Trường hoặc đại học thử một công cụ với nhóm tự nguyện, kết quả ban đầu tích cực, nhưng khi mở rộng thì adoption giảm. Lý do thường là điều kiện pilot không được mô tả: giáo viên tự chọn, hỗ trợ vendor nhiều, lớp ít, thiết bị chuẩn, lãnh đạo chú ý, novelty cao. Khi mở rộng, điều kiện thay đổi. Nếu pilot không tạo implementation playbook, tổ chức không biết nhân rộng cái gì.

Mẫu hình thứ hai là mua trước, học sau. Procurement diễn ra vì ngân sách có hạn sử dụng, áp lực đổi mới, quảng cáo mạnh, hoặc nhu cầu chính trị. Sau khi mua, tổ chức mới hỏi giáo viên sẽ dùng thế nào, dữ liệu tích hợp ra sao, policy cần gì, và outcome đo gì. Cách này tạo lock-in sớm. Đến khi phát hiện không fit, chi phí rời bỏ cao.

Mẫu hình thứ ba là tool sprawl. Trường dùng nhiều nền tảng cho LMS, quiz, video, communication, attendance, AI writing, AI detection, adaptive learning, parent app, dashboard. Mỗi công cụ có tài khoản, dữ liệu, thông báo, chính sách và training riêng. Giáo viên và học sinh chuyển qua lại giữa hệ thống. IT không theo kịp. Dữ liệu phân mảnh. Tool sprawl làm mất năng lượng trước khi nói đến học tập.

Mẫu hình thứ tư là policy lag. Học sinh và giáo viên dùng AI trước khi trường có hướng dẫn. Khi sự cố xảy ra, trường phản ứng bằng cấm hoặc quy định vội. Chính sách đi sau thực hành, nên thiếu tính giáo dục. Một chính sách tốt cần đi trước bằng nguyên tắc, nhưng cũng cần cập nhật từ thực tế.

Mẫu hình thứ năm là data ambition vượt data readiness. Tổ chức muốn learning analytics, predictive models hoặc AI personalization, nhưng dữ liệu nền sai, thiếu, không liên thông hoặc không có governance. Nếu attendance không cập nhật, lớp học không đồng bộ, điểm nhập muộn, hoặc dữ liệu LMS chỉ phản ánh một phần học tập, mô hình dự báo sẽ yếu. AI không sửa dữ liệu bẩn; nó khuếch đại hậu quả của dữ liệu bẩn.

Mẫu hình thứ sáu là professional development quá mỏng. Giáo viên được tập huấn cách dùng công cụ, nhưng không có thời gian thiết kế lại bài học, không được xem dữ liệu học sinh thật, không có coaching, không có cộng đồng, không có follow-up. Sau workshop, người nhiệt tình tự thử, người bận bỏ qua, người lo lắng tránh dùng. Tổ chức nhầm attendance trong training với readiness.

Mẫu hình thứ bảy là đánh giá thiếu tác động dài hạn. Nhiều dự án báo cáo số người dùng, số bài tạo, satisfaction, completion hoặc testimonial. Ít dự án đo delayed learning, transfer, equity, workload tổng thể, sustainability, và tác động ngoài dự kiến. Không có dữ liệu này, tổ chức khó biết nên giữ, sửa hay dừng.

Một số nghiên cứu gần đây cho thấy hướng tốt hơn. Nordmark và cộng sự dùng implementation science, school teams, workshop lặp lại, PDSA cycles và co-design để triển khai tài liệu học số và dashboards ở K-12 Thụy Điển; họ nhấn mạnh việc triển khai không thể là quick fix trong một năm (Nordmark et al., 2024). EEF 2024 cập nhật hướng dẫn implementation để giúp trường coi thay đổi là quá trình xã hội phức tạp, cần Explore, Prepare, Deliver và Sustain (Sharples et al., 2024). CIRCLS framework đặt cộng đồng vào initial evaluation, adoption và post-adoption của công nghệ mới (Ruiz et al., 2022). Những ví dụ này không nói rằng đã có công thức chắc chắn. Chúng cho thấy lĩnh vực đang chuyển từ “mua công cụ” sang “xây năng lực triển khai”.

Với AI, thực trạng còn đang hình thành. Nhiều tổ chức đang thử chatbot, AI writing policy, AI lesson planning, AI feedback, AI detection, content generation và analytics. Nhưng các câu hỏi khó vẫn mở: công cụ nào đủ an toàn cho trẻ em; dữ liệu có được dùng để huấn luyện không; AI detectors có đủ tin không; giáo viên có workload giảm thật không; học sinh yếu thế có được lợi không; chính sách khai báo có được hiểu không; và bằng chứng nào đủ để mở rộng. Đây là thời điểm cần kỷ luật triển khai hơn là tốc độ trình diễn.

Phân tích phản biện

Rủi ro thứ nhất là implementation science bị biến thành thủ tục. Nếu tổ chức chỉ tạo checklist Explore, Prepare, Deliver, Sustain nhưng không thay đổi cách ra quyết định, khung triển khai trở thành giấy tờ. Implementation science không phải mẫu kế hoạch. Nó là kỷ luật học từ bối cảnh, đo đúng thứ, và sửa quyết định.

Rủi ro thứ hai là pilot bị dùng để hợp thức hóa quyết định đã có. Một pilot thật có quyền kết luận “không nên mua”, “chỉ dùng cho nhóm này”, “cần sửa trước”, hoặc “chưa đủ dữ liệu”. Nếu lãnh đạo đã quyết mở rộng từ trước, pilot chỉ là truyền thông. Điều này làm mất niềm tin và làm người dùng ngừng phản hồi thật.

Rủi ro thứ ba là adaptation bị gọi là thiếu fidelity. Giáo viên điều chỉnh công cụ cho phù hợp lớp học có thể bị xem là dùng sai. Nhưng không adaptation thì công cụ không sống. Tổ chức cần phân biệt thành phần cốt lõi và phần có thể điều chỉnh. Nếu không, fidelity trở thành tuân thủ sản phẩm thay vì trung thành với cơ chế học.

Rủi ro thứ tư là dữ liệu triển khai bị dùng để giám sát. Số lượt đăng nhập, số bài tạo, thời gian online, số cảnh báo xử lý có thể giúp cải tiến. Nhưng nếu dùng để xếp hạng giáo viên hoặc trường mà không hiểu bối cảnh, nó phá trust. Dữ liệu implementation nên phục vụ học hỏi, không chỉ accountability.

Rủi ro thứ năm là hệ sinh thái hỗ trợ bị thị trường hóa. Support organisations và brokers có thể giúp trường, nhưng cũng có thể kéo trường về sản phẩm mà họ có quan hệ lợi ích. Minh bạch funding, tiêu chí đánh giá và conflict of interest là điều kiện đạo đức.

Rủi ro thứ sáu là “works for whom” bị dùng như lý do không quyết định. Vì bối cảnh phức tạp, tổ chức có thể trì hoãn mãi. Nhưng thực tế cần quyết định. Cách giải không phải chờ bằng chứng hoàn hảo, mà là quyết định có điều kiện: thử nhỏ, đo đúng, giới hạn rủi ro, mở rộng theo bằng chứng, và dừng khi không đạt tiêu chí.

Rủi ro thứ bảy là change management bị hiểu như quản lý cảm xúc người dùng để họ chấp nhận quyết định. Change management đạo đức không phải làm người dùng bớt phản đối. Nó là thay đổi quyết định khi phản hồi cho thấy rủi ro thật. Nếu mọi phản kháng đều bị gọi là resistance, tổ chức sẽ bỏ qua thông tin quan trọng.

Rủi ro thứ tám là scale được xem là mục tiêu tự thân. Không phải công nghệ nào cũng nên mở rộng toàn hệ thống. Một can thiệp có thể tốt cho một nhóm môn học, một cấp lớp, một nhu cầu cụ thể. Mở rộng quá mức có thể làm loãng chất lượng và tăng rủi ro. Scale đúng đôi khi là scale hẹp nhưng sâu.

Rủi ro cuối cùng là tổ chức quá mê novelty. AI tạo cảm giác phải hành động nhanh. Nhưng giáo dục có trách nhiệm với trẻ em, người học yếu thế, dữ liệu nhạy cảm và cơ hội đời sống. Tốc độ cần đi cùng guardrails. Chậm một chút để hiểu bối cảnh có thể nhanh hơn nhiều so với triển khai vội rồi sửa khủng hoảng.

Nguyên tắc thiết kế

Nguyên tắc thứ nhất: bắt đầu từ vấn đề học tập và vận hành, không bắt đầu từ công cụ. Viết rõ vấn đề, nhóm bị ảnh hưởng, baseline, nguyên nhân giả định và outcome mong muốn trước khi xem demo.

Nguyên tắc thứ hai: phân biệt innovation, implementation và learning outcomes. Đo công cụ có chạy không, triển khai có sống không, và học tập có cải thiện không. Không dùng usage thay cho learning.

Nguyên tắc thứ ba: dùng Explore, Prepare, Deliver, Sustain như vòng học thật. Explore để chọn đúng vấn đề và fit. Prepare để xây readiness. Deliver để thử có hỗ trợ và đo. Sustain để tích hợp vào routine hoặc dừng có lý do.

Nguyên tắc thứ tư: thiết kế pilot như nghiên cứu triển khai nhỏ. Pilot phải có câu hỏi, baseline, tiêu chí thành công, dữ liệu cần thu, nhóm thử, rủi ro, quyền dừng và kế hoạch học. Pilot không chỉ để tạo testimonial.

Nguyên tắc thứ năm: xác định core components và adaptable periphery. Giữ cơ chế học cốt lõi, cho phép địa phương hóa phần ví dụ, workflow, ngôn ngữ, nhịp dùng và hỗ trợ.

Nguyên tắc thứ sáu: hỏi “works for whom, under what conditions” trước khi mở rộng. Phân tích theo người học, môn học, giáo viên, hạ tầng, thời gian, chi phí và tác động phụ.

Nguyên tắc thứ bảy: giảm tool sprawl. Ưu tiên tích hợp, interoperability, chuẩn dữ liệu, tài khoản thống nhất, và exit plan. Một công cụ mới phải thay thế hoặc cải thiện quy trình cũ, không chỉ thêm lớp mới.

Nguyên tắc thứ tám: xây đội triển khai, không giao cho một người nhiệt tình. Đội cần giáo viên, lãnh đạo, IT, dữ liệu, hỗ trợ học tập và đại diện người học khi phù hợp. Vai trò và trách nhiệm phải rõ.

Nguyên tắc thứ chín: cấp thời gian cho professional learning và improvement cycles. Nếu không có thời gian trong lịch làm việc, triển khai sẽ dựa vào lao động ngoài giờ và không bền.

Nguyên tắc thứ mười: giữ dữ liệu triển khai cho học hỏi trước khi dùng cho accountability. Báo cáo usage cần đi kèm bối cảnh, workload và phản hồi định tính. Không xếp hạng bằng chỉ số thô.

Nguyên tắc thứ mười một: thiết kế change management như đối thoại quyền lực. Nói rõ điều gì thay đổi, ai được lợi, ai chịu rủi ro, ai quyết định, ai phản hồi, và điều gì sẽ được bỏ để giảm tải.

Nguyên tắc thứ mười hai: dùng support organisations một cách minh bạch. Tận dụng evidence intermediaries, RPPs, standards bodies và cộng đồng thực hành, nhưng yêu cầu minh bạch lợi ích, phương pháp và tiêu chí.

Nguyên tắc thứ mười ba: chuẩn bị exit và sunset. Mỗi công cụ cần điều kiện dừng, cách xuất dữ liệu, kế hoạch chuyển đổi và truyền thông khi không tiếp tục. Không có exit plan, adoption trở thành lock-in.

Nguyên tắc thứ mười bốn: xem equity là điều kiện triển khai, không phải chỉ outcome. Kiểm tra thiết bị, ngôn ngữ, accessibility, dữ liệu, hỗ trợ gia đình, và nhóm dễ bị rủi ro trước khi mở rộng.

Nguyên tắc thứ mười lăm: xây năng lực R&D liên tục trong tổ chức. Không cần mỗi trường thành viện nghiên cứu, nhưng mỗi tổ chức học tập cần biết đặt giả thuyết, thu dữ liệu vừa đủ, đọc kết quả, sửa thực hành và chia sẻ bài học.

Tổng kết chương

EdTech và AI không thất bại chỉ vì công cụ kém. Chúng thường thất bại vì tổ chức chưa sẵn sàng, vấn đề chưa rõ, dữ liệu chưa sạch, giáo viên chưa được hỗ trợ, workflow chưa được thiết kế, chính sách đi sau, workload tăng, và pilot không tạo tri thức mở rộng. Một tổ chức học tập trưởng thành không xem công nghệ như vật mua về, mà như can thiệp vào hệ thống xã hội-kỹ thuật.

Implementation science giúp ta đọc các giai đoạn Explore, Prepare, Deliver, Sustain; phân biệt adoption, fidelity, adaptation và sustainability; và đo implementation outcomes bên cạnh learning outcomes. Realist thinking nhắc rằng hiệu quả phải được hỏi theo người học, môn học, giáo viên, hạ tầng và thời gian. Change management nhắc rằng công nghệ đụng đến thói quen, quyền lực, ngân sách, niềm tin và trách nhiệm. Support organisations và ecosystem builders giúp từng trường không phải tự đối mặt với thị trường và bằng chứng một mình.

Chương tiếp theo sẽ đi vào một tầng điều kiện còn nhạy hơn: dữ liệu, riêng tư, thiên kiến và chính sách. Nếu chương này hỏi tổ chức vận hành AI như thế nào, chương 21 sẽ hỏi dữ liệu của ai, quyền của ai, rủi ro của ai, và khung quản trị nào cần có để AI trong giáo dục không chỉ hiệu quả mà còn chính đáng.

Tài liệu tham khảo

Arce-Trigatti, P., Henrick, E., Schmidt, D., & Wright, K. (2024). Broadening our understanding of how research-practice partnerships support educational improvement and equitable transformation. Peabody Journal of Education, 99(3), 251-258. https://doi.org/10.1080/0161956X.2024.2358696

Bryk, A. S., Gomez, L. M., Grunow, A., & LeMahieu, P. G. (2015). Learning to Improve: How America's Schools Can Get Better at Getting Better. Harvard Education Press.

Fixsen, D. L., Blase, K. A., Naoom, S. F., & Wallace, F. (2005). Implementation Research: A Synthesis of the Literature. University of South Florida, Louis de la Parte Florida Mental Health Institute.

Fixsen, D. L., Blase, K. A., & Van Dyke, M. K. (2019). Implementation Practice and Science. Active Implementation Research Network.

Fullan, M. (2016). The New Meaning of Educational Change (5th ed.). Teachers College Press.

Lovett, J. M., Schonert-Reichl, K. A., Zinsser, K. M., & Lawlor, M. S. (2024). Beyond fidelity: Unveiling the landscape of teacher adaptation in social and emotional learning programs. Frontiers in Education, 9, 1444588. https://doi.org/10.3389/feduc.2024.1444588

Nordmark, S., Augustsson, H., Davidsson, M., Andersson-Gidlund, T., Holmberg, K., Mohseni, Z. A., Rack, J., & Masiello, I. (2024). Piloting systematic implementation of educational technology in Swedish K-12 schools: Two-years-in report. Global Implementation Research and Applications, 4, 309-323. https://doi.org/10.1007/s43477-024-00130-w

Ortegón, C., Decuypere, M., & Williamson, B. (2024). Mediating educational technologies: Edtech brokering between schools, academia, governance, and industry. Research in Education, 120(1). https://doi.org/10.1177/00345237241242990

Pawson, R., & Tilley, N. (1997). Realistic Evaluation. SAGE.

Proctor, E., Silmere, H., Raghavan, R., Hovmand, P., Aarons, G., Bunger, A., Griffey, R., & Hensley, M. (2011). Outcomes for implementation research: Conceptual distinctions, measurement challenges, and research agenda. Administration and Policy in Mental Health and Mental Health Services Research, 38, 65-76. https://doi.org/10.1007/s10488-010-0319-7

Rogers, E. M. (2003). Diffusion of Innovations (5th ed.). Free Press.

Ruiz, P., Richard, E., Chillmon, C., Shah, Z., Kurth, A., Fekete, A., Glazer, K., Pattenhouse, M., Fusco, J., Fennelly-Atkinson, R., Lin, L., Arriola, S., Lockett, D., Crawford-Meyer, V., Karim, S., Hampton, S., & Beckford, B. (2022). Emerging Technology Adoption Framework: For PK-12 Education. Digital Promise. https://doi.org/10.51388/20.500.12265/161

Ryan, A., Prieto-Rodriguez, E., Miller, A., & Gore, J. (2024). What can implementation science tell us about scaling interventions in school settings? A scoping review. Educational Research Review, 44, 100620. https://doi.org/10.1016/j.edurev.2024.100620

Sharples, J., Eaton, J., & Boughelaf, J. (2024). A School's Guide to Implementation. Education Endowment Foundation. https://educationendowmentfoundation.org.uk/education-evidence/guidance-reports/implementation

U.S. Department of Education. (2024). Networked Improvement Implementation. https://www.ed.gov/teaching-and-administration/lead-and-manage-my-school/state-support-network/cop/networked-improvement-implementation

Chương 21: Dữ liệu, riêng tư, thiên kiến và chính sách

Bối cảnh / Vấn đề

AI trong giáo dục không chạy bằng ý tưởng sư phạm. Nó chạy bằng dữ liệu. Dữ liệu người học, bài làm, điểm số, lịch sử đăng nhập, câu hỏi gửi chatbot, bản ghi âm, video, thời gian làm bài, hành vi click, vị trí trong khóa học, phản hồi của giáo viên, thông tin phụ huynh, tình trạng khuyết tật, cảm xúc suy luận từ khuôn mặt, hoặc hồ sơ can thiệp đều có thể trở thành đầu vào cho hệ thống. Khi dữ liệu được dùng tốt, giáo viên có thể nhìn rõ hơn; người học nhận phản hồi kịp hơn; tổ chức phát hiện lỗ hổng sớm hơn. Khi dữ liệu được dùng kém, giáo dục có thể biến thành giám sát, phân loại, dự đoán và tối ưu hóa hành vi mà người học không hiểu và không có quyền phản biện.

Chương 20 đã bàn về tổ chức học tập như hệ thống vận hành. Nhưng không có vận hành AI nghiêm túc nếu thiếu quản trị dữ liệu. Một trường có thể có kế hoạch triển khai tốt, professional development tốt, pilot tốt, nhưng nếu không biết dữ liệu nào được thu, ai truy cập, lưu bao lâu, dùng lại vào việc gì, chuyển cho vendor nào, có huấn luyện mô hình hay không, và người học có quyền gì, hệ thống vẫn đứng trên nền yếu. Trong giáo dục, dữ liệu không chỉ là tài sản vận hành. Nó là dấu vết đời sống của trẻ em, thanh thiếu niên, sinh viên và giáo viên. Vì vậy, quản trị dữ liệu là quản trị quyền lực.

Điểm khó là dữ liệu giáo dục thường có vẻ vô hại. Một điểm quiz, một lần vắng mặt, một câu hỏi chatbot, một timestamp, một bản nháp, một lượt xem video không giống dữ liệu y tế hay tài chính. Nhưng khi ghép lại, chúng có thể tạo hồ sơ rất sâu về năng lực, thói quen, động lực, hoàn cảnh, ngôn ngữ, quan hệ và rủi ro của người học. Một dashboard có thể biết học sinh nào thường học lúc khuya. Một hệ thống adaptive biết em sai dạng nào. Một chatbot biết em hỏi điều gì khi ngại nói với giáo viên. Một công cụ viết biết bản nháp đầu tiên vụng về ra sao. Một nền tảng quản trị biết phụ huynh nào phản hồi chậm, học sinh nào nộp bài muộn, lớp nào có nhiều cảnh báo. Những mảnh dữ liệu này có thể giúp hỗ trợ, nhưng cũng có thể gắn nhãn, giám sát, thương mại hóa hoặc khóa cơ hội.

AI làm rủi ro tăng vì ba lý do. Thứ nhất, AI cần hoặc hấp thụ nhiều dữ liệu hơn các công cụ số truyền thống. Một LMS lưu bài nộp; một hệ thống AI có thể phân tích bài nộp, tạo đặc trưng, suy luận năng lực, dự đoán rủi ro và dùng dữ liệu để tinh chỉnh mô hình. Thứ hai, AI tạo ra dữ liệu mới: điểm dự báo, mức thành thạo, nhãn cảm xúc, xác suất gian lận, khuyến nghị lộ trình, risk score, hoặc hồ sơ cá nhân hóa. Dữ liệu suy luận này có thể ảnh hưởng đến người học dù họ chưa từng trực tiếp cung cấp nó. Thứ ba, AI làm quyết định có vẻ khách quan hơn. Một giáo viên nói “tôi lo em này đang tụt lại” nghe như phán đoán có thể thảo luận. Một dashboard nói “risk score 0.82” dễ tạo cảm giác chính xác.

Vì vậy, chương này đặt ra một nguyên tắc nền: trong giáo dục, dữ liệu chỉ chính đáng khi nó phục vụ mục tiêu học tập rõ, được thu ở mức cần thiết, được bảo vệ từ kiến trúc, được diễn giải với bối cảnh, có quyền phản biện, và không làm người học mất agency hoặc cơ hội. Privacy không phải phần pháp lý đứng ngoài sư phạm. Bias không phải lỗi kỹ thuật đứng ngoài lớp học. Transparency không phải tài liệu kỹ thuật dài. Contestability không phải nút “liên hệ hỗ trợ”. Những khái niệm này quyết định người học có được đối xử như chủ thể hay như đối tượng dữ liệu.

UNESCO trong hướng dẫn năm 2023 về GenAI trong giáo dục và nghiên cứu nhấn mạnh tiếp cận lấy con người làm trung tâm, bảo vệ dữ liệu, giới hạn độ tuổi phù hợp, và yêu cầu công cụ GenAI phải được xác nhận về đạo đức và sư phạm trước khi dùng rộng trong giáo dục (UNESCO, 2023). UNESCO năm 2025 tiếp tục đặt trọng tâm vào quyền của người học trong kỷ nguyên AI, trong đó quyền tiếp cận, quyền riêng tư, công bằng và bảo vệ khỏi sử dụng dữ liệu có hại là điều kiện cơ bản (UNESCO, 2025). EU AI Act năm 2024 xếp một số hệ thống AI dùng trong giáo dục và đào tạo nghề vào nhóm high-risk, nhất là hệ thống liên quan đến truy cập, tuyển chọn, đánh giá kết quả học tập, định hướng học tập hoặc giám sát hành vi trong đánh giá (European Union, 2024). Những khung này cho thấy AI education không còn là vùng thử nghiệm tự do. Nó đang trở thành vùng quản trị quyền.

Chương này đi qua sáu phần. Privacy by design: thu thập ít nhất có thể, giải thích rõ mục đích, bảo vệ dữ liệu từ kiến trúc. Algorithmic bias: dữ liệu quá khứ có thể tái tạo bất bình đẳng trong dự đoán, chấm điểm và khuyến nghị. Model transparency và contestability: người học và giáo viên cần quyền hiểu, hỏi lại và phản biện quyết định của hệ thống. Age-appropriate AI: công cụ cho trẻ em cần chuẩn khác công cụ cho người lớn, đặc biệt với hội thoại độc lập. Data governance trong trường học: ai sở hữu dữ liệu, ai truy cập, lưu bao lâu, dùng lại vào việc gì. Cuối cùng là regulation và chuẩn quốc tế: UNESCO, OECD, EU, FERPA, GDPR, COPPA và khung nội địa hóa, trong đó có bối cảnh Việt Nam.

Mục tiêu không phải biến giáo viên thành luật sư hay kỹ sư bảo mật. Mục tiêu là đưa ra cách nghĩ đủ rõ để nhà trường, trung tâm, đại học và doanh nghiệp đào tạo biết đặt câu hỏi đúng trước khi dữ liệu người học trở thành nhiên liệu cho hệ thống mà họ không kiểm soát.

Nền tảng lý thuyết

Nền tảng đầu tiên là quyền riêng tư như điều kiện của học tập, không chỉ quyền pháp lý. Học tập cần thử sai, bản nháp, câu hỏi vụng, khoảng im lặng, thay đổi ý kiến, và đôi khi cả những khó khăn cá nhân chưa sẵn sàng công khai. Nếu mọi hành vi học tập đều được ghi, phân tích, dự đoán và lưu trữ lâu dài, người học có thể tự kiểm duyệt. Họ hỏi ít hơn, thử ít hơn, viết bản nháp an toàn hơn, né câu hỏi nhạy cảm hơn, và học cách trình diễn cho hệ thống thay vì học cho mình. Privacy bảo vệ không gian phát triển.

Privacy by design, do Ann Cavoukian phát triển, nhấn mạnh rằng quyền riêng tư phải được tích hợp vào thiết kế hệ thống từ đầu, mặc định bảo vệ người dùng, và không đánh đổi quyền riêng tư lấy chức năng như một lựa chọn sau cùng (Cavoukian, 2009). GDPR sau đó đưa nguyên tắc data protection by design and by default vào Điều 25: tổ chức phải áp dụng biện pháp kỹ thuật và tổ chức phù hợp, như data minimisation, để bảo vệ quyền của chủ thể dữ liệu và chỉ xử lý dữ liệu cần thiết theo mặc định (European Union, 2016). Trong giáo dục, điều này có nghĩa là không thể nói “cứ thu trước, sau này dùng gì tính sau”. Dữ liệu trẻ em và người học phải được thiết kế với giới hạn ngay từ đầu.

Nền tảng thứ hai là công bằng thuật toán (algorithmic fairness). Hệ thống AI học từ dữ liệu quá khứ. Nếu dữ liệu quá khứ phản ánh bất bình đẳng, hệ thống có thể tái tạo hoặc làm cứng bất bình đẳng đó. Một mô hình dự đoán bỏ học học từ dữ liệu nơi học sinh nghèo nghỉ học nhiều hơn có thể gắn rủi ro cao cho nhóm nghèo, nhưng nếu can thiệp đi kèm là hạ kỳ vọng hoặc chuyển sang lộ trình dễ hơn, mô hình làm bất bình đẳng thành tương lai. Một hệ thống chấm viết học từ văn bản của nhóm chuẩn có thể đánh giá thấp người học dùng phương ngữ, tiếng Anh như ngôn ngữ thứ hai, hoặc cách lập luận văn hóa khác. Một AI detector có thể nghi ngờ người viết không bản ngữ vì văn phong đơn giản, như Liang và cộng sự đã cho thấy với GPT detectors: các bộ phát hiện có thiên lệch đáng kể chống lại non-native English writers (Liang et al., 2023).

Bias không chỉ nằm trong mô hình. Nó có thể nằm ở dữ liệu thu thập, nhãn, mục tiêu tối ưu, cách hiển thị kết quả, policy sau dự đoán và người dùng diễn giải. Nếu hệ thống chỉ thu dữ liệu online, người học học offline bị xem là ít tham gia. Nếu “thành công” được định nghĩa là hoàn thành nhanh, người học cần thêm thời gian bị xem là kém. Nếu dashboard tô đỏ học sinh vắng mặt mà không hiển thị lý do gia đình, bệnh tật hoặc đi lại, giáo viên có thể nhìn thiếu bối cảnh. Nếu can thiệp sau cảnh báo chỉ là gửi email nhắc nhở, người học thiếu thiết bị hoặc phải làm thêm không được hỗ trợ thật.

Nền tảng thứ ba là transparency và explainability, nhưng phải hiểu theo người dùng. Một mô hình có thể có tài liệu kỹ thuật, nhưng học sinh, phụ huynh và giáo viên vẫn không hiểu tại sao có quyết định. Transparency trong giáo dục cần trả lời các câu hỏi thực dụng: dữ liệu nào được dùng, hệ thống làm gì với dữ liệu đó, kết quả có ý nghĩa gì, độ chắc chắn ra sao, giới hạn nào, ai xem được, quyết định nào do người làm, quyết định nào do máy gợi ý, và người bị ảnh hưởng có thể làm gì nếu không đồng ý. Explainability không phải lúc nào cũng cần mô tả toán học. Nó cần giải thích đủ để người có quyền lợi có thể hiểu, hành động và phản biện.

Nền tảng thứ tư là contestability. Nếu một hệ thống ảnh hưởng đến điểm, quyền truy cập khóa học, cáo buộc gian lận, phân nhóm năng lực, cảnh báo rủi ro, hỗ trợ đặc biệt hoặc cơ hội học tập, người học và giáo viên cần quyền hỏi lại. Contestability gồm quyền biết có hệ thống tự động tham gia; quyền xem bằng chứng; quyền yêu cầu con người xem lại; quyền bổ sung bối cảnh; quyền sửa dữ liệu sai; quyền khiếu nại; và quyền không bị phạt vì phản biện hợp lý. GDPR Điều 22 đặt giới hạn đối với quyết định hoàn toàn tự động có tác động pháp lý hoặc tương tự đáng kể, và yêu cầu các bảo đảm phù hợp trong một số trường hợp (European Union, 2016). Dù không phải mọi bối cảnh đều chịu GDPR, nguyên tắc giáo dục là rõ: quyết định high-stakes không nên bị đóng trong hộp đen.

Nền tảng thứ năm là age-appropriate design. Trẻ em không phải người lớn nhỏ lại. Chúng khác về năng lực hiểu rủi ro, kiểm soát dữ liệu, bị thuyết phục, phụ thuộc cảm xúc, quyền đồng ý và khả năng phản biện. UNICEF trong policy guidance on AI for children nhấn mạnh AI cho trẻ em phải hỗ trợ phát triển và wellbeing, bảo vệ trẻ khỏi khai thác dữ liệu, bảo đảm inclusion, transparency, accountability và quyền tham gia phù hợp lứa tuổi (UNICEF, 2021). Trong giáo dục, điều này đặc biệt quan trọng với AI hội thoại độc lập. Một chatbot có thể tạo cảm giác thân mật, kiên nhẫn và biết lắng nghe. Với trẻ em, cảm giác này cần ranh giới rõ: hệ thống không phải bạn thân, không phải chuyên gia tâm lý, không phải người giám hộ, và không nên khuyến khích chia sẻ dữ liệu nhạy cảm.

Nền tảng thứ sáu là governance như thực hành tổ chức. NIST AI Risk Management Framework chia quản trị AI thành các chức năng Govern, Map, Measure và Manage: xây cấu trúc quản trị, hiểu bối cảnh và rủi ro, đo rủi ro, và quản lý rủi ro trong vòng đời hệ thống (NIST, 2023). Với trường học, điều này có thể dịch thành: ai chịu trách nhiệm, hệ thống dùng ở đâu, dữ liệu nào, rủi ro nào, đo thế nào, ai giám sát, khi nào dừng. Governance không phải một văn bản chính sách cất trong thư mục. Nó là routine: kiểm tra vendor, phân quyền, audit log, đào tạo người dùng, xử lý sự cố, đánh giá bias, cập nhật consent, và review định kỳ.

Nền tảng cuối cùng là proportionality. Không phải mọi dữ liệu và mọi AI đều có cùng rủi ro. Một công cụ tạo flashcard từ tài liệu công khai khác hệ thống chấm điểm tự động. Một chatbot luyện từ vựng không lưu dữ liệu cá nhân khác chatbot tư vấn wellbeing. Một dashboard tổng hợp lỗi lớp khác mô hình dự đoán từng học sinh bỏ học. Quản trị tốt phải theo mức rủi ro. Nếu mọi công cụ đều bị kiểm soát như high-stakes, đổi mới nghẹt. Nếu mọi công cụ đều được thả như low-risk, người học bị đặt vào nguy cơ. Câu hỏi là: dữ liệu nhạy đến đâu, người học bao nhiêu tuổi, hệ thống ảnh hưởng đến quyết định gì, có tự động hóa không, có con người review không, lỗi có sửa được không, và nhóm yếu thế có chịu rủi ro lớn hơn không.

Từ các nền tảng này, một định nghĩa thực dụng xuất hiện: quản trị dữ liệu và AI trong giáo dục là việc thiết kế quyền, trách nhiệm, giới hạn và cơ chế phản biện quanh dữ liệu học tập, để công nghệ phục vụ học tập mà không biến người học thành hồ sơ bị tối ưu.

Privacy by Design

Privacy by design bắt đầu bằng data minimisation: chỉ thu dữ liệu cần thiết cho mục tiêu đã xác định. Đây là nguyên tắc nghe đơn giản nhưng trái với bản năng của nhiều hệ thống AI. Công nghệ thường muốn thu nhiều dữ liệu vì “sau này có thể hữu ích”. Giáo dục không nên chấp nhận logic đó. Với trẻ em và người học, dữ liệu không phải tài nguyên vô hạn để khai thác. Nó là thông tin về con người đang phát triển.

Data minimisation cần được áp dụng ở từng quyết định thiết kế. Nếu mục tiêu là gợi bài luyện toán tiếp theo, có cần thu vị trí địa lý không? Nếu mục tiêu là tạo feedback bài viết, có cần lưu toàn bộ bản nháp vĩnh viễn không? Nếu mục tiêu là điểm danh, có cần nhận diện khuôn mặt không, hay mã lớp và xác nhận giáo viên đủ? Nếu mục tiêu là phát hiện học sinh cần hỗ trợ, có cần quay video liên tục không, hay dữ liệu chuyên cần và bài nộp đã đủ để bắt đầu cuộc trò chuyện? Nếu mục tiêu là cải thiện bài học, có cần dữ liệu cá nhân hay chỉ cần dữ liệu tổng hợp theo lớp?

Một nguyên tắc thực tế là “purpose first, data second”. Trước khi thu dữ liệu, tổ chức phải viết mục đích: dữ liệu này dùng để làm gì, ai hưởng lợi, quyết định nào sẽ dựa vào nó, có cách ít xâm phạm hơn không, và khi mục đích kết thúc thì dữ liệu được xóa hay ẩn danh ra sao. Nếu không viết được mục đích rõ, không nên thu. GDPR Điều 5 đặt các nguyên tắc như lawfulness, fairness, transparency, purpose limitation, data minimisation, accuracy, storage limitation, integrity and confidentiality, và accountability (European Union, 2016). Dù không phải mọi tổ chức ở Việt Nam chịu GDPR, bộ nguyên tắc này vẫn là chuẩn tham chiếu mạnh cho giáo dục.

Privacy by design cũng yêu cầu privacy by default. Người học không nên mặc định bị đưa vào tracking sâu, chia sẻ dữ liệu với vendor, dùng dữ liệu để huấn luyện mô hình, nhận phân tích cảm xúc, hoặc lưu prompt dài hạn. Nếu một tính năng có rủi ro cao, mặc định nên tắt hoặc yêu cầu phê duyệt rõ. Với trẻ em, mặc định bảo vệ càng quan trọng vì consent thường phức tạp: trẻ có thể không hiểu, phụ huynh có thể không đọc, trường có thể đại diện trong một số trường hợp nhưng không nên biến điều đó thành giấy phép thu mọi thứ.

Privacy by design có năm lớp trong EdTech AI.

Lớp thứ nhất là kiến trúc dữ liệu. Dữ liệu nào nằm trong hệ thống trường, dữ liệu nào gửi sang vendor, dữ liệu nào được mã hóa, dữ liệu nào được tách định danh, dữ liệu nào lưu cục bộ, dữ liệu nào đi qua API? Nếu giáo viên dùng công cụ AI công khai bằng tài khoản cá nhân và dán bài làm học sinh vào, dữ liệu đã vượt khỏi governance của trường. Một kiến trúc tốt cần cung cấp công cụ được phê duyệt, cấu hình không dùng dữ liệu học sinh để huấn luyện ngoài phạm vi hợp đồng, và hướng dẫn rõ dữ liệu nào không được nhập.

Lớp thứ hai là phân quyền. Không phải ai trong trường cũng cần xem mọi dữ liệu. Giáo viên cần dữ liệu lớp mình. Cố vấn cần dữ liệu học sinh mình hỗ trợ. Lãnh đạo cần dữ liệu tổng hợp và chỉ một số trường hợp cá nhân có lý do chính đáng. IT cần quyền vận hành nhưng không nhất thiết quyền đọc nội dung học tập. Vendor cần quyền tối thiểu để cung cấp dịch vụ. Role-based access control không phải chi tiết kỹ thuật; nó là bảo vệ phẩm giá người học.

Lớp thứ ba là retention. Dữ liệu không nên sống mãi. Bản nháp bài viết lớp 8, câu hỏi ngây ngô gửi chatbot, điểm quiz thấp, cảnh báo rủi ro tạm thời, dữ liệu cảm xúc hoặc audio luyện nói không nên trở thành hồ sơ dài hạn không rõ mục đích. Tổ chức cần retention schedule: loại dữ liệu nào lưu bao lâu, vì sao, ai phê duyệt kéo dài, khi nào xóa, khi nào ẩn danh, khi học sinh rời trường thì sao. Storage limitation là một nguyên tắc đạo đức vì con người cần quyền thay đổi.

Lớp thứ tư là security. Privacy không tồn tại nếu bảo mật yếu. Trường học thường có nhiều tài khoản, thiết bị chung, mật khẩu yếu, nhân sự thay đổi, vendor phụ và bảng tính xuất ra ngoài hệ thống. AI làm dữ liệu hấp dẫn hơn vì dữ liệu học tập có thể dùng để huấn luyện, phân tích và thương mại hóa. Security cần gồm xác thực mạnh, quản lý tài khoản, audit log, mã hóa, backup, incident response, quy trình khóa tài khoản cũ, kiểm tra vendor, và đào tạo người dùng. Một vụ rò rỉ dữ liệu học sinh có thể phá niềm tin nhanh hơn mọi lợi ích công nghệ.

Lớp thứ năm là user-facing explanation. Privacy policy dài không đủ. Học sinh, phụ huynh và giáo viên cần bản giải thích ngắn: công cụ thu gì, dùng để làm gì, ai xem, lưu bao lâu, có dùng để huấn luyện AI không, có chia sẻ với ai không, quyền từ chối hoặc lựa chọn thay thế ra sao, và liên hệ ai khi có câu hỏi. Với trẻ em, giải thích cần phù hợp lứa tuổi. Một biểu tượng hoặc thông báo trong lúc dùng công cụ có thể quan trọng hơn tài liệu pháp lý dài.

Một ví dụ: trường muốn dùng AI feedback cho bài viết. Privacy by design sẽ hỏi: bài viết có chứa thông tin cá nhân không; hệ thống có cần tên học sinh không hay chỉ cần mã ẩn danh; vendor có lưu bài viết không; bài viết có dùng để huấn luyện mô hình không; giáo viên có thể xóa dữ liệu không; học sinh có biết feedback được AI hỗ trợ không; bản nháp được lưu bao lâu; phụ huynh có cần thông báo không; có phương án cho học sinh không muốn dữ liệu đi ra ngoài không; hệ thống có log ai xem bài không. Nếu những câu hỏi này chỉ được đặt sau khi công cụ đã dùng, privacy đã bị thiết kế muộn.

Privacy by design không có nghĩa không dùng dữ liệu. Nó có nghĩa dùng dữ liệu có giới hạn và mục đích. Một trường không dùng dữ liệu nào có thể bỏ lỡ học sinh cần hỗ trợ. Nhưng một trường thu mọi thứ có thể biến hỗ trợ thành giám sát. Điểm cân bằng nằm ở proportionality: dữ liệu đủ để hành động giáo dục, không nhiều đến mức tạo hồ sơ toàn diện không cần thiết.

Một nguyên tắc hay là “progressive data use”. Bắt đầu bằng dữ liệu ít nhạy cảm và tổng hợp. Chỉ tăng mức chi tiết khi có mục tiêu rõ, lợi ích đủ lớn, rủi ro được kiểm soát và có human review. Ví dụ, để cải thiện bài học, dữ liệu lỗi theo lớp có thể đủ. Chỉ khi cần hỗ trợ cá nhân mới xem dữ liệu từng học sinh. Với wellbeing, không nên bắt đầu bằng phân tích khuôn mặt hoặc giọng nói; có thể bắt đầu bằng kênh tự báo cáo tự nguyện, check-in của giáo viên, và quy trình hỗ trợ.

Cuối cùng, privacy by design phải đi cùng “no hidden secondary use”. Dữ liệu thu để phản hồi học tập không nên âm thầm dùng để marketing, huấn luyện sản phẩm thương mại, đánh giá giáo viên, phân loại rủi ro kỷ luật hoặc bán chéo dịch vụ. Secondary use là nơi niềm tin bị phá. Nếu muốn dùng lại dữ liệu cho mục đích mới, tổ chức cần đánh giá lại rủi ro, thông báo, và trong nhiều trường hợp cần consent mới.

Algorithmic Bias

Algorithmic bias trong giáo dục nguy hiểm vì nó thường được che bằng ngôn ngữ khách quan. Điểm số, xác suất, recommendation và classification nhìn có vẻ trung tính hơn phán đoán con người. Nhưng chúng được tạo từ dữ liệu, nhãn, mục tiêu và thiết kế. Nếu dữ liệu và thiết kế mang bất bình đẳng, kết quả sẽ mang bất bình đẳng, đôi khi ở quy mô lớn hơn và khó thấy hơn.

Bias có thể xuất hiện ở năm điểm.

Điểm thứ nhất là sampling bias. Dữ liệu huấn luyện không đại diện cho người học thật. Một mô hình luyện nói được huấn luyện nhiều trên giọng chuẩn sẽ kém với vùng miền. Một công cụ viết được thử chủ yếu với sinh viên đại học bản ngữ sẽ kém với học sinh phổ thông hoặc người học tiếng Anh như ngôn ngữ thứ hai. Một dashboard được phát triển từ dữ liệu trường đô thị có thể sai với vùng nông thôn. Khi sản phẩm mở rộng, nhóm ít được đại diện trở thành nhóm chịu lỗi.

Điểm thứ hai là measurement bias. Dữ liệu đo không đúng năng lực cần đo. Thời gian online không đo nỗ lực nếu học sinh tải tài liệu về đọc offline. Số lượt phát biểu không đo tham gia nếu văn hóa lớp khiến một số em ít nói. Tốc độ trả lời không đo hiểu sâu nếu người học cần thêm thời gian vì disability hoặc ngôn ngữ. Điểm quiz gần với bài luyện không đo transfer. Nếu proxy sai, AI tối ưu sai.

Điểm thứ ba là label bias. Nhãn trong dữ liệu quá khứ có thiên kiến. Điểm giáo viên, nhận xét kỷ luật, nhãn “học sinh yếu”, “nguy cơ”, “không tham gia” đều được tạo trong hệ thống xã hội. Nếu nhóm nào đó từng bị đánh giá thấp hơn vì định kiến, mô hình học từ nhãn ấy sẽ lặp lại định kiến. “Dữ liệu thật” không đồng nghĩa với dữ liệu công bằng.

Điểm thứ tư là objective bias. Mục tiêu tối ưu không khớp mục tiêu giáo dục. Nếu hệ thống tối ưu completion, nó có thể làm nhiệm vụ dễ hơn. Nếu tối ưu engagement, nó có thể kéo dài thời gian dùng. Nếu tối ưu predicted grade, nó có thể khuyên người học tránh môn khó. Nếu tối ưu giảm cảnh báo rủi ro, tổ chức có thể tập trung vào người dễ cứu hơn thay vì người cần hỗ trợ sâu. Mục tiêu kỹ thuật định hình hành vi tổ chức.

Điểm thứ năm là deployment bias. Một mô hình có thể hợp lý trong phòng thí nghiệm nhưng gây hại khi triển khai. Ví dụ, dự đoán bỏ học có thể hữu ích nếu dẫn đến cố vấn hỗ trợ, học bổng, điều chỉnh lịch và kết nối người thật. Cùng mô hình đó có thể gây hại nếu dùng để hạ kỳ vọng, giảm quyền truy cập khóa khó, hoặc ưu tiên nguồn lực theo khả năng “thành công” thay vì nhu cầu.

Trong giáo dục, bias không chỉ là accuracy khác nhau giữa nhóm. Nó là câu hỏi cơ hội. Một hệ thống khuyến nghị có thể đưa học sinh nghèo vào lộ trình dễ hơn vì dữ liệu quá khứ nói nhóm này ít đạt điểm cao. Một hệ thống tuyển sinh có thể đánh giá thấp ứng viên từ trường ít tài nguyên. Một AI feedback có thể sửa giọng văn của người học về chuẩn trung lưu, làm mất giọng cộng đồng. Một bộ tạo hình minh họa có thể lặp lại stereotype nghề nghiệp theo giới. Một AI detector có thể cáo buộc sai người học không bản ngữ. Tất cả đều ảnh hưởng đến việc người học được nhìn như ai và được mời vào cơ hội nào.

Liang và cộng sự năm 2023 là ví dụ rõ về rủi ro công cụ phát hiện AI. Nghiên cứu cho thấy các GPT detector có thể đánh giá nhầm văn bản của người viết không bản ngữ là do AI tạo với tỷ lệ cao, trong khi văn bản của người bản ngữ ít bị nghi ngờ hơn (Liang et al., 2023). Trong bối cảnh giáo dục, một false positive không chỉ là lỗi kỹ thuật. Nó có thể dẫn đến cáo buộc gian lận, mất niềm tin, điểm thấp, hoặc kỷ luật. Vì vậy, AI detection không nên là bằng chứng độc lập cho high-stakes decision. Nó có thể là tín hiệu để thảo luận, nhưng phải có human review, quyền giải thích và bằng chứng quá trình.

Predictive analytics cũng cần thận trọng. Một mô hình cảnh báo sớm có thể dùng điểm, chuyên cần, tương tác LMS, lịch sử học, dữ liệu nhân khẩu học hoặc tài chính. Nếu dùng dữ liệu nhân khẩu học, mô hình có thể dự đoán tốt hơn nhưng cũng có nguy cơ tái tạo bất bình đẳng. Nếu không dùng, các biến khác như zip code, thiết bị, thời gian online có thể vẫn đóng vai proxy. Fairness không giải quyết bằng cách xóa một cột dữ liệu. Cần hiểu causal pathways và chính sách can thiệp. Nếu mô hình dùng thông tin về nghèo để cấp thêm hỗ trợ tự nguyện, có thể có lợi. Nếu dùng để giới hạn cơ hội, gây hại.

Chấm điểm tự động là vùng bias nhạy cảm. Một hệ thống automated essay scoring có thể nhất quán hơn con người ở một số khía cạnh, nhưng vẫn đo sai nếu rubric hẹp hoặc dữ liệu huấn luyện thiên lệch. Nó có thể thưởng độ dài, cấu trúc công thức, từ vựng học thuật, hoặc phong cách gần chuẩn dữ liệu. Nó có thể phạt sáng tạo, giọng địa phương, argument không quen, hoặc người học đang phát triển ngôn ngữ. Chương 6 đã nhấn mạnh automated scoring cần benchmark bằng validity, reliability, fairness, transparency, actionability và contestability. Ở chương này, điểm thêm là: fairness phải được kiểm tra trước và sau triển khai, vì cách giáo viên và học sinh phản ứng với hệ thống cũng tạo bias mới.

Bias audit trong trường học không cần bắt đầu bằng mô hình toán phức tạp. Có thể bắt đầu bằng câu hỏi thực hành:

1. Công cụ sai nhiều hơn với nhóm nào? 2. Nhóm nào ít được đại diện trong dữ liệu thử nghiệm? 3. Đầu ra có khác theo ngôn ngữ, vùng miền, giới, disability, thiết bị, thu nhập, hoặc trường lớp không? 4. Proxy nào có thể đo hoàn cảnh thay vì năng lực? 5. Lỗi nào gây hậu quả nặng nhất? 6. Có human review cho trường hợp biên không? 7. Người bị ảnh hưởng có quyền phản biện không? 8. Can thiệp sau dự đoán có mở cơ hội hay khóa cơ hội?

Một tổ chuyên môn có thể audit AI feedback bằng cách đưa nhiều bài viết đại diện cho các nhóm khác nhau, ẩn thông tin cá nhân, và so sánh phản hồi. Một trường có thể audit dashboard bằng cách xem cảnh báo rủi ro có tập trung bất thường vào nhóm nào và can thiệp sau cảnh báo là gì. Một đại học có thể audit AI proctoring hoặc AI detection bằng cách đo false positive theo ngôn ngữ, disability và điều kiện thiết bị. Một trung tâm đào tạo có thể audit recommendation engine bằng cách xem học viên nào được gợi lộ trình khó hơn và học viên nào bị giữ ở bài dễ.

Bias mitigation phải đi qua cả kỹ thuật và tổ chức. Kỹ thuật gồm dữ liệu đại diện hơn, kiểm tra subgroup performance, calibration, fairness constraints, model cards, audit logs, human review thresholds. Tổ chức gồm policy không dùng AI cho quyết định high-stakes nếu chưa đủ bằng chứng, training người dùng về giới hạn, quyền khiếu nại, và thiết kế can thiệp mở cơ hội. Nếu chỉ sửa mô hình mà không sửa cách dùng, bias vẫn sống.

Một nguyên tắc quan trọng là không dùng AI để che bất bình đẳng xã hội bằng nhãn cá nhân. Nếu hệ thống nói một học sinh “low engagement”, cần hỏi engagement thấp vì động lực, vì thiết kế bài học, vì thiết bị, vì việc nhà, vì ngôn ngữ, vì cảm giác không thuộc về, hay vì công cụ không ghi nhận loại tham gia khác. Nếu hệ thống nói một nhóm “cần remediation”, cần hỏi chương trình, giáo viên, nguồn lực và kỳ vọng đã tạo điều kiện chưa. AI nên giúp nhìn cấu trúc, không chỉ gắn nhãn cá nhân.

Model Transparency và Contestability

Transparency trong giáo dục phải bắt đầu bằng thông báo rõ: AI đang được dùng ở đâu. Người học không nên phát hiện sau rằng bài viết được AI chấm, cuộc trò chuyện được phân tích, camera được dùng để suy luận hành vi, hoặc chatbot lưu dữ liệu để cải thiện mô hình. Giáo viên không nên phát hiện sau rằng dữ liệu lớp của họ được dùng để đánh giá hiệu quả giảng dạy. Phụ huynh không nên phát hiện sau rằng ứng dụng học tập gửi dữ liệu cho bên thứ ba. Transparency đầu tiên là không giấu.

Nhưng thông báo “chúng tôi dùng AI” chưa đủ. Cần giải thích chức năng và mức quyền. AI đang tạo nội dung, gợi ý, chấm điểm, xếp hạng, dự đoán, giám sát, hay tự động quyết định? Con người có xem lại không? Kết quả AI có bắt buộc không? Người học có bị ảnh hưởng nếu không dùng không? Dữ liệu nào được dùng? Kết quả có được lưu vào hồ sơ không? Khi AI sai, ai sửa? Một nhãn “AI-powered” trên giao diện không có giá trị giáo dục nếu không trả lời những câu hỏi này.

Transparency phải được thiết kế theo người nhận. Học sinh tiểu học cần giải thích khác sinh viên đại học. Phụ huynh cần biết quyền và rủi ro. Giáo viên cần hiểu workflow, dữ liệu và giới hạn. Lãnh đạo cần hiểu trách nhiệm và metric. IT cần tài liệu kỹ thuật. Nhà nghiên cứu cần thông tin đánh giá. Một tài liệu duy nhất không đủ. Tổ chức cần nhiều lớp giải thích: ngắn, dễ hiểu, chuyên môn, kỹ thuật, và pháp lý.

Một công cụ hữu ích là model card hoặc system card, được điều chỉnh cho giáo dục. Nó có thể gồm: mục đích sử dụng, nhóm người học phù hợp, dữ liệu huấn luyện hoặc dữ liệu vận hành ở mức có thể công bố, giới hạn đã biết, nhóm chưa được kiểm thử đầy đủ, metric hiệu năng, kiểm tra fairness, yêu cầu human review, dữ liệu được lưu, contact khi có lỗi, và trường hợp không nên dùng. Với công cụ trường tự cấu hình, có thể thêm “local card”: trường dùng ở môn nào, lớp nào, với chính sách nào, ai chịu trách nhiệm.

Transparency cũng cần đi kèm uncertainty. AI thường đưa kết quả quá sạch: điểm, nhãn, khuyến nghị, risk score. Nhưng giáo dục đầy bất định. Một mô hình dự báo nên hiển thị mức chắc chắn và lý do chính, đồng thời nhắc rằng kết quả là tín hiệu để xem xét, không phải phán quyết. Một AI feedback nên cho biết phần nào dựa trên rubric, phần nào là gợi ý, và khi nào cần giáo viên xem. Một AI detector nếu được dùng, phải hiển thị giới hạn mạnh và không được trình bày như bằng chứng chắc chắn.

Contestability là phần tiếp theo của transparency. Nếu biết mà không thể phản biện, transparency chỉ là quan sát bất lực. Người học cần quy trình rõ khi không đồng ý với điểm AI, nhãn rủi ro, cáo buộc AI-generated text, phân nhóm năng lực, hoặc đề xuất lộ trình. Giáo viên cần quyền sửa đề xuất AI, bỏ cảnh báo, thêm bối cảnh, và ghi chú vì sao không theo khuyến nghị. Phụ huynh cần kênh hỏi dữ liệu nào được dùng và yêu cầu sửa dữ liệu sai. Tổ chức cần log để truy lại quyết định.

Contestability tốt có bốn tầng.

Tầng thứ nhất là immediate correction. Nếu dữ liệu sai như tên, lớp, điểm nhập, chuyên cần, giáo viên phụ trách, người học phải có cách sửa nhanh. Dữ liệu sai nhỏ có thể tạo dự đoán sai lớn.

Tầng thứ hai là human review. Với quyết định ảnh hưởng điểm số, kỷ luật, quyền truy cập khóa học, hỗ trợ đặc biệt hoặc nhãn rủi ro, người bị ảnh hưởng cần con người có thẩm quyền xem lại. Human review không phải người bấm duyệt hình thức. Người review phải có quyền thay đổi kết quả và xem bằng chứng.

Tầng thứ ba là explanation and evidence. Người học không thể phản biện nếu không biết kết quả dựa trên gì. Với chấm điểm, cần rubric và ví dụ. Với cảnh báo rủi ro, cần tín hiệu chính. Với AI detection, cần nói rõ công cụ không đủ làm bằng chứng duy nhất và cần xem quá trình. Với recommendation, cần giải thích vì sao lộ trình này được gợi ý.

Tầng thứ tư là policy appeal. Nếu một người cho rằng hệ thống gây bất công, không chỉ lỗi cá nhân, họ cần kênh nâng vấn đề lên cấp tổ chức: công cụ thiên lệch với nhóm ngôn ngữ, policy khai báo bất hợp lý, dashboard gây giám sát quá mức. Contestability không chỉ sửa từng case; nó sửa hệ thống.

EU AI Act đặt yêu cầu transparency, human oversight và quản trị rủi ro cho high-risk AI systems, trong đó có một số hệ thống AI trong giáo dục và đào tạo nghề (European Union, 2024). Dù tổ chức ngoài EU không nhất thiết chịu trực tiếp, logic high-risk rất hữu ích: hệ thống ảnh hưởng đến cơ hội học tập cần tiêu chuẩn cao hơn công cụ tạo hình minh họa. Một school chatbot trả lời câu hỏi về lịch học khác với hệ thống quyết định học sinh được vào chương trình nâng cao hay không.

Transparency cũng liên quan đến giáo viên. Nếu nhà trường dùng analytics để đánh giá lớp hoặc giáo viên, giáo viên cần biết dữ liệu nào, công thức nào, mục tiêu nào, và quyền phản biện. Một chỉ số “student engagement” tổng hợp từ LMS có thể bị dùng để so sánh giáo viên, nhưng lớp khác nhau có nhiệm vụ khác nhau. Một giáo viên dùng nhiều thảo luận giấy hoặc lab có thể có ít dấu vết online. Nếu chỉ số được dùng cho accountability mà không có contestability, giáo viên sẽ tối ưu chỉ số hoặc mất niềm tin.

Một nguy cơ là transparency theater: tổ chức công bố nhiều tài liệu nhưng người dùng không hiểu hoặc không có quyền. Dấu hiệu gồm policy dài, thuật ngữ pháp lý nặng, thông báo một lần lúc đăng ký, không có ví dụ, không có người liên hệ, không có quy trình appeal, và không có thay đổi sau phản hồi. Transparency thật phải làm người học và giáo viên hành động tốt hơn.

Một tiêu chuẩn đơn giản: trước khi dùng một hệ thống AI có ảnh hưởng đến học tập, hãy hỏi một học sinh, một giáo viên và một phụ huynh có thể trả lời ba câu không: hệ thống dùng dữ liệu gì; kết quả ảnh hưởng đến tôi thế nào; nếu sai tôi làm gì. Nếu không trả lời được, transparency chưa đủ.

Age-Appropriate AI

Công cụ AI cho trẻ em cần chuẩn khác công cụ cho người lớn. Điều này không chỉ vì trẻ em yếu thế hơn. Nó còn vì giáo dục trẻ em có mục tiêu phát triển: hình thành năng lực tự chủ, phán đoán, quan hệ xã hội, bản sắc và an toàn. Một hệ thống AI có thể hữu ích cho sinh viên đại học nhưng không phù hợp cho học sinh tiểu học. Một chatbot hội thoại mở có thể giúp người lớn brainstorm, nhưng với trẻ em có thể tạo phụ thuộc, chia sẻ dữ liệu nhạy cảm, tiếp xúc nội dung không phù hợp, hoặc nhầm lẫn về bản chất máy.

UNESCO năm 2023 khuyến nghị các quốc gia và cơ sở giáo dục thiết lập giới hạn tuổi phù hợp khi dùng GenAI, lưu ý rằng nhiều nền tảng thương mại đặt độ tuổi tối thiểu và trẻ em cần bảo vệ đặc biệt (UNESCO, 2023). UNICEF nhấn mạnh AI cho trẻ em phải đặt quyền trẻ em, wellbeing, inclusion, privacy, safety và accountability ở trung tâm (UNICEF, 2021). Age-appropriate AI không phải dán nhãn “dành cho trẻ em”. Nó là thiết kế lại dữ liệu, giao diện, nội dung, quyền kiểm soát, ranh giới hội thoại và vai trò người lớn.

Có năm rủi ro đặc biệt với AI hội thoại cho trẻ em.

Rủi ro thứ nhất là anthropomorphism. Trẻ em dễ gán ý định, cảm xúc và sự hiểu biết cho chatbot. Nếu chatbot dùng giọng thân mật, nhớ thông tin cá nhân, khen ngợi liên tục, hoặc phản hồi như bạn thân, trẻ có thể tin rằng nó thật sự quan tâm. Trong giáo dục, một chút thân thiện có thể giảm lo âu, nhưng phải có ranh giới. Hệ thống nên nói rõ nó là công cụ, không phải người; không nên khuyến khích bí mật với người lớn; không nên tạo quan hệ cảm xúc độc quyền.

Rủi ro thứ hai là over-disclosure. Trẻ có thể chia sẻ thông tin gia đình, sức khỏe, cảm xúc, địa chỉ, mâu thuẫn bạn bè hoặc nỗi sợ. Một chatbot học tập không nên thu hoặc lưu dữ liệu nhạy cảm ngoài mục tiêu. Nó cần cơ chế phát hiện khi trẻ chia sẻ nguy cơ an toàn và chuyển sang người lớn có trách nhiệm, nhưng phải làm điều đó theo chính sách rõ, không âm thầm giám sát mọi cảm xúc.

Rủi ro thứ ba là developmental mismatch. AI có thể đưa lời giải, khái niệm, ví dụ hoặc nội dung vượt tuổi. Nó có thể giải thích quá phức tạp, hoặc ngược lại làm đơn giản hóa sai. Nó có thể đưa ví dụ xã hội không phù hợp văn hóa hoặc tuổi. Age-appropriate content cần gắn với chương trình, mức đọc, cảm xúc, và bối cảnh lớp, không chỉ lọc từ cấm.

Rủi ro thứ tư là dependency. Nếu trẻ luôn hỏi AI trước khi thử, năng lực tự điều chỉnh, chịu khó suy nghĩ và hỏi người thật có thể yếu đi. Với trẻ nhỏ, scaffold cần thiết kế để yêu cầu dự đoán, thử, giải thích và hỏi giáo viên/bạn khi cần. AI tutor nên giảm dần hỗ trợ, không giữ trẻ trong vòng hỏi-đáp vô hạn.

Rủi ro thứ năm là parental and educator visibility. Trẻ cần không gian riêng để học, nhưng người lớn có trách nhiệm cần biết công cụ đang làm gì. Thiết kế cân bằng là khó. Giáo viên không cần đọc mọi câu hỏi của trẻ, nhưng cần dashboard an toàn ở mức phù hợp: chủ đề học, lỗi thường gặp, dấu hiệu cần hỗ trợ, không phải nội dung riêng tư không cần thiết. Phụ huynh cần biết mục tiêu và quyền dữ liệu, không nhất thiết giám sát từng tương tác.

Age-appropriate AI nên có các nguyên tắc sau.

Thứ nhất, giới hạn phạm vi. Công cụ cho trẻ em nên có domain rõ: học toán lớp 5, luyện đọc, hỗ trợ từ vựng, hỏi đáp về bài học. Chatbot mở cho mọi chủ đề có rủi ro cao hơn. Nếu công cụ phải trả lời ngoài phạm vi, nó nên chuyển hướng sang giáo viên hoặc người lớn.

Thứ hai, không thiết kế gây nghiện. Không dùng streak, phần thưởng, thông báo, nhân vật hoặc hội thoại để kéo dài tương tác ngoài mục tiêu học. Engagement của trẻ không nên bị tối ưu như retention sản phẩm.

Thứ ba, bảo vệ dữ liệu mặc định. Không thu dữ liệu nhạy cảm, không dùng dữ liệu trẻ để huấn luyện mô hình thương mại nếu không có cơ sở pháp lý và consent rõ, không lưu chat lâu hơn cần thiết, không chia sẻ cho quảng cáo, không profiling cho mục đích ngoài học tập.

Thứ tư, explainability phù hợp tuổi. Trẻ cần hiểu ở mức đơn giản: AI có thể giúp, nhưng có thể sai; không đưa thông tin riêng; nếu thấy nội dung lạ hãy hỏi người lớn; bài làm vẫn là trách nhiệm của em; AI không phải người thật.

Thứ năm, human escalation. Khi có nội dung về tự hại, bạo lực, lạm dụng, khủng hoảng tâm lý, hoặc thông tin nhạy cảm, hệ thống cần quy trình chuyển sang người lớn có thẩm quyền. Nhưng quy trình này phải được thiết kế với chuyên gia bảo vệ trẻ em, không phải chỉ dựa vào phản hồi tự động.

Thứ sáu, kiểm thử với trẻ thật trong điều kiện đạo đức. Không thể giả định công cụ phù hợp chỉ vì người lớn thấy giao diện dễ dùng. Trẻ em hiểu biểu tượng, nhân vật, lời khen, cảnh báo và lỗi khác người lớn. Cần kiểm thử theo tuổi, ngôn ngữ, disability, vùng miền và bối cảnh thiết bị.

Thứ bảy, không thay thế quan hệ chăm sóc. AI có thể giúp trẻ luyện hỏi, đọc lại, nghe giải thích, nhưng không nên thay giáo viên, bạn học, phụ huynh hoặc cố vấn trong các nhu cầu xã hội-cảm xúc. Trường học vẫn là không gian người-người.

COPPA tại Hoa Kỳ đặt yêu cầu bảo vệ thông tin cá nhân trẻ dưới 13 tuổi trong dịch vụ trực tuyến, với các nghĩa vụ về thông báo, đồng ý của phụ huynh, bảo mật và giới hạn sử dụng; FTC đã cập nhật COPPA Rule vào năm 2024-2025 để tăng cường bảo vệ, bao gồm giới hạn retention và yêu cầu riêng về một số hình thức chia sẻ dữ liệu (FTC, 2025). FERPA bảo vệ quyền riêng tư hồ sơ giáo dục của học sinh trong các cơ sở nhận tài trợ liên bang tại Hoa Kỳ, với yêu cầu kiểm soát truy cập và tiết lộ thông tin nhận dạng cá nhân từ education records (U.S. Department of Education, 2025). Dù các luật này thuộc Hoa Kỳ, chúng gợi ý một nguyên tắc rộng: trẻ em cần lớp bảo vệ cao hơn, và trường học không thể xem consent như một thủ tục nhỏ.

Ở Việt Nam, Luật Bảo vệ dữ liệu cá nhân được Quốc hội thông qua năm 2025 và có hiệu lực từ ngày 1 tháng 1 năm 2026; luật này kế thừa và mở rộng các quy định từ Nghị định 13/2023/NĐ-CP về bảo vệ dữ liệu cá nhân. Với giáo dục, điều này làm rõ rằng dữ liệu cá nhân, đặc biệt dữ liệu của trẻ em và dữ liệu nhạy cảm, không thể được xử lý tùy tiện. Các tổ chức giáo dục dùng AI cần theo dõi hướng dẫn thi hành cụ thể và xây năng lực tuân thủ thay vì chờ sự cố mới xử lý.

Age-appropriate AI là một lĩnh vực sẽ còn thay đổi nhanh. Nhưng một nguyên tắc ổn định là: càng trẻ, càng cần ít dữ liệu hơn, nhiều bảo vệ mặc định hơn, phạm vi hẹp hơn, giải thích đơn giản hơn, và con người hiện diện rõ hơn.

Data Governance Trong Trường Học

Data governance trong trường học trả lời sáu câu hỏi: dữ liệu nào được thu; ai sở hữu hoặc kiểm soát; ai truy cập; dùng vào mục đích gì; lưu bao lâu; và ai chịu trách nhiệm khi có lỗi hoặc rủi ro. Nếu không có câu trả lời, mỗi công cụ sẽ tự tạo quy tắc riêng. Khi đó trường học mất quyền quản trị hệ sinh thái dữ liệu của mình.

Một bản đồ dữ liệu giáo dục nên bắt đầu từ các nhóm dữ liệu:

1. Dữ liệu định danh: tên, mã học sinh, ngày sinh, lớp, phụ huynh, liên hệ. 2. Dữ liệu học tập: điểm, bài nộp, phản hồi, rubric, lịch sử sửa, câu trả lời. 3. Dữ liệu hành vi số: đăng nhập, click, thời gian xem video, thiết bị, IP, vị trí tương đối. 4. Dữ liệu giao tiếp: email, tin nhắn, chat với chatbot, phản hồi phụ huynh. 5. Dữ liệu nhạy cảm: sức khỏe, disability, tư vấn tâm lý, kỷ luật, hoàn cảnh gia đình, tài chính. 6. Dữ liệu sinh trắc hoặc đa phương thức: khuôn mặt, giọng nói, video, eye-tracking, cảm biến. 7. Dữ liệu suy luận: risk score, mastery estimate, engagement label, AI-generated feedback, predicted grade, suspected misconduct.

Dữ liệu suy luận thường bị bỏ quên nhưng rất quan trọng. Một risk score không phải dữ liệu người học trực tiếp cung cấp, nhưng có thể ảnh hưởng đến cách giáo viên nhìn em. Một nhãn “low motivation” có thể bám vào hồ sơ dù được suy ra từ proxy yếu. Một predicted grade có thể định hình tư vấn môn học. Governance phải xem dữ liệu suy luận cũng là dữ liệu cần quản lý, không chỉ dữ liệu thô.

Vấn đề sở hữu dữ liệu trong giáo dục phức tạp. Người học là chủ thể dữ liệu. Trường hoặc tổ chức thường là bên kiểm soát dữ liệu trong nhiều bối cảnh. Vendor có thể là bên xử lý dữ liệu hoặc có vai trò khác tùy hợp đồng và luật. Giáo viên tạo phản hồi và dữ liệu lớp. Phụ huynh có quyền với dữ liệu trẻ em theo mức luật định. Vì vậy, câu hỏi thực tế không chỉ là “ai sở hữu”, mà là “ai có quyền quyết định mục đích xử lý, ai có quyền truy cập, ai có quyền xóa, ai có quyền chuyển dữ liệu, ai có quyền dùng lại, và ai chịu trách nhiệm”.

Một trường cần data inventory. Danh mục này không cần phức tạp lúc đầu, nhưng phải có: hệ thống nào đang dùng; vendor nào; dữ liệu nào thu; mục đích; cơ sở pháp lý hoặc consent; ai truy cập; lưu ở đâu; lưu bao lâu; có chuyển ra nước ngoài không; có dùng để huấn luyện AI không; có API với hệ thống khác không; rủi ro; người phụ trách. Không có inventory, không thể quản trị tool sprawl.

Data governance cũng cần data classification. Không phải mọi dữ liệu có cùng mức nhạy. Một tài liệu bài học công khai khác hồ sơ tư vấn tâm lý. Một điểm tổng kết khác transcript chatbot cá nhân. Một thống kê lớp ẩn danh khác video khuôn mặt. Classification giúp đặt mức bảo vệ: public, internal, confidential, restricted. Dữ liệu restricted như sức khỏe, disability, dữ liệu trẻ em nhạy cảm, sinh trắc, kỷ luật, wellbeing và dữ liệu suy luận high-stakes cần kiểm soát đặc biệt.

Phân quyền phải dựa trên need-to-know. Một lỗi phổ biến là nhiều người trong trường có quyền xem quá rộng vì tiện. Nhưng tiện không phải lý do đủ. Giáo viên không cần xem hồ sơ tài chính của học sinh. Nhân viên hành chính không cần đọc bài chat học tập. Vendor không cần dữ liệu định danh nếu chỉ xử lý nội dung ẩn danh. Lãnh đạo không cần xem từng prompt trừ khi có sự cố có quy trình. Quyền truy cập nên được review định kỳ, nhất là khi giáo viên đổi lớp, nhân sự nghỉ việc, học sinh chuyển trường.

Hợp đồng vendor là một phần của data governance. Trường cần hỏi: vendor là processor hay controller; dữ liệu có dùng để huấn luyện mô hình không; dữ liệu có bán hoặc chia sẻ cho bên thứ ba không; subprocessor nào tham gia; dữ liệu lưu ở quốc gia nào; bảo mật ra sao; breach notification trong bao lâu; audit rights có không; dữ liệu xuất ra được không; xóa dữ liệu khi chấm dứt thế nào; AI outputs thuộc về ai; vendor có thay đổi điều khoản một chiều không. Chương 22 sẽ bàn procurement, nhưng ở đây cần nhấn mạnh: điều khoản dữ liệu là điều khoản sư phạm vì nó quyết định niềm tin.

Data governance phải có quy trình incident response. Khi lộ dữ liệu, gửi nhầm email, vendor bị breach, chatbot tạo nội dung không phù hợp, hoặc dashboard hiển thị sai học sinh, ai làm gì trong 24 giờ đầu? Ai khóa truy cập, ai thông báo lãnh đạo, ai thông báo phụ huynh, ai liên hệ vendor, ai ghi log, ai báo cơ quan quản lý nếu luật yêu cầu, ai hỗ trợ người bị ảnh hưởng? Không có quy trình trước, tổ chức sẽ phản ứng chậm và mất niềm tin.

Một trường cũng cần AI use register: danh sách các hệ thống AI đang dùng, mục đích, nhóm người dùng, loại dữ liệu, mức rủi ro, trạng thái phê duyệt, người phụ trách, ngày review, và điều kiện dùng. Điều này nghe hành chính, nhưng rất thực tế. Khi giáo viên và học sinh dùng nhiều công cụ AI khác nhau, tổ chức cần biết công cụ nào được phép cho dữ liệu học sinh, công cụ nào chỉ dùng với dữ liệu giả hoặc tài liệu công khai, công cụ nào bị cấm, công cụ nào đang pilot.

Data governance trong trường học nên có hội đồng hoặc nhóm liên chức năng. Không nên chỉ giao IT. Nhóm cần lãnh đạo, giáo viên, IT, người phụ trách bảo vệ dữ liệu hoặc pháp lý, hỗ trợ học sinh, phụ huynh/học sinh đại diện khi phù hợp, và người hiểu assessment. IT hiểu bảo mật, nhưng giáo viên hiểu tác động sư phạm. Lãnh đạo hiểu trách nhiệm tổ chức. Học sinh hiểu trải nghiệm bị thu dữ liệu. Governance cần nhiều góc nhìn.

Một chính sách dữ liệu tốt cũng phải bảo vệ giáo viên. Dữ liệu lớp học, thời gian phản hồi, mức dùng nền tảng, điểm học sinh và nội dung bài dạy có thể bị dùng để đánh giá giáo viên. Nếu không rõ mục đích, giáo viên sẽ mất trust. Data governance nên phân biệt dữ liệu dùng cho hỗ trợ chuyên môn, dữ liệu dùng cho vận hành, và dữ liệu dùng cho đánh giá nhân sự. Không dùng dữ liệu thu cho một mục đích sang mục đích khác mà không thông báo và thảo luận.

Cuối cùng, data governance phải có education layer. Người học cần được dạy về dữ liệu của mình: dữ liệu nào được tạo khi học online, dữ liệu có thể suy luận gì, quyền riêng tư là gì, khi nào không nhập thông tin cá nhân vào AI, cách khai báo AI, cách hỏi về dữ liệu. Giáo viên cần biết dữ liệu nào không đưa vào công cụ ngoài, cách ẩn danh bài làm, cách đọc dashboard thận trọng, và cách phản hồi khi học sinh hỏi về quyền dữ liệu. Governance không sống nếu người dùng không hiểu.

Regulation và Chuẩn Quốc Tế

Khung pháp lý và chuẩn quốc tế về AI, dữ liệu và giáo dục đang phát triển nhanh. Không có một luật duy nhất giải quyết mọi tình huống. Tổ chức giáo dục thường phải đi qua nhiều lớp: luật bảo vệ dữ liệu cá nhân, luật trẻ em, quy định giáo dục, hợp đồng vendor, chuẩn an ninh mạng, hướng dẫn đạo đức AI, và chính sách nội bộ. Điều quan trọng là không đọc luật như phần tối thiểu để “khỏi bị phạt”, mà đọc như nền để thiết kế niềm tin.

UNESCO là nguồn định hướng quan trọng cho giáo dục. Hướng dẫn năm 2023 về GenAI trong giáo dục và nghiên cứu nhấn mạnh human-centred approach, inclusion, equity, cultural diversity, data protection, age-appropriate use và validation đạo đức-sư phạm trước triển khai (UNESCO, 2023). UNESCO AI competency frameworks năm 2024 cho học sinh và giáo viên đưa năng lực đạo đức, human-centred mindset và AI literacy vào giáo dục (Miao et al., 2024; Miao & Cukurova, 2024). UNESCO năm 2025 về quyền người học nhấn mạnh AI phải bảo vệ quyền tiếp cận, privacy, agency và non-discrimination (UNESCO, 2025). Đây là khung phù hợp cho chương trình giáo dục, không chỉ compliance.

OECD AI Principles, cập nhật trong bối cảnh AI phát triển nhanh, nhấn mạnh inclusive growth, human-centred values, fairness, transparency, robustness, security, safety và accountability (OECD, 2024). Với giáo dục, các nguyên tắc này chuyển thành câu hỏi: AI có mở rộng cơ hội hay tăng khoảng cách; có tôn trọng quyền người học; có minh bạch; có an toàn; có ai chịu trách nhiệm; và có cơ chế phản biện không.

NIST AI Risk Management Framework không phải luật, nhưng là khung quản trị rủi ro hữu ích. Bốn chức năng Govern, Map, Measure, Manage giúp tổ chức không chỉ hỏi “AI có tốt không” mà hỏi rủi ro nào, bối cảnh nào, đo thế nào, ai quản lý, và vòng đời ra sao (NIST, 2023). Với trường học, NIST AI RMF có thể được dùng như checklist quản trị: lập nhóm chịu trách nhiệm, xác định use case, phân loại rủi ro, đo bias, thiết lập human review, theo dõi sau triển khai.

EU AI Act là khung pháp lý quan trọng vì nó đi theo risk-based approach. Một số hệ thống AI trong giáo dục và đào tạo nghề được xếp high-risk, bao gồm hệ thống liên quan đến quyết định truy cập hoặc tuyển chọn vào cơ sở giáo dục, đánh giá kết quả học tập, đánh giá mức độ giáo dục phù hợp, hoặc giám sát hành vi bị cấm trong đánh giá khi có tác động đáng kể (European Union, 2024). High-risk không có nghĩa cấm, nhưng yêu cầu cao về quản trị rủi ro, dữ liệu, documentation, logging, transparency, human oversight, accuracy, robustness và cybersecurity. EU AI Act cũng đặt giới hạn với một số ứng dụng như emotion recognition trong nơi làm việc và cơ sở giáo dục, trừ một số trường hợp an toàn hoặc y tế được quy định. Với EdTech toàn cầu, EU AI Act sẽ ảnh hưởng đến chuẩn sản phẩm ngay cả ngoài EU vì vendor thường thiết kế theo thị trường nghiêm ngặt.

GDPR là nền tảng mạnh về dữ liệu cá nhân tại EU. Các nguyên tắc Điều 5 như purpose limitation, data minimisation, accuracy, storage limitation, integrity/confidentiality và accountability rất hữu ích cho giáo dục (European Union, 2016). Điều 25 về data protection by design and by default phù hợp trực tiếp với privacy by design. Điều 22 về automated decision-making and profiling đặt vấn đề quyền con người khi quyết định tự động có tác động đáng kể. Dù bối cảnh pháp lý khác nhau, các nguyên tắc này đã trở thành chuẩn tham chiếu quốc tế.

FERPA tại Hoa Kỳ bảo vệ privacy của education records trong các trường nhận tài trợ liên bang. Nó trao quyền cho phụ huynh và học sinh đủ điều kiện truy cập, yêu cầu sửa hồ sơ sai, và kiểm soát một số tiết lộ thông tin nhận dạng cá nhân (U.S. Department of Education, 2025). Trong EdTech, FERPA đặc biệt liên quan đến việc chia sẻ dữ liệu với vendor theo school official exception hoặc các ngoại lệ khác, và yêu cầu nhà trường vẫn chịu trách nhiệm về dữ liệu giáo dục.

COPPA tại Hoa Kỳ bảo vệ thông tin cá nhân của trẻ dưới 13 tuổi trong dịch vụ trực tuyến. FTC nhấn mạnh yêu cầu notice, parental consent, data security, limits on retention và quyền của phụ huynh; cập nhật COPPA Rule gần đây tăng cường một số bảo vệ, bao gồm yêu cầu riêng cho disclosure tới bên thứ ba trong một số bối cảnh (FTC, 2025). Với công cụ AI cho trẻ em, COPPA gợi ý rằng trường và vendor phải đặc biệt cẩn trọng với thu thập dữ liệu, profiling, retention và sharing.

Ở Việt Nam, Nghị định 13/2023/NĐ-CP là nền tảng quan trọng về bảo vệ dữ liệu cá nhân, với các khái niệm dữ liệu cá nhân cơ bản, dữ liệu cá nhân nhạy cảm, quyền của chủ thể dữ liệu, consent và trách nhiệm của bên kiểm soát/xử lý dữ liệu. Luật Bảo vệ dữ liệu cá nhân được Quốc hội thông qua năm 2025 và có hiệu lực từ ngày 1 tháng 1 năm 2026, nâng khung bảo vệ dữ liệu lên cấp luật. Đối với tổ chức giáo dục ở Việt Nam, điều này có nghĩa là triển khai EdTech và AI cần được xem như hoạt động xử lý dữ liệu cá nhân có trách nhiệm, không phải chỉ là đổi mới công nghệ. Dữ liệu trẻ em, dữ liệu học tập, sức khỏe, disability, hình ảnh, giọng nói và dữ liệu suy luận cần được phân loại và quản trị chặt.

Khung nội địa hóa rất quan trọng. Không thể sao chép GDPR, FERPA hay COPPA vào Việt Nam theo từng điều khoản rồi xem là xong. Mỗi hệ thống pháp lý có định nghĩa, cơ sở xử lý, quyền, cơ quan giám sát và chế tài khác nhau. Nhưng có thể nội địa hóa nguyên tắc: mục đích rõ, tối thiểu hóa dữ liệu, minh bạch, bảo mật, giới hạn lưu trữ, quyền truy cập/sửa/xóa hoặc phản biện theo luật, bảo vệ trẻ em, human review cho high-stakes AI, và trách nhiệm vendor. Tổ chức giáo dục nên làm việc với chuyên gia pháp lý địa phương, nhưng không chờ luật hoàn hảo mới bắt đầu bảo vệ người học.

Một chính sách AI/dữ liệu cấp trường nên có ít nhất mười phần:

1. Phạm vi: công cụ nào, dữ liệu nào, người dùng nào. 2. Mục đích hợp lệ: các mục tiêu học tập và vận hành được phép. 3. Dữ liệu cấm hoặc hạn chế: thông tin nhạy cảm, trẻ em, sinh trắc, wellbeing, kỷ luật. 4. Công cụ được phê duyệt và công cụ không được dùng với dữ liệu học sinh. 5. Quy định khai báo AI trong học tập và đánh giá. 6. Quyền truy cập, phân quyền và audit log. 7. Retention, deletion, export và exit plan. 8. Human review, contestability và appeal. 9. Incident response và breach notification. 10. Review định kỳ, training và kênh phản hồi.

Với AI high-risk, cần thêm đánh giá tác động: mục tiêu, nhóm bị ảnh hưởng, dữ liệu, rủi ro bias, privacy, security, trẻ em, accessibility, human oversight, contestability, alternatives, và tiêu chí dừng. Đánh giá tác động không cần quá nặng cho mọi công cụ, nhưng bắt buộc với hệ thống chấm điểm, proctoring, predictive analytics, admission, placement, wellbeing, biometric hoặc emotion recognition.

Regulation thường đi sau công nghệ. Vì vậy, nguyên tắc tổ chức phải đi trước: nếu không thể giải thích với một học sinh và phụ huynh rằng dữ liệu được dùng công bằng, cần thiết và có quyền phản biện, thì chưa nên triển khai ở quy mô lớn, dù luật chưa cấm.

Thực trạng triển khai

Thực trạng triển khai dữ liệu và AI trong giáo dục hiện nay có một nghịch lý: các tổ chức nói nhiều hơn về privacy và ethics, nhưng thực hành hằng ngày vẫn rất phân mảnh. Một trường có thể có chính sách bảo vệ dữ liệu ở cấp văn bản, nhưng giáo viên vẫn dùng công cụ AI cá nhân để xử lý bài làm. Một đại học có hội đồng đạo đức nghiên cứu, nhưng chưa có quy trình rõ cho AI detection hoặc AI feedback trong môn học. Một trung tâm có app quản lý học viên, chatbot chăm sóc và báo cáo phụ huynh, nhưng không có data inventory. Một doanh nghiệp đào tạo có learning analytics, nhưng người học không biết dữ liệu học tập có liên quan đến đánh giá nhân sự hay không.

Tool sprawl làm rủi ro tăng. Mỗi công cụ học tập mới thêm một luồng dữ liệu. LMS, quiz app, video platform, AI writing assistant, plagiarism checker, AI detector, chatbot, proctoring, parent communication app, attendance system, CRM, payment system, survey tool, và spreadsheet đều có thể chứa dữ liệu người học. Nếu tổ chức không có danh mục, không ai biết toàn bộ dữ liệu đang ở đâu. Khi có sự cố, việc tìm đường dữ liệu trở nên khó.

AI công khai làm tình hình phức tạp hơn. Giáo viên và học sinh có thể dùng ChatGPT, Gemini, Claude, Copilot, Perplexity, Grammarly, Canva, NotebookLM hoặc các công cụ khác ngoài hệ thống trường. Một số công cụ có phiên bản enterprise hoặc education với kiểm soát dữ liệu tốt hơn; một số dùng tài khoản cá nhân và điều khoản thay đổi. Nếu trường chỉ cấm chung, người dùng có thể lén dùng. Nếu trường cho dùng tự do, dữ liệu có thể rò rỉ. Cách hợp lý hơn là phân loại: công cụ được phép với dữ liệu học sinh, công cụ chỉ dùng với dữ liệu giả hoặc đã ẩn danh, công cụ chỉ dùng cho tài liệu công khai, công cụ bị cấm cho đánh giá hoặc dữ liệu nhạy cảm.

AI detection là ví dụ về policy đi trước bằng chứng. Nhiều trường muốn dùng detector để xử lý gian lận GenAI. Nhưng bằng chứng về false positive, đặc biệt với người viết không bản ngữ, đã tạo cảnh báo mạnh (Liang et al., 2023). Nếu trường dùng detector như bằng chứng kỷ luật, rủi ro công bằng cao. Một chính sách tốt nên nói: detector không được dùng như bằng chứng duy nhất; phải xem quá trình viết, bản nháp, oral defense, lịch sử chỉnh sửa, trao đổi với học sinh, và quyền appeal. Tốt hơn nữa là thiết kế lại đánh giá để giảm động cơ và khả năng nộp sản phẩm không có bằng chứng quá trình.

Proctoring và emotion recognition cũng là vùng rủi ro. Trong đại dịch, nhiều tổ chức dùng online proctoring để bảo vệ kỳ thi. Nhưng các công cụ này có thể thu video, audio, màn hình, khuôn mặt, chuyển động mắt, phòng riêng, và hành vi. Rủi ro gồm privacy, bias với màu da/ánh sáng/khuôn mặt, disability, điều kiện nhà ở, lo âu, và false flags. EU AI Act đặt giới hạn mạnh với emotion recognition trong cơ sở giáo dục, phản ánh lo ngại rằng suy luận cảm xúc từ tín hiệu sinh trắc trong bối cảnh học tập có rủi ro cao (European Union, 2024). Với giáo dục, nguyên tắc nên là: không dùng sinh trắc hoặc emotion inference nếu không thật sự cần, có phương án ít xâm phạm hơn, và không có quy trình human review mạnh.

Predictive analytics trong retention và early warning đang được dùng ở nhiều đại học và hệ thống học trực tuyến. Khi có cố vấn và hỗ trợ thật, nó có thể giúp. Nhưng nhiều nơi triển khai dashboard mà không có nguồn lực can thiệp. Kết quả là cảnh báo nhiều hơn, trách nhiệm nhiều hơn, nhưng hỗ trợ không tăng. Data governance ở đây không chỉ là privacy; nó là actionability. Nếu hệ thống tạo nhãn rủi ro mà không mở đường hỗ trợ, nó có thể gây stigma.

Ở cấp chính sách quốc tế, các khung đang dần rõ hơn. EU AI Act tạo tiêu chuẩn risk-based. UNESCO đưa ra hướng dẫn giáo dục và quyền người học. OECD và NIST đưa ra nguyên tắc quản trị. Hoa Kỳ có FERPA và COPPA cho dữ liệu giáo dục/trẻ em. Việt Nam đang nâng khung bảo vệ dữ liệu cá nhân lên cấp luật từ năm 2026. Nhưng ở cấp trường, năng lực chuyển các khung này thành routine còn hạn chế. Nhiều tổ chức chưa có data protection officer, chưa có quy trình AI approval, chưa có template vendor assessment, chưa có training cho giáo viên về dữ liệu AI, và chưa có incident response thực hành.

Thực trạng tốt hơn xuất hiện ở những nơi xem dữ liệu như hạ tầng tin cậy. Họ có danh mục công cụ, phân loại dữ liệu, hướng dẫn cho giáo viên, hợp đồng vendor rõ, công cụ enterprise cho dữ liệu nhạy cảm, pilot có đánh giá tác động, chính sách khai báo AI, quyền appeal, và review định kỳ. Họ không nhất thiết có công nghệ mạnh nhất, nhưng có trust tốt hơn.

Phân tích phản biện

Rủi ro thứ nhất là privacy bị hiểu như consent form. Consent quan trọng, nhưng trong giáo dục có quan hệ quyền lực. Học sinh có thật sự tự do từ chối nếu bài tập yêu cầu công cụ? Phụ huynh có thật sự hiểu điều khoản? Giáo viên có lựa chọn nếu trường mua nền tảng? Privacy không thể chỉ dựa vào đồng ý. Nó cần minimisation, default protection, purpose limitation và quyền thay thế.

Rủi ro thứ hai là security được dùng để biện minh cho giám sát. Nhà trường có thể nói cần proctoring, camera, log hành vi, AI detection để bảo vệ integrity. Một phần đúng. Nhưng integrity không tự động vượt trên mọi quyền khác. Cần proportionality: mức giám sát có tương xứng với rủi ro không; có cách ít xâm phạm hơn không; dữ liệu lưu bao lâu; ai xem; false positive xử lý ra sao; nhóm yếu thế có bị ảnh hưởng hơn không.

Rủi ro thứ ba là fairness washing. Vendor có thể nói hệ thống đã “kiểm tra bias” nhưng không công bố nhóm nào, dữ liệu nào, metric nào, bối cảnh nào. Một mô hình fairness ở Hoa Kỳ không chứng minh fairness ở Việt Nam. Một kiểm tra theo giới không chứng minh fairness theo ngôn ngữ, disability hoặc vùng miền. Fairness phải cụ thể theo use case và bối cảnh.

Rủi ro thứ tư là transparency quá tải. Nếu tổ chức đưa cho người dùng tài liệu 40 trang, về mặt hình thức có minh bạch, nhưng thực tế không ai đọc. Transparency phải có thiết kế thông tin: ngắn, đúng lúc, phù hợp vai trò, có ví dụ, và có hành động tiếp theo.

Rủi ro thứ năm là human review hình thức. Nhiều hệ thống nói có human-in-the-loop, nhưng con người quá tải, không có thông tin, không có quyền override, hoặc luôn tin máy. Human review thật cần thời gian, năng lực, bằng chứng và quyền thay đổi. Nếu không, nó chỉ chuyển trách nhiệm sang con người.

Rủi ro thứ sáu là policy quá cứng. Nếu chính sách cấm mọi AI vì sợ dữ liệu, người học sẽ dùng ngoài tầm quản trị và không học AI literacy. Nếu chính sách cho phép quá rộng, rủi ro tăng. Chính sách tốt phải phân tầng theo rủi ro và mục tiêu học, không dùng một câu cho mọi tình huống.

Rủi ro thứ bảy là dữ liệu hóa giáo dục. Khi mọi thứ có thể đo, tổ chức có thể bắt đầu tin rằng thứ đo được là thứ quan trọng. Nhưng học tập có nhiều phần khó đo: niềm tin, bản sắc, quan hệ, sự tò mò, dũng khí hỏi, khả năng sống với bất định. Data governance cần bảo vệ không gian không bị đo quá mức.

Rủi ro thứ tám là chuyển quyền từ nhà trường sang vendor. Nếu mô hình, dữ liệu, analytics, policy template và dashboard đều nằm trong hệ sinh thái vendor, tổ chức có thể mất năng lực tự hiểu học tập của mình. Vendor lock-in không chỉ là kinh tế; nó là lock-in nhận thức. Trường nhìn học sinh qua khung đo của sản phẩm.

Rủi ro cuối cùng là xem tuân thủ luật là đủ. Một việc có thể hợp pháp nhưng vẫn không tốt về giáo dục. Thu dữ liệu hợp lệ nhưng không cần thiết vẫn xâm phạm. AI feedback minh bạch nhưng làm học sinh phụ thuộc vẫn có vấn đề. Dashboard đúng luật nhưng làm giáo viên mất niềm tin vẫn thất bại. Ethics bắt đầu nơi compliance chưa đủ.

Nguyên tắc thiết kế

Nguyên tắc thứ nhất: mục đích rõ trước dữ liệu. Không thu dữ liệu nếu không viết được mục đích học tập hoặc vận hành cụ thể, người chịu trách nhiệm, và hành động dự kiến.

Nguyên tắc thứ hai: tối thiểu hóa dữ liệu. Thu ít nhất có thể, xử lý cục bộ khi được, ẩn danh hoặc giả danh khi phù hợp, và tránh dữ liệu sinh trắc/nhạy cảm nếu có phương án ít xâm phạm hơn.

Nguyên tắc thứ ba: bảo vệ mặc định. Tắt mặc định các tính năng tracking sâu, huấn luyện mô hình bằng dữ liệu học sinh, chia sẻ bên thứ ba, lưu chat dài hạn và profiling high-risk nếu chưa có phê duyệt.

Nguyên tắc thứ tư: phân loại rủi ro AI. Công cụ tạo nội dung, feedback, chấm điểm, proctoring, predictive analytics, wellbeing và admission có mức rủi ro khác nhau. Mức rủi ro quyết định mức review.

Nguyên tắc thứ năm: không dùng AI high-stakes nếu thiếu human review và contestability. Điểm số, kỷ luật, tuyển chọn, phân luồng và hỗ trợ đặc biệt cần con người có quyền xem lại.

Nguyên tắc thứ sáu: audit bias theo bối cảnh. Kiểm tra hiệu năng theo nhóm người học, ngôn ngữ, disability, thiết bị, vùng miền và điều kiện học. Không chỉ xem accuracy trung bình.

Nguyên tắc thứ bảy: minh bạch theo vai trò. Học sinh, phụ huynh, giáo viên, lãnh đạo và IT cần thông tin khác nhau. Giải thích phải ngắn, đúng lúc và gắn với quyền hành động.

Nguyên tắc thứ tám: quản trị dữ liệu suy luận. Risk score, mastery estimate, engagement label, predicted grade và suspected AI use phải được kiểm soát như dữ liệu có tác động thật.

Nguyên tắc thứ chín: thiết kế age-appropriate từ đầu. Công cụ cho trẻ em cần phạm vi hẹp, bảo vệ mặc định, giải thích phù hợp tuổi, không tối ưu gây nghiện, và escalation sang người lớn khi cần.

Nguyên tắc thứ mười: hợp đồng vendor phải có điều khoản dữ liệu rõ. Không dùng dữ liệu học sinh để huấn luyện ngoài hợp đồng, không chia sẻ bên thứ ba không rõ, có breach notification, export, deletion, audit rights và exit plan.

Nguyên tắc thứ mười một: giữ quyền dữ liệu trong tổ chức học tập. Trường cần data inventory, AI register, retention schedule, access review, incident response và review định kỳ.

Nguyên tắc thứ mười hai: dạy data literacy và AI rights. Người học và giáo viên cần hiểu dữ liệu nào được tạo, quyền nào có, rủi ro nào cần tránh, và cách phản biện hệ thống.

Nguyên tắc thứ mười ba: không đo quá mức. Có những không gian học tập nên ít dữ liệu: bản nháp riêng, thảo luận nhạy cảm, wellbeing, thử nghiệm sáng tạo. Dữ liệu nhiều hơn không tự làm giáo dục tốt hơn.

Nguyên tắc thứ mười bốn: nội địa hóa pháp lý và văn hóa. Dùng UNESCO, OECD, EU, FERPA, GDPR, COPPA như nguồn tham chiếu, nhưng phải thiết kế theo luật, ngôn ngữ, văn hóa và hạ tầng địa phương.

Tổng kết chương

Dữ liệu là nền của AI trong giáo dục, nhưng cũng là nơi quyền lực tập trung. Nếu không có privacy by design, AI dễ thu quá nhiều và lưu quá lâu. Nếu không kiểm soát algorithmic bias, dữ liệu quá khứ có thể khóa cơ hội tương lai. Nếu thiếu transparency và contestability, người học và giáo viên bị đặt dưới quyết định họ không hiểu. Nếu không age-appropriate, trẻ em bị đưa vào hệ thống thiết kế cho người lớn. Nếu thiếu data governance, mỗi công cụ tạo một luật riêng. Nếu chỉ chạy theo compliance, tổ chức có thể hợp pháp nhưng vẫn không chính đáng về giáo dục.

Một hệ sinh thái AI đáng tin trong giáo dục phải trả lời được các câu hỏi rất cụ thể: dữ liệu nào, mục đích gì, ai xem, lưu bao lâu, dùng lại ra sao, sai thì sửa thế nào, thiên lệch với ai, trẻ em được bảo vệ ra sao, và người bị ảnh hưởng có quyền phản biện không. Đây không phải phần phụ của đổi mới. Đây là điều kiện để đổi mới có đạo đức.

Chương 22 sẽ chuyển sang kinh tế học EdTech: procurement, business models, chi phí ẩn, sustainability và local market adaptation. Nếu chương này hỏi dữ liệu và quyền của ai, chương sau sẽ hỏi tiền đến từ đâu, incentive nào định hình sản phẩm, và khi công nghệ giáo dục trở thành thị trường, người học có nguy cơ bị biến thành gì.

Tài liệu tham khảo

Cavoukian, A. (2009). Privacy by Design: The 7 Foundational Principles. Information and Privacy Commissioner of Ontario. https://www.ipc.on.ca/wp-content/uploads/resources/7foundationalprinciples.pdf

European Union. (2016). Regulation (EU) 2016/679: General Data Protection Regulation. https://eur-lex.europa.eu/eli/reg/2016/679/oj

European Union. (2024). Regulation (EU) 2024/1689 laying down harmonised rules on artificial intelligence. https://eur-lex.europa.eu/eli/reg/2024/1689/oj

Federal Trade Commission. (2025). Children's Online Privacy Protection Rule (COPPA). https://www.ftc.gov/legal-library/browse/rules/childrens-online-privacy-protection-rule-coppa

Liang, W., Yuksekgonul, M., Mao, Y., Wu, E., & Zou, J. (2023). GPT detectors are biased against non-native English writers. Patterns, 4(7), 100779. https://doi.org/10.1016/j.patter.2023.100779

Miao, F., & Cukurova, M. (2024). AI competency framework for teachers. UNESCO. https://www.unesco.org/en/articles/ai-competency-framework-teachers

Miao, F., Shiohira, K., & Lao, N. (2024). AI competency framework for students. UNESCO. https://www.unesco.org/en/articles/ai-competency-framework-students

National Institute of Standards and Technology. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0). https://doi.org/10.6028/NIST.AI.100-1

OECD. (2024). OECD AI Principles overview. https://oecd.ai/en/ai-principles

UNESCO. (2023). Guidance for generative AI in education and research. https://www.unesco.org/en/articles/guidance-generative-ai-education-and-research

UNESCO. (2025). AI and education: Protecting the rights of learners. https://www.unesco.org/en/articles/ai-and-education-protecting-rights-learners

UNICEF. (2021). Policy guidance on AI for children. https://www.unicef.org/globalinsight/reports/policy-guidance-ai-children

U.S. Department of Education. (2025). Family Educational Rights and Privacy Act (FERPA). https://studentprivacy.ed.gov/ferpa

Vietnam National Assembly. (2025). Law on Personal Data Protection. Effective January 1, 2026.

Chương 22: Kinh tế học EdTech

Bối cảnh / Vấn đề

EdTech không chỉ là sư phạm cộng công nghệ. Nó còn là thị trường, ngân sách, hợp đồng, mô hình doanh thu, chi phí vận hành, vòng đời thiết bị, dữ liệu, vốn đầu tư, procurement và incentive. Một sản phẩm có thể nói ngôn ngữ học tập, nhưng nó vẫn phải sống bằng một mô hình kinh tế nào đó: bán license cho trường, thu subscription từ phụ huynh, bán dịch vụ triển khai cho doanh nghiệp, lấy hoa hồng marketplace, upsell từ freemium, bán nội dung, quản lý thanh toán, hoặc biến dữ liệu thành sản phẩm phân tích. Mỗi mô hình kinh tế kéo thiết kế theo một hướng. Nếu không đọc hướng kéo đó, ta chỉ nhìn thấy giao diện, không nhìn thấy động cơ bên trong.

Chương 21 đã bàn về dữ liệu, riêng tư, thiên kiến và chính sách. Chương này hỏi tiếp: vì sao dữ liệu bị thu nhiều như vậy, vì sao sản phẩm được thiết kế để giữ người dùng ở lại, vì sao nhà trường mua thứ có demo đẹp nhưng bằng chứng yếu, vì sao công cụ “miễn phí” vẫn có chi phí, vì sao một pilot được tài trợ có thể chết sau khi hết grant, vì sao EdTech toàn cầu vào thị trường địa phương thường vấp ở phụ huynh, chương trình, thanh toán và hỗ trợ giáo viên. Câu trả lời nằm ở kinh tế học EdTech.

Trong nhiều cuộc thảo luận, chi phí EdTech bị hiểu quá hẹp. Người mua hỏi: license bao nhiêu, thiết bị bao nhiêu, gói trường bao nhiêu, giá mỗi học sinh bao nhiêu. Nhưng tổng chi phí thật gồm training, tích hợp, support, thiết bị, bảo trì, băng thông, bảo mật, migration, thay thế, quản trị dữ liệu, thời gian giáo viên, truyền thông phụ huynh, chi phí rời vendor, và cả cơ hội bị mất khi tổ chức dành năng lượng cho một công cụ không tạo tác động. UNESCO GEM Report 2023 nhấn mạnh rằng chi phí ngắn hạn và dài hạn của công nghệ trong giáo dục thường bị đánh giá thấp; báo cáo cũng ghi rằng đầu tư ban đầu chỉ chiếm khoảng 25% hoặc ít hơn tổng chi phí cuối cùng của một khoản đầu tư công nghệ giáo dục (UNESCO, 2023). Nếu một trường chỉ nhìn giá mua, họ gần như chắc chắn đang nhìn thiếu.

Bằng chứng cũng bị hiểu hẹp. Một vendor có case study, testimonial, biểu đồ tăng engagement, hoặc số trường đang dùng không đồng nghĩa sản phẩm tạo học tập tốt trong bối cảnh của bạn. UNESCO GEM Report 2023 chỉ ra tình trạng thiếu bằng chứng độc lập: ở Anh, chỉ 7% công ty EdTech trong một khảo sát đã thực hiện randomized controlled trials, 12% dùng chứng nhận bên thứ ba; trong khảo sát giáo viên và quản trị viên ở 17 bang Hoa Kỳ, chỉ 11% yêu cầu bằng chứng peer-reviewed trước khi adoption (UNESCO, 2023). Procurement vì vậy thường bị kéo bởi niềm tin, quan hệ, áp lực thị trường, khuyến nghị đồng nghiệp, demo và thương hiệu hơn là evidence portfolio nghiêm túc.

AI làm kinh tế học EdTech phức tạp hơn. Chi phí biên của nội dung có thể giảm: một hệ thống có thể sinh worksheet, câu hỏi, phản hồi, phụ đề, bản dịch và ví dụ với tốc độ cao. Nhưng chi phí khác tăng: kiểm chứng, bảo mật, model usage, latency, moderation, audit, legal review, data governance, training người dùng, và xử lý lỗi. AI cũng làm cạnh tranh thay đổi: một công ty tutoring có thể bị chatbot miễn phí làm suy yếu; một LMS có thể thêm AI để giữ khách hàng; một startup có thể tăng trưởng nhanh nhờ GenAI nhưng gánh chi phí inference; một trường có thể thấy nhiều công cụ “AI-powered” chồng lên nhau mà chưa rõ giá trị.

Thị trường EdTech sau đại dịch đã trở nên thực dụng hơn. HolonIQ ghi nhận vốn đầu tư EdTech toàn cầu đạt khoảng 2,6 tỷ USD năm 2025, tăng khoảng 11% so với 2024 nhưng vẫn xa mức cao 2020-2021; vốn tập trung vào các công ty có traction rõ, AI-enabled platforms, workforce training, K-12 operations và các giải pháp gắn với employability hoặc hiệu quả vận hành (HolonIQ, 2026a). Cùng lúc, Q1 2026 chỉ đạt khoảng 512 triệu USD vốn đầu tư, báo hiệu khởi đầu chậm và nhà đầu tư tiếp tục ưu tiên sản phẩm AI-enabled, career-aligned và có đường doanh thu rõ (HolonIQ, 2026b). Điều này cho thấy một chuyển dịch: thời kỳ tăng trưởng bằng kỳ vọng đang nhường chỗ cho câu hỏi về revenue, retention, margin, cost to serve và outcome.

Nhưng “thực dụng” trong thị trường không tự đồng nghĩa với “có lợi cho học tập”. Một sản phẩm có path to revenue tốt có thể không có learning impact tốt. Một mô hình freemium có thể tăng người dùng nhưng tạo phân tầng giữa bản miễn phí và bản trả tiền. Một nền tảng B2B có thể ổn định doanh thu nhưng khóa trường vào hệ sinh thái riêng. Một marketplace có thể mở lựa chọn nhưng làm chất lượng khó kiểm soát. Một công ty content có thể tạo thư viện lớn nhưng làm chương trình bị đồng nhất hóa. Một mô hình B2B2C có thể giảm chi phí bán hàng nhờ trường giới thiệu cho phụ huynh, nhưng cũng làm ranh giới giữa khuyến nghị giáo dục và bán hàng mờ hơn.

Kinh tế học EdTech vì vậy không phải chương dành cho nhà đầu tư. Nó là phần cốt lõi của thiết kế có trách nhiệm. Nếu tiền đến từ phụ huynh, sản phẩm sẽ tối ưu niềm tin và kết quả thấy được với phụ huynh. Nếu tiền đến từ trường, sản phẩm phải đi qua procurement, tích hợp và support. Nếu tiền đến từ doanh nghiệp, sản phẩm sẽ gắn với năng suất, compliance và ROI. Nếu tiền đến từ quảng cáo hoặc dữ liệu, người học có nguy cơ trở thành nguồn khai thác. Nếu tiền đến từ grant, sustainability sau dự án trở thành câu hỏi sống còn. Nếu tiền đến từ venture capital, áp lực tăng trưởng có thể đẩy sản phẩm đi trước bằng chứng.

Chương này đi qua năm phần. Procurement và bằng chứng: vì sao quy trình mua sắm thường thưởng cho demo đẹp hơn hiệu quả học tập dài hạn, và cách sửa. Business models: license, freemium, SaaS, marketplace, content, service và B2B2C tác động đến thiết kế ra sao. Chi phí ẩn: training, integration, support, device lifecycle, bandwidth, security, migration và vendor lock-in. Sustainability: công nghệ giáo dục cần mô hình tài chính đủ sống mà không ép người học thành sản phẩm dữ liệu. Local market adaptation: EdTech toàn cầu phải đi qua ngôn ngữ, phụ huynh, giáo viên, hạ tầng thanh toán, luật và chương trình địa phương.

Nếu chương 20 hỏi tổ chức triển khai công nghệ như thế nào, chương 22 hỏi: incentive nào làm công nghệ ấy được mua, được bán, được duy trì, được mở rộng hoặc bị bỏ rơi?

Nền tảng lý thuyết

Nền tảng đầu tiên là principal-agent problem. Trong EdTech, người trả tiền, người dùng và người hưởng lợi không luôn là một. Ở B2C, phụ huynh có thể trả tiền, học sinh dùng, giáo viên ít liên quan, và kết quả thật khó đo. Ở B2B, trường hoặc sở mua, giáo viên dùng, học sinh chịu tác động, phụ huynh quan sát gián tiếp. Ở doanh nghiệp, HR mua, nhân viên học, quản lý kỳ vọng productivity. Khi người mua không trực tiếp trải nghiệm học tập, sản phẩm có incentive tối ưu thứ người mua thấy được: dashboard đẹp, báo cáo phụ huynh, completion rate, compliance, quản trị dễ, hoặc narrative đổi mới. Những thứ đó không vô nghĩa, nhưng chúng có thể lệch khỏi học tập sâu.

Nền tảng thứ hai là asymmetric information. Vendor thường biết nhiều hơn người mua về sản phẩm, dữ liệu, mô hình, chi phí triển khai và giới hạn. Trường học thường không có đủ năng lực kỹ thuật, pháp lý, bảo mật, đánh giá tác động và thương lượng hợp đồng. UNESCO gọi tình trạng thiếu bằng chứng độc lập là một vấn đề lớn trong EdTech, khi nhiều claim đến từ bên bán và công nghệ thay đổi nhanh hơn tốc độ đánh giá (UNESCO, 2023). Khi thông tin bất cân xứng, thị trường dễ thưởng cho người kể chuyện hay hơn người tạo tác động bền.

Nền tảng thứ ba là total cost of ownership (TCO) và value of investment (VOI). TCO hỏi: để sở hữu, vận hành và thay thế công nghệ trong toàn vòng đời, tổ chức tốn bao nhiêu? CoSN định nghĩa TCO trong giáo dục là chi phí vòng đời, không chỉ giá mua, gồm hardware/software, infrastructure, support/maintenance, training và indirect labor như thời gian nhân sự xử lý lỗi hoặc gián đoạn (CoSN, 2026). World Bank trong báo cáo năm 2025 về financing EdTech cũng nhấn mạnh acquisition costs, operating costs và sustainability costs; chi phí vận hành và duy trì có thể chiếm phần lớn chi phí dài hạn, và ngân sách vận hành/duy trì nên được tính cùng chi phí mua ban đầu trong chu kỳ 5-6 năm (Antunes de Carvalho, Lee, & Byanjeru, 2025). VOI hỏi thêm: so với chi phí ấy, giá trị giáo dục, vận hành, công bằng và rủi ro giảm được là gì?

Nền tảng thứ tư là switching cost và vendor lock-in. Một sản phẩm không chỉ cạnh tranh bằng tính năng; nó có thể giữ khách hàng bằng dữ liệu, workflow, tích hợp, training, hợp đồng dài, file format riêng, lịch sử nội dung, thói quen người dùng và phụ thuộc báo cáo. Lock-in có thể hữu ích ở mức nào đó: hệ thống ổn định, tích hợp sâu, người dùng quen. Nhưng nếu dữ liệu không xuất được, chuẩn không mở, giá tăng, chất lượng giảm, hoặc vendor đổi điều khoản, tổ chức khó rời. Chương 11 đã nói procurement phải có exit plan. Trong kinh tế học EdTech, exit plan là cơ chế chống quyền lực thị trường quá mức.

Nền tảng thứ năm là platform economics. Nhiều EdTech là nền tảng đa phía: kết nối người học với gia sư, giáo viên với nội dung, trường với vendor, người học với nhà tuyển dụng, giảng viên với học viên, hoặc phụ huynh với dịch vụ học. Marketplace có network effects: càng nhiều người dùng, càng nhiều nhà cung cấp; càng nhiều nhà cung cấp, càng hấp dẫn người dùng. Nhưng network effects cũng tạo vấn đề chất lượng, thông tin bất cân xứng, xếp hạng bị thao túng, và winner-takes-most. Trong giáo dục, marketplace không thể chỉ tối ưu matching và conversion; nó phải quản trị chất lượng, an toàn, curriculum fit và công bằng.

Nền tảng thứ sáu là datafication như mô hình kinh tế. Komljenovic, Birch và Sellar năm 2024 phân tích cách EdTech startups trong giáo dục đại học tìm cách monetise digital data: datafy sản phẩm, tạo analytics mới, kiểm soát dữ liệu cho matching services, xây tập dữ liệu lớn qua acquisition, và phát triển data products as a service (Komljenovic et al., 2024). Bài này không nói mọi việc dùng dữ liệu đều xấu. Nó chỉ ra rằng dữ liệu giáo dục có giá trị kinh tế, và công ty phải chứng minh use value của dữ liệu để thuyết phục khách hàng trả tiền. Vì vậy, khi một sản phẩm nói “data-driven insight”, cần hỏi insight phục vụ ai, được tạo từ dữ liệu nào, có đáng tin không, và mô hình doanh thu có làm tăng thu thập dữ liệu quá mức không.

Nền tảng thứ bảy là public procurement as market shaping. OECD Digital Education Outlook 2023 xem procurement là công cụ định hình hệ sinh thái giáo dục số. Trong 29 hệ thống được khảo sát, hơn hai phần ba có mua sắm tập trung một số công cụ số; nhiều nước dùng danh sách công cụ được phê duyệt, hướng dẫn, tiêu chí bảo mật, dữ liệu và interoperability; nhưng OECD cũng ghi nhận các nỗ lực về equity, inclusivity, effectiveness và sustainability còn ít được dùng rõ ràng hơn so với bảo mật và tuân thủ dữ liệu (OECD, 2023). Procurement vì vậy không chỉ là mua rẻ. Nó là cách nhà nước và tổ chức giáo dục gửi tín hiệu cho thị trường: chúng tôi trả tiền cho điều gì?

Nền tảng cuối cùng là sustainability theo ba nghĩa: kinh tế, xã hội và môi trường. Kinh tế: sản phẩm có đủ doanh thu để duy trì support, bảo mật, cập nhật và chất lượng không? Xã hội: sản phẩm có mở rộng quyền học hay tạo phân tầng trả tiền? Môi trường: thiết bị, cloud, AI compute, vòng đời laptop/tablet, e-waste và năng lượng có được tính không? UNESCO GEM 2023 khuyến nghị procurement công nghệ giáo dục phải tính economic, social và environmental sustainability; báo cáo nêu ví dụ kéo dài tuổi thọ laptop tại EU thêm một năm có thể tiết kiệm lượng phát thải tương đương gần một triệu xe hơi rời đường (UNESCO, 2023). Một giải pháp EdTech không bền nếu nó chỉ đẹp trong năm ngân sách đầu.

Từ các nền tảng này, có thể đặt tiêu chuẩn cho chương: công nghệ giáo dục tốt không chỉ cần học tốt, dùng được và an toàn. Nó cần mô hình kinh tế không làm méo mục tiêu học tập.

Procurement và Bằng Chứng

Procurement là nơi giá trị giáo dục gặp ngân sách. Nếu quy trình mua sắm thưởng cho danh sách tính năng dài, demo mượt, giá thấp năm đầu và lời hứa triển khai nhanh, thị trường sẽ tối ưu theo những tiêu chí ấy. Nếu procurement yêu cầu problem fit, evidence, interoperability, accessibility, privacy, support, TCO, exit plan, equity và evaluation sau triển khai, thị trường sẽ nhận tín hiệu khác. Nhà trường mua bằng tiêu chí nào thì dần nhận sản phẩm theo tiêu chí đó.

Một procurement tốt bắt đầu trước RFP. Nó bắt đầu bằng problem definition. Tổ chức cần viết rõ: vấn đề học tập hoặc vận hành nào đang cần giải quyết; ai bị ảnh hưởng; baseline hiện tại ra sao; nếu không mua gì thì hậu quả là gì; có giải pháp không công nghệ hoặc công nghệ thấp hơn không; outcome nào quan trọng; rủi ro nào không chấp nhận được. Nếu không làm bước này, procurement dễ biến thành so sánh tính năng. Một trường nói “cần AI tutor” có thể thực ra cần formative assessment tốt hơn, thời gian phụ đạo, hoặc tài liệu phân hóa. Một đại học nói “cần AI detector” có thể thực ra cần thiết kế lại đánh giá.

UNESCO GEM 2023 nêu rằng nhiều quyết định mua EdTech dựa vào khuyến nghị, rating hoặc claim, trong khi bằng chứng độc lập ít. Báo cáo cũng cảnh báo review có thể bị thao túng và một số chính phủ đang cần các cơ chế đánh giá độc lập như EdTech Tulna ở Ấn Độ, nơi có quality standards, evaluation toolkit và expert reviews công khai (UNESCO, 2023). Bài học không phải mọi sản phẩm đều cần RCT trước khi mua. Bài học là procurement cần evidence portfolio, gồm nhiều loại bằng chứng phù hợp với mức rủi ro.

Evidence portfolio nên có ít nhất sáu lớp.

Lớp thứ nhất là logic model. Sản phẩm dựa trên cơ chế học nào? Feedback, retrieval, spaced practice, self-explanation, peer learning, simulation, scaffolding, formative assessment, UDL hay administrative efficiency? Nếu vendor không giải thích được cơ chế, bằng chứng usage không đủ.

Lớp thứ hai là usability và accessibility evidence. Giáo viên và người học có dùng được trong điều kiện thật không? Screen reader có hoạt động không? Tiếng Việt có tốt không? Thiết bị yếu có chạy không? Người học khuyết tật có lựa chọn không? Một sản phẩm có learning theory tốt nhưng UX kém sẽ thất bại.

Lớp thứ ba là implementation evidence. Công cụ cần training bao lâu, tích hợp gì, ai hỗ trợ, workflow thay đổi ra sao, workload tăng/giảm thế nào, trường nào đã triển khai trong điều kiện giống mình? Chương 20 đã nhấn mạnh implementation outcomes như adoption, feasibility, fidelity và sustainability. Procurement phải hỏi những thứ này trước khi ký hợp đồng.

Lớp thứ tư là learning evidence. Có nghiên cứu thực nghiệm, quasi-experimental, correlational hoặc mixed-method nào không? Outcome đo gì: điểm gần, retention, transfer, self-regulation, equity, wellbeing? Thời gian bao lâu? Nhóm người học nào? Ai tài trợ nghiên cứu? Có negative findings không? ESSA tiers và What Works Clearinghouse là một ví dụ về cách phân tầng bằng chứng, dù không phải khung duy nhất (WWC, 2026).

Lớp thứ năm là risk evidence. Sản phẩm có kiểm tra privacy, security, bias, age-appropriateness, data retention, AI hallucination, human review, incident response không? Với AI high-risk, risk evidence phải ngang hàng với learning evidence.

Lớp thứ sáu là cost and value evidence. Tổng chi phí là gì, so với baseline nào, trong bao lâu? Sản phẩm có giảm workload thật không, hay chỉ chuyển việc? Có giảm chi phí can thiệp không? Có tạo tác động đủ lớn so với các phương án khác như training giáo viên, tăng thời gian phụ đạo, cải thiện tài liệu, hoặc tuyển hỗ trợ kỹ thuật?

Procurement cũng cần phân tầng theo rủi ro. Một công cụ tạo hình minh họa cho giáo viên có thể đi qua quy trình nhẹ hơn. Một hệ thống automated scoring, proctoring, predictive analytics, admission hoặc wellbeing AI cần quy trình nặng hơn: impact assessment, pilot, human review, audit bias, data protection review, accessibility review, và điều khoản contract rõ. Không nên để mọi công cụ qua cùng một cổng, vì hoặc quá chậm, hoặc quá dễ dãi.

OECD 2023 cho thấy procurement trong giáo dục số có nhiều mô hình: mua sắm tập trung, danh sách được phê duyệt, hướng dẫn cho procurement địa phương, phê duyệt trước hoặc theo từng trường hợp. Mỗi mô hình có trade-off. Centralised procurement có thể tạo economies of scale, giảm rủi ro bảo mật, tăng interoperability và hỗ trợ trường yếu năng lực. Nhưng nó có thể cứng, chậm, không khớp nhu cầu địa phương và tạo lock-in lớn. Decentralised procurement cho phép trường chọn theo bối cảnh, nhưng dễ tạo tool sprawl, bất bình đẳng và quyết định dựa trên thông tin yếu. Mô hình tốt thường kết hợp: chuẩn trung tâm cho privacy, security, interoperability và evidence; không gian địa phương để chọn công cụ theo mục tiêu học.

Một RFP EdTech nghiêm túc không nên chỉ hỏi tính năng. Nó nên yêu cầu vendor trả lời:

1. Sản phẩm giải quyết vấn đề nào và không giải quyết vấn đề nào? 2. Bằng chứng hiệu quả ở bối cảnh nào, với nhóm người học nào? 3. Cần điều kiện triển khai gì để đạt kết quả? 4. Tổng chi phí 3-5 năm gồm license, training, integration, support, maintenance, security và exit là gì? 5. Dữ liệu nào được thu, dùng, lưu, chia sẻ và xóa? 6. Có dùng dữ liệu khách hàng để huấn luyện mô hình không? 7. Có hỗ trợ chuẩn mở và xuất dữ liệu không? 8. Accessibility đạt chuẩn nào và đã kiểm thử với ai? 9. Hiệu năng theo ngôn ngữ, disability, thiết bị và băng thông ra sao? 10. Nếu sản phẩm không đạt outcome, điều khoản dừng hoặc điều chỉnh thế nào?

Procurement cần pilot có quyền dừng. Nếu pilot chỉ để chuẩn bị mở rộng đã quyết sẵn, nó không tạo bằng chứng. Một pilot procurement tốt có tiêu chí thành công trước: adoption tối thiểu, workload không tăng quá mức, learning outcome hoặc operational outcome cụ thể, không có rủi ro dữ liệu nghiêm trọng, giáo viên và học sinh hiểu workflow, chi phí hỗ trợ nằm trong khả năng. Nếu không đạt, tổ chức sửa hoặc dừng. Dừng sớm một sản phẩm không fit là tiết kiệm, không phải mất mặt.

Một vấn đề lớn là procurement thường tách khỏi người dùng. Bộ phận mua sắm nhìn hợp đồng và giá; IT nhìn security và integration; lãnh đạo nhìn chiến lược; giáo viên nhìn lớp học; học sinh nhìn trải nghiệm. Nếu một nhóm quyết định thay tất cả, sản phẩm lệch. Chương 20 đã bàn stakeholder governance. Ở procurement, cần có hội đồng hoặc quy trình đưa giáo viên, học sinh, phụ huynh, IT, dữ liệu, pháp lý và lãnh đạo vào đúng điểm. Không phải mọi người cùng chấm mọi thứ, nhưng mỗi nhóm phải có quyền nói về rủi ro họ hiểu.

Procurement cũng nên yêu cầu post-adoption evaluation. Hợp đồng không kết thúc khi triển khai. Sau 3 tháng, 6 tháng, 12 tháng, tổ chức cần hỏi: công cụ có được dùng không, dùng đúng cơ chế không, outcome ra sao, nhóm nào bị bỏ lại, workload thế nào, support có đủ không, chi phí có đúng dự toán không, dữ liệu có vấn đề không, có nên gia hạn không. Nếu renewal tự động chỉ dựa trên usage hoặc thói quen, procurement thành lock-in chậm.

Một nguyên tắc ngắn gọn: mua công nghệ giáo dục như mua năng lực tổ chức, không như mua phần mềm. Nếu tổ chức không mua kèm training, support, integration, data governance, evaluation và exit plan, họ chưa mua đủ thứ cần để công nghệ tạo giá trị.

Business Models

Mô hình kinh doanh của EdTech định hình sản phẩm. Không có mô hình nào tự tốt hoặc xấu. Nhưng mỗi mô hình có incentive riêng, và incentive ấy ảnh hưởng đến thiết kế học tập, dữ liệu, support, pricing và công bằng.

License theo trường hoặc tổ chức là mô hình quen thuộc. Trường, đại học hoặc doanh nghiệp trả tiền để người dùng nội bộ truy cập. Ưu điểm là doanh thu tương đối ổn định, có thể đi kèm support, tích hợp và quản trị dữ liệu. Với nhà trường, license giúp bảo đảm quyền truy cập đồng đều nếu tất cả học sinh được cấp tài khoản. Rủi ro là sales cycle dài, procurement nặng, sản phẩm tối ưu cho người mua hơn người học, và renewal có thể dựa trên usage/dashboard hơn learning impact. Nếu giá theo số học sinh, trường nhỏ hoặc vùng khó khăn có thể bị thiệt. Nếu license theo tính năng, nhóm trả tiền cao có thêm công cụ mạnh hơn, tạo phân tầng.

Subscription B2C bán trực tiếp cho phụ huynh, học sinh hoặc người học trưởng thành. Ưu điểm là tốc độ thị trường nhanh, feedback trực tiếp, sản phẩm phải rõ giá trị với người dùng. Mô hình này phù hợp tutoring, test prep, language learning, upskilling, coding, exam practice. Rủi ro là sản phẩm dễ tối ưu conversion, retention, streak, cảm giác tiến bộ và outcome gần thay vì học sâu. Với trẻ em, phụ huynh trả tiền nên sản phẩm có thể tối ưu báo cáo phụ huynh: số phút học, điểm, rank, chứng nhận, biểu đồ tiến bộ. Những thứ này có thể hữu ích, nhưng nếu không cẩn thận, học tập bị biến thành dashboard thuyết phục người trả tiền.

Freemium cung cấp bản miễn phí và bán bản premium. Trong phần mềm nói chung, freemium dùng free tier để tạo reach và upsell; Pujol mô tả freemium như mô hình kết hợp sản phẩm miễn phí với sản phẩm bổ sung trả phí, trong đó “mind share” cũng là một loại tiền tệ (Pujol, 2010). Trong EdTech, freemium có thể giúp giáo viên hoặc học sinh tiếp cận công cụ mà không chờ procurement. Nó có thể lan nhanh qua lớp học. Nhưng freemium có rủi ro đặc biệt: bản miễn phí có thể thiếu privacy, thiếu support, giới hạn tính năng quan trọng, hoặc dùng dữ liệu/attention để đổi lấy tăng trưởng. Nếu học sinh trả tiền có feedback tốt hơn, AI model tốt hơn, nhiều lượt luyện hơn, công cụ đang tạo khoảng cách học tập mới. Nếu giáo viên dùng bản miễn phí vì trường chưa mua, support và compliance đổ lên cá nhân.

SaaS B2B theo subscription định kỳ là mô hình phổ biến với LMS, SIS, assessment platform, analytics, communication app, school management, HR learning, corporate training. Ưu điểm là doanh thu lặp lại giúp vendor duy trì cập nhật, bảo mật và support; khách hàng có thể dự đoán ngân sách. Rủi ro là subscription creep: mỗi năm thêm vài công cụ, mỗi công cụ một khoản nhỏ, tổng chi phí tăng mà không ai nhìn toàn cảnh. SaaS cũng có incentive giữ khách qua workflow và dữ liệu, nên interoperability và exit plan rất quan trọng. Một SaaS tốt cần chứng minh value mỗi năm; một SaaS yếu sống nhờ switching cost.

Marketplace kết nối người học với giáo viên/gia sư/khóa học, giáo viên với tài nguyên, trường với vendor, hoặc nhà tuyển dụng với người học. Mô hình doanh thu có thể là commission, listing fee, subscription cho nhà cung cấp, hoặc phí giao dịch. Ưu điểm là mở rộng lựa chọn và giảm search cost. Rủi ro là chất lượng không đồng đều, review bị thao túng, nội dung lệch chuẩn, giáo viên/gia sư chạy theo thuật toán xếp hạng, và platform có thể ưu tiên sản phẩm trả phí hơn sản phẩm phù hợp. Trong giáo dục, marketplace cần governance chất lượng mạnh hơn marketplace tiêu dùng thông thường vì người học không luôn đủ năng lực đánh giá chất lượng trước khi mua.

Content business bán nội dung: khóa học, video, ngân hàng câu hỏi, sách số, worksheet, mô phỏng, bài luyện, curriculum package. AI làm mô hình này bị xáo trộn vì chi phí tạo nội dung giảm, nhưng giá trị của nội dung chung cũng giảm. Khi ai cũng có thể sinh bài đọc hoặc câu hỏi, giá trị chuyển sang curriculum alignment, quality assurance, localization, pedagogy, assessment validity, teacher support và brand trust. Một content company tốt không chỉ có nhiều nội dung; nó có quy trình bảo đảm nội dung đúng, phù hợp chương trình, có scaffold, có dữ liệu sử dụng và có cập nhật. Một content company yếu có thể tạo thư viện khổng lồ nhưng làm giáo viên chìm trong lựa chọn.

Service model bán triển khai, training, coaching, tutoring, content localization, assessment design, data integration hoặc managed service. Ưu điểm là phù hợp giáo dục vì thay đổi cần con người. Rủi ro là khó scale, margin thấp hơn phần mềm, chất lượng phụ thuộc đội triển khai, và khách hàng có thể khó phân biệt giá trị sản phẩm với giá trị người tư vấn. Với AI, service model có thể tăng giá trị vì trường cần support để thiết kế chính sách, audit bias, training giáo viên và tích hợp workflow. Nhưng nếu vendor chỉ bán dịch vụ để bù cho sản phẩm khó dùng, đó là dấu hiệu cần xem lại.

B2B2C là mô hình lai: trường, trung tâm, doanh nghiệp hoặc tổ chức giới thiệu/sử dụng nền tảng, nhưng phụ huynh hoặc người học trả tiền cho phần mở rộng. Ở Đông Nam Á, HolonIQ 2025 ghi nhận direct-to-consumer vẫn chiếm ưu thế trong cohort EdTech khu vực, khoảng 70%, trong khi institutional B2B chiếm khoảng một phần tư; mô hình D2C phản ánh nhu cầu học tập tiêu dùng lớn, còn B2B tăng dần khi trường và doanh nghiệp số hóa (HolonIQ, 2025). B2B2C hấp dẫn vì giảm chi phí acquisition nhờ niềm tin tổ chức, nhưng nó có rủi ro đạo đức: trường có đang khuyến nghị vì lợi ích học tập hay vì quan hệ thương mại? Phụ huynh có hiểu phần nào bắt buộc, phần nào optional? Học sinh không mua gói premium có bị thiệt trong lớp không?

Outcome-based hoặc performance-based pricing xuất hiện trong workforce training, bootcamp, tutoring hoặc giải pháp can thiệp. Ý tưởng là trả tiền theo kết quả: hoàn thành, đậu chứng chỉ, có việc, tăng điểm, giữ chân học viên. Mô hình này nghe công bằng vì vendor chia sẻ rủi ro. Nhưng nó dễ tạo gaming. Nếu trả theo completion, sản phẩm làm khóa dễ hơn. Nếu trả theo job placement, bootcamp chọn người dễ có việc. Nếu trả theo điểm, tutoring dạy sát bài kiểm tra. Nếu trả theo retention, nền tảng tối ưu giữ người học hơn học sâu. Outcome-based pricing chỉ tốt khi outcome được định nghĩa rộng, có kiểm soát selection, và có guardrails về equity.

Advertising hoặc data monetization là mô hình nhạy cảm nhất trong giáo dục. Với người lớn học kỹ năng tự chọn, quảng cáo đã cần thận trọng. Với trẻ em và trường học, quảng cáo, profiling và bán dữ liệu cần bị giới hạn mạnh. Chương 21 đã nói dữ liệu giáo dục là dữ liệu quyền lực. Nếu mô hình kinh doanh cần thu nhiều dữ liệu hơn để monetise, sản phẩm có incentive mở rộng tracking. Komljenovic và cộng sự cho thấy data monetization trong higher education không đơn giản là bán dữ liệu thô, mà là tạo data outputs, analytics, matching, datasets và data products (Komljenovic et al., 2024). Vì vậy, ngay cả khi vendor nói “không bán dữ liệu cá nhân”, nhà trường vẫn cần hỏi dữ liệu được biến thành sản phẩm gì.

AI làm business model biến đổi theo ba hướng. Thứ nhất, nhiều sản phẩm thêm AI như add-on premium. Điều này có thể tạo nguồn thu để trả chi phí compute, nhưng cũng tạo phân tầng: ai trả tiền có tutor, feedback và automation tốt hơn. Thứ hai, AI làm self-service mạnh hơn: người dùng có thể tạo nội dung, phân tích dữ liệu, nhận hỗ trợ mà không cần nhân sự vendor. Điều này tăng scale nhưng cũng tăng rủi ro nếu support giảm. Thứ ba, AI làm sản phẩm general-purpose cạnh tranh với EdTech chuyên biệt. Một app học viết phải chứng minh giá trị hơn chatbot chung: curriculum, feedback chất lượng, privacy, assessment, teacher dashboard, local language, age-appropriate design.

Không nên đánh giá business model chỉ bằng doanh thu. Cần hỏi:

1. Ai trả tiền? 2. Ai dùng? 3. Ai hưởng lợi? 4. Ai chịu rủi ro? 5. Sản phẩm tối ưu metric nào để giữ doanh thu? 6. Dữ liệu nào cần thu để mô hình sống? 7. Người không trả tiền có bị giảm cơ hội không? 8. Mô hình có tạo áp lực học tập ngắn hạn không? 9. Có đủ tiền cho support, accessibility, security và cập nhật không? 10. Nếu khách hàng rời đi, dữ liệu và workflow có rời được không?

Một mô hình kinh doanh bền trong giáo dục không phải mô hình tăng trưởng nhanh nhất. Nó là mô hình trong đó doanh thu, tác động học tập, quyền dữ liệu, công bằng và năng lực tổ chức không kéo nhau về các hướng trái ngược.

Chi Phí Ẩn

Chi phí ẩn là lý do nhiều dự án EdTech trông rẻ lúc mua và đắt lúc sống. Một license giảm giá năm đầu có thể kéo theo ba năm support. Một lô tablet được tài trợ có thể cần ngân sách sửa pin, thay màn hình, quản lý thiết bị, bảo mật, MDM, sạc, tủ khóa, băng thông và e-waste. Một AI tool miễn phí có thể tốn thời gian giáo viên kiểm chứng và tạo rủi ro dữ liệu. Một dashboard có thể tạo thêm cuộc họp, thêm báo cáo, thêm can thiệp mà không thêm nhân sự.

World Bank 2025 chia TCO EdTech thành acquisition costs, operating costs và sustainability costs. Acquisition gồm giá mua ban đầu, thuế, chi phí tài chính, vận chuyển, bảo hành, lắp đặt, kiểm thử, training ban đầu. Operating gồm bảo trì, hỗ trợ kỹ thuật, kết nối, điện, bảo mật, bảo hiểm, training liên tục, monitoring và evaluation. Sustainability gồm nâng cấp, thay thế và xử lý e-waste (Antunes de Carvalho et al., 2025). Cách chia này hữu ích vì nó buộc tổ chức nhìn vòng đời, không chỉ năm ngân sách đầu.

Chi phí training thường bị đánh giá thấp. Một công cụ mới không tự dùng đúng. Giáo viên cần hiểu mục tiêu, workflow, giới hạn, dữ liệu, cách xử lý lỗi, cách giải thích với học sinh, và cách điều chỉnh nhiệm vụ. Lãnh đạo cần hiểu chỉ số. IT cần vận hành. Phụ huynh cần truyền thông. Học sinh cần onboarding. Nếu training chỉ diễn ra một lần, adoption sẽ lệch. Nếu training lặp lại, cần ngân sách và thời gian. Chương 19 đã nói professional development không thể là workshop mẹo công cụ; ở đây cần nói thêm: PD là một dòng chi phí bắt buộc của EdTech có trách nhiệm.

Chi phí integration cũng lớn. Một sản phẩm phải kết nối với SIS, LMS, SSO, roster, gradebook, payment, communication, data warehouse, identity management. Nếu không tích hợp, giáo viên nhập tay, học sinh dùng nhiều tài khoản, IT xử lý lỗi, dữ liệu phân mảnh. Integration đôi khi đắt hơn license, nhất là khi hệ thống cũ thiếu chuẩn mở. Một vendor nói “có API” chưa đủ. Cần kiểm thử workflow thật: đầu năm nhập lớp, học sinh chuyển lớp, giáo viên đổi môn, điểm đẩy về gradebook, tài khoản khóa khi rời trường, dữ liệu xuất khi chấm dứt hợp đồng.

Chi phí support là phần quyết định trust. Khi công cụ lỗi trong giờ học, ai trả lời? Khi học sinh không đăng nhập được trước bài kiểm tra, ai xử lý? Khi phụ huynh không nhận thông báo, ai hỗ trợ? Khi AI phản hồi sai, ai ghi nhận và sửa? Nếu support chậm, giáo viên sẽ bỏ công cụ hoặc tạo workaround. Support có thể là helpdesk nội bộ, vendor SLA, tài liệu hướng dẫn, community, hoặc school-based champions. Dù hình thức nào, nó có chi phí.

Chi phí device lifecycle thường bị che bởi giá thiết bị. Laptop, tablet, headset, camera, microphone, router, projector, server đều có vòng đời. Pin yếu, màn hình vỡ, hệ điều hành hết hỗ trợ, phần mềm mới đòi cấu hình cao, thiết bị mất, thiết bị bị khóa, phụ kiện hỏng. Nếu trường mua thiết bị bằng grant nhưng không có replacement fund, sau vài năm hệ thống xuống cấp. Reyna, Hanham và Orlando năm 2024 lưu ý các cơ sở giáo dục là người tiêu thụ lớn công nghệ máy tính và thường thay thế hạ tầng trong khung 3-5 năm, tạo vấn đề e-waste đáng kể nếu không có chiến lược kéo dài tuổi thọ và tái sử dụng (Reyna et al., 2024).

Chi phí bandwidth và cloud tăng trong thời AI. Video, proctoring, AR/VR, multimodal data, AI tutoring, speech recognition và analytics đều cần kết nối và compute. Một trường có thể mua phần mềm nhưng mạng không đủ. Một startup có thể miễn phí ban đầu nhưng chi phí inference tăng theo usage. Một tổ chức có thể chuyển sang cloud để linh hoạt nhưng phải trả storage, backup, logging, security và data egress. Với AI, cost per interaction không luôn bằng không. Nếu mô hình kinh doanh không tính đúng compute cost, giá sẽ tăng hoặc chất lượng giảm.

Chi phí security và compliance tăng khi dữ liệu nhạy hơn. MFA, audit logs, encryption, vendor risk review, penetration testing, incident response, data processing agreements, retention policies, staff training, cyber insurance, backup, disaster recovery đều cần ngân sách. Một trường nhỏ có thể không có đội bảo mật riêng, nên chi phí này hoặc bị bỏ qua, hoặc phải mua qua dịch vụ. Bỏ qua thì rủi ro trở thành chi phí tương lai.

Chi phí migration và exit thường không được tính lúc mua. Khi muốn rời vendor, tổ chức cần xuất dữ liệu, chuyển nội dung, đào tạo lại người dùng, tích hợp hệ thống mới, lưu trữ hồ sơ cũ, xử lý mất tính năng, truyền thông với phụ huynh và học sinh. Nếu dữ liệu ở format riêng hoặc workflow bị may đo sâu, migration đắt. Exit cost là một phần của lock-in. Một hợp đồng tốt phải yêu cầu data export, documentation và hỗ trợ chuyển đổi.

Chi phí indirect labor là phần mềm nhất và dễ bị bỏ qua nhất. CoSN đưa indirect labor vào TCO vì thời gian nhân sự troubleshooting, quản lý gián đoạn và hỗ trợ không chính thức là chi phí thật (CoSN, 2026). Trong trường học, indirect labor thường đổ lên giáo viên: xử lý đăng nhập, giải thích app, kiểm chứng AI, sửa file, nhập lại điểm, nhắc học sinh cập nhật, trả lời phụ huynh, làm video hướng dẫn, trấn an khi hệ thống báo sai. Nếu không đo phần này, tổ chức sẽ tưởng công cụ rẻ vì không thấy thời gian bị lấy khỏi dạy học.

Chi phí opportunity cost cũng thật. Một trường dành học kỳ để triển khai một nền tảng sẽ có ít năng lượng cho cải thiện đọc hiểu, hỗ trợ học sinh yếu, xây cộng đồng giáo viên hoặc nâng cấp hạ tầng khác. Một giáo viên học công cụ mới có thể ít thời gian thiết kế bài học sâu. Một tổ chức mua AI tutor có thể không đầu tư vào formative assessment training. Procurement cần hỏi: nếu dùng tiền và thời gian này cho phương án khác, kết quả có tốt hơn không?

Chi phí governance sau AI cũng tăng. Cần AI register, data inventory, review model updates, policy refresh, audit bias, incident logs, human review, appeals, và communication. Một sản phẩm AI không chỉ “cài xong”. Nó thay đổi theo model version, vendor terms, dữ liệu mới và hành vi người dùng. Governance là chi phí lặp lại.

Một TCO worksheet EdTech nên gồm ít nhất:

1. License/subscription theo năm và theo số người dùng. 2. Thiết bị, phụ kiện, replacement cycle. 3. Network, bandwidth, cloud, storage. 4. Integration, SSO, SIS/LMS connection. 5. Training ban đầu và liên tục. 6. Support nội bộ và vendor. 7. Security, privacy, legal, compliance. 8. Data migration, export, backup. 9. Evaluation, monitoring, audit. 10. Indirect labor của giáo viên, IT, admin. 11. Communication với phụ huynh/người học. 12. Accessibility và localization. 13. Exit/sunset cost. 14. E-waste, recycling, disposal.

Sau khi tính TCO, cần tính value. Công cụ giảm bao nhiêu giờ làm thật? Tăng outcome nào? Giảm rủi ro nào? Mở rộng quyền tiếp cận cho nhóm nào? Có thay thế quy trình cũ không? Nếu không bỏ được việc cũ, giá trị thấp hơn. Nếu outcome chỉ là “nhiều dữ liệu hơn”, cần hỏi dữ liệu dẫn đến hành động nào. Nếu không có hành động, dữ liệu là chi phí.

Chi phí ẩn không có nghĩa không nên mua. Nó chỉ nhắc rằng công nghệ rẻ thật khi tổng vòng đời của nó tương xứng với giá trị học tập và vận hành, không phải khi giá năm đầu thấp.

Sustainability

Sustainability trong EdTech có ba tầng: tài chính, xã hội và môi trường. Một sản phẩm chỉ bền khi cả ba không phá nhau.

Tài chính bền nghĩa là mô hình doanh thu đủ nuôi sản phẩm lâu dài: bảo mật, support, cập nhật, accessibility, localization, reliability, nghiên cứu tác động và đội ngũ. Một sản phẩm miễn phí nhưng không có nguồn duy trì có thể biến mất, đổi điều khoản, bán dữ liệu, hoặc giảm chất lượng. Một sản phẩm quá rẻ có thể thiếu support. Một sản phẩm quá đắt có thể tạo bất bình đẳng. Một startup sống bằng vốn đầu tư nhưng chưa có doanh thu bền có thể tăng trưởng nhanh rồi cắt dịch vụ khi thị trường vốn co lại.

Thị trường EdTech gần đây cho thấy sustainability tài chính quan trọng hơn khẩu hiệu tăng trưởng. HolonIQ 2026 mô tả thị trường năm 2025 là thực dụng hơn: nhà đầu tư tập trung vào traction, profitability, AI-enabled platforms, workforce training và K-12 operations (HolonIQ, 2026a). Điều này có hai mặt. Mặt tích cực: ít vốn hơn cho sản phẩm chỉ có hype, nhiều áp lực chứng minh nhu cầu thật. Mặt rủi ro: sản phẩm phục vụ nhóm yếu thế, thị trường nhỏ, ngôn ngữ ít tài nguyên hoặc nhu cầu công bằng khó monetise có thể khó gọi vốn hơn. Nếu chỉ dựa vào thị trường, EdTech cho nhóm cần nhất có thể bị thiếu.

Sustainability xã hội nghĩa là mô hình kinh tế không biến quyền học thành đặc quyền trả tiền. Freemium có thể mở cửa, nhưng nếu bản miễn phí quá yếu, nó tạo “free access to inferior learning”. Subscription B2C có thể đáp ứng nhu cầu phụ huynh, nhưng nếu học sinh có tiền được AI tutor tốt hơn, feedback nhiều hơn, luyện thi nhiều hơn, khoảng cách tăng. B2B license có thể tạo truy cập đồng đều trong trường, nhưng nếu trường giàu mua được công cụ tốt còn trường nghèo không mua được, bất bình đẳng chuyển sang cấp hệ thống. Một chính sách công cần nhìn distributional effects, không chỉ innovation.

Sustainability xã hội cũng liên quan đến lao động. AI có thể giảm một số việc cho giáo viên, nhưng nếu mô hình kinh tế dựa vào giáo viên tạo dữ liệu, kiểm chứng miễn phí, làm support không lương, hoặc quảng bá sản phẩm trong cộng đồng, chi phí bị chuyển sang lao động giáo dục. Một sản phẩm bán cho trường bằng cách cho giáo viên dùng miễn phí trước có thể tạo grassroots adoption, nhưng cũng có thể bypass governance và làm giáo viên thành kênh acquisition. Điều này không nhất thiết xấu, nhưng cần minh bạch.

Sustainability môi trường liên quan đến thiết bị, cloud và AI compute. UNESCO GEM 2023 nhấn mạnh procurement cần tính environmental sustainability, vòng đời thiết bị và e-waste (UNESCO, 2023). Reyna và cộng sự năm 2024 chỉ ra việc thay thế hạ tầng máy tính trong giáo dục theo chu kỳ 3-5 năm tạo vấn đề e-waste; họ đề xuất hướng tái sử dụng, kéo dài vòng đời và biến e-waste thành tài nguyên học tập trong một số bối cảnh (Reyna et al., 2024). Với AI, môi trường còn gồm năng lượng cho model training/inference và data centers. Không phải mỗi trường có thể tự đo carbon của mọi API, nhưng procurement có thể yêu cầu vendor công bố thông tin sustainability, data center policy, device lifecycle và e-waste plan.

Một dự án EdTech không bền thường có một trong sáu dấu hiệu.

Thứ nhất, grant cliff. Dự án được tài trợ thiết bị, license hoặc nhân sự trong một thời gian, nhưng không có ngân sách sau grant. Khi hết tài trợ, thiết bị hỏng, license hết, người hỗ trợ rời đi, và trường quay lại cách cũ. Grant tốt phải có sustainability plan từ đầu: ai trả tiếp, quy mô nào giữ, cái gì chuyển giao, cái gì dừng.

Thứ hai, pilot subsidy. Vendor hỗ trợ rất nhiều trong pilot: training, data setup, troubleshooting, customization. Khi trường mua thật hoặc mở rộng, mức hỗ trợ giảm hoặc tính phí. Nếu pilot không tính cost to serve thật, quyết định mua bị méo.

Thứ ba, growth without support. Sản phẩm tăng người dùng nhanh nhưng support, moderation, accessibility và security không theo kịp. Trong giáo dục, tăng trưởng không có support có thể gây hại nhanh hơn.

Thứ tư, data-dependent monetization. Sản phẩm cần thu nhiều dữ liệu hơn để tạo giá trị thương mại. Điều này tạo căng thẳng với privacy by design. Một mô hình bền cần chứng minh có thể sống với dữ liệu tối thiểu cần thiết.

Thứ năm, lock-in pricing. Vendor bán rẻ ban đầu, sau đó tăng giá khi dữ liệu và workflow đã khóa. Trường không có exit plan nên phải trả. Procurement cần nhìn giá 3-5 năm, không chỉ năm đầu.

Thứ sáu, hardware decay. Dự án mua thiết bị nhưng không có replacement, repair, charging, MDM, spare parts, và disposal. Sau vài năm, lab đẹp thành kho thiết bị lỗi.

Sustainability tốt cần thiết kế revenue và responsibility cùng nhau. Nếu vendor thu subscription, họ phải chịu trách nhiệm support, bảo mật, uptime, data deletion, accessibility updates. Nếu trường dùng open-source, họ cần ngân sách nội bộ hoặc cộng đồng để maintain. Nếu chính phủ mua tập trung, cần cơ chế feedback địa phương. Nếu phụ huynh trả tiền, cần bảo vệ khỏi upsell gây áp lực và claim quá mức. Nếu doanh nghiệp tài trợ, cần tránh biến tài trợ thành kênh dữ liệu hoặc quảng bá.

Một điểm cần nói thẳng: giáo dục cần sản phẩm có doanh thu bền. Không nên kỳ vọng mọi công nghệ giáo dục tốt đều miễn phí. Miễn phí không trả lương cho đội bảo mật, designer accessibility, chuyên gia sư phạm, hỗ trợ kỹ thuật, researcher, translator, moderator và engineer. Vấn đề không phải sản phẩm có thu tiền hay không. Vấn đề là mô hình thu tiền có phù hợp quyền học tập, minh bạch, công bằng và trách nhiệm hay không.

Open educational resources và open-source có vai trò quan trọng, nhưng cũng không miễn phí theo nghĩa vận hành. OER cần biên tập, cập nhật, localization, hosting, training. Open-source cần maintainers, security patches, documentation, deployment. Nếu không có funding, open resources có thể lỗi thời. Sustainability của open models cần được thiết kế qua public funding, consortium, foundation, service model hoặc cộng đồng mạnh.

Một mô hình tài chính đủ sống nhưng không khai thác người học có thể có các đặc điểm:

1. Giá phản ánh support và bảo mật, không chỉ tính năng. 2. Có tier công bằng cho trường khó khăn hoặc chính sách cấp phép toàn trường. 3. Không dùng quảng cáo hoặc bán dữ liệu trẻ em. 4. Dữ liệu dùng cho cải thiện học tập, không cho secondary use mờ. 5. Có exit plan và data portability. 6. Có cam kết accessibility và localization. 7. Có evidence roadmap và công bố giới hạn. 8. Có chính sách không upsell gây áp lực trong lớp học. 9. Có chi phí dài hạn rõ. 10. Có cơ chế chia sẻ giá trị với hệ sinh thái địa phương.

Sustainability không phải bảo thủ. Nó là điều kiện để đổi mới không chết sau demo và không sống bằng cách làm hại mục tiêu giáo dục.

Local Market Adaptation

EdTech toàn cầu thường nói ngôn ngữ scale. Một sản phẩm xây ở một thị trường có thể bán sang nhiều nước, nhiều trường, nhiều người học. Nhưng giáo dục là lĩnh vực địa phương sâu. Chương trình, kỳ thi, ngôn ngữ, phụ huynh, văn hóa lớp học, hạ tầng thanh toán, luật dữ liệu, thiết bị, vai trò giáo viên, niềm tin vào thương hiệu, và cách người học dùng thời gian đều khác nhau. Local market adaptation không phải dịch giao diện. Nó là tái thiết kế fit giữa sản phẩm, thị trường và hệ thống giáo dục.

Ngôn ngữ là tầng đầu tiên. Dịch tiếng Anh sang tiếng Việt không đủ. Cần thuật ngữ đúng chương trình, mức đọc phù hợp, giọng văn phù hợp tuổi, ví dụ gần đời sống, hỗ trợ vùng miền, xử lý code-switching, và phản hồi không làm mất giọng người học. Với AI, ngôn ngữ còn liên quan đến model performance. Một chatbot trả lời tốt bằng tiếng Anh nhưng yếu bằng tiếng Việt sẽ tạo bất bình đẳng nếu dùng trong lớp. Một công cụ speech recognition không hiểu giọng vùng miền sẽ phạt người học. Một AI feedback dùng văn phong quá trang trọng sẽ không phù hợp học sinh nhỏ.

Chương trình và kỳ thi là tầng thứ hai. Nhiều EdTech thất bại vì không khớp curriculum. Nội dung có thể đúng về mặt tri thức nhưng sai trình tự, sai thuật ngữ, sai dạng bài, sai mức độ, hoặc không khớp chuẩn đánh giá. Ở thị trường có áp lực thi cao, phụ huynh và học sinh thường trả tiền cho sản phẩm liên quan trực tiếp đến kỳ thi. Điều này tạo cơ hội, nhưng cũng kéo EdTech về test prep. Một sản phẩm muốn đi sâu hơn phải liên kết được giữa học sâu và yêu cầu thi, không chỉ nói “chúng tôi phát triển tư duy” trong khi phụ huynh cần thấy tiến bộ cụ thể.

Phụ huynh là tầng thứ ba, đặc biệt ở K-12 và Đông Nam Á. Phụ huynh không chỉ là người trả tiền; họ là người đánh giá niềm tin, thời lượng, giá trị, an toàn, kỷ luật học và tương lai nghề nghiệp. Một sản phẩm B2C muốn sống ở Việt Nam hoặc khu vực tương tự phải hiểu phụ huynh nhìn kết quả ra sao: điểm, chứng chỉ, khả năng nói tiếng Anh, tự tin, thi cử, vào trường tốt, kỹ năng nghề. Nếu sản phẩm chỉ dùng thông điệp từ thị trường phương Tây như “học vì tò mò” mà không nối với áp lực địa phương, adoption khó. Nhưng nếu chỉ chạy theo áp lực điểm số, nó làm nghèo giáo dục. Local adaptation là giữ cân bằng.

Giáo viên là tầng thứ tư. Một sản phẩm toàn cầu thường giả định giáo viên có thời gian, thiết bị, quyền tự chủ, sĩ số nhỏ, hoặc culture of experimentation. Ở nhiều bối cảnh, giáo viên dạy nhiều lớp, sĩ số đông, chương trình chặt, thu nhập không cao, thời gian PD ít, và bị áp lực thi. Công cụ phải giảm tải thật, không yêu cầu giáo viên làm thêm. Nó phải có lesson flow, tài liệu in được, hỗ trợ offline hoặc low-bandwidth, training ngắn nhưng sâu, và cách dùng phù hợp tổ chuyên môn. Nếu sản phẩm yêu cầu giáo viên “đổi mới toàn bộ cách dạy” ngay, nó sẽ sống trong demo.

Hạ tầng thanh toán là tầng thứ năm. B2C và B2B2C phụ thuộc vào cách phụ huynh và người học trả tiền: thẻ, ví điện tử, chuyển khoản, thu tiền qua trung tâm, trả góp, bundle với trường, hóa đơn doanh nghiệp. Ở thị trường nơi thẻ tín dụng không phổ biến hoặc phụ huynh thích tư vấn trực tiếp, self-service checkout có thể yếu. Ở nơi phụ huynh muốn thử trước, freemium hoặc trial quan trọng. Ở nơi giá nhạy, subscription tháng có thể tốt hơn annual plan, nhưng churn cao hơn. Pricing cần phù hợp thu nhập, mùa thi, lịch năm học và văn hóa mua dịch vụ giáo dục.

Luật và dữ liệu là tầng thứ sáu. Chương 21 đã nói dữ liệu cá nhân ở Việt Nam và các khung quốc tế. Một sản phẩm toàn cầu phải biết dữ liệu lưu ở đâu, chuyển xuyên biên giới thế nào, consent trẻ em ra sao, hợp đồng với trường cần gì, có dùng dữ liệu để huấn luyện không. “Chúng tôi tuân thủ GDPR” là tốt nhưng không đủ. Cần tuân thủ luật địa phương và kỳ vọng xã hội địa phương.

Hỗ trợ và niềm tin là tầng thứ bảy. Giáo dục là sản phẩm niềm tin cao. Người mua thường khó đánh giá chất lượng trước khi dùng lâu. Vì vậy, thương hiệu, tư vấn, cộng đồng, giáo viên địa phương, trường đối tác, và hỗ trợ bằng ngôn ngữ địa phương rất quan trọng. Một sản phẩm toàn cầu có thể mạnh về kỹ thuật nhưng yếu nếu support chậm, tài liệu dịch kém, hoặc không có người hiểu bối cảnh trường. Local team không chỉ bán hàng; họ dịch sư phạm, chính sách và niềm tin.

HolonIQ 2025 về Southeast Asia EdTech cho thấy khu vực có cấu trúc riêng: K-12 chiếm gần một nửa cohort, workforce khoảng một phần ba; Singapore là hub khu vực, trong khi Việt Nam và Indonesia cùng chiếm khoảng 40% đại diện; direct-to-consumer chiếm khoảng 70%, institutional B2B khoảng một phần tư (HolonIQ, 2025). Những con số này gợi ý rằng ở Đông Nam Á, consumer demand vẫn mạnh, nhưng institutional adoption đang ổn định hơn. Với Việt Nam, HolonIQ 2024 cũng ghi nhận sự tăng trưởng đại diện của startup Việt ở các nhóm language learning, tutoring, bootcamps/STEAM và learning environments (HolonIQ, 2024). Đây là bối cảnh quan trọng: thị trường không chỉ nhập sản phẩm toàn cầu, mà có năng lực địa phương đang hình thành.

Local adaptation cũng cần tránh hai cực đoan. Một cực là “global product, local sales”: chỉ dịch landing page, thuê đội bán hàng và giữ nguyên sản phẩm. Cách này thường vấp ở curriculum, support và văn hóa. Cực kia là tùy biến mọi thứ cho từng khách hàng, làm sản phẩm mất scale và chi phí support tăng. Cách tốt hơn là modular localization: lõi sản phẩm giữ chuẩn kỹ thuật và sư phạm, còn nội dung, ngôn ngữ, curriculum mapping, payment, reporting, policy templates và support được địa phương hóa có cấu trúc.

Một checklist local market adaptation gồm:

1. Ngôn ngữ: thuật ngữ, giọng văn, vùng miền, mức đọc, speech/text performance. 2. Curriculum: chuẩn học, kỳ thi, trình tự, rubric, ví dụ. 3. Pedagogy: sĩ số, vai trò giáo viên, thời lượng tiết, homework culture. 4. Parent expectations: báo cáo, niềm tin, kết quả, kênh tư vấn. 5. Pricing/payment: thu nhập, ví điện tử, chuyển khoản, trả góp, mùa vụ. 6. Infrastructure: thiết bị, băng thông, offline mode, mobile-first. 7. Law/data: dữ liệu trẻ em, lưu trữ, consent, hợp đồng. 8. Support: ngôn ngữ địa phương, SLA, training, community. 9. Procurement: trường công/tư, trung tâm, đại học, doanh nghiệp, chu kỳ ngân sách. 10. Evidence: pilot địa phương, nhóm người học địa phương, outcome địa phương.

Một ví dụ: một AI language learning app muốn vào Việt Nam. Nếu chỉ có bài hội thoại tiếng Anh chung, app cạnh tranh với hàng trăm sản phẩm. Nếu nó hiểu chương trình tiếng Anh phổ thông, kỳ thi, lỗi phát âm của người Việt, nhu cầu IELTS/TOEIC, phụ huynh cần báo cáo gì, giáo viên cần dashboard gì, học sinh dùng điện thoại ra sao, thanh toán qua ví/chuyển khoản thế nào, dữ liệu giọng nói lưu ra sao, và bản miễn phí không làm người học yếu bị kẹt, nó có cơ hội tạo giá trị thật hơn.

Local adaptation cũng là vấn đề công bằng. Sản phẩm không địa phương hóa thường phục vụ tốt nhóm có vốn toàn cầu: tiếng Anh tốt, thiết bị tốt, phụ huynh hiểu công nghệ, trường tư hoặc đô thị. Nhóm yếu thế bị bỏ lại. Vì vậy, địa phương hóa không chỉ là chiến lược thị trường; nó là điều kiện equity.

Thực trạng triển khai

Thực trạng kinh tế học EdTech hiện nay có vài xu hướng rõ.

Thứ nhất, thị trường đã đi qua giai đoạn tăng trưởng nóng sau COVID-19. Vốn đầu tư giảm mạnh so với đỉnh 2020-2021, sau đó ổn định hơn ở mức thấp hơn. HolonIQ ghi nhận năm 2025 có khoảng 2,6 tỷ USD đầu tư EdTech, tăng nhẹ so với 2024 nhưng vẫn kỷ luật hơn, tập trung vào traction, AI, workforce và giải pháp gắn với vận hành (HolonIQ, 2026a). Điều này làm nhiều công ty phải chuyển từ tăng trưởng người dùng sang doanh thu, margin, retention và hiệu quả triển khai. Với nhà trường, đây là thời điểm vừa có rủi ro vendor biến mất, vừa có cơ hội đòi hỏi bằng chứng và điều khoản tốt hơn.

Thứ hai, AI đang làm nhiều sản phẩm phải tái định vị. Công cụ content generation, tutoring, writing support, language learning, video creation, assessment, customer support và training đều bị GenAI tác động. Một số sản phẩm cũ thêm AI để giữ giá trị. Một số sản phẩm mới dùng AI để giảm cost to serve. Một số mô hình bị đe dọa vì chatbot general-purpose làm miễn phí một phần giá trị họ từng bán. Kinh tế học mới buộc EdTech chuyên biệt phải chứng minh vì sao nó tốt hơn AI chung: dữ liệu an toàn hơn, curriculum fit hơn, feedback đáng tin hơn, teacher workflow tốt hơn, age-appropriate hơn, và outcome rõ hơn.

Thứ ba, procurement vẫn chậm đổi. Nhiều tổ chức đã nói về evidence, privacy và TCO, nhưng thực tế mua sắm vẫn bị kéo bởi ngân sách năm, demo, khuyến nghị, thương hiệu, cấp bách và yêu cầu thủ tục. OECD 2023 ghi nhận nhiều nỗ lực procurement tập trung vào bảo mật, dữ liệu và interoperability, trong khi equity, effectiveness và sustainability ít được đưa thành tiêu chí rõ hơn (OECD, 2023). Điều này giải thích vì sao nhiều sản phẩm an toàn về compliance nhưng chưa chắc tạo learning impact.

Thứ tư, chi phí ẩn ngày càng rõ. Sau đại dịch, nhiều trường nhận ra thiết bị cần thay, license hết ưu đãi, support thiếu, giáo viên mệt với quá nhiều nền tảng, và dữ liệu phân mảnh. TCO không còn là khái niệm tài chính xa lạ; nó trở thành vấn đề vận hành hằng ngày. CoSN cập nhật công cụ TCO đến năm 2026, nhấn mạnh cả indirect labor và lifecycle cost (CoSN, 2026). World Bank 2025 cũng đưa TCO vào khuyến nghị financing EdTech cho các chính phủ (Antunes de Carvalho et al., 2025).

Thứ năm, D2C vẫn mạnh ở các thị trường như Đông Nam Á, nhất là K-12, language learning, tutoring/test prep và upskilling. Điều này phản ánh nhu cầu phụ huynh và người học, nhưng cũng tạo rủi ro phân tầng. Nếu giáo dục công không cung cấp đủ hỗ trợ, thị trường bổ sung sẽ phát triển. Những gia đình có tiền mua thêm AI tutor, luyện thi, tiếng Anh, coding và coaching; gia đình khác không. EdTech có thể mở cơ hội, nhưng cũng có thể thương mại hóa bất an giáo dục.

Thứ sáu, B2B và institutional EdTech tăng chậm hơn nhưng quan trọng hơn về hệ thống. LMS, SIS, assessment, communication, analytics, cybersecurity, scheduling, finance và AI workflow không hấp dẫn như app học cá nhân, nhưng quyết định hạ tầng giáo dục. Chương 11 đã nói administrative EdTech là phần vô hình. Kinh tế học ở đây là hợp đồng dài, integration sâu, switching cost cao và yêu cầu trust lớn. Mua sai một hệ thống hạ tầng có thể tạo nợ kỹ thuật nhiều năm.

Thứ bảy, bằng chứng và thị trường vẫn lệch nhau. Sản phẩm có bằng chứng tốt chưa chắc bán tốt nếu sales yếu hoặc procurement không hiểu. Sản phẩm bán tốt chưa chắc có bằng chứng mạnh nếu marketing tốt, network effect mạnh hoặc người mua tối ưu metric khác. EdTech brokers, evidence intermediaries và procurement frameworks xuất hiện để thu hẹp khoảng cách này, nhưng chính họ cũng cần minh bạch về lợi ích và tiêu chí, như Ortegón, Decuypere và Williamson cảnh báo khi phân tích edtech brokering giữa trường, nghiên cứu, governance và industry (Ortegón et al., 2024).

Thứ tám, local players có vai trò ngày càng quan trọng. Ở Việt Nam và Đông Nam Á, các công ty bản địa hiểu ngôn ngữ, phụ huynh, chương trình, thanh toán và kênh phân phối tốt hơn nhiều sản phẩm toàn cầu. Nhưng họ cũng đối mặt với vốn hạn chế, ARPU thấp, chi phí hỗ trợ cao, cạnh tranh với công cụ miễn phí toàn cầu, và yêu cầu ngày càng cao về AI, bảo mật và compliance. Một hệ sinh thái lành mạnh cần cả sản phẩm toàn cầu có chuẩn cao và sản phẩm địa phương hiểu bối cảnh.

Phân tích phản biện

Rủi ro thứ nhất là evidence-based procurement bị biến thành “mua thứ có RCT”. RCT quan trọng, nhưng không phải mọi câu hỏi procurement đều trả lời bằng RCT. Usability, accessibility, privacy, implementation fit, workload, TCO, local language và sustainability cũng cần bằng chứng. Một sản phẩm có RCT ở bối cảnh khác chưa chắc fit với trường này. Evidence-based procurement phải là evidence portfolio, không phải fetish phương pháp.

Rủi ro thứ hai là value for money bị hiểu thành giá thấp. Giá thấp có thể tốt, nhưng nếu support kém, dữ liệu không xuất được, giáo viên mất thời gian, và outcome yếu, giá thấp thành đắt. Value for money là quan hệ giữa tổng chi phí, tác động và rủi ro. Một sản phẩm đắt hơn nhưng giảm workload thật, tích hợp tốt, bảo mật mạnh và có evidence có thể là giá trị tốt hơn.

Rủi ro thứ ba là thị trường thưởng cho metric dễ bán. Người mua thích thấy dashboard, engagement, completion, streak, parent report, certificate. Học sâu, transfer, agency và wellbeing khó bán hơn. Nếu procurement không yêu cầu outcome sâu, vendor sẽ tối ưu thứ dễ chứng minh. Đây không phải vì vendor xấu; đó là phản ứng với demand.

Rủi ro thứ tư là freemium tạo bất bình đẳng êm. Bản miễn phí có thể giúp tiếp cận, nhưng nếu người trả tiền có AI tốt hơn, nhiều lượt hơn, feedback sâu hơn, dữ liệu an toàn hơn hoặc không quảng cáo, thì khoảng cách tăng. Trong giáo dục trẻ em, “free” cần được kiểm tra kỹ: ai trả chi phí thật, bằng dữ liệu, attention, upsell hay chất lượng thấp?

Rủi ro thứ năm là venture capital kéo EdTech ra khỏi nhịp giáo dục. Giáo dục thay đổi chậm, cần bằng chứng dài hạn, quan hệ với trường, support và trust. VC thường cần tăng trưởng nhanh, thị trường lớn, unit economics và exit. Hai nhịp này có thể mâu thuẫn. Không phải vốn đầu tư xấu; nhiều đổi mới cần vốn. Nhưng áp lực tăng trưởng có thể làm sản phẩm mở rộng trước khi sẵn sàng, ưu tiên thị trường giàu hơn, hoặc hứa quá mức.

Rủi ro thứ sáu là public procurement tạo lock-in quy mô lớn. Mua tập trung có thể tiết kiệm và chuẩn hóa, nhưng nếu chọn sai, toàn hệ thống bị khóa. Decentralized procurement có thể linh hoạt, nhưng tạo bất bình đẳng và tool sprawl. Không có cấu trúc nào tự tốt. Cần guardrails, dữ liệu, feedback địa phương và exit.

Rủi ro thứ bảy là sustainability bị dùng để biện minh cho khai thác dữ liệu. Vendor có thể nói cần monetise dữ liệu để sản phẩm miễn phí hoặc rẻ. Nhưng giáo dục không nên chấp nhận mô hình trong đó trẻ em trả bằng hồ sơ dữ liệu. Sustainability phải tìm revenue chính đáng, không chuyển người học thành sản phẩm.

Rủi ro thứ tám là local adaptation bị biến thành localization bề mặt. Dịch ngôn ngữ, thêm ví dụ địa phương và thuê sales local chưa đủ. Nếu sản phẩm không khớp chương trình, kỳ thi, hạ tầng, luật dữ liệu, vai trò phụ huynh và workflow giáo viên, nó vẫn là sản phẩm ngoại nhập mặc áo địa phương.

Rủi ro thứ chín là chi phí môi trường bị bỏ qua. Thiết bị mới, cloud, AI compute và e-waste thường không nằm trong quyết định mua. Nhưng giáo dục không thể dạy sustainability bằng hệ thống công nghệ có vòng đời ngắn và disposal mờ. Procurement cần tính repairability, lifespan, energy, recycling và reuse.

Rủi ro cuối cùng là coi kinh tế học như chuyện “bên ngoài” sư phạm. Thực ra mô hình doanh thu định hình trải nghiệm học. Nếu sản phẩm sống bằng retention, nó thiết kế để giữ. Nếu sống bằng upsell, nó tạo giới hạn. Nếu sống bằng data, nó thu. Nếu sống bằng contract renewal, nó làm hài lòng người mua. Sư phạm không nằm ngoài kinh tế; sư phạm bị kinh tế kéo mỗi ngày.

Nguyên tắc thiết kế

Nguyên tắc thứ nhất: procurement bắt đầu từ vấn đề, không từ sản phẩm. Không mở RFP nếu chưa viết rõ problem, baseline, user, outcome, risk và phương án thay thế.

Nguyên tắc thứ hai: yêu cầu evidence portfolio. Hỏi logic model, usability, accessibility, implementation evidence, learning evidence, risk evidence và cost/value evidence. Không chấp nhận testimonial thay cho bằng chứng.

Nguyên tắc thứ ba: tính TCO trước khi mua. License chỉ là một dòng. Phải tính training, integration, support, device lifecycle, bandwidth, security, compliance, indirect labor, migration, evaluation, e-waste và exit.

Nguyên tắc thứ tư: so giá trị với baseline và phương án khác. Công cụ mới phải tốt hơn một phương án khả thi, không chỉ tốt hơn “không làm gì”. Đôi khi training giáo viên, cải thiện tài liệu hoặc giảm sĩ số nhóm hỗ trợ tạo giá trị cao hơn.

Nguyên tắc thứ năm: đưa interoperability và data portability vào hợp đồng. Chuẩn mở, export dữ liệu, API, audit log và exit support không phải tính năng phụ. Chúng là bảo hiểm chống lock-in.

Nguyên tắc thứ sáu: phân tích business model như một phần risk review. Ai trả tiền, ai dùng, ai bị tối ưu, dữ liệu nào bị thu, upsell xảy ra ở đâu, và người không trả tiền có bị thiệt không?

Nguyên tắc thứ bảy: cấm hoặc hạn chế mô hình quảng cáo/dữ liệu với trẻ em và dữ liệu giáo dục nhạy cảm. Free không đủ lý do để chấp nhận tracking hoặc profiling.

Nguyên tắc thứ tám: thiết kế pricing công bằng. Cân nhắc school-wide access, need-based pricing, public-interest licensing, low-bandwidth/offline options, và tránh premium features tạo lợi thế đánh giá trong lớp.

Nguyên tắc thứ chín: pilot phải đo chi phí thật. Trong pilot, ghi thời gian giáo viên, support tickets, lỗi tích hợp, thời gian training, workload, và chi phí vendor subsidy. Không chỉ đo satisfaction.

Nguyên tắc thứ mười: sustainability plan trước khi nhận grant hoặc mua thiết bị. Ai trả license năm sau, ai sửa thiết bị, ai đào tạo người mới, ai xử lý e-waste, khi nào thay thế?

Nguyên tắc thứ mười một: local adaptation có ngân sách riêng. Dịch, curriculum mapping, kiểm thử tiếng Việt, support địa phương, payment, legal review và teacher training không tự xảy ra.

Nguyên tắc thứ mười hai: procurement là market shaping. Trường, sở, đại học và doanh nghiệp đào tạo nên dùng sức mua để yêu cầu privacy, accessibility, evidence, interoperability, sustainability và support, không chỉ giảm giá.

Nguyên tắc thứ mười ba: renewal phải dựa trên value review. Trước khi gia hạn, hỏi: outcome ra sao, ai dùng, ai không dùng, chi phí thật, rủi ro, workload, support, và có phương án tốt hơn không.

Nguyên tắc thứ mười bốn: công bố trade-off. Không có lựa chọn nào miễn phí. Nếu chọn công cụ rẻ hơn nhưng support ít hơn, phải nói rõ. Nếu chọn nền tảng tích hợp sâu nhưng lock-in cao hơn, phải có exit plan. Nếu chọn AI mạnh hơn nhưng dữ liệu nhạy hơn, phải có guardrails.

Tổng kết chương

Kinh tế học EdTech không phải phần phụ sau sư phạm. Nó quyết định sản phẩm nào được xây, được bán, được mua, được duy trì và được mở rộng. Procurement thường thưởng cho demo, tính năng và giá năm đầu nếu tổ chức không đặt tiêu chí đúng. Business model kéo thiết kế theo hướng license, subscription, freemium, SaaS, marketplace, content, service, B2B2C, outcome-based hoặc data monetization. Chi phí thật nằm trong vòng đời: training, integration, support, thiết bị, băng thông, bảo mật, migration, indirect labor và exit. Sustainability đòi hỏi mô hình tài chính đủ sống nhưng không khai thác người học hoặc tăng bất bình đẳng. Local adaptation nhắc rằng giáo dục luôn đi qua ngôn ngữ, phụ huynh, giáo viên, chương trình, thanh toán, luật và niềm tin địa phương.

Một tổ chức học tập trưởng thành không hỏi “công cụ này giá bao nhiêu?” trước tiên. Nó hỏi “vấn đề nào đáng giải quyết, bằng chứng nào đủ, tổng chi phí vòng đời là gì, incentive của vendor là gì, ai được lợi, ai chịu rủi ro, và chúng ta có thể rời đi nếu công cụ không còn phục vụ học tập không?”. Khi những câu hỏi đó trở thành routine, EdTech mới có cơ hội thoát khỏi vòng lặp mua theo kỳ vọng rồi thất vọng theo vận hành.

Chương 23 sẽ tổng hợp toàn bộ cuốn sách thành bộ nguyên tắc thiết kế EdTech thực chứng: bắt đầu từ nhiệm vụ học tập, giữ ma sát nhận thức đúng chỗ, phản hồi dẫn đến hành động, cá nhân hóa có giới hạn đạo đức, teacher-in-the-loop thật, đo điều kiện hiệu quả, và giữ thái độ vừa có bằng chứng vừa có trách nhiệm.

Tài liệu tham khảo

Andersson, P., & Rosenqvist, C. (2024). The evolution and impact of AI on EdTech business models. 24th ITS Biennial Conference, Seoul 2024. https://ideas.repec.org/p/zbw/itsb24/302534.html

Antunes de Carvalho, F., Lee, C., & Byanjeru, Y. (2025). Innovative Financing of Education Technology as Part of Maximizing Financing for Development. World Bank Education Working Paper No. 19. https://hdl.handle.net/10986/43618

CoSN. (2026). Total Cost of Ownership (TCO) in Education. https://www.cosn.org/tco/

HolonIQ. (2024). 2024 Southeast Asia EdTech 50. https://www.holoniq.com/notes/2024-southeast-asia-edtech-50

HolonIQ. (2025). 2025 Southeast Asia EdTech 50. https://www.holoniq.com/notes/2025-southeast-asia-edtech-50

HolonIQ. (2026a). EdTech hits $2.6B in investment as the market stabilizes. Bigger bets in AI and workforce training. https://www.holoniq.com/notes/edtech-hits-2-6b-in-investment-as-the-market-stabilizes-bigger-bets-in-ai-and-workforce-training

HolonIQ. (2026b). $512M in Q1 signals a slow start to 2026, with capital continuing to favor AI-enabled, career-aligned platforms. https://www.holoniq.com/notes/512m-in-q1-signals-a-slow-start-to-2026-with-capital-continuing-to-favor-ai-enabled-career-aligned-platforms

Komljenovic, J., Birch, K., & Sellar, S. (2024). Monetising digital data in higher education: Analysing the strategies and struggles of EdTech startups. Postdigital Science and Education, 6, 1196-1215. https://doi.org/10.1007/s42438-024-00505-0

OECD. (2023). OECD Digital Education Outlook 2023: Towards an Effective Digital Education Ecosystem. OECD Publishing. https://doi.org/10.1787/c74f03de-en

Pujol, N. (2010). Freemium: Attributes of an Emerging Business Model. SSRN. https://doi.org/10.2139/ssrn.1718663

Reyna, J., Hanham, J., & Orlando, J. (2024). From E-Waste to Eco-Wonder: Resurrecting Computers for a Sustainable Future. Sustainability, 16(8), 3363. https://doi.org/10.3390/su16083363

UNESCO. (2023). Global Education Monitoring Report 2023: Technology in education: A tool on whose terms? https://www.unesco.org/gem-report/en/technology

What Works Clearinghouse. (2026). ESSA Tiers of Evidence. https://ies.ed.gov/ncee/wwc/essa

World Bank. (2020). Reimagining Human Connections: Technology and Innovation in Education at the World Bank. https://www.worldbank.org/en/topic/edutech/publication/reimagining-human-connections-technology-and-innovation-in-education-at-world-bank

Chương 23: Bộ nguyên tắc thiết kế EdTech thực chứng

Bối cảnh / Vấn đề

Sau hai mươi hai chương, một điều trở nên rõ: EdTech thất bại không chỉ vì công nghệ yếu. Nó thất bại khi ta bắt đầu sai câu hỏi. Ta hỏi “có AI chưa?” thay vì “nhiệm vụ học tập nào đang cần hỗ trợ?”. Ta hỏi “có cá nhân hóa không?” thay vì “cá nhân hóa đang phục vụ cơ chế học nào và có giới hạn đạo đức nào?”. Ta hỏi “dashboard có dữ liệu gì?” thay vì “dữ liệu này dẫn đến hành động nào?”. Ta hỏi “giá bao nhiêu?” thay vì “tổng chi phí vòng đời và rủi ro là gì?”. Ta hỏi “người học có thích không?” thay vì “người học có hiểu sâu hơn, nhớ bền hơn, tự chủ hơn, và được đối xử công bằng hơn không?”.

Cuốn sách này đi qua nhiều lớp của EdTech: bằng chứng, lịch sử thất bại, khoa học học tập, content AI, assessment AI, tutoring, learning analytics, accessibility, social learning, hạ tầng, lý thuyết học tập, trí nhớ, tải nhận thức, động lực, đánh giá mới, human-AI interaction, AI literacy, giáo viên, tổ chức, dữ liệu, chính sách và kinh tế học. Mỗi lớp có ngôn ngữ riêng. Nhưng khi đưa về thiết kế thực chứng, các lớp ấy quy về một số nguyên tắc cốt lõi.

Nguyên tắc không phải checklist để tick cho xong. Một checklist có thể tạo cảm giác kiểm soát giả: “có feedback”, “có AI”, “có dashboard”, “có personalization”, “có privacy policy”. Nhưng giáo dục không cải thiện bằng nhãn. Một hệ thống có feedback vẫn có thể vô dụng nếu người học không biết làm gì tiếp. Một hệ thống có AI vẫn có thể làm người học ít suy nghĩ hơn. Một hệ thống có dashboard vẫn có thể làm giáo viên thêm việc. Một hệ thống có personalization vẫn có thể khóa người học vào lộ trình hẹp. Một hệ thống có privacy policy vẫn có thể thu quá nhiều dữ liệu.

Vì vậy, chương này không đưa ra “bảy tính năng nên có”. Nó đưa ra bảy nguyên tắc như bảy câu hỏi thiết kế:

1. Nhiệm vụ học tập hoặc vận hành nào thật sự cần công nghệ? 2. Ma sát nào cần giảm, ma sát nào phải giữ? 3. Phản hồi có dẫn đến hành động học tập không? 4. Cá nhân hóa có mở rộng agency và cơ hội không, hay đang cô lập, khóa và thao túng? 5. Giáo viên có thật sự ở trong vòng phán đoán không? 6. Hiệu quả được đo cho ai, trong điều kiện nào, với chi phí và rủi ro nào? 7. Ta có đang tô hồng công nghệ hoặc bi quan dễ dãi không?

“Thực chứng” trong chương này không có nghĩa chỉ dùng thứ đã có randomized controlled trial. Giáo dục luôn phải ra quyết định trong điều kiện bằng chứng chưa hoàn hảo. Một công nghệ mới, nhất là AI, có thể xuất hiện nhanh hơn nghiên cứu dài hạn. Nhưng thực chứng cũng không có nghĩa “có vẻ hợp lý” hay “người dùng thích”. Thiết kế thực chứng là cách làm việc: dựa trên cơ chế học tập đã biết, đọc bằng chứng với bối cảnh, thử nhỏ, đo đúng, phản biện rủi ro, lắng nghe người dùng, sửa, và chỉ mở rộng khi điều kiện đủ rõ. Chương 2 đã nói evidence-based practice là vòng lặp triển khai, không phải nhãn dán marketing.

Điểm khó là các nguyên tắc này thường kéo ngược với logic sản phẩm tiêu dùng. Sản phẩm tiêu dùng muốn giảm friction tối đa; học tập cần giữ một số friction. Sản phẩm tiêu dùng muốn tăng engagement; học tập cần engagement có ý nghĩa, không chỉ thời gian màn hình. Sản phẩm tiêu dùng muốn personalization sâu để tối ưu hành vi; giáo dục cần personalization có minh bạch, lựa chọn và không khóa cơ hội. Sản phẩm tiêu dùng muốn thu dữ liệu để cải thiện sản phẩm; giáo dục cần data minimisation và contestability. Sản phẩm tiêu dùng muốn scale nhanh; giáo dục cần adaptation theo môn học, lứa tuổi, văn hóa, giáo viên và tổ chức.

Vì vậy, thiết kế EdTech thực chứng không phải lấy UX tốt của công nghệ tiêu dùng rồi thêm nội dung học. Nó là một ngành thiết kế riêng, nơi trải nghiệm người dùng, khoa học học tập, đạo đức dữ liệu, triển khai tổ chức và kinh tế học phải cùng ngồi vào bàn. Một giao diện mượt nhưng làm mất retrieval không tốt. Một AI thông minh nhưng tước quyền phán đoán của giáo viên không tốt. Một mô hình dự đoán chính xác trung bình nhưng gây hại cho nhóm yếu thế không tốt. Một sản phẩm tăng usage nhưng không tăng transfer không đủ. Một nền tảng rẻ năm đầu nhưng tạo lock-in và chi phí ẩn không rẻ.

UNESCO GEM Report 2023 đặt câu hỏi cho công nghệ trong giáo dục: “A tool on whose terms?” Công cụ phục vụ ai, theo điều kiện nào, và ai quyết định điều kiện đó? Báo cáo nhấn mạnh công nghệ cần được dùng phù hợp, công bằng, có bằng chứng, bền vững và dưới điều kiện của giáo dục, không phải chỉ dưới điều kiện của thị trường công nghệ (UNESCO, 2023). Education Endowment Foundation trong hướng dẫn về công nghệ số cũng nói rất rõ: công nghệ khó có tác động chỉ bằng việc đưa vào lớp học; nó phải cải thiện chất lượng dạy học, feedback, practice, assessment hoặc quản lý workload theo cách gắn với mục tiêu sư phạm (EEF, 2019). Hai nguồn này cùng nói một điều: công nghệ không tự định nghĩa giá trị giáo dục. Thiết kế mới định nghĩa.

Chương này là cầu nối từ phần phân tích sang phần kết của cuốn sách. Chương 24 sẽ nói về những câu hỏi nghiên cứu còn mở. Trước khi đi vào câu hỏi mở, ta cần một bộ nguyên tắc đủ chặt để không bị cuốn theo công nghệ mới tiếp theo, dù đó là GenAI, agentic AI, XR, brain-computer interface, learning analytics đa phương thức hay một hình thái chưa có tên. Công nghệ sẽ đổi. Nguyên tắc thiết kế học tập có trách nhiệm cần bền hơn chu kỳ sản phẩm.

Nền tảng lý thuyết

Bộ nguyên tắc này dựa trên năm nền tảng.

Nền tảng thứ nhất là khoa học học tập. Người học không học sâu chỉ vì được tiếp xúc với nội dung. Họ học khi phải chú ý vào thông tin liên quan, kết nối với kiến thức nền, truy hồi, giải thích, luyện tập có phản hồi, phân biệt dạng vấn đề, chuyển giao sang bối cảnh mới, phản tư và tham gia vào cộng đồng tri thức. Dunlosky và cộng sự năm 2013 tổng quan nhiều kỹ thuật học tập và cho thấy retrieval practice và distributed practice có bằng chứng mạnh hơn nhiều kỹ thuật phổ biến như rereading hoặc highlighting (Dunlosky et al., 2013). Chi và Wylie với khung ICAP phân biệt mức tương tác passive, active, constructive và interactive, nhấn mạnh rằng hoạt động tạo nghĩa và đối thoại thường sâu hơn thao tác bề mặt (Chi & Wylie, 2014). Mayer trong cognitive theory of multimedia learning cho thấy thiết kế đa phương tiện phải quản trị tải nhận thức và hướng chú ý, không chỉ thêm hình ảnh, âm thanh hoặc animation (Mayer, 2021).

Nền tảng thứ hai là feedback và assessment for learning. Feedback có hiệu quả khi nó giúp người học hiểu khoảng cách giữa hiện tại và mục tiêu, biết hành động tiếp theo, và có cơ hội dùng phản hồi để sửa. Hattie và Timperley mô tả feedback qua ba câu hỏi: Where am I going? How am I going? Where to next? (Hattie & Timperley, 2007). Shute nhấn mạnh formative feedback nên cụ thể, liên quan đến nhiệm vụ, dễ dùng, và tránh làm quá tải hoặc đe dọa người học (Shute, 2008). Brummer và cộng sự meta-analysis năm 2024 về 116 can thiệp feedback số cho thấy hiệu ứng trung bình tích cực nhưng biến thiên mạnh theo focus, môn học, loại đánh giá, learner control và publication bias (Brummer et al., 2024). Điều này củng cố luận điểm: “có feedback” không đủ; feedback phải đi vào vòng hành động.

Nền tảng thứ ba là động lực và self-regulated learning. Self-Determination Theory cho rằng động lực bền liên quan đến autonomy, competence và relatedness (Ryan & Deci, 2017). EdTech dễ hỗ trợ competence bằng phản hồi tức thời, nhưng cũng dễ làm sai autonomy bằng lộ trình máy quyết định và làm yếu relatedness nếu người học bị cô lập trong tương tác cá nhân hóa. Self-regulated learning nhắc rằng người học cần đặt mục tiêu, lập kế hoạch, giám sát, điều chỉnh và phản tư. AI có thể hỗ trợ các pha này, nhưng chỉ khi thiết kế giữ agency thay vì làm thay.

Nền tảng thứ tư là implementation science và evidence-informed practice. Một công cụ có bằng chứng không tự tạo tác động trong tổ chức thật. EEF bản cập nhật 2024 về implementation nhấn mạnh Explore, Prepare, Deliver, Sustain, đồng thời xem implementation là quá trình xã hội và thực hành ra quyết định dựa trên bằng chứng (Sharples et al., 2024). Ryan và cộng sự scoping review năm 2024 về scaling intervention trong trường học cho thấy cần báo cáo bối cảnh, rào cản, thuận lợi, implementation outcomes và intervention outcomes, thay vì chỉ đo fidelity hoặc kết quả cuối (Ryan et al., 2024). Chương 20 đã dùng nền này để nói rằng EdTech phải được đọc theo điều kiện triển khai.

Nền tảng thứ năm là AI/data governance và thiết kế lấy con người làm trung tâm. NIST AI Risk Management Framework đặt quản trị AI qua Govern, Map, Measure, Manage (NIST, 2023). OECD AI Principles nhấn mạnh human-centred values, fairness, transparency, robustness và accountability (OECD, 2024). UNESCO AI competency frameworks cho học sinh và giáo viên đặt human-centred mindset, ethics và AI pedagogy vào trung tâm (Miao et al., 2024; Miao & Cukurova, 2024). Những khung này nhắc rằng EdTech AI không chỉ cần hoạt động đúng về kỹ thuật; nó cần chính đáng về quyền, công bằng và trách nhiệm.

Từ năm nền tảng này, bộ nguyên tắc trong chương không phải ý kiến cảm tính. Nó là bản tóm tắt thực dụng của những gì khoa học học tập, đánh giá, động lực, triển khai, dữ liệu và kinh tế học đã nói trong các chương trước.

1. Bắt Đầu Từ Nhiệm Vụ Học Tập, Không Từ Tính Năng

Nguyên tắc đầu tiên: công nghệ chỉ được thêm khi nó giải quyết một khoảng cách học tập hoặc vận hành cụ thể. Nếu không có khoảng cách rõ, công nghệ sẽ tự tạo mục tiêu cho nó. Khi đó, ta bắt đầu tối ưu số lượt dùng, số tài nguyên tạo, số phút trong app, số prompt, số báo cáo, số câu hỏi, số dashboard. Những con số ấy có thể hữu ích, nhưng chúng không tự trả lời câu hỏi học tập.

Một thiết kế tốt bắt đầu bằng câu: người học đang kẹt ở đâu? Họ không nhớ kiến thức nền, không phân biệt dạng bài, không nhận feedback kịp, không biết tự đánh giá, không có cơ hội luyện tập, không tiếp cận được nội dung, không thấy ý nghĩa, không có người hỗ trợ, hay bị đánh giá bằng sản phẩm cuối dễ được AI tạo? Mỗi vấn đề cần một giải pháp khác nhau. Nếu học sinh không nhớ, giải pháp có thể là retrieval và spacing. Nếu không hiểu vì sao sai, cần feedback và misconception analysis. Nếu không biết bắt đầu viết, cần scaffold và ví dụ. Nếu không tự chủ, cần SRL support. Nếu giáo viên không thấy lỗi lớp, cần analytics theo cụm lỗi. Nếu dữ liệu phân mảnh, cần hạ tầng và interoperability, không phải chatbot.

Nhiều sản phẩm EdTech bắt đầu ngược: có AI, có gamification, có avatar, có dashboard, có adaptive path, rồi tìm chỗ đặt vào học tập. Cách này dễ dẫn đến feature-first design. Một hệ thống có thể có AI tutor nhưng bài tập vẫn nông. Có thể có adaptive learning nhưng chỉ cá nhân hóa drill. Có thể có dashboard nhưng không có can thiệp. Có thể có VR nhưng thiếu debrief. Có thể có AI feedback nhưng không có cơ hội sửa. Có thể có recommendation nhưng không rõ mục tiêu học.

Task-first design yêu cầu mô tả đơn vị học tập cụ thể. Không nói chung “nâng cao tư duy phản biện”. Hãy nói: người học cần đọc hai nguồn có quan điểm khác nhau, xác định luận điểm, so sánh bằng chứng, viết một phản biện có trích dẫn, nhận feedback, sửa lại, và bảo vệ lựa chọn trước nhóm. Khi nhiệm vụ rõ, vai trò công nghệ mới rõ. AI có thể giúp tạo câu hỏi phản biện, nhưng không viết thay. Dashboard có thể giúp giáo viên thấy nhóm nào chưa dùng bằng chứng, nhưng không chấm tự động toàn bộ lập luận. Peer review có thể dùng rubric số, nhưng vẫn cần đối thoại.

Một công cụ tốt nên trả lời được bốn câu hỏi:

1. Nhiệm vụ học tập hoặc vận hành cụ thể là gì? 2. Người học hoặc giáo viên đang gặp rào cản nào? 3. Công nghệ thay đổi cơ chế nào trong nhiệm vụ đó? 4. Làm sao biết rào cản đã giảm mà mục tiêu học không bị thay đổi sai?

Ví dụ, nếu mục tiêu là học viết luận, rào cản có thể là người học không nhận ra luận điểm yếu. AI có thể đóng vai người phản biện, hỏi về bằng chứng và giả định. Nhưng nếu AI viết lại đoạn văn hoàn chỉnh quá sớm, nó thay đổi mục tiêu từ học lập luận sang chỉnh sản phẩm. Nếu mục tiêu là luyện phát âm ngoại ngữ, AI speech feedback có thể giúp luyện nhiều hơn, nhưng nếu mô hình không hiểu giọng vùng miền hoặc chỉ chấm giống native accent, mục tiêu bị lệch từ giao tiếp rõ sang bắt chước chuẩn hẹp. Nếu mục tiêu là giảm workload giáo viên, AI tạo worksheet không đủ; phải xem worksheet có được dùng không, có thay thế việc cũ không, và giáo viên có tiết kiệm thời gian tổng thể không.

Task-first design cũng giúp tránh techno-solutionism. Không phải mọi vấn đề học tập cần công nghệ. Nếu người học không hiểu tiêu chí, giải pháp đầu tiên có thể là rubric rõ và ví dụ bài mẫu. Nếu học sinh không đọc, có thể cần thời gian đọc trong lớp và câu hỏi truy hồi, không phải app mới. Nếu giáo viên không phản hồi kịp vì sĩ số quá đông, AI có thể hỗ trợ, nhưng tổ chức cũng cần xem workload, lịch, và cách thiết kế bài. Nếu phụ huynh không nhận thông báo, có thể vấn đề là kênh truyền thông, ngôn ngữ hoặc niềm tin, không phải chatbot.

Một câu hỏi hữu ích là: “Nếu không dùng công nghệ mới, giải pháp sư phạm tốt nhất là gì?”. Nếu không trả lời được, ta chưa hiểu vấn đề. Công nghệ nên được so với một baseline tốt, không phải so với khoảng trống. Chương 2 đã nhấn mạnh baseline quyết định cách đọc hiệu quả. Một AI feedback tool dễ thắng nếu baseline là không feedback; khó hơn nếu baseline là peer review có rubric và giáo viên debrief tốt. Một AI tutor dễ trông mạnh nếu baseline là học sinh tự học không hỗ trợ; câu hỏi khó hơn là nó có thêm giá trị gì so với nhóm nhỏ, worksheet tốt, hoặc formative assessment do giáo viên dùng đúng.

Task-first design còn giúp procurement. Thay vì RFP yêu cầu “có GenAI, adaptive path, dashboard, gamification, parent report”, tổ chức có thể yêu cầu “giải pháp giúp giáo viên lớp 6 phát hiện ba misconception phổ biến trong phân số trong vòng một tuần, gợi nhóm hỗ trợ, và giảm thời gian chấm formative quiz mà vẫn có cơ hội sửa bài cho học sinh”. Yêu cầu sau ít lấp lánh hơn, nhưng làm vendor phải chứng minh fit.

Nguyên tắc này không chống tính năng mới. Tính năng mới có thể mở ra nhiệm vụ mới. GenAI cho phép AI as tutee, role-play, phản biện nhiều vai, tạo ví dụ cá nhân hóa. VR cho phép tình huống hiếm hoặc nguy hiểm. Learning analytics cho phép nhìn mẫu lỗi ở quy mô lớp. Nhưng ngay cả khi công nghệ mở ra khả năng mới, ta vẫn phải quay lại nhiệm vụ: khả năng này phục vụ cơ chế học nào, cho ai, trong điều kiện nào?

Một thiết kế EdTech thực chứng nên có “task statement” trước “feature list”. Nếu không viết được task statement, chưa nên viết roadmap.

2. Giữ Ma Sát Nhận Thức Đúng Chỗ

Nguyên tắc thứ hai: giảm ma sát thao tác, không xóa nỗ lực học cần thiết. Đây là một trong những điểm khó nhất khi đưa AI và automation vào giáo dục, vì phần mềm tốt thường được hiểu là làm mọi thứ nhanh hơn, ít bước hơn, dễ hơn. Trong nhiều bối cảnh, điều đó đúng. Đăng nhập nên dễ hơn. Gửi bài nên ít lỗi hơn. Tìm tài liệu nên nhanh hơn. Phụ đề nên tự động hơn. Giáo viên không nên nhập điểm ba lần. Người học khuyết tật không nên phải vật lộn với PDF không đọc được. Ma sát thao tác là lãng phí.

Nhưng học tập cần một số ma sát nhận thức. Truy hồi khó hơn đọc lại, nhưng giúp nhớ bền hơn. Tự giải thích mất thời gian hơn xem lời giải, nhưng giúp hiểu cấu trúc. Dự đoán trước khi xem mô phỏng tạo căng thẳng nhận thức, nhưng giúp người học nhận ra mô hình của mình. Viết nháp vụng về khó chịu hơn để AI viết bản trơn, nhưng bản nháp là nơi tư duy hiện ra. So sánh hai nguồn mệt hơn đọc tóm tắt, nhưng đó là nơi critical thinking được luyện. Nhận feedback và sửa lại không thoải mái, nhưng feedback không dùng thì không tạo học.

Chương 13 đã nhấn mạnh retrieval, spacing, interleaving và mastery. Chương 14 đã nói về tải nhận thức: cần giảm extraneous load, quản trị intrinsic load và nuôi germane load. Chương 15 gọi tên intentional friction: làm chậm người học ở đúng điểm để bảo vệ suy nghĩ. Nguyên tắc ở đây là phân biệt ba loại ma sát.

Loại thứ nhất là ma sát thao tác. Đây là thứ nên giảm: đăng nhập khó, giao diện rối, file không mở được, caption thiếu, đường truyền yếu, yêu cầu copy-paste nhiều nơi, tài khoản lỗi, quy trình nộp bài dài, dashboard không tìm được thông tin. Ma sát này lấy năng lượng khỏi học tập.

Loại thứ hai là ma sát nhận thức có ích. Đây là thứ nên giữ hoặc thiết kế tốt hơn: nhớ lại, giải thích, lập luận, chọn chiến lược, kiểm chứng nguồn, so sánh phương án, tự đánh giá, sửa bài, phản biện, thử lại. Ma sát này là nơi năng lực phát triển.

Loại thứ ba là ma sát cảm xúc-xã hội cần chăm sóc. Sai, bị phản biện, nói trước nhóm, nhận điểm thấp, thừa nhận chưa hiểu đều có thể khó. Không nên xóa hết khó khăn này, nhưng phải tạo môi trường an toàn để người học chịu được khó khăn. AI có thể giúp rehearsal và giảm xấu hổ ban đầu, nhưng không nên làm người học tránh mọi tương tác người thật.

AI dễ xóa nhầm loại ma sát thứ hai. Khi người học hỏi “tóm tắt bài này”, AI có thể tóm tắt ngay, nhưng nếu mục tiêu là đọc hiểu, nó đã xóa phần đọc. Khi hỏi “giải bài này”, AI có thể đưa lời giải, nhưng nếu mục tiêu là problem solving, nó xóa chiến lược. Khi yêu cầu “viết giúp đoạn mở bài”, AI có thể làm trơn câu chữ, nhưng nếu mục tiêu là lập luận, nó có thể che mất việc người học chưa có luận điểm. Khi giáo viên yêu cầu “tạo câu hỏi kiểm tra”, AI có thể sinh nhiều câu, nhưng nếu giáo viên không phân tích cognitive demand, ngân hàng câu hỏi đầy nhưng nông.

Thiết kế tốt dùng friction theo mức rủi ro của nhiệm vụ. Với câu hỏi tra cứu thấp rủi ro, trả lời nhanh là hợp lý. Với bài tập hình thành năng lực, nên có bước: “em đã thử gì?”, “hãy dự đoán trước”, “hãy tự đánh giá”, “hãy chọn tiêu chí feedback”, “hãy giải thích vì sao giữ/sửa đề xuất AI”. Với nhiệm vụ đánh giá hoặc ra quyết định, cần friction mạnh hơn: nguồn, bằng chứng, phản biện, khai báo AI, human review.

Ví dụ, một AI tutor toán có thể không đưa lời giải ngay. Nó có thể bắt đầu bằng câu hỏi chẩn đoán: “Em nghĩ bước đầu là gì?”. Nếu người học sai, AI gợi ý nhẹ: “Hãy xem mẫu số có giống nhau không”. Nếu vẫn kẹt, AI đưa ví dụ tương tự, không cùng bài. Nếu người học yêu cầu đáp án, hệ thống hỏi confidence và yêu cầu giải thích lại sau khi xem. Sau bài, người học làm một bài transfer không có hint. Đây là ma sát đúng chỗ.

Một AI writing assistant có thể yêu cầu người học nộp luận điểm và outline trước khi nhận feedback. Nó có thể phản hồi bằng câu hỏi thay vì viết lại. Nó có thể giới hạn số sửa câu tự động và yêu cầu người học chọn ba thay đổi quan trọng nhất. Nó có thể hiển thị “phần AI gợi ý” và yêu cầu phản tư. Như vậy, AI không xóa quá trình viết; nó làm quá trình viết rõ hơn.

Một learning analytics dashboard có thể giảm ma sát tìm dữ liệu cho giáo viên, nhưng giữ ma sát phán đoán. Dashboard không nên tự động nói “chuyển em này sang nhóm yếu”. Nó nên hiển thị bằng chứng, mức chắc chắn, ngoại lệ và câu hỏi gợi ý: “nhóm này sai cùng một misconception”, “dữ liệu online thấp nhưng bài giấy chưa có”, “cần kiểm tra với quan sát lớp”. Giáo viên vẫn phải quyết định.

Một nguyên tắc phụ là “AI nên làm chậm đúng lúc và nhanh đúng chỗ”. Nhanh ở phần truy cập, chuyển đổi định dạng, tìm tài nguyên, tạo bản nháp thấp rủi ro, phân nhóm lỗi, dịch hỗ trợ, caption, alt text. Chậm ở phần hình thành hiểu biết: dự đoán, tự giải thích, kiểm chứng, phản biện, quyết định, phản tư. Nếu một sản phẩm luôn tối ưu nhanh hơn, nó chưa hiểu học tập.

Ma sát cũng cần giảm dần. Scaffold tốt không giữ người học phụ thuộc. Ban đầu có thể nhiều gợi ý, nhiều cấu trúc, nhiều câu hỏi. Khi người học mạnh hơn, hệ thống rút dần hỗ trợ, yêu cầu tự chọn chiến lược, tự kiểm tra, tự đặt mục tiêu. Mastery không phải làm bài đến khi hệ thống nói đủ; mastery là người học dần cần ít scaffold hơn trong nhiệm vụ tương tự và dùng được kiến thức trong bối cảnh mới.

Điểm cân bằng này cần bằng chứng. Nếu thêm friction quá nhiều, người học chán, overload hoặc bỏ cuộc. Nếu friction quá ít, học nông. Vì vậy, thiết kế cần đo không chỉ completion và satisfaction, mà cả effort quality, self-explanation, feedback uptake, transfer và dependency. Một chatbot được yêu thích vì làm bài dễ hơn chưa chắc tốt. Một bài học khó chịu vừa phải nhưng làm người học hiểu sâu có thể có giá trị hơn. Nhưng khó chịu không phải mục tiêu tự thân; nó phải phục vụ cơ chế học.

3. Phản Hồi Phải Dẫn Đến Hành Động

Nguyên tắc thứ ba: dashboard, điểm số và nhận xét vô dụng nếu người học hoặc giáo viên không biết làm gì tiếp. Phản hồi là một trong những lời hứa lớn nhất của EdTech. Công nghệ có thể cho feedback tức thời, nhiều vòng, cá nhân hóa, theo rubric, theo lỗi, qua text, audio, video, code, simulation hoặc dashboard. AI làm phản hồi rẻ và phong phú hơn. Nhưng phản hồi nhiều hơn không tự động tốt hơn. Phản hồi chỉ có giá trị khi nó dẫn đến hành động học.

Hattie và Timperley đặt feedback vào ba câu hỏi: mục tiêu là gì, hiện tại đang ở đâu, bước tiếp theo là gì (Hattie & Timperley, 2007). Trong EdTech, nhiều hệ thống trả lời câu thứ hai quá mức: bạn đúng 7/10, yếu kỹ năng X, engagement thấp, bài viết có 12 lỗi, risk score cao. Nhưng chúng trả lời câu thứ ba kém: làm gì tiếp, trong bao lâu, với tài nguyên nào, ai hỗ trợ, khi nào kiểm tra lại. Một dashboard nói “lớp yếu phân số” nhưng không gợi hoạt động dạy lại, không cho ví dụ bài sai, không phân nhóm misconception, không có thời gian trong lịch, chỉ tạo lo lắng. Một AI feedback nói “cần lập luận rõ hơn” nhưng không chỉ đoạn nào, vì sao, và người học sửa ra sao, chỉ tạo tiếng ồn.

Phản hồi có thể thất bại theo sáu cách.

Thứ nhất, quá mơ hồ. “Good job”, “cần cố gắng hơn”, “lập luận chưa sâu” không đủ. Người học cần biết cụ thể vấn đề nằm ở đâu và tiêu chí nào bị lệch.

Thứ hai, quá nhiều. Một bài nhận hàng chục góp ý làm người học tê liệt. AI dễ tạo nhiều feedback vì chi phí thấp. Nhưng phản hồi tốt thường ưu tiên một vài điểm có leverage cao.

Thứ ba, quá muộn. Feedback sau khi chủ đề đã qua, điểm đã đóng, hoặc người học không có cơ hội sửa sẽ ít tác dụng. Công nghệ có thể giúp nhanh hơn, nhưng chỉ nếu workflow cho phép sửa.

Thứ tư, làm thay. Nếu AI sửa câu hoàn chỉnh, giải bài hoàn chỉnh, hoặc viết code hoàn chỉnh, người học có sản phẩm tốt hơn nhưng không chắc năng lực tốt hơn.

Thứ năm, sai trọng tâm. AI sửa ngữ pháp trong khi vấn đề là luận điểm; dashboard báo thời gian online trong khi vấn đề là hiểu sai khái niệm; feedback code sửa syntax trong khi mục tiêu là thiết kế thuật toán.

Thứ sáu, không có uptake. Người học đọc feedback rồi bỏ qua; giáo viên xem dashboard rồi không có thời gian can thiệp; tổ chức có báo cáo nhưng không đổi quy trình. Feedback không được dùng thì không phải feedback, chỉ là thông tin.

Thiết kế phản hồi hành động cần bốn thành phần: tiêu chí, chẩn đoán, hành động và vòng lặp.

Tiêu chí: người học phải hiểu chất lượng là gì. Rubric, ví dụ mẫu, contrast cases và self-assessment giúp feedback có chỗ bám. Nếu người học không hiểu tiêu chí, feedback biến thành lời khuyên rời.

Chẩn đoán: feedback phải chỉ đúng vấn đề có thể hành động. Không phải mọi lỗi đều quan trọng như nhau. Một hệ thống tốt phân biệt lỗi bề mặt, misconception, thiếu chiến lược, thiếu kiến thức nền, thiếu nỗ lực, hoặc lỗi do giao diện.

Hành động: feedback phải nói bước tiếp theo. Sửa đoạn nào, luyện dạng nào, xem ví dụ nào, hỏi ai, thử chiến lược nào, làm bài transfer nào, đặt mục tiêu nào.

Vòng lặp: người học phải có cơ hội dùng feedback và nhận phản hồi tiếp. Nếu không có vòng sửa, feedback không tạo học.

AI có thể hỗ trợ cả bốn thành phần nếu được thiết kế đúng. Nó có thể tạo rubric dễ hiểu, đưa ví dụ đối chiếu, phân loại lỗi theo cụm, gợi bài luyện, đặt câu hỏi Socratic, theo dõi bản sửa, và yêu cầu reflection. Nhưng AI cũng có thể phá cả bốn nếu feedback trôi chảy nhưng thiếu tiêu chí, nếu chẩn đoán sai, nếu hành động là “đây là bản sửa”, hoặc nếu không có người thật xem trường hợp quan trọng.

Với giáo viên, dashboard cũng phải là feedback dẫn đến hành động. Một dashboard tốt không hỏi giáo viên tự diễn giải 20 biểu đồ. Nó trả lời: nhóm nào cần chú ý, bằng chứng là gì, hành động gợi ý là gì, thời gian cần bao nhiêu, có tài nguyên nào, trường hợp nào cần human check, và sau can thiệp đo gì. Chương 8 đã nói một cảnh báo rủi ro chỉ có giá trị nếu có can thiệp kèm theo. Nếu không, dashboard chỉ chuyển trách nhiệm lên giáo viên.

Với tổ chức, báo cáo analytics phải dẫn đến quyết định. Nếu dữ liệu cho thấy học sinh vùng mạng yếu ít hoàn thành bài online, hành động có thể là offline mode hoặc thiết bị mượn, không phải email nhắc. Nếu dữ liệu cho thấy giáo viên không dùng AI tool, hành động có thể là giảm tool sprawl hoặc training theo môn, không phải nhắc họ dùng. Nếu dữ liệu cho thấy bản premium tạo lợi thế, hành động là chính sách truy cập, không phải báo cáo market success.

Một thiết kế phản hồi tốt nên có “feedback contract”: ai nhận feedback, nhận khi nào, phải làm gì, có thời gian làm không, ai hỗ trợ, và làm sao biết feedback được dùng. Với người học, contract có thể là: nhận feedback về hai tiêu chí, sửa trong 20 phút, nộp bản phản tư ngắn. Với giáo viên: xem error clusters vào thứ Tư, chọn một mini-lesson, dạy lại thứ Năm, kiểm tra lại thứ Sáu. Với tổ chức: xem adoption và workload sau 6 tuần, quyết định sửa hoặc dừng pilot.

Một nguyên tắc phụ: feedback cần bảo vệ metacognition. Trước feedback, yêu cầu người học tự đánh giá. Trong feedback, không đưa quá nhiều lời giải. Sau feedback, yêu cầu người học chọn hành động và giải thích lựa chọn. Bằng cách đó, feedback không chỉ sửa sản phẩm; nó dạy người học học từ sản phẩm.

Brummer và cộng sự cho thấy feedback số có hiệu quả trung bình tích cực, nhưng biến thiên lớn (Brummer et al., 2024). Bài học không phải “feedback số tốt” hay “feedback số không tốt”. Bài học là phải thiết kế điều kiện feedback. Trong EdTech thực chứng, feedback không phải tính năng. Nó là vòng hành động.

4. Cá Nhân Hóa Có Giới Hạn Đạo Đức

Nguyên tắc thứ tư: không cá nhân hóa đến mức cô lập người học, khóa cơ hội hoặc thao túng động lực. Cá nhân hóa là lời hứa lâu đời của EdTech. Mỗi người học có tốc độ riêng, lỗ hổng riêng, mục tiêu riêng, sở thích riêng. AI làm lời hứa này mạnh hơn: hệ thống có thể phân tích dữ liệu, tạo bài phù hợp, phản hồi riêng, gợi lộ trình, điều chỉnh độ khó, dịch ngôn ngữ, tạo ví dụ gần đời sống. Được dùng đúng, cá nhân hóa có thể giảm rào cản và mở quyền tham gia.

Nhưng cá nhân hóa cũng là vùng rủi ro đạo đức. Nó có thể cá nhân hóa nội dung nhưng chuẩn hóa mục tiêu. Nó có thể cho người học bài “phù hợp” nhưng giữ họ ở mức thấp. Nó có thể tối ưu engagement bằng nhắc nhở, streak và phần thưởng. Nó có thể cô lập người học trong đường học riêng, làm giảm peer learning. Nó có thể dùng dữ liệu quá sâu để dự đoán hành vi. Nó có thể tạo self-fulfilling prophecy: hệ thống nghĩ người học yếu, cho bài dễ hơn, người học ít cơ hội học sâu hơn, rồi dữ liệu xác nhận em yếu.

Cá nhân hóa tốt cần phân biệt ít nhất năm loại.

Thứ nhất là cá nhân hóa truy cập. Đây là vùng có giá trị đạo đức cao: caption, text-to-speech, speech-to-text, translation, alternative formats, font dễ đọc, low-bandwidth, assistive interface. Nó giúp người học bước vào hoạt động. Chương 9 và 18 đã nhấn mạnh UDL: nhiều cách tiếp cận, biểu đạt và tham gia.

Thứ hai là cá nhân hóa mức độ hỗ trợ. Người học mới cần nhiều scaffold hơn, người học mạnh cần thử thách hơn. AI có thể gợi hint theo tầng, ví dụ tương tự, bài luyện bổ sung. Nhưng scaffold phải rút dần và kiểm tra transfer.

Thứ ba là cá nhân hóa nội dung và ví dụ. Ví dụ gần sở thích hoặc bối cảnh có thể tăng ý nghĩa. Nhưng nếu cá nhân hóa quá mức theo sở thích hiện tại, người học ít gặp thế giới ngoài vùng quen. Giáo dục cũng phải mở rộng chân trời.

Thứ tư là cá nhân hóa tốc độ và lộ trình. Người học cần thời gian khác nhau. Nhưng lộ trình không nên trở thành đường ray kín. Người học cần hiểu vì sao hệ thống gợi bước tiếp theo, có quyền chọn, và có cơ hội vào nhiệm vụ khó.

Thứ năm là cá nhân hóa động lực. Đây là vùng rủi ro cao. Hệ thống có thể biết lúc nào người học dễ bỏ và gửi nhắc. Có thể điều chỉnh phần thưởng. Có thể dùng so sánh xã hội. Nếu mục tiêu là học bền, cá nhân hóa động lực phải hỗ trợ autonomy, competence và relatedness, không thao túng hành vi để tăng time-on-platform.

Cá nhân hóa có giới hạn đạo đức cần năm guardrails.

Guardrail thứ nhất: minh bạch. Người học và giáo viên cần biết hệ thống cá nhân hóa dựa trên dữ liệu nào và mục tiêu nào. Nếu hệ thống âm thầm điều chỉnh độ khó, nguồn, phản hồi hoặc cơ hội, người học mất quyền hiểu quá trình học của mình.

Guardrail thứ hai: quyền kiểm soát. Người học không nhất thiết quyết định mọi thứ, nhưng cần có lựa chọn có ý nghĩa: yêu cầu giải thích, chọn mục tiêu, đổi mức hỗ trợ, tắt một số cá nhân hóa, hoặc hỏi giáo viên. Giáo viên cần quyền override.

Guardrail thứ ba: không khóa cơ hội. Hệ thống không nên dùng dữ liệu quá khứ để giới hạn tương lai. Một người học có điểm thấp cần hỗ trợ, nhưng vẫn cần cơ hội vào nhiệm vụ giàu tư duy. Một learner profile không nên trở thành bản án.

Guardrail thứ tư: không cô lập xã hội. Cá nhân hóa nên xen với hoạt động nhóm, peer learning, thảo luận, debrief và cộng đồng. Người học không chỉ cần lộ trình riêng; họ cần học cách tham gia vào thực hành chung.

Guardrail thứ năm: tối thiểu hóa dữ liệu. Không cá nhân hóa bằng dữ liệu nhạy cảm nếu không cần. Không dùng wellbeing, cảm xúc, sinh trắc hoặc dữ liệu gia đình để tối ưu học tập nếu không có cơ sở đạo đức mạnh và governance rõ.

Một câu hỏi thiết kế tốt là: “Cá nhân hóa này làm người học ngày càng tự chủ hơn hay ngày càng phụ thuộc hơn?”. Nếu hệ thống luôn chọn bài, chọn mục tiêu, nhắc giờ học, sửa lỗi, đánh giá, động viên và quyết định bước tiếp theo, người học có thể hoàn thành nhiều hơn nhưng tự chủ ít hơn. Cá nhân hóa tốt nên chuyển dần quyền sang người học: ban đầu gợi ý, sau đó yêu cầu người học chọn, cuối cùng giúp người học tự lập kế hoạch.

Một câu hỏi khác: “Cá nhân hóa này dựa trên asset hay deficit?”. Hệ thống thường phát hiện lỗi và lỗ hổng. Điều này hữu ích, nhưng nếu chỉ nhìn deficit, người học trở thành danh sách thiếu hụt. Asset-based personalization hỏi thêm: người học có kinh nghiệm, ngôn ngữ, chiến lược, sở thích, quan hệ và thế mạnh nào có thể dùng để học tiếp? Chương 16 và 18 đã nhấn mạnh asset-based assessment và inclusive pedagogy. Cá nhân hóa đạo đức không chỉ sửa lỗi; nó xây trên nguồn lực.

Một ví dụ cá nhân hóa tốt: hệ thống đọc hiểu phát hiện học sinh gặp khó với từ học thuật, cung cấp glossary song ngữ, yêu cầu dự đoán ý trước khi đọc, cho lựa chọn nghe audio, gợi thảo luận nhóm, và sau đó giảm dần glossary khi người học tiến bộ. Một ví dụ rủi ro: hệ thống thấy học sinh đọc chậm, tự động chỉ đưa văn bản dễ hơn, không cho tiếp cận văn bản giàu ý tưởng, và báo với phụ huynh rằng em “low ability”.

Cá nhân hóa không phải mục tiêu cuối. Mục tiêu là học tập công bằng, sâu và tự chủ hơn. Nếu cá nhân hóa không phục vụ ba thứ đó, nó chỉ là tối ưu hóa hành vi cá nhân.

5. Teacher-In-The-Loop Theo Nghĩa Thật

Nguyên tắc thứ năm: giáo viên có quyền phán đoán, chỉnh sửa, phủ quyết và học từ hệ thống. “Teacher-in-the-loop” dễ trở thành khẩu hiệu. Nhiều sản phẩm nói giáo viên vẫn kiểm soát, nhưng thực tế giáo viên chỉ xem kết quả cuối, bấm duyệt, hoặc chịu trách nhiệm khi AI sai. Teacher-in-the-loop thật phải nằm ở nhiều điểm của vòng thiết kế và vận hành: mục tiêu, dữ liệu, tiêu chí, hoạt động, phản hồi, đánh giá, can thiệp và cải tiến hệ thống.

Chương 19 đã định nghĩa teacher agency qua quyền thấy, quyền quyết định, quyền điều chỉnh và quyền phản biện. Với EdTech thực chứng, bốn quyền này phải được thiết kế vào sản phẩm và tổ chức.

Quyền thấy: giáo viên cần hiểu dữ liệu, logic gợi ý, mức chắc chắn, giới hạn và bằng chứng. Một dashboard chỉ đưa nhãn đỏ-vàng-xanh không đủ. Một AI scoring tool chỉ đưa điểm không đủ. Một tutor report chỉ nói “mastery 78%” không đủ. Giáo viên cần thấy lỗi mẫu, bài làm đại diện, tiêu chí, ngoại lệ và lịch sử hỗ trợ.

Quyền quyết định: giáo viên cần chọn khi nào dùng AI, dùng ở mức nào, với nhiệm vụ nào. Họ cần có quyền nói “bài này không dùng AI”, “ở đây AI chỉ phản biện”, “ở đây AI tạo bản nháp nhưng học sinh phải giải thích”, “cảnh báo này cần kiểm tra thêm”, “em này cần gặp người thật”.

Quyền điều chỉnh: giáo viên cần sửa prompt, rubric, nhóm học sinh, feedback template, lộ trình, tài liệu và can thiệp. Nếu hệ thống không cho chỉnh, giáo viên bị biến thành người dùng bị khóa.

Quyền phản biện: giáo viên cần kênh báo lỗi, bias, workload, policy bất hợp lý và rủi ro dữ liệu. Phản hồi phải đi vào product improvement hoặc governance. Nếu không, co-design chỉ là lời nói.

Teacher-in-the-loop cũng cần tránh hai cực đoan. Cực thứ nhất là teacher-as-bottleneck: mọi thứ phải chờ giáo viên duyệt thủ công, làm AI không giảm tải. Cực thứ hai là teacher-as-rubber-stamp: AI làm gần hết, giáo viên duyệt hình thức. Thiết kế tốt phân tầng. Tác vụ low-risk có thể tự động hóa nhiều hơn. Tác vụ high-stakes cần human review sâu. Hệ thống nên ưu tiên trường hợp biên, bất thường, rủi ro cao để giáo viên tập trung phán đoán nơi cần nhất.

Ví dụ, AI feedback formative cho bài luyện có thể gửi gợi ý tức thời nếu mức rủi ro thấp, nhưng giáo viên xem summary lỗi theo cụm. Với bài luận tính điểm, AI chỉ hỗ trợ phân tích rubric; giáo viên chấm và có quyền bỏ gợi ý. Với risk prediction, hệ thống không tự động đổi lộ trình; nó báo tín hiệu và gợi câu hỏi check-in. Với wellbeing, AI không tư vấn sâu; nó hướng tới người lớn có trách nhiệm theo quy trình.

Teacher-in-the-loop thật cũng là professional learning loop. Hệ thống không chỉ đưa dữ liệu cho giáo viên; nó giúp giáo viên học từ dữ liệu. Một error clustering tool tốt không chỉ nói học sinh sai gì, mà giúp tổ chuyên môn hỏi: bài dạy trước đã tạo misconception nào, ví dụ nào gây nhầm, câu hỏi nào cần đổi, can thiệp nào hiệu quả. Một AI lesson planning tool tốt không chỉ tạo giáo án, mà giúp giáo viên so sánh phương án, thấy trade-off, và phát triển PCK. Một dashboard tốt không chỉ theo dõi học sinh, mà làm cuộc họp chuyên môn tốt hơn.

UNESCO teacher AI competency framework đặt AI pedagogy và AI for professional learning vào năng lực giáo viên (Miao & Cukurova, 2024). Điều này quan trọng: giáo viên không chỉ dùng AI để làm nhanh hơn; họ dùng AI để nhìn sâu hơn và phát triển nghề. Nếu công nghệ chỉ làm giáo viên sản xuất nhiều nội dung hơn, nó có thể tăng output nhưng không tăng chuyên môn.

Teacher-in-the-loop cũng cần điều kiện tổ chức. Không thể yêu cầu giáo viên phán đoán nếu không có thời gian, training, dữ liệu dễ hiểu, support và quyền. Một giáo viên quá tải sẽ dễ tin AI hoặc bỏ qua AI. Một giáo viên không được đào tạo về data literacy sẽ khó đọc dashboard. Một giáo viên không có quyền sửa policy sẽ bất lực trước lỗi hệ thống. Vì vậy, teacher-in-the-loop là thiết kế tổ chức, không chỉ thiết kế giao diện.

Một câu hỏi kiểm tra mạnh: “Nếu AI sai, giáo viên có đủ thông tin, thời gian và quyền để phát hiện và sửa không?”. Nếu không, hệ thống không nên dùng cho tác vụ có rủi ro cao. Một câu hỏi khác: “Sau ba tháng dùng công cụ, giáo viên có hiểu học sinh và môn học tốt hơn không, hay chỉ học cách vận hành nền tảng?”. Nếu chỉ là vận hành, teacher-in-the-loop chưa đạt.

Teacher-in-the-loop không có nghĩa giáo viên là người duy nhất. Người học cũng phải in-the-loop trong việc dùng AI, tự đánh giá, khai báo, phản biện. Tổ chức phải in-the-loop trong governance. Phụ huynh có vai trò với trẻ em. Nhưng giáo viên là điểm nối giữa mục tiêu học, bối cảnh lớp và dữ liệu. Bỏ qua họ, EdTech mất khả năng hiểu giáo dục như quan hệ người thật.

6. Đo Điều Kiện Hiệu Quả

Nguyên tắc thứ sáu: luôn hỏi hiệu quả với ai, trong môn nào, trong bao lâu, với chi phí nào, dưới rủi ro nào. Đây là nguyên tắc chống lại câu nói quá ngắn: “công cụ này hiệu quả”. Trong giáo dục, không có hiệu quả trừu tượng. Có hiệu quả trong một bối cảnh, với một nhóm người học, một giáo viên, một nhiệm vụ, một thời lượng, một mức hỗ trợ, một baseline và một thước đo.

Chương 2 đã phân biệt adoption, engagement, satisfaction, completion, điểm số, retention và transfer. Chương 20 dùng câu hỏi “works for whom, under what conditions”. Chương 22 thêm chi phí và incentive. Chương 21 thêm privacy, bias và contestability. Khi gom lại, đánh giá EdTech thực chứng cần nhiều tầng.

Tầng thứ nhất là learning outcomes. Người học có hiểu hơn không, nhớ lâu hơn không, transfer tốt hơn không, tự điều chỉnh tốt hơn không, làm được nhiệm vụ xác thực hơn không? Outcome gần với bài luyện có thể hữu ích, nhưng chưa đủ. Cần delayed test, transfer task, sản phẩm mở, oral defense, portfolio hoặc quan sát thực hành khi mục tiêu phức hợp.

Tầng thứ hai là process evidence. Người học có truy hồi, giải thích, sửa bài, dùng feedback, đặt câu hỏi, hợp tác, phản tư không? AI tạo sản phẩm cuối đẹp có thể che quá trình rỗng. Process evidence giúp thấy cơ chế học, nhưng phải chọn dấu vết có ý nghĩa và tránh giám sát quá mức.

Tầng thứ ba là implementation outcomes. Công cụ có được dùng không, dùng đúng cơ chế không, có fit với workflow không, có khả thi không, giáo viên có chấp nhận không, support có đủ không, cost ra sao, có bền không? Proctor và cộng sự nêu các outcomes như acceptability, adoption, appropriateness, feasibility, fidelity, cost, penetration và sustainability (Proctor et al., 2011). Với EdTech, các outcome này quyết định liệu tác động có thể sống ngoài pilot không.

Tầng thứ tư là equity outcomes. Nhóm nào hưởng lợi, nhóm nào không, nhóm nào chịu rủi ro? Hiệu quả trung bình có thể che bất bình đẳng. Một công cụ tăng điểm chung nhưng làm nhóm yếu thế tụt lại tương đối cần được xem xét lại. Cần phân tích theo ngôn ngữ, disability, giới, thu nhập, thiết bị, vùng miền, kiến thức nền và bối cảnh văn hóa.

Tầng thứ năm là workload và organisational outcomes. Giáo viên có giảm tải thật không, hay thêm việc? Tổ chức có giảm tool sprawl không, hay tăng? Dữ liệu có dẫn đến can thiệp không? IT có gánh nổi không? Hỗ trợ phụ huynh có cải thiện không? Một công cụ làm điểm tăng nhẹ nhưng làm giáo viên kiệt sức có thể không bền.

Tầng thứ sáu là risk outcomes. Privacy, security, bias, overreliance, deskilling, dependency, surveillance, lock-in, academic integrity, wellbeing và environmental cost thay đổi ra sao? Một sản phẩm tạo hiệu quả ngắn hạn nhưng tăng rủi ro dài hạn cần được đọc đầy đủ.

Tầng thứ bảy là cost/value. Tổng chi phí vòng đời là gì? So với phương án khác, value có xứng không? Có exit plan không? Có chi phí ẩn không? Chương 22 đã nói value for money không phải giá thấp, mà là quan hệ giữa tác động, chi phí và rủi ro.

Một evaluation plan tốt nên viết trước triển khai:

1. Chúng ta đang giải quyết vấn đề nào? 2. Cơ chế học tập hoặc vận hành giả định là gì? 3. Baseline là gì? 4. Outcome nào đo ngay, outcome nào đo sau? 5. Nhóm người học nào cần phân tích riêng? 6. Implementation conditions nào cần theo dõi? 7. Workload và cost đo ra sao? 8. Rủi ro nào cần monitor? 9. Tiêu chí sửa, mở rộng hoặc dừng là gì? 10. Ai được xem dữ liệu và ai có quyền phản hồi?

Đo điều kiện hiệu quả cũng nghĩa là chấp nhận kết quả hỗn hợp. Một công cụ có thể tốt cho học sinh có kiến thức nền trung bình nhưng không tốt cho học sinh rất yếu nếu thiếu giáo viên. Một AI writing tool có thể giúp clarity nhưng không giúp argument. Một gamified app có thể tăng practice trong bốn tuần nhưng giảm novelty sau tám tuần. Một dashboard có thể tốt ở trường có cố vấn, vô dụng ở trường không có người can thiệp. Những kết quả này không làm nghiên cứu thất bại; chúng làm tri thức triển khai chính xác hơn.

Một nguy cơ là đo quá nhiều. Nếu mỗi can thiệp tạo thêm khảo sát, log, dashboard, rubric, người dùng sẽ mệt. Đo điều kiện hiệu quả không có nghĩa biến mọi thứ thành dữ liệu. Nó nghĩa là chọn số ít thước đo có ý nghĩa, kết hợp định lượng và định tính, và dùng dữ liệu để quyết định. Đôi khi một cuộc phỏng vấn giáo viên, một phân tích bài làm và một chỉ số delayed retention tốt hơn 30 chỉ số platform.

Một nguy cơ khác là đo thứ dễ thay vì thứ quan trọng. Time-on-task dễ đo, nhưng không đủ. Số prompt dễ đo, nhưng không nói chất lượng tư duy. Completion dễ đo, nhưng có thể tăng khi nhiệm vụ dễ hơn. Satisfaction dễ đo, nhưng người học có thể thích công cụ làm hộ. Đo đúng đôi khi khó hơn, nhưng nếu đo sai, hệ thống sẽ tối ưu sai.

Đo điều kiện hiệu quả cũng cần khi mua sản phẩm. Vendor nên cung cấp bằng chứng theo bối cảnh, nhưng tổ chức vẫn cần local evaluation. Không phải vì không tin vendor, mà vì bối cảnh khác. Một sản phẩm có evidence tốt ở trường đô thị tiếng Anh cần thử lại ở trường Việt Nam, lớp đông, thiết bị mobile-first, giáo viên có thời gian khác. Local evaluation không nhất thiết là RCT lớn. Nó có thể là pilot có baseline, mixed-method, và tiêu chí rõ.

Trong EdTech thực chứng, câu hỏi “có hiệu quả không?” nên được thay bằng: “hiệu quả nào, cho ai, so với gì, trong bao lâu, dưới điều kiện nào, với chi phí và rủi ro nào?”. Câu hỏi dài hơn, nhưng giáo dục xứng đáng với câu hỏi dài.

7. Không Tô Hồng, Không Bi Quan Dễ Dãi

Nguyên tắc thứ bảy: EdTech tốt là thiết kế có bằng chứng, có giới hạn và có trách nhiệm. Điều này đòi hỏi một thái độ khó giữ: không tô hồng, nhưng cũng không bi quan dễ dãi. Tô hồng công nghệ làm ta bỏ qua rủi ro, chi phí, bối cảnh và quyền lực. Bi quan dễ dãi làm ta bỏ qua cơ hội thật cho accessibility, feedback, tutoring, dữ liệu can thiệp, giảm tải, cộng đồng và học tập linh hoạt. Cả hai đều là cách tránh làm việc khó.

Tô hồng thường có vài câu quen thuộc: AI sẽ cá nhân hóa cho mọi người; giáo viên sẽ được giải phóng; dữ liệu sẽ giúp can thiệp sớm; công nghệ sẽ dân chủ hóa giáo dục; học sinh sẽ tự học tốt hơn; chi phí sẽ giảm; scale sẽ giải quyết bất bình đẳng. Những câu này có thể chứa một phần sự thật. Nhưng nếu không hỏi điều kiện, chúng trở thành marketing. Cá nhân hóa cho ai, bằng dữ liệu nào, có khóa cơ hội không? Giáo viên được giải phóng khỏi việc nào, có việc mới không? Can thiệp sớm bằng nguồn lực nào? Dân chủ hóa nếu thiết bị, ngôn ngữ và tài khoản trả phí không đều thì sao? Tự học tốt hơn nếu người học chưa có SRL thì sao? Chi phí giảm ở dòng nào, tăng ở dòng nào? Scale có làm mất local adaptation không?

Bi quan dễ dãi cũng có câu quen thuộc: công nghệ luôn thất bại; AI làm học sinh lười; dữ liệu chỉ là giám sát; EdTech chỉ là thị trường; giáo viên sẽ bị thay thế; học online không bao giờ bằng học trực tiếp. Những câu này cũng có phần cảnh báo đúng. Nhưng nếu biến chúng thành kết luận sẵn, ta bỏ qua thiết kế. AI có thể làm học sinh phụ thuộc, nhưng cũng có thể làm họ tự giải thích nếu thiết kế đúng. Dữ liệu có thể giám sát, nhưng cũng có thể giúp phát hiện ai bị bỏ lại. EdTech có thể bị thị trường hóa, nhưng procurement và governance có thể định hình thị trường. Học online có giới hạn, nhưng cũng mở quyền truy cập cho người không thể đến lớp.

Thái độ thực chứng là ở giữa nhưng không nhạt. Nó có bốn thói quen.

Thói quen thứ nhất: hỏi cơ chế. Công nghệ giúp học qua cơ chế nào? Nếu không nói được cơ chế, claim còn mỏng. Retrieval, feedback, scaffold, collaboration, simulation, accessibility, self-regulation, teacher insight, administrative reliability - mỗi cơ chế cần thiết kế khác.

Thói quen thứ hai: hỏi điều kiện. Cơ chế ấy hoạt động khi nào, với ai, cần giáo viên làm gì, cần hạ tầng gì, cần dữ liệu gì, kéo dài bao lâu? Điều kiện làm claim nhỏ hơn, nhưng đáng tin hơn.

Thói quen thứ ba: hỏi tác dụng phụ. Kỹ năng nào bị offload, ai bị giám sát, dữ liệu nào bị thu, nhóm nào bị thiệt, giáo viên có thêm việc không, mô hình kinh doanh kéo thiết kế về đâu, công cụ có làm nghèo quan hệ không?

Thói quen thứ tư: thiết kế vòng học. Không cần chờ bằng chứng hoàn hảo để thử, nhưng phải thử có kỷ luật: giả thuyết, pilot nhỏ, baseline, dữ liệu vừa đủ, phản hồi người dùng, tiêu chí sửa/dừng, và mở rộng có điều kiện.

UNESCO GEM 2023 cảnh báo rằng công nghệ trong giáo dục thường được triển khai mà thiếu bằng chứng đầy đủ, chi phí bị đánh giá thấp, và lợi ích phụ thuộc mạnh vào bối cảnh (UNESCO, 2023). EEF 2019 cũng nhấn mạnh công nghệ nên được dùng để cải thiện dạy học chứ không thay thế các nguyên tắc sư phạm tốt (EEF, 2019). NIST, OECD và UNESCO về AI cùng đặt trọng tâm vào human-centred, transparency, accountability và risk management. Các nguồn này không chống công nghệ. Chúng chống sự dễ dãi.

Không tô hồng cũng nghĩa là nói rõ giới hạn của sản phẩm. Một vendor đáng tin không chỉ nói sản phẩm làm được gì; họ nói chưa làm được gì, chưa kiểm thử với nhóm nào, cần điều kiện nào, rủi ro nào, và khi nào không nên dùng. Một nhà trường đáng tin không chỉ công bố triển khai AI; họ nói mục tiêu, dữ liệu, quyền phản biện, tiêu chí đánh giá và kết quả học được sau pilot. Một researcher đáng tin không chỉ báo effect size; họ báo design, attrition, duration, heterogeneity, limitation và context. Một giáo viên đáng tin với học sinh không chỉ nói “AI bị cấm” hoặc “AI được dùng”; họ giải thích mục tiêu học và ranh giới.

Không bi quan dễ dãi cũng nghĩa là nhận ra cơ hội thật. AI có thể tạo caption nhanh cho video, giúp người khiếm thị tiếp cận hình ảnh, dịch tài liệu cho gia đình đa ngôn ngữ, gợi phản hồi ban đầu cho người học không có gia sư, giúp giáo viên nhóm lỗi bài làm, mô phỏng tình huống hiếm, hỗ trợ người học nhút nhát luyện trước khi nói, và giảm một số việc hành chính. Những cơ hội này đáng phát triển. Nhưng chúng đáng phát triển theo cách bảo vệ quyền, không theo cách đổi quyền lấy tiện.

Một biểu hiện của trưởng thành là biết dừng. Nếu pilot không đạt, dừng. Nếu dữ liệu rủi ro, dừng. Nếu workload tăng, sửa hoặc dừng. Nếu công cụ không phù hợp nhóm yếu thế, không mở rộng. Nếu vendor không minh bạch, không mua. Dừng không phải thất bại nếu nó dựa trên tiêu chí đã định. Trong một thị trường thích công bố đổi mới, quyết định dừng có trách nhiệm là một năng lực hiếm.

Nguyên tắc cuối cùng này là nguyên tắc về tính cách tổ chức. Một tổ chức học tập tốt không sợ công nghệ mới, nhưng cũng không bị nó thôi miên. Nó tò mò, thử nghiệm, đo lường, lắng nghe, phản biện, sửa và chịu trách nhiệm. Đó là tinh thần thực chứng.

Thực Trạng Triển Khai

Trong thực tế, nhiều tổ chức đã nắm một phần các nguyên tắc này nhưng chưa giữ được toàn bộ. Một trường có thể bắt đầu từ nhiệm vụ học tập nhưng chưa tính chi phí ẩn. Một đại học có chính sách AI nhưng chưa có contestability rõ. Một trung tâm có dashboard tốt cho phụ huynh nhưng chưa đo transfer. Một doanh nghiệp đào tạo có AI coach nhưng chưa phân biệt learning support với performance surveillance. Một startup có UX tốt nhưng chưa có evidence. Một cơ quan quản lý có procurement chặt về bảo mật nhưng chưa đưa effectiveness và equity vào tiêu chí.

Mẫu triển khai phổ biến nhất vẫn là feature-led adoption. Công cụ mới xuất hiện, tổ chức thử vì thấy nhiều nơi dùng hoặc vì sợ bị chậm. GenAI làm mẫu này mạnh hơn. Khi công cụ có thể viết, dạy, chấm, tóm tắt, dịch, tạo video, phân tích dữ liệu, nó có vẻ liên quan đến mọi thứ. Nhưng liên quan đến mọi thứ không có nghĩa phù hợp với nhiệm vụ cụ thể nào. Nếu không có task statement, AI sẽ lan như công cụ văn phòng, không như thiết kế học tập.

Mẫu thứ hai là metric substitution. Tổ chức thay học tập bằng metric dễ đo. Số lượt đăng nhập thay cho engagement có ý nghĩa. Completion thay cho mastery. Parent report thay cho hiểu biết. Prompt count thay cho AI literacy. Time saved in demo thay cho workload thật. Procurement cost thay cho TCO. Metric substitution nguy hiểm vì nó tạo cảm giác quản trị tốt trong khi mục tiêu lệch.

Mẫu thứ ba là governance lag. Công cụ được dùng trước, chính sách theo sau. Học sinh dùng AI trước khi biết khai báo. Giáo viên dùng công cụ công khai trước khi có hướng dẫn dữ liệu. Vendor thêm tính năng AI trước khi trường cập nhật hợp đồng. Dashboard được triển khai trước khi có workflow can thiệp. Governance lag không phải lỗi của một nhóm; công nghệ thay đổi nhanh. Nhưng tổ chức có thể giảm rủi ro bằng AI register, nguyên tắc chung và review định kỳ.

Mẫu thứ tư là teacher overload. Nhiều đổi mới nói sẽ giúp giáo viên nhưng giai đoạn đầu tạo thêm việc: học công cụ, sửa nội dung, giải thích chính sách, kiểm tra AI, xem dashboard, xử lý phụ huynh, báo lỗi. Nếu tổ chức không bỏ bớt việc cũ, “đổi mới” là thêm lớp việc. Chương 19 và 22 đã nói workload thật và TCO phải được tính.

Mẫu thứ năm là equity afterthought. Accessibility, language, device, bandwidth, disability, cultural validity và pricing được xử lý sau. Khi đó sản phẩm đã mang giả định của nhóm thuận lợi. Sửa sau tốn hơn thiết kế từ đầu. CAST UDL 3.0 nhắc rằng agency và accessibility phải là nền thiết kế, không phải accommodation muộn (CAST, 2024).

Mẫu thứ sáu là evidence theatre. Tổ chức yêu cầu bằng chứng nhưng chấp nhận case study đẹp. Vendor nói “research-backed” nhưng không chỉ rõ nghiên cứu nào. Pilot báo satisfaction nhưng không có baseline. Dashboard báo learning improvement nhưng outcome gần với bài luyện. Evidence theatre không phải không có dữ liệu; nó có dữ liệu không đủ để ra quyết định.

Tuy vậy, cũng có dấu hiệu tốt. Nhiều tổ chức bắt đầu hỏi TCO, data governance, AI policy, teacher professional development, academic integrity, accessibility và evidence. Các khung như EEF implementation guidance, UNESCO AI competency frameworks, NIST AI RMF, OECD AI Principles, EU AI Act và procurement guidance đang giúp tổ chức có ngôn ngữ tốt hơn. Điều quan trọng là chuyển ngôn ngữ thành routine.

Routine có thể rất cụ thể: mỗi công cụ mới phải có task statement; mỗi pilot có baseline và tiêu chí dừng; mỗi AI high-risk có data protection và bias review; mỗi dashboard có workflow can thiệp; mỗi feedback tool có cơ hội sửa; mỗi renewal có value review; mỗi chính sách AI có ví dụ theo môn; mỗi tổ chuyên môn có thời gian phân tích bài làm; mỗi học sinh được dạy AI literacy và quyền dữ liệu.

Thực trạng không thiếu công cụ. Thực trạng thiếu kỷ luật thiết kế và triển khai. Bộ nguyên tắc này nhằm lấp khoảng đó.

Phân Tích Phản Biện

Một bộ nguyên tắc cũng có rủi ro của nó. Rủi ro đầu tiên là biến nguyên tắc thành ngôn ngữ trang trí. Một sản phẩm có thể nói “task-first”, “human-centred”, “evidence-based”, “teacher-in-the-loop”, “ethical personalization” mà không thay đổi thiết kế. Những từ này dễ được marketing hấp thụ. Vì vậy, mỗi nguyên tắc phải có bằng chứng vận hành: tài liệu thiết kế, workflow, quyền người dùng, dữ liệu pilot, điều khoản hợp đồng, log phản hồi, quyết định dừng.

Rủi ro thứ hai là quá tải tiêu chí. Nếu mọi quyết định EdTech phải đi qua quá nhiều câu hỏi, giáo viên và trường có thể tê liệt. Cần phân tầng rủi ro. Công cụ low-risk không cần quy trình như hệ thống high-risk. Một template worksheet AI dùng nội bộ khác automated scoring. Một chatbot luyện từ vựng khác wellbeing agent. Nguyên tắc phải giúp ra quyết định tốt hơn, không tạo quan liêu.

Rủi ro thứ ba là nguyên tắc bị dùng để bảo vệ hiện trạng. Người ta có thể nói “chưa đủ bằng chứng”, “chưa đủ governance”, “chưa đủ điều kiện” để không thử gì. Nhưng giáo dục cũng có trách nhiệm cải thiện. Nếu người học không được phản hồi, người khuyết tật không tiếp cận được tài liệu, giáo viên quá tải, dữ liệu phân mảnh, thì không đổi mới cũng có chi phí đạo đức. Thực chứng không phải chờ chắc chắn tuyệt đối; nó là thử có trách nhiệm.

Rủi ro thứ tư là bỏ qua quyền lực kinh tế. Một trường nhỏ có thể hiểu hết nguyên tắc nhưng vẫn không đủ ngân sách, không có đội IT, không có năng lực procurement, và phải chọn trong thị trường không minh bạch. Vì vậy, nguyên tắc cấp trường cần đi cùng support organisations, procurement tập trung có trách nhiệm, chuẩn mở, chính sách công và tài trợ công bằng. Không thể yêu cầu từng giáo viên hoặc từng trường tự gánh toàn bộ.

Rủi ro thứ năm là xung đột giữa nguyên tắc. Giảm friction thao tác có thể xung đột với privacy nếu đăng nhập đơn giản quá mức. Cá nhân hóa có thể xung đột với data minimisation. Teacher-in-the-loop có thể xung đột với workload. Evidence yêu cầu đo, nhưng privacy yêu cầu đo ít. Accessibility có thể cần dữ liệu disability, nhưng dữ liệu ấy nhạy cảm. Không có bộ nguyên tắc nào xóa trade-off. Nó chỉ làm trade-off hiện rõ để quyết định có trách nhiệm.

Rủi ro thứ sáu là lấy chuẩn của bối cảnh giàu áp vào bối cảnh ít tài nguyên. Một bộ nguyên tắc viết từ góc nhìn trường có hạ tầng tốt có thể làm trường yếu thấy không thể làm gì. Vì vậy, nguyên tắc phải có phiên bản tối thiểu: task statement, data minimisation, pilot nhỏ, feedback loop, teacher voice, low-bandwidth, no high-stakes automation without review. Không cần công cụ hoàn chỉnh mới bắt đầu làm đúng.

Rủi ro cuối cùng là lãng quên người học. Khi nói về procurement, governance, implementation, TCO, AI risk, teacher agency, ta dễ quay lại người lớn và hệ thống. Nhưng mục tiêu cuối vẫn là người học: họ có hiểu hơn, tự chủ hơn, được tham gia hơn, được bảo vệ hơn, và có cơ hội rộng hơn không? Mỗi nguyên tắc phải quay lại câu hỏi đó.

Phân tích phản biện này không làm bộ nguyên tắc yếu đi. Nó nhắc rằng nguyên tắc chỉ có giá trị khi được dùng như công cụ suy nghĩ, không như khẩu hiệu.

Nguyên Tắc Thiết Kế

Phần này chuyển bảy nguyên tắc thành một bộ câu hỏi thực hành. Có thể dùng khi thiết kế sản phẩm, mua sắm, triển khai pilot, đánh giá công cụ, hoặc viết chính sách AI.

Một: Task-first

Vấn đề học tập hoặc vận hành cụ thể là gì? Ai bị ảnh hưởng? Baseline hiện tại ra sao? Nếu không dùng công nghệ mới, phương án tốt nhất là gì? Công nghệ thay đổi cơ chế nào? Tính năng nào không cần thiết?

Hai: Productive friction

Ma sát nào là thao tác cần giảm? Ma sát nào là nhận thức cần giữ? Hệ thống có yêu cầu người học dự đoán, truy hồi, tự giải thích, kiểm chứng, sửa và phản tư không? AI có làm thay phần cần học không? Scaffold có rút dần không?

Ba: Feedback-to-action

Feedback trả lời mục tiêu, hiện trạng và bước tiếp theo không? Người học có cơ hội dùng feedback không? Giáo viên có workflow can thiệp từ dashboard không? Feedback có quá nhiều, quá muộn, quá mơ hồ hoặc làm thay không? Có đo feedback uptake không?

Bốn: Ethical personalization

Cá nhân hóa dựa trên dữ liệu nào? Người học và giáo viên có hiểu và kiểm soát không? Hệ thống có mở cơ hội hay khóa lộ trình? Có kiểm tra bias theo nhóm không? Cá nhân hóa có làm người học cô lập hoặc phụ thuộc không? Có dùng dữ liệu nhạy cảm quá mức không?

Năm: Real teacher-in-the-loop

Giáo viên có quyền thấy, quyết định, điều chỉnh và phản biện không? AI có hiển thị bằng chứng, giới hạn và mức chắc chắn không? Giáo viên có thời gian và năng lực để review không? Hệ thống có giúp giáo viên học từ dữ liệu không? Có kênh sửa sản phẩm/policy không?

Sáu: Conditional evidence

Hiệu quả được đo cho ai, môn nào, nhiệm vụ nào, thời lượng nào, baseline nào? Có delayed outcome và transfer không? Có implementation outcomes, workload, equity, risk và TCO không? Có tiêu chí sửa, mở rộng hoặc dừng không? Có phân tích nhóm yếu thế không?

Bảy: Responsible stance

Claim có nói rõ giới hạn không? Có tác dụng phụ nào bị bỏ qua không? Có quyền dữ liệu và contestability không? Mô hình kinh tế kéo thiết kế về đâu? Có quyết định dừng nếu rủi ro vượt lợi ích không? Tổ chức có học từ thất bại không?

Một bản đánh giá nhanh có thể dùng thang ba mức:

1. Đỏ: chưa rõ hoặc rủi ro cao. Không triển khai rộng. 2. Vàng: có logic nhưng thiếu bằng chứng/điều kiện. Pilot nhỏ có guardrails. 3. Xanh: có fit, bằng chứng, governance, support và kế hoạch đánh giá. Có thể mở rộng có theo dõi.

Điều quan trọng là không để thang này thành form hình thức. Mỗi mức phải có lý do và người chịu trách nhiệm. Nếu một công cụ vàng được pilot, cần ngày review. Nếu đỏ, cần nói điều kiện nào làm nó chuyển vàng. Nếu xanh, vẫn cần monitoring vì công cụ, người dùng và bối cảnh thay đổi.

Tổng Kết Chương

Thiết kế EdTech thực chứng bắt đầu từ nhiệm vụ học tập, không từ tính năng. Nó giữ ma sát nhận thức đúng chỗ, vì học tập cần nỗ lực có ý nghĩa. Nó xem feedback như vòng hành động, không như lời nhận xét hoặc điểm số. Nó dùng cá nhân hóa để mở quyền tham gia và agency, không để cô lập, khóa cơ hội hoặc thao túng động lực. Nó đặt giáo viên trong vòng phán đoán thật, với quyền thấy, quyết định, điều chỉnh và phản biện. Nó đo hiệu quả theo điều kiện: cho ai, trong môn nào, trong bao lâu, với chi phí và rủi ro nào. Và nó giữ thái độ không tô hồng, không bi quan dễ dãi.

Bảy nguyên tắc này không bảo đảm mọi dự án EdTech sẽ thành công. Giáo dục quá phức tạp để có bảo đảm như vậy. Nhưng chúng làm giảm khả năng thất bại vì những lỗi có thể tránh: bắt đầu từ công nghệ, xóa nhầm nỗ lực học, tạo feedback không hành động, cá nhân hóa vô trách nhiệm, bỏ qua giáo viên, đo sai hiệu quả, và tin quá nhanh vào lời hứa.

Chương 24 sẽ kết thúc cuốn sách bằng những câu hỏi nghiên cứu còn mở. Bộ nguyên tắc trong chương này không đóng lại tranh luận; nó tạo nền để đặt câu hỏi tốt hơn.

Tài liệu tham khảo

CAST. (2024). Universal Design for Learning Guidelines 3.0. https://udlguidelines.cast.org/

Dunlosky, J., Rawson, K. A., Marsh, E. J., Nathan, M. J., & Willingham, D. T. (2013). Improving students' learning with effective learning techniques: Promising directions from cognitive and educational psychology. Psychological Science in the Public Interest, 14(1), 4-58. https://doi.org/10.1177/1529100612453266

Education Endowment Foundation. (2019). Using Digital Technology to Improve Learning. https://educationendowmentfoundation.org.uk/education-evidence/guidance-reports/digital

Hattie, J., & Timperley, H. (2007). The power of feedback. Review of Educational Research, 77(1), 81-112. https://doi.org/10.3102/003465430298487

Mayer, R. E. (2021). Multimedia Learning (3rd ed.). Cambridge University Press.

Miao, F., & Cukurova, M. (2024). AI competency framework for teachers. UNESCO. https://www.unesco.org/en/articles/ai-competency-framework-teachers

Miao, F., Shiohira, K., & Lao, N. (2024). AI competency framework for students. UNESCO. https://www.unesco.org/en/articles/ai-competency-framework-students

National Institute of Standards and Technology. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0). https://doi.org/10.6028/NIST.AI.100-1

OECD. (2024). OECD AI Principles overview. https://oecd.ai/en/ai-principles

Ryan, R. M., & Deci, E. L. (2017). Self-Determination Theory: Basic Psychological Needs in Motivation, Development, and Wellness. Guilford Press.

Shute, V. J. (2008). Focus on formative feedback. Review of Educational Research, 78(1), 153-189. https://doi.org/10.3102/0034654307313795

UNESCO. (2023). Global Education Monitoring Report 2023: Technology in education: A tool on whose terms? https://www.unesco.org/gem-report/en/technology

Chương 24: Những câu hỏi nghiên cứu còn mở

Bối cảnh / Vấn đề

Một cuốn sách về EdTech và AI không nên kết thúc bằng cảm giác mọi thứ đã rõ. Nếu hai mươi ba chương trước làm được việc gì, thì việc đó không phải là đóng lại tranh luận, mà là làm tranh luận bớt mơ hồ. Ta đã có đủ bằng chứng để không còn tin vào lời hứa chung chung: công nghệ không tự cải thiện học tập; AI không tự tạo cá nhân hóa tốt; dữ liệu không tự thành hiểu biết; dashboard không tự thành can thiệp; feedback không tự thành hành động; giáo viên không tự được “giải phóng” nếu tổ chức không giảm tải thật; privacy không tự được bảo vệ bằng một văn bản chính sách.

Nhưng ta cũng chưa biết đủ để đưa ra công thức cuối cùng. Làn sóng GenAI còn quá mới. Nhiều nghiên cứu vẫn ngắn hạn, mẫu nhỏ, tập trung vào higher education, tiếng Anh, STEM hoặc các nhiệm vụ dễ đo. Nhiều kết quả tích cực đo điểm ngay sau can thiệp, engagement, satisfaction hoặc sản phẩm cuối, trong khi các câu hỏi khó hơn như metacognition, transfer, agency, identity, wellbeing, deskilling, bias dài hạn, teacher workload và sustainability vẫn còn thiếu bằng chứng. Một sản phẩm có thể tăng điểm quiz trong bốn tuần, nhưng ta chưa biết nó làm người học nghĩ về việc học của mình thế nào sau một năm. Một chatbot có thể giúp viết bài tốt hơn, nhưng ta chưa biết nó làm giọng viết, quyền tác giả và khả năng chịu khó đọc nguồn thay đổi ra sao. Một dashboard có thể phát hiện rủi ro, nhưng ta chưa biết nó làm người học bị gắn nhãn thế nào qua thời gian.

Chương 23 đã tổng hợp bộ nguyên tắc thiết kế EdTech thực chứng. Chương này đặt phần còn lại của bản đồ: những câu hỏi nghiên cứu cần được ưu tiên nếu lĩnh vực này muốn trưởng thành. “Câu hỏi nghiên cứu” ở đây không chỉ dành cho đại học. Nó dành cho nhà phát triển sản phẩm, trường học, trung tâm đào tạo, tổ chức kiểm định, nhà quản lý, funder, procurement team và teacher community. Mỗi quyết định triển khai nghiêm túc đều là một giả thuyết về học tập. Nếu không đặt câu hỏi rõ, tổ chức vẫn đang nghiên cứu, chỉ là nghiên cứu ngầm, không đo, không học và thường để người học chịu rủi ro.

Các câu hỏi mở trong chương này không phải danh sách “cái gì chưa biết” theo kiểu liệt kê. Chúng là bảy vùng then chốt:

1. AI có giúp metacognition hay làm người học lười siêu nhận thức hơn? 2. Cá nhân hóa dài hạn ảnh hưởng thế nào đến agency, identity và transfer? 3. Làm sao đo năng lực phức hợp mà không biến giáo dục thành giám sát toàn diện? 4. Human-AI teaming tối ưu khác nhau thế nào theo môn học, lứa tuổi và bối cảnh văn hóa? 5. Làm sao đưa asset-based personalization vào hệ thống thật thay vì chỉ sửa lỗi theo deficit model? 6. Những ngành ngoài STEM, ngoài tiếng Anh và ngoài đại học cần taxonomy riêng nào? 7. EdTech có thể bền vững về kinh tế mà vẫn bảo vệ dữ liệu, công bằng và phẩm giá người học không?

Bảy câu hỏi này nối trực tiếp với các nguyên tắc của chương 23. Nếu bắt đầu từ nhiệm vụ học tập, ta phải biết nhiệm vụ nào thật sự phát triển metacognition và transfer. Nếu giữ ma sát nhận thức đúng chỗ, ta phải biết AI làm mất hay tăng self-monitoring. Nếu feedback phải dẫn đến hành động, ta phải đo feedback uptake chứ không chỉ đo số nhận xét. Nếu cá nhân hóa có giới hạn đạo đức, ta phải nghiên cứu hậu quả dài hạn của lộ trình thuật toán. Nếu teacher-in-the-loop là thật, ta phải biết mô hình human-AI teaming nào tốt cho từng môn, từng tuổi. Nếu đo điều kiện hiệu quả, ta phải mở rộng nghiên cứu ra ngoài nhóm người học dễ đo. Nếu không tô hồng, không bi quan dễ dãi, ta phải nói rõ cái gì biết, cái gì chưa biết, và cần thiết kế nghiên cứu nào.

Một dấu hiệu trưởng thành của một lĩnh vực không phải là có ít câu hỏi hơn. Nó là có câu hỏi tốt hơn. Những câu hỏi trong chương này có thể gây khó chịu vì chúng không cho phép câu trả lời nhanh. Nhưng chính vì vậy chúng đáng theo đuổi.

Nền tảng lý thuyết

Có bốn lý do khiến nghiên cứu EdTech và AI cần bước sang giai đoạn sâu hơn.

Thứ nhất, hiệu quả trung bình không đủ. Các meta-analysis gần đây về GenAI và ChatGPT trong giáo dục thường cho thấy tác động tích cực ở một số outcome như achievement, language skills, motivation hoặc higher-order thinking. Nhưng các tác động này biến thiên theo cấp học, môn học, thiết kế hoạt động, vai trò AI, thời lượng và bối cảnh. Một meta-analysis năm 2025 về GenAI với sinh viên đại học tổng hợp 57 nghiên cứu và 97 ước lượng, báo effect size lớn với một số outcome, nhưng không tìm thấy hiệu ứng có ý nghĩa thống kê với metacognition (Educational Research Review, 2025). Một meta-analysis khác về ChatGPT năm 2026 trên 35 nghiên cứu thực nghiệm cũng nhấn mạnh cần xem các moderator và thiết kế học tập cụ thể (Wu et al., 2026). Điều này củng cố luận điểm của cuốn sách: “AI có hiệu quả không?” là câu hỏi quá ngắn.

Thứ hai, nhiều nghiên cứu vẫn đo gần. Điểm ngay sau can thiệp, bài quiz gần với nội dung luyện tập, self-report về hài lòng hoặc perceived usefulness là những thước đo dễ thu. Nhưng giáo dục quan tâm đến retention, transfer, metacognition, agency, identity, equity và wellbeing. Những thứ này cần thiết kế nghiên cứu dài hơn, công cụ đo tốt hơn, dữ liệu hỗn hợp và nhiều bối cảnh hơn. Lintner systematic review năm 2024 về AI literacy scales cho thấy 16 thang đo được xác thực trong 22 nghiên cứu, nhưng gần như không có thang nào kiểm tra cross-cultural validity, measurement error, interpretability đầy đủ; phần lớn là self-report thay vì performance-based (Lintner, 2024). Nếu ngay cả AI literacy còn đo chưa ổn, ta phải cẩn trọng với các tuyên bố rộng hơn về năng lực.

Thứ ba, AI làm mờ ranh giới giữa công cụ, môi trường và tác nhân. Một textbook số, một LMS và một video bài giảng chủ yếu là môi trường hoặc công cụ. GenAI có thể đối thoại, gợi ý, phản biện, tạo nội dung, đóng vai, chấm, khuyến nghị, nhắc nhở và mô phỏng quan hệ xã hội. Vì vậy, nghiên cứu cần đọc AI như một thành phần trong hệ thống hoạt động, không chỉ như treatment. Memarian và Doleck review human-in-the-loop trong AIEd năm 2024 chỉ ra rằng nhiều nghiên cứu còn mô tả quan hệ giữa các thực thể quá đơn giản: thường chỉ hai hoặc ba entity, quan hệ một chiều, ít thuộc tính và thiếu phân tích cấu trúc quyền quyết định (Memarian & Doleck, 2024). Nếu ta không mô tả rõ ai làm gì, quyền ở đâu, dữ liệu đi đâu, trách nhiệm thuộc ai, sẽ khó hiểu vì sao AI có tác động.

Thứ tư, rủi ro không chỉ là lỗi kỹ thuật. Nó là rủi ro sư phạm, xã hội, kinh tế và chính sách. Multimodal learning analytics có thể giúp đo năng lực phức hợp, nhưng cũng có thể thu video, audio, sinh trắc và hành vi quá sâu. AI personalization có thể giúp người học yếu, nhưng cũng có thể khóa họ vào lộ trình hẹp. EdTech business model có thể giúp sản phẩm sống được, nhưng cũng có thể làm dữ liệu người học thành tài sản kinh tế. Komljenovic, Birch và Sellar năm 2024 cho thấy EdTech startups trong higher education đang thử nhiều cách làm dữ liệu người dùng có giá trị kinh tế, từ data outputs, analytics, matching services đến data products, đồng thời gặp khó khăn về minh bạch, chứng minh use value và quan hệ với nhà đầu tư (Komljenovic et al., 2024). Vì vậy, nghiên cứu EdTech không thể chỉ hỏi outcome học tập; nó phải hỏi mô hình kinh tế và quyền lực dữ liệu.

Từ bốn lý do này, chương 24 dùng một tiêu chuẩn: câu hỏi nghiên cứu tốt phải đồng thời có giá trị khoa học, giá trị thiết kế và giá trị quản trị. Nó giúp ta hiểu học tập hơn, thiết kế tốt hơn và ra quyết định có trách nhiệm hơn.

AI Có Giúp Metacognition Hay Làm Người Học Lười Siêu Nhận Thức Hơn?

Metacognition là năng lực người học hiểu và điều khiển quá trình học của mình: biết mình biết gì, chưa biết gì, chiến lược nào đang dùng, mức chắc chắn ra sao, khi nào cần kiểm tra, khi nào cần đổi cách học. Trong một môi trường có AI, metacognition trở thành năng lực sống còn. Người học không chỉ phải hiểu nội dung; họ phải biết khi nào nên hỏi AI, khi nào nên tự nghĩ, khi nào nên kiểm chứng, khi nào nên bỏ gợi ý, khi nào đang bị câu trả lời trôi chảy làm mình tưởng đã hiểu.

Vấn đề là AI có thể đi hai hướng. Hướng tích cực: AI có thể hỏi người học tự đánh giá trước khi nhận feedback, yêu cầu confidence rating, gợi kế hoạch học, nhắc kiểm chứng nguồn, so sánh bản nháp trước-sau, giúp người học phản tư về chiến lược. Hướng tiêu cực: AI có thể trả lời quá nhanh, tóm tắt quá mượt, sửa quá trọn, làm người học không cần tự theo dõi hiểu biết. Khi một chatbot luôn sẵn sàng giải thích lại, người học có thể thấy mình học dễ hơn, nhưng thực ra ít luyện năng lực nhận ra mình chưa hiểu.

Các nghiên cứu hiện có chưa trả lời đủ. Lan và Zhou systematic review năm 2025 về AI-empowered SRL trong higher education tổng hợp 14 nghiên cứu dùng chatbot, adaptive feedback, serious games và e-textbooks để hỗ trợ autonomy. Họ phân biệt human-centred SRL, nơi AI hỗ trợ người học tự điều chỉnh, với AI-centred SRL, nơi AI điều hành quá trình học; review nhấn mạnh cần giữ self-efficacy và agency (Lan & Zhou, 2025). Banihashem và cộng sự năm 2025 mapping review về AI và SRL cũng cho thấy lĩnh vực này tăng nhanh nhưng còn thiếu hiểu biết hệ thống về giao điểm AI-SRL, cần phân loại rõ hơn vai trò AI, giai đoạn SRL và cách hỗ trợ (Banihashem et al., 2025). Một review khác về chatbot hỗ trợ SRL cho thấy chatbot thường hỗ trợ tìm tài nguyên, chiến lược học và monitoring, nhưng ít hỗ trợ đặt mục tiêu, lập kế hoạch và reflection dài hạn (Guan et al., 2024).

Điều này tạo câu hỏi nghiên cứu đầu tiên: AI hỗ trợ metacognition bằng cơ chế nào, trong điều kiện nào, và khi nào nó làm suy yếu metacognition?

Câu hỏi này cần tách thành nhiều câu nhỏ.

Thứ nhất, AI prompt nào làm người học tự giám sát tốt hơn? Ví dụ, trước khi đưa lời giải, AI hỏi “em chắc bao nhiêu phần trăm?”, “em đã thử bước nào?”, “em nghĩ lỗi có thể nằm ở đâu?”. Sau feedback, AI hỏi “em chọn sửa gì trước và vì sao?”. Những prompt này có làm người học kiểm soát học tập tốt hơn sau khi AI biến mất không, hay chỉ tạo compliance bề mặt?

Thứ hai, mức hỗ trợ nào tối ưu? Nếu AI hỏi quá nhiều, người học thấy phiền. Nếu hỏi quá ít, người học đi đường tắt. Cần nghiên cứu adaptive metacognitive scaffolding: khi nào yêu cầu self-explanation, khi nào cho gợi ý, khi nào rút scaffold, khi nào chuyển sang giáo viên.

Thứ ba, metacognition có chuyển giao không? Một người học dùng AI tutor có confidence rating trong môn Toán có tự dùng chiến lược đánh giá độ chắc chắn trong môn Lịch sử không? Một sinh viên được AI yêu cầu phản tư khi viết luận có tự phản tư khi đọc nghiên cứu không? Nếu không có transfer, hỗ trợ chỉ là tính năng trong app.

Thứ tư, AI làm thay metacognition ở đâu? Một hệ thống gợi kế hoạch, nhắc lịch, chọn bài, đánh giá độ hiểu, đề xuất sửa có thể giúp người học yếu bắt đầu. Nhưng nếu luôn làm thay, người học có học cách tự lập kế hoạch không? Cần nghiên cứu “fading” trong SRL-AI: hỗ trợ giảm dần thế nào để người học tự chủ hơn.

Thứ năm, metacognition khác nhau theo tuổi. Học sinh tiểu học cần scaffold cụ thể và ngôn ngữ đơn giản. Học sinh trung học cần học cách kiểm chứng và quản lý offloading. Sinh viên đại học cần phán đoán nguồn, phương pháp và quyền tác giả. Người học trưởng thành cần metacognition trong công việc thật. Không nên dùng cùng một mô hình SRL-AI cho mọi lứa tuổi.

Phương pháp nghiên cứu cần vượt qua self-report. Người học có thể nói “AI giúp em hiểu hơn” nhưng không thật sự hiểu. Cần kết hợp think-aloud, log tương tác, confidence calibration, delayed test, transfer task, phân tích bản nháp, phỏng vấn và quan sát lớp. Cần đo không chỉ kết quả học, mà cả quality of monitoring: người học dự đoán đúng mức hiểu của mình không, biết khi nào cần kiểm chứng không, biết từ chối gợi ý sai không.

Câu hỏi metacognition là trung tâm vì nó quyết định AI làm người học mạnh hơn hay phụ thuộc hơn. Nếu AI chỉ tăng sản phẩm học tập mà không tăng năng lực tự học, giáo dục đang thuê ngoài phần quan trọng nhất.

Cá Nhân Hóa Dài Hạn Ảnh Hưởng Thế Nào Đến Agency, Identity Và Transfer?

Cá nhân hóa thường được đo ngắn hạn: người học làm đúng nhiều hơn, hoàn thành nhiều hơn, hài lòng hơn, hoặc học nhanh hơn. Nhưng câu hỏi sâu hơn là cá nhân hóa dài hạn làm người học trở thành kiểu người học nào. Một hệ thống luôn chọn bài, điều chỉnh độ khó, nhắc lịch, giải thích, sửa lỗi và khen thưởng có thể giúp người học đi xa hơn trong nền tảng. Nhưng nó có làm họ tự chọn mục tiêu tốt hơn không? Có làm họ thấy mình có năng lực hơn không? Có mở rộng bản sắc học tập của họ không? Có giúp transfer sang nhiệm vụ không được cá nhân hóa không?

Các systematic reviews gần đây cho thấy AI-based personalized learning phát triển nhanh, nhưng khái niệm và bằng chứng còn phân tán. Farhood và cộng sự review 125 nghiên cứu từ 2015 đến giữa 2025 về AI-based personalised learning, phân loại ứng dụng, thuật toán và tác động đến dạy, học, đánh giá, đồng thời nêu nhiều cơ hội và thách thức (Farhood et al., 2025). Khalifeh, Santiago và Palau review 2019-2025 và cho thấy thuật ngữ personalized learning, adaptive learning, intelligent tutoring và các khái niệm liên quan được dùng không nhất quán, cần thống nhất hơn để nghiên cứu và thực hành có ý nghĩa (Khalifeh et al., 2026). Bayly-Castaneda, Ramirez-Montoya và Morita-Alexander review về personalized learning paths cho lifelong learning cũng nhấn mạnh tiềm năng nhưng cần nghiên cứu sâu hơn về thiết kế lộ trình, công nghệ và bối cảnh (Bayly-Castaneda et al., 2024).

Vấn đề không chỉ là thiếu bằng chứng, mà là thiếu outcome đúng. Cá nhân hóa thường được đánh giá bằng performance trong hệ thống. Nhưng agency, identity và transfer là outcome dài hơi hơn.

Agency hỏi: người học có quyền hiểu và điều khiển lộ trình không? Họ có biết vì sao hệ thống gợi bài này? Có quyền chọn thử thách cao hơn? Có học cách tự đặt mục tiêu? Có biết khi nào không theo hệ thống? Nếu cá nhân hóa là “máy quyết định để người học đi theo”, agency giảm. Nếu cá nhân hóa là “máy làm rõ lựa chọn để người học quyết định tốt hơn”, agency tăng.

Identity hỏi: người học nhìn mình như ai? Một dashboard luôn nói “em yếu kỹ năng X” có thể giúp sửa lỗi, nhưng cũng có thể làm người học nhận mình là người yếu. Một hệ thống cho bài dễ để giữ tỷ lệ đúng có thể tạo cảm giác thành công, nhưng không nuôi bản sắc “tôi có thể làm việc khó”. Một hệ thống asset-based có thể giúp người học thấy thế mạnh, kinh nghiệm và ngôn ngữ của mình là tài nguyên học tập. Nghiên cứu EdTech cần đo identity formation, không chỉ mastery estimate.

Transfer hỏi: năng lực có rời khỏi hệ thống không? Người học dùng adaptive practice tốt hơn trong app có giải được bài mở trên giấy không? Người học dùng AI writing feedback có viết tốt hơn khi không có AI không? Người học theo lộ trình cá nhân hóa có tự thiết kế lộ trình học cho dự án mới không? Nếu không, personalization có thể đang tối ưu trong hệ thống hơn là phát triển năng lực.

Câu hỏi nghiên cứu dài hạn nên có dạng:

1. Sau một học kỳ hoặc một năm dùng AI personalization, người học tự đặt mục tiêu và chọn chiến lược tốt hơn hay kém hơn? 2. Learner profiles có làm người học tự giới hạn mình không? 3. Hệ thống có cho cơ hội vượt nhãn không? 4. Cá nhân hóa theo sở thích có mở rộng hay thu hẹp vùng tiếp xúc tri thức? 5. Cá nhân hóa có làm giảm peer learning và relatedness không? 6. Hiệu quả của personalization có còn khi scaffold rút đi không? 7. Người học yếu thế có được mở cơ hội hay bị đưa vào remediation kéo dài?

Phương pháp nghiên cứu cần longitudinal mixed-method. Dữ liệu log chỉ cho thấy lộ trình trong hệ thống. Cần phỏng vấn người học, phân tích sản phẩm ngoài hệ thống, nhiệm vụ transfer, quan sát tương tác nhóm, và đo cảm nhận agency. Cần so sánh không chỉ “personalized vs non-personalized”, mà nhiều loại personalization: teacher-mediated, learner-choice, algorithm-driven, asset-based, adaptive scaffold, recommendation-only. Cần xem tác động theo tuổi, môn, nền tảng kiến thức, ngôn ngữ và bối cảnh xã hội.

Câu hỏi này quan trọng vì personalization là một trong những lời hứa lớn nhất của EdTech. Nếu nghiên cứu chỉ đo ngắn hạn, ta có thể xây những hệ thống làm người học đi nhanh hơn nhưng tự chủ ít hơn.

Làm Sao Đo Năng Lực Phức Hợp Mà Không Biến Giáo Dục Thành Giám Sát Toàn Diện?

Các năng lực giáo dục quan trọng nhất thường khó đo: tư duy phản biện, hợp tác, sáng tạo, giao tiếp, đạo đức nghề nghiệp, metacognition, năng lực nghiên cứu, empathy, lãnh đạo, giải quyết vấn đề trong bối cảnh thật. AI và learning analytics mở ra khả năng thu nhiều bằng chứng quá trình hơn: bản nháp, lịch sử chỉnh sửa, hội thoại nhóm, code commits, audio, video, thao tác trong mô phỏng, eye-tracking, sensor, phản hồi AI, peer comments. Điều này có thể giúp đánh giá năng lực phức hợp tốt hơn bài thi một lần. Nhưng nó cũng có thể biến học tập thành giám sát toàn diện.

Multimodal learning analytics (MMLA) là ví dụ rõ. MMLA kết hợp audio, video, physiological signals, logs, spatial trails và các dòng dữ liệu khác để phân tích quá trình học khó nắm bắt bằng một modality. Các review gần đây cho thấy MMLA có tiềm năng trong collaborative learning, simulation, engagement, SRL và feedback, nhưng đi kèm thách thức lớn về noise, missing data, data fusion, interpretability, privacy, fairness và deployment thực tế (Kostopoulos et al., 2026; de Mooij et al., 2025). Caskurlu, Ocak và Dai review MMLA trong K-8 chỉ tìm thấy 14 nghiên cứu thực nghiệm từ 2011-2023, và ghi nhận nhiều nghiên cứu ít nói rõ data fusion, ethics và transparency; họ nhấn mạnh cần hướng dẫn và hiểu biết chung hơn để nghiên cứu MMLA có chất lượng (Caskurlu et al., 2025). Điều này đặc biệt quan trọng vì K-8 là nhóm tuổi cần bảo vệ mạnh.

Trong educational measurement, Ho năm 2024 cảnh báo AI tạo cả cơ hội và đe dọa: có thể hỗ trợ item generation, scale maintenance, test security, scoring và score reporting, nhưng misuses có thể gây biased scores, construct underrepresentation và differential impact theo thời gian; ông kêu gọi tiêu chuẩn AI trong đo lường giáo dục chú ý đến context of test use và ongoing monitoring of bias/scale drift (Ho, 2024). Đây là vấn đề cốt lõi: đo được nhiều hơn không có nghĩa đo đúng hơn.

Câu hỏi nghiên cứu thứ ba là: Làm sao đo năng lực phức hợp bằng dữ liệu giàu hơn mà vẫn giữ quyền riêng tư, agency và phẩm giá người học?

Có vài hướng cần nghiên cứu.

Thứ nhất, evidence selection. Không phải mọi dấu vết đều đáng thu. Với hợp tác nhóm, ta có thể thu audio toàn bộ, video, eye gaze và physiological data. Nhưng có cần không? Có thể chỉ cần sản phẩm nhóm, peer reflection, role log, transcript tự chọn và quan sát giáo viên? Nghiên cứu cần xác định modality tối thiểu đủ để suy luận có trách nhiệm, thay vì thêm modality vì có thể.

Thứ hai, construct validity. Một hệ thống nhận diện “collaboration quality” từ số lần nói có thể sai. Người nói ít có thể là người ghi chú, người lắng nghe, người suy nghĩ, người bị loại trừ, hoặc người không hiểu. Một hệ thống đo “engagement” từ mắt nhìn màn hình có thể nhầm người đọc giấy hoặc người neurodivergent. Cần nghiên cứu cách nối dữ liệu hành vi với construct giáo dục bằng lý thuyết, không chỉ bằng prediction.

Thứ ba, privacy-preserving assessment. Có thể dùng dữ liệu cục bộ, aggregation, anonymization, differential privacy, edge processing, hoặc student-controlled portfolios không? Có thể thiết kế assessment dựa trên artifact và reflection thay vì sensor liên tục không? Cần so sánh các kiến trúc đo lường theo mức xâm phạm và giá trị tăng thêm.

Thứ tư, contestability. Nếu AI đánh giá teamwork, creativity hoặc ethical reasoning, người học có quyền xem bằng chứng và phản biện không? Với năng lực phức hợp, contestability càng quan trọng vì construct luôn có tranh luận. Nghiên cứu cần thiết kế quy trình appeal và human review, không chỉ mô hình scoring.

Thứ năm, proportionality. Tác vụ high-stakes cần bằng chứng mạnh nhưng cũng không được xâm phạm quá mức. Một bài đánh giá formative có thể dùng dữ liệu nhẹ. Một certification nghề nghiệp có thể cần simulation và human assessor. Nghiên cứu cần khung quyết định: loại năng lực nào, mức stakes nào, dữ liệu nào tương xứng?

Thứ sáu, effect on behavior. Khi người học biết mọi tương tác nhóm được phân tích, họ có nói khác đi không? Có perform collaboration cho hệ thống không? Có tránh thử nghiệm vì sợ bị đánh giá không? Đánh giá quá trình có thể làm quá trình thay đổi. Cần nghiên cứu reactivity và chilling effects.

Một mô hình đáng theo đuổi là “bounded evidence”: thu bằng chứng ở những điểm có ý nghĩa, trong thời gian giới hạn, với mục tiêu rõ, quyền giải thích và cơ hội phản biện. Ví dụ, thay vì quay video mọi buổi học để đo collaboration, một dự án có thể yêu cầu nhóm nộp decision log, bản ghi thảo luận 10 phút tự chọn, peer assessment, sản phẩm cuối, và oral defense. AI có thể hỗ trợ phân tích, nhưng giáo viên và người học vẫn thấy bằng chứng.

Đo năng lực phức hợp là cần thiết. Nhưng nếu giải pháp là giám sát toàn diện, ta đã đánh mất phần nhân văn của giáo dục để đo phần nhân văn ấy.

Human-AI Teaming Tối Ưu Khác Nhau Thế Nào Theo Môn Học, Lứa Tuổi Và Bối Cảnh Văn Hóa?

Chương 17 đã phân tích các vai trò AI: tutor, tool, tutee, peer, coach. Nhưng ta vẫn chưa biết đủ về cấu hình tối ưu giữa người học, giáo viên, bạn học và AI trong từng bối cảnh. AI as tutor có thể tốt trong vật lý nhập môn nếu thiết kế chặt. AI as tool có thể tốt trong viết khi người học giữ quyền tác giả. AI as tutee có thể giúp learning-by-teaching. AI as peer có thể giúp phản biện. AI as coach có thể hỗ trợ SRL. Nhưng vai trò nào tốt cho môn nào, tuổi nào, trình độ nào, văn hóa lớp nào?

Human-AI teaming không phải thêm AI vào nhóm người. Nó là phân công quyền và trách nhiệm. Ai đặt mục tiêu? Ai đưa gợi ý? Ai đánh giá? Ai có quyền phủ quyết? Ai chịu trách nhiệm khi sai? Ai học từ ai? Nếu AI làm tutor, người học có còn hỏi bạn không? Nếu AI làm peer reviewer, peer review người thật có giảm không? Nếu AI làm coach, giáo viên có thấy dấu hiệu cần hỗ trợ không? Nếu AI làm tutee, người học có thật sự dạy hay chỉ điều khiển máy tạo câu trả lời?

Memarian và Doleck 2024 cho thấy nghiên cứu human-in-the-loop trong AIEd còn thiếu mô hình cấu trúc về entity, relationship và attributes (Memarian & Doleck, 2024). Vaccaro, Almaatouq và Malone meta-analysis năm 2024 về human-AI combinations ngoài riêng giáo dục cũng cho thấy không phải cứ kết hợp người và AI là tốt hơn; hiệu quả phụ thuộc loại nhiệm vụ, khả năng của người/AI, cách kết hợp và điều kiện quyết định (Vaccaro et al., 2024). Điều này rất quan trọng cho giáo dục: “human-AI collaboration” không tự là thiết kế tốt.

Cần nghiên cứu ít nhất sáu biến.

Biến thứ nhất là môn học. Trong toán, AI tutor có thể hỗ trợ scaffold theo bước, nhưng cần tránh cho lời giải quá sớm. Trong viết, AI tool có thể hỗ trợ phản biện và chỉnh ngôn ngữ, nhưng cần giữ quyền tác giả và voice. Trong lịch sử, AI peer có thể mô phỏng quan điểm, nhưng cần kiểm chứng nguồn và bối cảnh. Trong khoa học, AI có thể tạo giả thuyết hoặc mô phỏng, nhưng cần gắn với evidence và lab practice. Trong nghệ thuật, AI collaborator đặt câu hỏi về phong cách và bản quyền. Trong giáo dục nghề, AI simulation cần chuẩn an toàn và human supervision.

Biến thứ hai là lứa tuổi. Học sinh nhỏ cần AI phạm vi hẹp, ranh giới rõ, nhiều người lớn trong vòng. Học sinh trung học cần học cách kiểm chứng và khai báo. Sinh viên đại học cần AI như công cụ nghề nghiệp có trách nhiệm. Người học trưởng thành cần AI gắn với công việc và transfer. Không nên dùng cùng một chatbot mở cho mọi độ tuổi.

Biến thứ ba là mức thành thạo. Người mới dễ bị AI làm thay vì chưa có tiêu chí đánh giá. Người trung cấp có thể dùng AI để nhận feedback và mở rộng ví dụ. Người có kinh nghiệm có thể dùng AI như sparring partner hoặc productivity tool. Human-AI teaming cần theo expertise reversal: hỗ trợ tốt cho người mới có thể gây cản trở hoặc phụ thuộc cho người giỏi.

Biến thứ tư là văn hóa lớp học. Ở lớp nơi học sinh ngại hỏi, AI có thể là rehearsal space. Ở lớp nơi thảo luận mạnh, AI có thể mở rộng quan điểm. Ở văn hóa coi giáo viên là nguồn thẩm quyền chính, AI có thể gây lẫn lộn quyền lực. Ở bối cảnh đa ngôn ngữ, AI translation có thể mở quyền tham gia nhưng cũng có thể làm mất sắc thái. Nghiên cứu cần đi ra khỏi giả định lớp học phương Tây, cá nhân chủ nghĩa, tiếng Anh và thiết bị đầy đủ.

Biến thứ năm là teacher role. Cùng một AI tutor có thể khác tác động nếu giáo viên dùng report để dạy lại, hoặc để mặc học sinh tự học. Cùng một AI writing tool có thể tốt nếu giáo viên thiết kế process portfolio, xấu nếu chỉ chấm sản phẩm cuối. Nghiên cứu human-AI teaming phải mô tả giáo viên làm gì, không chỉ mô tả tool.

Biến thứ sáu là stakes. AI as coach cho luyện tập thấp rủi ro khác AI as evaluator cho kỳ thi. Human oversight cần mạnh hơn khi stakes cao. Cấu hình teaming phải theo rủi ro.

Phương pháp nghiên cứu nên đi từ “tool comparison” sang “role configuration comparison”. Thay vì hỏi ChatGPT có tốt hơn không, hãy so bốn điều kiện: AI as tutor, AI as peer reviewer, AI as tutee, AI as tool; cùng mục tiêu, cùng môn, cùng thời lượng; đo learning, metacognition, dependency, collaboration và workload. Hoặc so “AI feedback trước peer review” với “peer review trước AI feedback”. Hoặc so “teacher dashboard weekly meeting” với “student-only AI tutor”.

Human-AI teaming tốt có thể làm giáo dục giàu hơn. Nhưng nếu không nghiên cứu cấu hình, ta sẽ tiếp tục dùng một công cụ chung cho nhiều vai trò và rồi tranh luận chung chung về AI tốt hay xấu.

Làm Sao Đưa Asset-Based Personalization Vào Hệ Thống Thật Thay Vì Chỉ Sửa Lỗi Theo Deficit Model?

Phần lớn EdTech cá nhân hóa bắt đầu từ thiếu hụt: người học sai gì, yếu kỹ năng nào, có nguy cơ gì, chưa làm gì, chậm ở đâu. Cách này hữu ích. Giáo viên cần biết lỗi. Hệ thống cần phát hiện lỗ hổng. Nhưng nếu chỉ nhìn thiếu hụt, người học bị mô hình hóa như một danh sách vấn đề cần sửa. Đây là deficit model.

Asset-based approach hỏi ngược lại: người học đã có nguồn lực nào? Ngôn ngữ nhà, kinh nghiệm gia đình, sở thích, chiến lược tự học, quan hệ cộng đồng, năng lực thực hành, bản sắc, động lực, funds of knowledge, khả năng giải thích cho bạn, kinh nghiệm nghề, khả năng sáng tạo, sự kiên trì. Những thứ này không phải phần thưởng tinh thần. Chúng có thể là dữ liệu thiết kế học tập.

Ocumpaugh, Roscoe, Baker, Hutt và Aguilar năm 2024 lập luận rằng AIED đã thành công trong nhiều outcome nhưng vẫn thường đi theo logic phát hiện thiếu hụt rồi sửa; họ đề xuất asset-based instruction and assessment để hỗ trợ người học, đặc biệt nhóm từng bị marginalised hoặc “deficit-ized” (Ocumpaugh et al., 2024). Stewart, Mills và Hutt năm 2024 dùng góc nhìn data feminism để thảo luận cách kết hợp asset-based và deficit-based trong learning analytics, nhấn mạnh cần xem xét quyền lực, thách thức cấu trúc quyền lực và tránh các nhị phân/hệ thứ bậc làm nghèo hình ảnh người học (Stewart et al., 2024).

Câu hỏi nghiên cứu ở đây là: asset-based personalization có thể được vận hành trong hệ thống số như thế nào mà không trở thành khẩu hiệu?

Có năm thách thức.

Thứ nhất, asset khó đo hơn deficit. Lỗi sai dễ ghi từ bài quiz. Funds of knowledge, identity, community expertise, bilingual repertoires, practical intelligence khó đo hơn. Nếu cố đo bằng checklist, ta lại làm nghèo asset. Cần phương pháp hỗn hợp: learner profiles do người học đồng tạo, portfolio, teacher notes, self-reflection, community artifacts, project work, peer recognition.

Thứ hai, asset có thể bị essentialize. Nếu hệ thống nói “học sinh này thuộc nhóm X nên có asset Y”, nó đang gắn nhãn văn hóa. Asset-based không phải stereotype tích cực. Nó phải cho người học quyền tự mô tả, thay đổi và từ chối.

Thứ ba, asset phải nối với mục tiêu học. Nói người học có kinh nghiệm gia đình, ngôn ngữ hay sở thích không đủ. Thiết kế phải chuyển asset thành cầu học tập: dùng kinh nghiệm lao động để hiểu tỷ lệ, dùng song ngữ để so sánh khái niệm, dùng sở thích âm nhạc để học pattern, dùng kỹ năng chăm sóc em nhỏ để phân tích responsibility trong giáo dục công dân.

Thứ tư, giáo viên cần vai trò trung tâm. AI có thể gợi kết nối asset, nhưng giáo viên hiểu bối cảnh và quan hệ. Một hệ thống tự suy luận asset từ dữ liệu hành vi có rủi ro cao. Asset-based personalization nên là co-constructed: người học, giáo viên và hệ thống cùng xây.

Thứ năm, assessment phải thay đổi. Nếu bài thi chỉ đo chuẩn hẹp, asset-based instruction sẽ bị kéo về remediation. Cần đánh giá cho phép nhiều cách biểu đạt, authentic tasks, portfolio, oral defense, collaborative work và reflection.

Một nghiên cứu tốt có thể so sánh hai hệ thống cá nhân hóa cùng dạy một kỹ năng. Hệ thống deficit-only phát hiện lỗi và cho bài luyện. Hệ thống asset-based cũng phát hiện lỗi nhưng thêm lựa chọn ví dụ dựa trên kinh nghiệm người học, yêu cầu người học tạo liên hệ với bối cảnh của mình, và cho cơ hội thể hiện hiểu biết bằng nhiều modality. Outcome không chỉ là điểm, mà là agency, belonging, transfer, persistence và chất lượng giải thích. Cần xem nhóm yếu thế có được lợi nhiều hơn không, và có rủi ro gắn nhãn không.

Câu hỏi này quan trọng vì AI có thể làm deficit model mạnh hơn bao giờ hết. Nó có thể phát hiện mọi lỗi, mọi khoảng trống, mọi rủi ro. Nếu không thiết kế asset-based, hệ thống giáo dục số sẽ rất giỏi nhìn người học qua cái họ thiếu.

Những Ngành Ngoài STEM, Ngoài Tiếng Anh Và Ngoài Đại Học Cần Taxonomy Riêng Nào?

Nhiều nghiên cứu AI trong giáo dục tập trung vào higher education, tiếng Anh, STEM, lập trình, viết học thuật, ngoại ngữ hoặc các nhiệm vụ có sản phẩm dễ phân tích. Đây là điều dễ hiểu: dữ liệu dễ thu, người học trưởng thành hơn, công cụ sẵn, nghiên cứu thuận tiện hơn. Nhưng giáo dục rộng hơn thế rất nhiều. Mầm non, tiểu học, giáo dục đặc biệt, giáo dục nghề, nghệ thuật, lịch sử, địa lý, giáo dục công dân, đạo đức, thể chất, âm nhạc, ngôn ngữ ít tài nguyên, lớp đa ngôn ngữ, trường vùng khó, đào tạo phi chính quy, học tập cộng đồng, giáo dục người lớn - mỗi vùng có taxonomy nhiệm vụ khác.

Qian systematic review năm 2025 về ứng dụng sư phạm GenAI trong higher education cho thấy lĩnh vực này đang phát triển nhanh nhưng vẫn cần nghiên cứu sâu hơn về collaboration giữa student-teacher-AI, overreliance và bối cảnh triển khai (Qian, 2025). Nhiều review GenAI khác cũng tập trung mạnh vào higher education. Lintner 2024 cho thấy ngay cả AI literacy measurement còn thiếu cross-cultural validity (Lintner, 2024). Các review K-12 đang tăng, như Marzano 2025 về GenAI trong K-12, nhưng so với higher education, bằng chứng vẫn ít hơn và rủi ro khác hơn (Marzano, 2025). Điều này tạo một khoảng trống lớn: taxonomy AIEd hiện nay có thể đang phản ánh nơi dễ nghiên cứu hơn là nơi giáo dục cần hiểu nhất.

Taxonomy theo ngành không chỉ là phân loại môn học. Nó phải mô tả loại nhiệm vụ, bằng chứng học tập, rủi ro AI và hình thức hỗ trợ phù hợp.

Trong STEM, nhiều nhiệm vụ có cấu trúc: giải bài, mô phỏng, lab, chứng minh, phân tích dữ liệu. AI có thể tutor, generate problems, debug, visualize, simulate. Rủi ro là làm thay bước suy luận, tối ưu bài quen, giảm thực hành lab thật.

Trong humanities, nhiệm vụ thường là diễn giải, tranh luận, nguồn, bối cảnh, nhiều quan điểm, giọng viết. AI có thể phản biện, mô phỏng nhân vật lịch sử, gợi câu hỏi nguồn, nhưng rủi ro hallucination, flattening voice, presentism và mất đọc sâu.

Trong arts, nhiệm vụ liên quan đến phong cách, vật liệu, cảm xúc, quá trình, bản quyền và bản sắc. AI có thể tạo biến thể, nhưng rủi ro đồng nhất hóa thẩm mỹ, mờ tác giả và lấy dữ liệu nghệ sĩ.

Trong vocational education, nhiệm vụ gắn với an toàn, chuẩn nghề, thiết bị, workflow, giao tiếp khách hàng, tình huống thực. AI simulation có thể hữu ích, nhưng cần supervision và assessment authentic.

Trong early childhood, nhiệm vụ là chơi, ngôn ngữ, vận động, quan hệ, tự điều chỉnh ban đầu. AI hội thoại độc lập có rủi ro cao; công nghệ nên hỗ trợ người lớn và accessibility hơn là thay tương tác.

Trong special education, công nghệ có thể mở quyền tham gia, nhưng rủi ro dữ liệu nhạy cảm, gắn nhãn và thiết kế không phù hợp sensory/cognitive needs.

Trong ngôn ngữ ít tài nguyên, vấn đề không chỉ là dịch. Cần model performance, cultural examples, dialects, script, speech recognition, curriculum terminology và community validation. Một taxonomy AI cho tiếng Việt khác taxonomy cho tiếng Anh.

Câu hỏi nghiên cứu cần đặt là: mỗi lĩnh vực cần những vai trò AI nào, loại bằng chứng nào, chuẩn đạo đức nào và outcome nào?

Một hướng làm việc là xây “domain-specific AI pedagogy maps”. Mỗi bản đồ có:

1. Nhiệm vụ học tập cốt lõi của môn/ngành. 2. Loại khó khăn người học thường gặp. 3. Vai trò AI có thể hỗ trợ. 4. Phần không nên tự động hóa. 5. Dữ liệu cần và dữ liệu không nên thu. 6. Loại feedback phù hợp. 7. Rủi ro bias/ngôn ngữ/văn hóa. 8. Cách đánh giá transfer. 9. Vai trò giáo viên/người hướng dẫn. 10. Điều kiện triển khai tối thiểu.

Nghiên cứu cũng cần đa ngôn ngữ và đa bối cảnh hơn. Không thể tiếp tục giả định kết quả từ sinh viên đại học nói tiếng Anh sẽ áp dụng cho học sinh phổ thông ở Việt Nam, giáo viên vùng nông thôn, người học nghề, hoặc lớp đa ngôn ngữ. Cross-cultural validity không phải phần phụ ở chương phương pháp; nó là điều kiện của công bằng.

Nếu lĩnh vực không xây taxonomy riêng cho các ngành ngoài STEM, ngoài tiếng Anh và ngoài đại học, AI trong giáo dục sẽ tiếp tục phát triển mạnh ở nơi dễ đo và dễ monetise, trong khi các vùng giáo dục khó hơn bị bỏ lại hoặc bị áp công cụ không phù hợp.

EdTech Có Thể Bền Vững Về Kinh Tế Mà Vẫn Bảo Vệ Dữ Liệu, Công Bằng Và Phẩm Giá Người Học Không?

Câu hỏi cuối cùng đi ra ngoài lớp học nhưng quay lại quyền người học. EdTech cần tiền để sống: đội ngũ, support, bảo mật, accessibility, localization, nghiên cứu, cloud, model usage, sales, training. Một sản phẩm không có mô hình tài chính bền có thể chết, đổi điều khoản, giảm chất lượng hoặc bán mình cho mô hình tệ hơn. Nhưng một mô hình tài chính quá phụ thuộc vào dữ liệu, upsell, lock-in, advertising, engagement hoặc premium inequality có thể làm hại giáo dục.

Chương 22 đã phân tích procurement, business models, TCO, sustainability và local market adaptation. Câu hỏi nghiên cứu còn mở là: mô hình kinh tế nào cho EdTech AI vừa đủ sống, vừa không biến người học thành sản phẩm dữ liệu hoặc tạo bất bình đẳng mới?

UNESCO GEM 2023 khuyến nghị công nghệ trong giáo dục phải phù hợp, công bằng, có bằng chứng, scalable và sustainable; đồng thời cảnh báo chi phí bị đánh giá thấp và bằng chứng độc lập còn yếu (UNESCO, 2023). Komljenovic và cộng sự năm 2024 cho thấy dữ liệu người dùng trong higher education đang được các startup thử làm thành giá trị kinh tế qua nhiều chiến lược, nhưng việc chứng minh use value, minh bạch và quản lý quan hệ đầu tư còn khó (Komljenovic et al., 2024). HolonIQ dữ liệu thị trường 2025-2026 cho thấy vốn EdTech sau thời kỳ tăng nóng đã thận trọng hơn, tập trung vào AI, workforce training, traction và revenue rõ hơn (HolonIQ, 2026). Bối cảnh này tạo áp lực: sản phẩm phải kiếm tiền rõ hơn, nhưng giáo dục không thể để mọi incentive thị trường quyết định thiết kế học tập.

Cần nghiên cứu ít nhất năm mô hình.

Mô hình thứ nhất là public-interest procurement. Nhà nước hoặc hệ thống giáo dục dùng sức mua để yêu cầu privacy, evidence, interoperability, accessibility, fair pricing và data portability. Câu hỏi: procurement như vậy có thật sự định hình thị trường không, hay chỉ làm quy trình chậm hơn? Những tiêu chí nào tạo hiệu quả tốt nhất?

Mô hình thứ hai là tiered equity pricing. Vendor có giá khác nhau cho trường giàu/nghèo, khu vực, quy mô, hoặc public mission. Câu hỏi: mô hình này có bền cho vendor không? Có tránh tạo bản nghèo kém chất lượng không? Ai xác định eligibility?

Mô hình thứ ba là open-source/open-core với service. Lõi mở, dịch vụ triển khai và support có phí. Câu hỏi: ai duy trì security, accessibility, localization? Trường yếu năng lực có dùng được không? Open có thật sự giảm lock-in không nếu triển khai vẫn phụ thuộc nhà cung cấp?

Mô hình thứ tư là data trust hoặc data cooperative. Dữ liệu người học được quản trị bởi tổ chức tin cậy, với quyền kiểm soát và mục đích rõ. Câu hỏi: mô hình này có khả thi trong trường học không? Ai chịu trách nhiệm pháp lý? Có giúp nghiên cứu và innovation mà vẫn bảo vệ người học không?

Mô hình thứ năm là outcome-based funding có guardrails. Trả tiền theo outcome có thể khuyến khích tác động, nhưng dễ gaming. Câu hỏi: outcome nào đủ rộng để tránh dạy tủ, selection bias và bỏ nhóm khó? Có thể kết hợp learning, equity, workload và wellbeing không?

Ngoài mô hình doanh thu, cần nghiên cứu sustainability môi trường. AI compute, thiết bị, e-waste, cloud storage và vòng đời phần cứng đang trở thành chi phí thật. EdTech có thể nói về tương lai nhưng vận hành bằng thiết bị thay nhanh và dữ liệu lưu mãi. Cần đo carbon, e-waste, device lifecycle và policy kéo dài tuổi thọ trong giáo dục.

Cuối cùng, cần nghiên cứu phẩm giá người học như outcome kinh tế. Một mô hình có thể rẻ và hiệu quả điểm số nhưng dùng quảng cáo, upsell, tracking, so sánh xã hội và pressure marketing. Có thể gọi đó là thành công kinh tế, nhưng không phải thành công giáo dục. Phẩm giá khó đo, nhưng có thể nghiên cứu qua quyền kiểm soát dữ liệu, cảm giác bị khai thác, quyền từ chối, sự công bằng trong access, và niềm tin của người học/phụ huynh/giáo viên.

Nếu không giải được câu hỏi kinh tế, các nguyên tắc đạo đức sẽ yếu trong thực tế. Một sản phẩm cần sống. Một trường cần ngân sách. Một vendor cần doanh thu. Một giáo viên cần support. Một người học cần quyền. Kinh tế học EdTech tương lai phải tìm điểm giao giữa những nhu cầu này.

Thực Trạng Nghiên Cứu Hiện Nay

Thực trạng nghiên cứu EdTech AI hiện nay có hai mặt. Một mặt, số lượng nghiên cứu tăng rất nhanh. Systematic reviews và meta-analyses về GenAI, ChatGPT, AI tutoring, SRL, personalized learning, MMLA, AI literacy, ethical challenges và teacher professional development liên tục xuất hiện trong 2024-2026. Đây là dấu hiệu tốt: lĩnh vực đang cố tổng hợp thay vì chỉ công bố từng thử nghiệm nhỏ.

Mặt khác, các review cũng lặp lại nhiều cảnh báo: nghiên cứu ngắn hạn, mẫu nhỏ, tập trung vào higher education, thiếu K-12, thiếu long-term effects, thiếu transfer, thiếu cross-cultural validation, thiếu performance-based measurement, thiếu mô tả implementation conditions, thiếu phân tích equity, thiếu dữ liệu về workload và sustainability. Một số lĩnh vực như MMLA có kỹ thuật tiến nhanh nhưng ethics và real-world deployment còn yếu. Một số lĩnh vực như AI literacy có nhiều thang đo nhưng cross-cultural validity gần như chưa được kiểm tra (Lintner, 2024). Một số kết quả GenAI tích cực nhưng metacognition vẫn là vùng chưa rõ (Educational Research Review, 2025).

Một vấn đề nữa là nghiên cứu thường tách lớp. Nghiên cứu learning outcomes ít đo business model. Nghiên cứu privacy ít đo learning. Nghiên cứu teacher adoption ít đo student transfer. Nghiên cứu model accuracy ít đo classroom workflow. Nhưng trong thế giới thật, các lớp này gắn nhau. Một công cụ có learning gain nhưng workload tăng sẽ không bền. Một công cụ có privacy tốt nhưng UX kém sẽ không được dùng. Một công cụ có AI mạnh nhưng business model dựa trên premium access sẽ tạo bất bình đẳng. Nghiên cứu tương lai cần interdisciplinary design mạnh hơn.

Ngoài ra, nhiều nghiên cứu vẫn lấy công cụ làm đơn vị phân tích: ChatGPT, chatbot, ITS, dashboard, VR. Đơn vị phân tích tốt hơn có thể là hoạt động học: AI-supported revision cycle, teacher-mediated error clustering, student-AI-peer debate, AI-assisted portfolio assessment, asset-based learner profile, low-data early warning workflow. Khi nghiên cứu theo hoạt động, kết quả dễ chuyển sang bối cảnh khác hơn vì ta hiểu cơ chế.

Thực trạng này không bi quan. Nó chỉ nói rằng lĩnh vực đang ở giai đoạn chuyển từ “AI có thể làm gì” sang “AI nên làm gì, trong điều kiện nào, với trách nhiệm nào”. Chuyển giai đoạn này cần câu hỏi nghiên cứu sắc hơn.

Phân Tích Phản Biện

Một chương về câu hỏi mở cũng có rủi ro. Rủi ro đầu tiên là biến mọi thứ thành “cần nghiên cứu thêm” rồi không hành động. Giáo dục không thể chờ mười năm nghiên cứu dài hạn trước khi quyết định chính sách AI trong lớp học. Người học đã dùng AI. Giáo viên đã cần hướng dẫn. Vendor đã bán sản phẩm. Trường đã mua công cụ. Vì vậy, câu hỏi mở không phải lý do trì hoãn; nó là lý do triển khai có guardrails, pilot nhỏ, đo đúng và sẵn sàng sửa.

Rủi ro thứ hai là nghiên cứu trở thành đặc quyền của nơi giàu. Longitudinal mixed-method studies, MMLA labs, randomized trials, data infrastructure và AI audit đều tốn nguồn lực. Nếu chỉ trường giàu và đại học lớn làm được, bằng chứng sẽ tiếp tục lệch. Cần thiết kế phương pháp nghiên cứu nhẹ hơn, thực dụng hơn cho trường phổ thông, trung tâm nhỏ, bối cảnh ít tài nguyên: design-based research, practitioner inquiry, networked improvement communities, shared instruments, open protocols, dữ liệu tối thiểu.

Rủi ro thứ ba là câu hỏi nghiên cứu bị thị trường định hình. Nghiên cứu về sản phẩm dễ monetise sẽ nhiều hơn nghiên cứu về người học yếu thế, ngôn ngữ ít tài nguyên, giáo dục đặc biệt, arts, civic education, hoặc local governance. Funder và chính sách công cần chủ động tài trợ vùng ít hấp dẫn thương mại nhưng quan trọng xã hội.

Rủi ro thứ tư là phương pháp đo tạo ra thứ nó đo. Nếu nghiên cứu metacognition chỉ dùng self-report, người học học cách nói mình phản tư. Nếu nghiên cứu collaboration dùng số lượt nói, nhóm học cách nói nhiều. Nếu nghiên cứu engagement dùng time-on-platform, sản phẩm học cách giữ người dùng. Nghiên cứu cần luôn hỏi: thước đo này đang làm hệ thống tối ưu điều gì?

Rủi ro thứ năm là ethics bị xử lý sau thiết kế nghiên cứu. Với AI education, ethics phải là một phần của research design: consent, data minimisation, age-appropriate design, contestability, impact on teacher workload, participant agency, quyền rút lui, và trả giá trị lại cho cộng đồng. Không thể thu dữ liệu học sinh thật sâu rồi chỉ nói đã được ethics approval.

Rủi ro cuối cùng là quá nhấn mạnh AI mà quên giáo dục. Nhiều câu hỏi tương lai nghe như câu hỏi về AI, nhưng thật ra là câu hỏi về học tập: tự chủ là gì, hiểu sâu là gì, hợp tác tốt là gì, công bằng là gì, giáo viên cần quyền gì, tổ chức học hỏi ra sao. AI chỉ làm các câu hỏi cũ trở nên cấp bách hơn.

Nguyên Tắc Thiết Kế Chương Trình Nghiên Cứu

Nếu phải biến chương này thành một agenda thực hành, có thể bắt đầu bằng mười nguyên tắc.

Thứ nhất, ưu tiên nghiên cứu dài hạn. Ít nhất một phần nghiên cứu EdTech AI cần theo dõi nhiều tháng hoặc nhiều học kỳ, có delayed outcome và transfer task.

Thứ hai, đo process và outcome cùng lúc. Không chỉ hỏi điểm tăng không, mà hỏi người học đã làm gì, AI làm gì, giáo viên làm gì, feedback được dùng ra sao, và scaffold có rút không.

Thứ ba, phân tích subgroup. Không chỉ báo effect trung bình. Cần xem ngôn ngữ, disability, kiến thức nền, giới, thu nhập, thiết bị, vùng miền, lứa tuổi và bối cảnh văn hóa.

Thứ tư, mô tả implementation conditions. Nghiên cứu phải nói rõ training, teacher role, workload, hạ tầng, policy, dữ liệu, thời lượng, mức hỗ trợ vendor. Không có điều kiện, kết quả khó dùng.

Thứ năm, dùng mixed methods. Log và điểm cần đi cùng phỏng vấn, quan sát, artifact analysis, teacher notes và learner reflection.

Thứ sáu, thiết kế privacy-preserving research. Thu ít dữ liệu nhất có thể, dùng dữ liệu cục bộ/ẩn danh khi phù hợp, giới hạn lưu trữ, giải thích rõ cho người học, và tránh sensor/sinh trắc nếu không cần.

Thứ bảy, nghiên cứu vai trò thay vì chỉ nghiên cứu công cụ. Cùng một GenAI có thể là tutor, tool, tutee, peer, coach. Cần so role configuration, không chỉ so product.

Thứ tám, đưa giáo viên và người học vào co-design nghiên cứu. Câu hỏi nghiên cứu nên xuất phát từ vấn đề lớp học thật, không chỉ từ khả năng kỹ thuật.

Thứ chín, công bố negative and null results. Nếu AI không giúp metacognition, nếu personalization tăng dependency, nếu dashboard tăng workload, cần công bố. Không có dữ liệu âm, lĩnh vực sẽ lạc quan giả.

Thứ mười, nối nghiên cứu với procurement và policy. Kết quả nghiên cứu nên giúp trường ra quyết định: dùng cho ai, điều kiện gì, rủi ro gì, chi phí gì, khi nào dừng.

Một chương trình nghiên cứu tốt không cần trả lời mọi câu hỏi cùng lúc. Nó cần đặt đúng câu hỏi ở đúng cấp: lớp học, trường, hệ thống, thị trường và chính sách.

Tổng Kết Chương

Những câu hỏi mở trong chương này không phủ định những gì cuốn sách đã kết luận. Ngược lại, chúng làm các kết luận ấy có trách nhiệm hơn. Ta biết EdTech cần bắt đầu từ nhiệm vụ học tập, nhưng vẫn cần nghiên cứu nhiệm vụ nào AI hỗ trợ tốt nhất. Ta biết cần giữ ma sát nhận thức, nhưng vẫn cần biết friction tối ưu ở từng tuổi và môn học. Ta biết feedback phải dẫn đến hành động, nhưng vẫn cần đo feedback uptake dài hạn. Ta biết cá nhân hóa có rủi ro, nhưng vẫn cần hiểu tác động lên agency, identity và transfer. Ta biết giáo viên phải ở trong vòng phán đoán, nhưng vẫn cần mô hình human-AI teaming cụ thể. Ta biết dữ liệu cần quản trị, nhưng vẫn cần cách đo năng lực phức hợp mà không giám sát toàn diện. Ta biết mô hình kinh tế quan trọng, nhưng vẫn cần mô hình bền vững không khai thác người học.

Nếu có một thông điệp cuối cùng cho cuốn sách, đó là: EdTech tốt không phải thứ khiến giáo dục trông hiện đại hơn. EdTech tốt làm hoạt động học trở nên sâu hơn, công bằng hơn, có trách nhiệm hơn và bền vững hơn trong điều kiện thật. AI có thể giúp việc đó. Nó cũng có thể làm ngược lại. Khác biệt nằm ở câu hỏi ta đặt, bằng chứng ta chấp nhận, quyền ta bảo vệ và thiết kế ta chọn.

Cuốn sách kết thúc ở đây, nhưng công việc thực sự bắt đầu ở mỗi lớp học, mỗi tổ chuyên môn, mỗi nhóm sản phẩm, mỗi quy trình procurement, mỗi chính sách dữ liệu và mỗi nghiên cứu không ngại nói rõ: chúng ta chưa biết đủ, nên phải học tiếp một cách nghiêm túc.

Tài liệu tham khảo

Banihashem, S. K., Bond, M., Bergdahl, N., Khosravi, H., & Noroozi, O. (2025). A systematic mapping review at the intersection of artificial intelligence and self-regulated learning. International Journal of Educational Technology in Higher Education, 22, 50. https://doi.org/10.1186/s41239-025-00548-8

Bayly-Castaneda, K., Ramirez-Montoya, M.-S., & Morita-Alexander, A. (2024). Crafting personalized learning paths with AI for lifelong learning: A systematic literature review. Frontiers in Education, 9, 1424386. https://doi.org/10.3389/feduc.2024.1424386

Caskurlu, S., Ocak, C., & Dai, C.-P. (2025). The scope of multimodal learning analytics in K-8: A systematic review. Journal of Learning Analytics, 12(2), 224-236. https://doi.org/10.18608/jla.2025.8505

de Mooij, S., Lämsä, J., Lim, L., Aksela, O., Athavale, S., Bistolfi, I., & colleagues. (2025). A systematic review of self-regulated learning through integration of multimodal data and artificial intelligence. Educational Psychology Review, 37, 54. https://doi.org/10.1007/s10648-025-10028-0

Farhood, H., Nyden, M., Beheshti, A., & Muller, S. (2025). Artificial intelligence-based personalised learning in education: A systematic literature review. Discover Artificial Intelligence, 5, 331. https://doi.org/10.1007/s44163-025-00598-x

Ho, A. D. (2024). Artificial intelligence and educational measurement: Opportunities and threats. Educational Measurement: Issues and Practice, 43(3), 45-53. https://doi.org/10.3102/10769986241248771

HolonIQ. (2026). EdTech hits $2.6B in investment as the market stabilizes. Bigger bets in AI and workforce training. https://www.holoniq.com/notes/edtech-hits-2-6b-in-investment-as-the-market-stabilizes-bigger-bets-in-ai-and-workforce-training

Khalifeh, F., Santiago, R., & Palau, R. (2026). Redefining personalized learning in the artificial intelligence era: An updated systematic review from 2019 to 2025. Smart Learning Environments, 13, 19. https://doi.org/10.1186/s40561-026-00440-6

Kostopoulos, G., Kotsiantis, S., Panagiotakopoulos, T., & Kameas, A. (2026). A survey of multimodal learning analytics: Data, methods, systems, and responsible deployment. Future Internet, 18(3), 115. https://doi.org/10.3390/fi18030115

Lan, M., & Zhou, X. (2025). A qualitative systematic review on AI empowered self-regulated learning in higher education. npj Science of Learning, 10, 21. https://doi.org/10.1038/s41539-025-00319-0

Liang, W., Yuksekgonul, M., Mao, Y., Wu, E., & Zou, J. (2023). GPT detectors are biased against non-native English writers. Patterns, 4(7), 100779. https://doi.org/10.1016/j.patter.2023.100779

Lintner, T. (2024). A systematic review of AI literacy scales. npj Science of Learning, 9, 50. https://doi.org/10.1038/s41539-024-00264-4

Marzano, D. (2025). Generative Artificial Intelligence (GAI) in teaching and learning processes at the K-12 level: A systematic review. Technology, Knowledge and Learning. https://doi.org/10.1007/s10758-025-09853-7

Memarian, B., & Doleck, T. (2024). Human-in-the-loop in artificial intelligence in education: A review and entity-relationship analysis. Computers in Human Behavior: Artificial Humans, 2(1), 100053. https://doi.org/10.1016/j.chbah.2024.100053

Ocumpaugh, J., Roscoe, R. D., Baker, R. S., Hutt, S., & Aguilar, S. J. (2024). Toward asset-based instruction and assessment in artificial intelligence in education. International Journal of Artificial Intelligence in Education, 34(4), 1559-1598. https://doi.org/10.1007/s40593-023-00382-x

Qian, Y. (2025). Pedagogical applications of generative AI in higher education: A systematic review of the field. TechTrends, 69, 1105-1120. https://doi.org/10.1007/s11528-025-01100-1

Stewart, A., Mills, C., & Hutt, S. (2024). Marrying asset- and deficit-based approaches: A data feminist perspective in learning analytics. CEUR Workshop Proceedings, 3667, 292-294.

UNESCO. (2023). Global Education Monitoring Report 2023: Technology in education: A tool on whose terms? https://www.unesco.org/gem-report/en/technology

Wu, X., Zhu, P., Zhang, J., Yin, M., & Wang, Y. (2026). ChatGPT's impact on student learning outcomes: A meta-analysis of 35 experimental studies. Humanities and Social Sciences Communications, 13, 478. https://doi.org/10.1057/s41599-026-07019-z