Chương 7: Tutoring & Scaffolding AI

Bối cảnh / Vấn đề

Nếu Chương 6 nói về AI đo người học đang ở đâu, Chương 7 nói về AI làm gì với hiểu biết đó. Đây là vùng nhiều lời hứa nhất của AIEd: một gia sư riêng cho mỗi người học, luôn sẵn sàng, kiên nhẫn, biết người học đang mắc ở đâu, đưa gợi ý đúng lúc, không mệt, không cáu, không bỏ sót ai.

Lời hứa này không mới. Intelligent Tutoring Systems (ITS) đã tồn tại nhiều thập niên trước GenAI. Cognitive Tutor, ASSISTments, ALEKS, Carnegie Learning, AutoTutor và nhiều hệ thống khác đã thử mô hình hóa tri thức, theo dõi trạng thái người học và đưa bài tập/feedback thích nghi. GenAI chỉ làm lời hứa đó trở nên dễ thấy hơn: thay vì giao diện bài tập cứng, người học giờ có thể trò chuyện với một hệ thống biết giải thích, hỏi lại, đóng vai, phản biện, tạo ví dụ và mô phỏng đối thoại.

Nhưng chính vì giao diện hội thoại giống con người, rủi ro cũng lớn hơn. Một chatbot trả lời trôi chảy dễ được nhầm với gia sư tốt. Một lời giải dễ hiểu dễ được nhầm với học sâu. Một hệ thống “giúp em làm bài” dễ trở thành hệ thống “làm hộ em suy nghĩ”. Nếu Chương 6 cảnh báo về đo sai, Chương 7 cảnh báo về hỗ trợ sai: hỗ trợ quá ít làm người học mắc kẹt, hỗ trợ quá nhiều làm người học phụ thuộc.

Gia sư tốt không phải người luôn đưa đáp án. Gia sư tốt chẩn đoán, chọn mức trợ giúp, hỏi đúng câu, giữ người học trong vùng thử thách vừa sức, giảm dần scaffold, và biết khi nào nên để người học tự vật lộn. Với AI, câu hỏi benchmark không phải “nó trả lời được không?”, mà là “nó giúp người học tự làm tốt hơn sau khi không còn nó không?”.

Intelligent Tutoring Systems

Một ITS cổ điển thường có ba lõi: domain model, student model và pedagogical model. Domain model mô tả tri thức cần học: khái niệm, kỹ năng, điều kiện tiên quyết, lỗi thường gặp, lời giải hợp lệ. Student model ước lượng người học đang biết gì, chưa biết gì, có khả năng sai ở đâu. Pedagogical model quyết định bước tiếp theo: giải thích, gợi ý, bài tập, phản hồi, ôn lại hay tăng độ khó.

Ba lõi này giúp phân biệt ITS với một kho nội dung có quiz. Một hệ thống chỉ phát video rồi kiểm tra cuối bài không phải gia sư thông minh. Một hệ thống chỉ cho người học chọn bài tiếp theo cũng chưa đủ. Tính “tutor” nằm ở vòng lặp: quan sát hành động, diễn giải trạng thái, chọn can thiệp, xem phản ứng, rồi cập nhật mô hình.

Trước GenAI, ITS mạnh nhất ở các miền có cấu trúc rõ như toán, lập trình, logic, vật lý cơ bản hoặc ngôn ngữ ở mức luyện tập cụ thể. Son tổng quan 63 nghiên cứu ITS trong giáo dục toán từ 2003 đến 2023 và ghi nhận xu hướng tích cực, nhưng cũng cho thấy phần lớn ứng dụng tập trung ở một số chủ đề như số học, đại số, hình học và bậc tiểu học; nhiều nghiên cứu vẫn còn giới hạn về độ đa dạng bối cảnh và triển khai (Son, 2024). Đây là bài học quan trọng: ITS dễ thành công hơn khi domain model rõ và dữ liệu tương tác đủ sạch.

GenAI mở rộng bề mặt của ITS. Nó có thể giải thích bằng ngôn ngữ tự nhiên, tạo ví dụ mới, đối thoại linh hoạt, nhận câu hỏi mở và hỗ trợ nhiều môn ngoài dạng bài đóng. Nhưng GenAI không tự thay thế ba lõi trên. Một chatbot không có domain model đáng tin sẽ dễ nói sai. Không có student model, nó không biết người học cần gì. Không có pedagogical model, nó chỉ phản ứng từng lượt thay vì dẫn dắt học tập.

Khanmigo là ví dụ nổi bật của hướng này. Khan Academy mô tả Khanmigo như một tutor và teaching assistant được tích hợp với thư viện nội dung của Khan Academy; khác với chatbot chung, công cụ này được thiết kế để hướng dẫn người học tìm đáp án thay vì chỉ đưa đáp án (Khan Academy, 2026). Điểm đáng chú ý không phải là nó dùng mô hình nào, mà là nó được đặt trong một hệ sinh thái nội dung, bài tập, mục tiêu và vai trò giáo viên. Một AI tutor đứng một mình sẽ yếu hơn một AI tutor biết mình đang ở đâu trong lộ trình học.

Điều này dẫn tới nguyên tắc đầu tiên: tutoring AI không nên bắt đầu từ hội thoại, mà từ mô hình học tập. Hội thoại chỉ là giao diện. Bên dưới phải có mục tiêu, chuẩn, dữ liệu, ràng buộc, mức hỗ trợ và cơ chế kiểm định.

Knowledge Tracing

Knowledge tracing là lõi kỹ thuật giúp hệ thống ước lượng người học đang nắm khái niệm/kỹ năng nào. Bài toán cơ bản là: dựa trên lịch sử tương tác, câu đúng sai, thời gian, gợi ý đã dùng, dạng bài và kỹ năng liên quan, hệ thống dự đoán xác suất người học đã thành thạo một kỹ năng hoặc sẽ trả lời đúng câu tiếp theo.

Bayesian Knowledge Tracing (BKT) là mô hình kinh điển. Nó giả định mỗi kỹ năng có trạng thái ẩn: đã biết hoặc chưa biết; người học có thể học qua mỗi cơ hội luyện tập; câu trả lời đúng/sai bị ảnh hưởng bởi guess và slip. BKT hấp dẫn vì tương đối dễ giải thích: giáo viên có thể hiểu vì sao hệ thống nghĩ người học đã gần thành thạo. Šarić-Grgić, Grubišić và Gašpar tổng quan 25 năm BKT và cho thấy mô hình này vẫn quan trọng vì tính diễn giải và khả năng ứng dụng trong adaptive learning (Šarić-Grgić et al., 2024).

Deep Knowledge Tracing (DKT) và các mô hình học sâu sau này linh hoạt hơn. Chúng có thể mô hình hóa chuỗi tương tác dài, quan hệ giữa câu hỏi, kỹ năng chồng lấp và dữ liệu hành vi phức tạp. Nhưng chúng cũng có vấn đề: khó giải thích, dễ học shortcut, phụ thuộc dữ liệu lớn và có thể tối ưu dự đoán đúng/sai mà không thật sự hiểu trạng thái kiến thức. Lu và cộng sự chỉ ra rằng các mô hình KT sâu thường gặp căng thẳng giữa accuracy và interpretability; nghiên cứu của họ dùng framework attention-based để đưa process data và curriculum information vào KT nhằm cải thiện cả dự đoán lẫn khả năng diễn giải (Lu, Tong, & Cheng, 2024).

Với giáo dục, câu hỏi không phải mô hình nào có AUC cao nhất trên benchmark dữ liệu. Câu hỏi là: dự đoán đó có giúp chọn can thiệp tốt hơn không? Nếu hệ thống dự đoán người học sẽ sai câu tiếp theo nhưng không biết vì sao, giáo viên khó dùng. Nếu hệ thống nói người học yếu “phân số” nhưng không phân biệt yếu khái niệm tỷ lệ, phép biến đổi hay đọc đề, đường can thiệp vẫn mờ.

Knowledge tracing cũng dễ bị lệch nếu bản đồ kỹ năng sai. Một câu hỏi thường đo nhiều kỹ năng cùng lúc. Một người học có thể sai vì thiếu kiến thức, đọc nhầm, lo lắng, dùng thiết bị khó, hoặc chưa quen định dạng. Nếu hệ thống quy mọi sai lầm về “chưa thành thạo kỹ năng”, nó sẽ đưa bài luyện sai nguyên nhân.

Vì vậy, KT nên được xem là giả thuyết có xác suất, không phải sự thật. Một dashboard tốt nên nói: “hệ thống ước lượng người học có khả năng đang thiếu X, dựa trên các bằng chứng Y; cần thêm nhiệm vụ Z để xác nhận”. Đó là sự khác biệt giữa model hữu ích và model độc đoán.

Adaptive Pathways

Adaptive pathways là phần người dùng thường nhìn thấy: hệ thống chọn bài tiếp theo, nhịp độ, mức khó, ví dụ, gợi ý, ôn lại hay chuyển chủ đề. Nhưng cá nhân hóa lộ trình không chỉ là đưa câu dễ khi sai và câu khó khi đúng. Nếu làm như vậy, hệ thống chỉ phản ứng bề mặt.

Một lộ trình thích nghi tốt cần trả lời nhiều câu hỏi cùng lúc. Người học đang thiếu kiến thức nền, thiếu fluency, thiếu khả năng phân biệt dạng hay thiếu động lực? Họ cần worked example, bài luyện tương tự, bài xen kẽ, câu hỏi truy hồi, giải thích khác, video ngắn, peer discussion hay nhiệm vụ áp dụng? Họ nên được tự chọn hay hệ thống nên dẫn chặt hơn? Mức hỗ trợ nào cần giảm dần?

Trong toán, adaptive pathway có thể bắt đầu bằng chẩn đoán prerequisite, đưa worked example cho người mới, chuyển sang bài tập có gợi ý, rồi trộn dạng để kiểm tra transfer. Trong ngoại ngữ, hệ thống có thể kết hợp spaced repetition, roleplay, sửa lỗi phát âm, nhiệm vụ nói theo tình huống và phản hồi về register. Trong lập trình, pathway có thể đi từ đọc code, điền chỗ trống, sửa bug, viết hàm nhỏ, rồi thiết kế chương trình mở hơn.

Điểm dễ sai là tối ưu “đúng ngay”. Nếu thuật toán luôn chọn bài vừa đủ để người học đúng nhiều, người học có thể cảm thấy tiến bộ nhưng ít gặp desirable difficulties. Nếu thuật toán luôn tối ưu engagement, nó có thể chọn nội dung dễ chịu hơn nội dung cần thiết. Nếu thuật toán giữ người học trong đường riêng quá lâu, nó có thể cô lập họ khỏi thảo luận chung của lớp.

Adaptive pathway tốt phải cân bằng ba thứ: hiệu quả trước mắt, học bền và agency. Nó nên giúp người học đi tiếp, nhưng cũng phải dạy họ hiểu vì sao bước tiếp theo hợp lý. Nó nên thích nghi, nhưng không biến người học thành người làm theo lệnh của hệ thống. Nó nên cho giáo viên thấy logic lựa chọn để giáo viên có thể can thiệp.

Conversational Agents

Conversational agents làm tutoring AI trở nên gần gũi nhất. Người học có thể hỏi “vì sao em sai?”, “giải thích lại dễ hơn”, “cho ví dụ khác”, “đóng vai khách hàng”, “hỏi em từng bước”, “đừng nói đáp án vội”. Đây là năng lực mà giao diện bài tập truyền thống khó làm.

Guan và cộng sự tổng quan cách educational chatbots hỗ trợ self-regulated learning, cho thấy chatbot có thể hỗ trợ đặt mục tiêu, lập kế hoạch, giám sát, phản tư và điều chỉnh chiến lược; nhưng lĩnh vực này vẫn cần thiết kế lý thuyết rõ hơn và bằng chứng mạnh hơn về tác động dài hạn (Guan et al., 2024). Điều này khớp với Chương 4: chatbot tốt không chỉ trả lời câu hỏi, mà phải giúp người học tự quản lý việc học.

Duolingo Max là một ví dụ ứng dụng hội thoại trong học ngoại ngữ. Duolingo giới thiệu các tính năng như Explain My Answer và Roleplay, trong đó người học có thể nhận giải thích theo ngữ cảnh và luyện hội thoại trong tình huống như quán cà phê hoặc sân bay (Duolingo, 2023/2026). Điểm mạnh ở đây là tạo cơ hội luyện tương tác mà trước kia cần người thật. Nhưng điểm cần benchmark là liệu người học có tăng fluency, accuracy, retention và transfer sang hội thoại thật hay chỉ tăng thời gian tương tác trong app.

Conversational agents có nhiều vai trò. Là tutor, nó hỏi gợi mở và hướng dẫn. Là peer, nó tranh luận hoặc đồng sáng tạo. Là tutee, nó để người học dạy lại và sửa lỗi nó. Là coach, nó nhắc kế hoạch và phản tư. Một hệ thống tốt nên nói rõ vai trò đang dùng. Nếu lúc thì nó làm tutor, lúc lại làm người viết hộ, người học dễ không biết phần nào là học, phần nào là hỗ trợ sản xuất.

Rủi ro lớn nhất của conversational agents là khả năng tạo cảm giác hiểu. Người học có thể nhận giải thích mượt, gật đầu, rồi không làm được bài khi mất hỗ trợ. Bastani và cộng sự thực hiện một thí nghiệm thực địa với gần 1.000 học sinh trung học trong lớp toán, so sánh GPT Base và GPT Tutor có guardrails. Họ thấy truy cập GPT-4 cải thiện hiệu suất khi làm bài có hỗ trợ, nhưng khi hỗ trợ bị lấy đi, nhóm GPT Base làm kém hơn nhóm không có hỗ trợ; hiệu ứng xấu giảm đáng kể với GPT Tutor có guardrails (Bastani et al., 2025). Bài học rất sắc: AI tutor không có guardrails có thể tăng performance mà làm giảm learning.

Vì vậy, hội thoại tốt phải có ma sát sư phạm. Nó nên yêu cầu người học thử trước, dự đoán, giải thích bước, chọn chiến lược, tự đánh giá và sửa. Nó nên từ chối làm hộ khi nhiệm vụ cần người học luyện kỹ năng nền. Nó nên biết khi nào trả lời trực tiếp, khi nào hỏi ngược, khi nào đưa gợi ý nhỏ, khi nào khuyên hỏi giáo viên.

Hint Generation và Scaffolding

Scaffolding là hỗ trợ tạm thời giúp người học làm được việc họ chưa tự làm được. Trong tutoring AI, scaffolding thường xuất hiện dưới dạng gợi ý từng bước, câu hỏi gợi mở, ví dụ tương tự, nhắc kiến thức nền, chỉ ra lỗi, chia nhỏ nhiệm vụ hoặc đưa phản hồi chiến lược.

Một gợi ý tốt nằm giữa hai thất bại. Quá mơ hồ, người học vẫn mắc kẹt. Quá rõ, nó thành lời giải. Gợi ý tốt giúp người học làm bước tiếp theo mà vẫn phải tư duy. Ví dụ, thay vì nói “đáp án là dùng định lý Pythagoras”, hệ thống có thể hỏi “tam giác nào trong hình có cạnh chưa biết, và em biết quan hệ nào giữa ba cạnh?”. Thay vì sửa câu văn ngay, hệ thống có thể hỏi “luận điểm chính của đoạn này nằm ở đâu?”.

Hint generation bằng AI có thể cá nhân hóa mức gợi ý, nhưng cũng dễ over-help. Một hệ thống nên dùng hint ladder: gợi ý khái niệm, gợi ý chiến lược, gợi ý bước, rồi mới gần đáp án. Nó nên theo dõi số gợi ý đã dùng, thời điểm dùng và kết quả sau gợi ý. Nếu người học luôn cần gợi ý cuối cùng mới đúng, mastery chưa thật.

Scaffold cũng phải rút dần. Đây là chỗ nhiều công cụ AI thất bại vì “giúp” là tính năng dễ bán. Một chatbot luôn sẵn sàng giải thích có thể làm người học ít luyện truy hồi. Một copilot lập trình luôn gợi code có thể làm người mới ít học cấu trúc vấn đề. Một AI viết luôn đề xuất câu hoàn chỉnh có thể làm người học ít luyện diễn đạt.

Thiết kế tốt có thể dùng fading: ban đầu gợi ý nhiều, sau giảm dần; ban đầu cho worked example, sau chuyển sang completion problem, rồi tự giải; ban đầu hỏi từng bước, sau yêu cầu người học lập kế hoạch; ban đầu phản hồi ngay, sau yêu cầu tự kiểm trước. Mục tiêu không phải người học dùng AI mãi, mà là người học dùng ít hỗ trợ hơn cho cùng loại nhiệm vụ.

Tiêu chí benchmark / Cách đánh giá

Với Tutoring & Scaffolding AI, benchmark phải đo học sau hỗ trợ, không chỉ performance trong lúc được hỗ trợ.

Một: learning gain so với baseline. Hệ thống tốt hơn giáo viên bình thường, bài luyện không AI, video, sách bài tập, hay chatbot chung ở đâu? Baseline phải rõ.

Hai: delayed retention và transfer. Người học còn làm được sau vài ngày/tuần không? Họ có giải được biến thể mới khi không có AI không?

Ba: help-seeking quality. Người học dùng gợi ý như cách học hay cách lấy đáp án? Hệ thống có phân biệt được productive struggle và mắc kẹt vô ích không?

Bốn: scaffold fading. Mức hỗ trợ có giảm dần khi người học tiến bộ không? Hay người học dùng cùng lượng gợi ý mãi?

Năm: accuracy và epistemic humility. AI có nói đúng không, có biết từ chối khi không chắc không, có khuyên kiểm chứng hoặc hỏi giáo viên khi cần không?

Sáu: alignment với mục tiêu học. Hệ thống có giữ người học trong hoạt động nhận thức cần thiết không, hay làm thay nhiệm vụ chính?

Bảy: equity và accessibility. Hệ thống hoạt động thế nào với người học khác ngôn ngữ, nền tảng, thiết bị, khuyết tật hoặc mức đọc hiểu?

Tám: teacher observability. Giáo viên có thấy người học hỏi gì, dùng gợi ý nào, mắc ở đâu, và cần can thiệp gì không?

Chín: workload thật. AI tutor có giảm tải tổng thể cho giáo viên, hay tạo thêm việc giám sát hội thoại, sửa lỗi và xử lý phụ thuộc?

Phân tích phản biện

Rủi ro đầu tiên là phụ thuộc. Nếu AI giúp quá nhanh, người học có thể dừng trước khi hình thành kỹ năng. Đây không phải lo ngại trừu tượng; nghiên cứu của Bastani và cộng sự cho thấy công cụ không guardrails có thể cải thiện hiệu suất luyện tập nhưng làm giảm kết quả khi học sinh phải làm một mình (Bastani et al., 2025).

Rủi ro thứ hai là hallucination sư phạm. AI không chỉ có thể sai kiến thức; nó có thể sai cách dạy. Nó có thể đưa ví dụ không phù hợp, bỏ qua misconception, giải thích quá mức, dùng thuật ngữ quá khó, hoặc khuyến khích chiến lược giải không bền. Một lời giải đúng vẫn có thể là scaffold sai nếu nó đến quá sớm.

Rủi ro thứ ba là mất agency. Nếu hệ thống luôn chọn bài, nhắc học, đặt mục tiêu, giải thích lỗi và quyết định bước tiếp theo, người học có thể hoàn thành lộ trình mà không học cách tự học. Đây là điểm nối với Chương 4: self-regulated learning cần được hỗ trợ, không bị thuê ngoài.

Rủi ro thứ tư là bỏ qua người dạy. AI tutor thường được quảng bá như “mỗi người một gia sư”, nhưng trong trường học thật, giáo viên vẫn là người hiểu lớp, quan hệ, động lực, văn hóa và mục tiêu dài hạn. Một tutoring AI tốt phải làm giáo viên thấy rõ hơn, can thiệp tốt hơn, không biến giáo viên thành người đứng ngoài dashboard.

Rủi ro thứ năm là đo sai thành công. Nếu chỉ đo số bài hoàn thành, thời gian tương tác, số lượt hỏi hoặc điểm trong lúc có hỗ trợ, hệ thống sẽ trông tốt. Nhưng nếu người học không làm được khi mất AI, tutoring đã thất bại ở mục tiêu sâu.

Nguyên tắc thiết kế

Một: bắt đầu từ mô hình học tập, không từ chatbot. Cần domain model, student model và pedagogical model đủ rõ trước khi mở giao diện hội thoại.

Hai: giữ người học làm chủ nỗ lực nhận thức. AI nên hỏi, gợi, chia nhỏ, phản hồi; không nên lấy mất bước tư duy chính.

Ba: dùng guardrails sư phạm. Hệ thống cần quy tắc khi nào được giải thích trực tiếp, khi nào chỉ gợi ý, khi nào từ chối làm hộ, khi nào yêu cầu người học thử trước.

Bốn: thiết kế hint ladder và fading. Gợi ý nên tăng dần theo nhu cầu và giảm dần theo tiến bộ. Không có fading, scaffold thành nạng lâu dài.

Năm: hiển thị lý do thích nghi. Người học và giáo viên nên biết vì sao hệ thống chọn bài này, gợi ý này, mức khó này.

Sáu: nối tutor với assessment và curriculum. AI tutor mạnh hơn khi biết mục tiêu học, chuẩn đầu ra, bài tập, lỗi sai và dữ liệu tiến bộ, thay vì chỉ trò chuyện rời rạc.

Bảy: để giáo viên trong vòng quyết định. Giáo viên cần quyền xem, chỉnh, giới hạn, can thiệp và phủ quyết lộ trình hoặc phản hồi AI.

Tám: đo độc lập sau hỗ trợ. Mọi tuyên bố hiệu quả của AI tutor phải có kiểm tra khi người học không còn được AI giúp.

Tổng kết chương

Tutoring & Scaffolding AI là vùng gần nhất với lời hứa “cá nhân hóa học tập”. ITS, knowledge tracing, adaptive pathways, conversational agents và hint generation đều có thể giúp hệ thống hỗ trợ người học đúng lúc hơn. Nhưng một gia sư AI tốt không được định nghĩa bằng khả năng trả lời nhiều câu hỏi. Nó được định nghĩa bằng khả năng làm người học tự làm tốt hơn.

Điểm then chốt của chương là guardrails. AI tutor cần biết giữ lại nỗ lực học tập, giảm dần hỗ trợ, tránh làm hộ, minh bạch với giáo viên và được benchmark bằng retention/transfer sau khi hỗ trợ biến mất. Nếu không, tutoring AI chỉ làm người học hoàn thành bài nhanh hơn trong khi kỹ năng thật không lớn lên tương ứng.

Chương tiếp theo sẽ chuyển sang Analytics & Predictive AI. Nếu tutoring AI can thiệp vào từng người học, analytics nhìn ở cấp rộng hơn: lớp học, nhóm rủi ro, hành vi, cảm xúc, dự báo và quyết định can thiệp. Câu hỏi sẽ là: dữ liệu học tập giúp thấy gì, và khi nào nó chỉ tạo thêm giám sát?

Tài liệu tham khảo

Bastani, H., Bastani, O., Sungu, A., Ge, H., Kabakcı, O., & Mariman, R. (2025). Generative AI without guardrails can harm learning: Evidence from high school mathematics. Proceedings of the National Academy of Sciences, 122(26), e2422633122. https://doi.org/10.1073/pnas.2422633122
Duolingo. (2023/2026). Duolingo Max uses OpenAI's GPT-4 for new learning features. https://blog.duolingo.com/duolingo-max/
Guan, R., Raković, M., Chen, G., & Gašević, D. (2024). How educational chatbots support self-regulated learning? A systematic review of the literature. Education and Information Technologies. https://doi.org/10.1007/s10639-024-12881-y
Khan Academy. (2026). Meet Khanmigo: Khan Academy's AI-powered teaching assistant & tutor. https://www.khanacademy.org/khan-labs
Lu, Y., Tong, L., & Cheng, Y. (2024). Advanced knowledge tracing: Incorporating process data and curricula information via an attention-based framework for accuracy and interpretability. Journal of Educational Data Mining. https://doi.org/10.5281/zenodo.13712553
Son, T. (2024). Intelligent tutoring systems in mathematics education: A systematic literature review using the substitution, augmentation, modification, redefinition model. Computers, 13(10), 270. https://doi.org/10.3390/computers13100270
Šarić-Grgić, I., Grubišić, A., & Gašpar, A. (2024). Twenty-five years of Bayesian knowledge tracing: A systematic review. User Modeling and User-Adapted Interaction, 34, 1127-1173. https://doi.org/10.1007/s11257-023-09389-4