Chương 4: AI Đánh giá & Khảo thí

Lĩnh vực được đầu tư nhiều nhất — và gây tranh cãi nhất trong giáo dục.

---

Bối cảnh

Trong mọi lĩnh vực AI được áp dụng vào giáo dục, đánh giá (assessment) là nơi có nhiều tiền nhất, nhiều dữ liệu nhất, và nhiều tranh cãi nhất. Lý do đơn giản: đánh giá là nút thắt cổ chai của toàn bộ hệ thống giáo dục. Một giáo viên dạy 150 học sinh, mỗi tuần 3 bài kiểm tra, mỗi bài mất 5 phút chấm — tổng cộng 37 giờ/tuần chỉ để chấm bài. Đó là nhiều hơn thời gian dạy.

AI hứa hẹn giải quyết nút thắt này. Nhưng câu hỏi không phải "AI có chấm được bài không?" (có) mà là "AI chấm bài có công bằng không? Có đo đúng thứ cần đo không? Và có tạo ra những hệ quả ngoài ý muốn nào không?"

Justin Reich gọi đây là "Bẫy đánh giá định kỳ" (Assessment Trap): khi hệ thống chấm tự động chỉ xử lý được bài tập cấu trúc, chúng ta vô tình chỉ dạy và đánh giá những gì máy chấm được — bỏ qua tư duy phản biện, sáng tạo, và lập luận phức tạp (FTD, 2020).

---

4.1. Chấm điểm tự luận bằng AI — Hoạt động, nhưng có thể bị gaming

Automated Essay Scoring (AES) là công nghệ cũ nhất trong đánh giá AI — bắt đầu từ Project Essay Grade (PEG) của Ellis Page năm 1966. Sau gần 60 năm phát triển, AES hiện đại đạt mức đồng thuận với người chấm (Quadratic Weighted Kappa — QWK) khoảng 0.7-0.8. Để so sánh, hai người chấm thường đồng thuận ở mức tương tự. Về mặt thống kê, AI chấm "gần bằng" con người.

Nhưng "gần bằng" che giấu những vấn đề nghiêm trọng.

Gaming. Nghiên cứu cho thấy AES có thể bị lừa. Viết dài hơn thường được điểm cao hơn, bất kể chất lượng. Dùng từ vựng phức tạp và cấu trúc câu dài cũng tăng điểm — ngay cả khi logic yếu. Les Perelman, cựu giám đốc viết tại MIT, nổi tiếng với việc tạo ra các bài luận vô nghĩa nhưng được AES chấm điểm cao — chứng minh hệ thống đo hình thức, không đo nội dung.

Bias. AES được train trên data của raters — con người — và inherit mọi thiên kiến của họ. Nghiên cứu chỉ ra bias theo chủng tộc (bài viết của học sinh da đen bị chấm thấp hơn), giới tính (giọng văn "nam tính" được ưu tiên trong một số rubrics), và ngôn ngữ (sinh viên ESL bị bất lợi vì cách dùng ngữ pháp "không chuẩn").

Chấm ≠ Chữa. Đây là điểm then chốt: AES cho ra một CON SỐ, không cho ra FEEDBACK. Nhưng giá trị thực sự của đánh giá nằm ở phản hồi — "phần chữa" (correcting/feedback), không phải "phần chấm" (grading). Một con số 7/10 không giúp học sinh hiểu sai ở đâu, cần sửa gì, và làm thế nào để tiến bộ. Như conversation-1 đã chỉ ra: "Chấm" và "Chữa" là hai chữ khác nhau — và chữ "chữa" mới tạo giá trị.

Kết luận: AES hữu ích nhất khi dùng làm bộ lọc sơ bộ (first-pass filter), cho phép giáo viên tập trung thời gian vào phản hồi chi tiết cho những bài cần chú ý. Dùng AES thay thế giáo viên chấm bài = giảm chi phí nhưng mất giá trị cốt lõi.

---

4.2. Sinh đề tự động — Khi AI viết đề thi

Automated Item Generation (AIG) dùng AI để sinh câu hỏi kiểm tra tự động, thường dựa trên Item Response Theory (IRT) — lý thuyết mô hình hoá mỗi câu hỏi theo ba tham số: độ khó (difficulty), độ phân biệt (discrimination), và xác suất đoán đúng (guessing).

AI có thể sinh hàng nghìn câu hỏi matching target difficulty trong vài phút. Với GenAI, hệ thống còn có thể tạo context mới, thay đổi số liệu, và sinh distractors (đáp án sai nhưng hợp lý) tự động.

Hoạt động tốt ở đâu? Toán, khoa học tự nhiên, ngữ pháp — những lĩnh vực có đáp án xác định. AI sinh 50 biến thể của cùng một dạng bài Toán, mỗi biến thể có số liệu khác nhau, nhanh hơn người 100 lần.

Giới hạn ở đâu? Câu hỏi bậc cao (higher-order thinking). Clark & Mayer (ELSI) nhấn mạnh rằng "bài kiểm tra chuyển đổi" (transfer tests) — đo khả năng áp dụng kiến thức vào bối cảnh mới — quan trọng hơn nhiều so với "bài kiểm tra ghi nhớ" (recall tests). Nhưng AI chủ yếu sinh recall questions. Viết một câu hỏi đòi hỏi tư duy phản biện, phân tích đa chiều, hoặc sáng tạo — mức "Evaluate" và "Create" trong Bloom's Taxonomy — vẫn vượt khả năng AI hiện tại.

Assessment Trap (Reich): Nếu AI sinh đề dễ hơn, và đề AI sinh chủ yếu ở mức recall, hệ thống sẽ dần dịch chuyển về phía đánh giá recall — bỏ quên transfer. "Chúng ta chỉ dạy và đánh giá những gì máy chấm được" — vòng lặp nguy hiểm.

---

4.3. Đánh giá quá trình — Diff-checking & Cognitive Trace Analytics

Đây là hướng đi có lẽ hứa hẹn nhất trong đánh giá AI — và cũng ít được chú ý nhất. Thay vì chấm SẢN PHẨM cuối cùng (bài luận, bài thi), đánh giá quá trình theo dõi HÀNH TRÌNH tư duy.

Diff-checking: So sánh phiên bản 1, 2, 3 của cùng một bài luận. AI phân tích: học sinh thay đổi gì giữa các phiên bản? Sửa lỗi gì? Thêm ý gì? Bỏ ý gì? Sự thay đổi có cho thấy tư duy sâu hơn hay chỉ là sửa chính tả?

Cognitive Trace Analytics: Phân tích keystroke patterns, thời gian dành cho mỗi phần (time-on-task), pattern chỉnh sửa. Nghiên cứu cho thấy cách một người viết — pause ở đâu, sửa lại phần nào, mất bao lâu — tiết lộ nhiều về quá trình tư duy hơn là sản phẩm cuối.

Tại sao quan trọng? Vì nó biến "chấm bài" thành "đọc hành trình tư duy". Và trong kỷ nguyên GenAI, khi sản phẩm cuối có thể do AI tạo, quá trình trở thành thứ DUY NHẤT chứng minh học sinh thực sự tư duy. Một bài luận hoàn hảo xuất hiện trong 3 phút không cần revision = cờ đỏ. Một bài luận trung bình nhưng trải qua 5 phiên bản, mỗi phiên bản tốt hơn = bằng chứng học tập thực sự.

Giới hạn chính: privacy (theo dõi keystroke = surveillance?) và chi phí thiết kế. Nhưng đây là hướng đi phù hợp nhất với triết lý "đo quá trình, không đo sản phẩm".

---

4.4. Phát hiện đạo văn & AI-Authorship Detection — Cuộc đua không hồi kết

Kể từ ChatGPT, câu hỏi "bài này do AI viết hay do học sinh viết?" trở thành ám ảnh của giáo dục toàn cầu. Turnitin, GPTZero, và hàng chục công cụ khác hứa hẹn giải đáp.

Thực tế phũ phàng hơn nhiều.

AI detector hoạt động thế nào? Chúng đo hai chỉ số: perplexity (mức độ "bất ngờ" của từng từ — AI viết "dự đoán được" hơn) và burstiness (biến thiên độ dài câu — con người viết "lúc dài lúc ngắn" hơn AI). Dựa trên hai chỉ số này, detector đưa ra XÁC SUẤT — không phải kết luận. "65% khả năng AI-generated" không phải bằng chứng.

False positives — vấn đề nghiêm trọng nhất. Nghiên cứu liên tục cho thấy AI detectors flag SAI bài viết của sinh viên ESL (English as Second Language) và non-native speakers. Lý do: sinh viên ESL viết cẩn thận hơn, dùng cấu trúc chuẩn mực hơn, ít "lỗi sáng tạo" — và detector nhầm sự chính xác này với output AI. Hậu quả: sinh viên quốc tế bị buộc tội gian lận vì viết quá "đúng ngữ pháp". UCLA và nhiều trường đại học đã ngừng dùng AI detectors cho mục đích kỷ luật.

Arms race. Models AI ngày càng viết giống người → detectors ngày càng kém → detectors update → AI update → vô tận. Paraphrasing tools, prompt engineering ("viết như học sinh lớp 10"), và chỉnh sửa thủ công đều dễ dàng qua mặt detector.

Hướng đi đúng: Chuyển từ detection (phát hiện gian lận) sang process-based assessment (đánh giá quá trình) — viết tại lớp, thi vấn đáp, yêu cầu version history, hoặc dùng Cognitive Trace Analytics (mục 4.3). Không chạy đua vũ trang với AI, mà thay đổi cách đánh giá.

---

4.5. Đánh giá tàng hình — Đo năng lực không gây áp lực thi cử

Stealth Assessment — khái niệm do Valerie Shute (Florida State University) phát triển — đo năng lực TRONG QUÁ TRÌNH hoạt động, không qua bài thi riêng biệt. Học sinh chơi game, giải simulation, hoặc thực hiện dự án — và hệ thống âm thầm thu thập dữ liệu về năng lực.

Nền tảng lý thuyết: Evidence-Centered Design (ECD) — khung thiết kế đánh giá dựa trên 3 câu hỏi: 1. Đo năng lực gì? (Competency Model) 2. Bằng chứng nào cho thấy năng lực đó? (Evidence Model) 3. Thu thập bằng chứng bằng cách nào? (Task Model)

Ví dụ: Physics Playground (FSU) — học sinh giải bài toán vật lý bằng cách vẽ đường trong game. Hệ thống đo: bao nhiêu lần thử, chiến lược giải quyết vấn đề nào, chuyển từ chiến lược yếu sang mạnh mất bao lâu. Không có bài thi, không có điểm áp lực, nhưng AI thu thập đủ dữ liệu để đánh giá problem-solving ability.

Ưu điểm: Giảm test anxiety — căng thẳng thi cử ảnh hưởng nghiêm trọng đến kết quả, đặc biệt với học sinh yếu (trong khi test anxiety KHÔNG đo năng lực). Đo performance TRONG bối cảnh tự nhiên, gần với "transfer" thực tế hơn bài thi giấy.

Giới hạn: Cực kỳ phức tạp để thiết kế. Mỗi game/simulation cần Evidence Model riêng, mỗi domain cần Task Model riêng. Không scalable dễ dàng. Hiện tại chủ yếu ở giai đoạn nghiên cứu, chưa phổ biến trong thực tế.

---

4.6. Sáu phương pháp đánh giá đột phá

Ngoài các công nghệ đánh giá "mainstream", có 6 phương pháp — được phát triển hoặc tổng hợp từ thực tiễn triển khai và nghiên cứu — chuyển đổi đánh giá từ "chấm điểm" sang "tạo giá trị học tập".

AI Grouping — Gom lỗi, chấm nhóm (Mô hình Gradescope)

Thay vì chấm từng bài riêng lẻ, AI phân cụm (cluster) các câu trả lời tương tự thành nhóm. Giáo viên chấm một lần cho cả nhóm. Nếu 200 bài có 15 nhóm lỗi, giáo viên chấm 15 lần thay vì 200. Độ phức tạp chuyển từ O(n) thành O(k), với k rất nhỏ so với n.

Gradescope (Turnitin) áp dụng mô hình này cho bài thi STEM: AI nhận diện pattern trong bài làm, đề xuất nhóm, giáo viên duyệt và chấm. Giảm thời gian chấm 60-80% mà vẫn giữ giáo viên trong vòng lặp.

Peer Assessment + AI Moderator — Chấm chéo có trọng tài AI (Mô hình Peerceptiv)

Học sinh chấm bài cho nhau theo rubric. AI đóng vai trọng tài: kiểm tra chất lượng người chấm (rater reliability), phát hiện chấm thiên vị hoặc cẩu thả, và flag bài cần giáo viên review.

Nghiên cứu cho thấy Peer Assessment hoạt động: khi có rubric rõ ràng, điểm chấm chéo tương quan cao với điểm giáo viên. Quan trọng hơn, chính quá trình chấm bài người khác là một hoạt động HỌC TẬP — đọc bài người khác buộc phải so sánh, phân tích, đánh giá. Bloom's Taxonomy: "Evaluate" là bậc cao hơn "Apply".

Workload giáo viên giảm từ 100% xuống ~10% (chỉ review flagged cases). AI không thay thế giáo viên — AI thay thế phần lặp, giáo viên tập trung vào phần khó.

Reverse Grading — Chấm ngược

AI sinh bài làm có lỗi cố ý — lỗi logic, lỗi tính toán, lỗi lập luận. Học sinh phải tìm lỗi, giải thích tại sao sai, và đề xuất cách sửa.

Đây là phương pháp đẩy đánh giá lên mức "Evaluate" trong Bloom's Taxonomy — mức mà AES và AIG không chạm tới. Tìm lỗi trong bài người khác đòi hỏi hiểu BẢN CHẤT vấn đề, không chỉ biết quy trình.

Reflective Assessment — Tự đánh giá trước khi AI chấm

Học sinh tự chấm điểm bài mình TRƯỚC KHI nộp cho AI chấm. Sau đó so sánh tự chấm vs AI chấm. Sự chênh lệch — nếu có — tạo ra "cú sốc nhận thức" phá vỡ illusion of knowing (Brown et al., Make It Stick).

Ví dụ: học sinh tự cho 8/10, AI cho 5/10. Câu hỏi tự nhiên: "Tôi đã tự tin nhầm ở đâu?" Đây chính là Calibration — một trong những kỹ năng quan trọng nhất mà Make It Stick nhấn mạnh: khả năng tự đánh giá chính xác mức hiểu biết của mình.

Mastery Learning Loops — Chấm-chữa lặp vô hạn

Benjamin Bloom (1984) chứng minh: nếu học sinh được học ở tốc độ riêng, được làm lại bài và nhận phản hồi cho đến khi đạt "mastery" (tinh thông), kết quả cải thiện 2 độ lệch chuẩn (2-sigma) — nghĩa là học sinh trung bình sẽ đạt mức top 2%.

Vấn đề: con người không thể chấm-chữa lặp vô hạn. Giáo viên chấm 1 lần đã mệt, chấm 5 lần là không thể. Nhưng AI thì có thể. AI chấm lần 1 → feedback → học sinh sửa → AI chấm lần 2 → feedback → lặp lại cho đến khi đạt tiêu chuẩn. Đây là ứng dụng AI có cơ sở lý thuyết mạnh nhất — và là lý do nhiều người tin AI có thể giải bài toán 2-Sigma (sẽ phân tích sâu trong Chương 5).

Socratic Scaffolding — Hỏi ngược thay vì cho đáp án

Khi học sinh nộp bài sai, thay vì đưa đáp án đúng, AI đặt câu hỏi gợi mở: "Bạn có chắc bước 3 đúng không? Thử kiểm tra lại với giá trị khác xem?"

Đây là áp dụng Vùng Phát triển Gần nhất (ZPD) của Vygotsky: điểm mà học sinh có thể đạt được VỚI sự hỗ trợ, nhưng chưa thể tự mình. AI đóng vai giàn giáo (scaffold) — nâng đỡ vừa đủ để học sinh tự leo, không phải thang máy đưa thẳng lên đỉnh.

Ranh giới quan trọng: scaffold (giàn giáo = học sinh vẫn phải leo) vs elevator (thang máy = AI làm hộ). Khi AI cho luôn đáp án, đó là thang máy — không có học tập xảy ra. Khi AI hỏi ngược, đó là giàn giáo — học sinh buộc phải tư duy.

---

Phân tích phản biện — Những gì còn thiếu

AES/AIG thiên về đo lường, thiếu về phát triển. Cả hai đều cho ra con số — nhưng mục tiêu giáo dục không phải con số, mà là sự tiến bộ. 6 phương pháp đột phá (4.6) đi theo hướng khác: biến đánh giá thành hoạt động học tập.

Công bằng vẫn là lỗ hổng lớn. AES bias theo chủng tộc/ngôn ngữ. AI detectors flag sai ESL. Stealth Assessment chỉ hoạt động ở trường có hạ tầng. Câu hỏi: ai được hưởng lợi từ AI đánh giá, và ai bị thiệt?

Assessment Trap vẫn chưa có giải pháp hệ thống. Chừng nào AI chỉ chấm được câu hỏi cấu trúc, chừng đó hệ thống vẫn dịch chuyển về phía recall thay vì transfer. 6 phương pháp đột phá là nỗ lực phá vỡ vòng lặp — nhưng cần hệ thống chính sách hỗ trợ.

---

Nguyên tắc thiết kế

1. "Chữa" quan trọng hơn "Chấm": AI chấm cho ra số, nhưng phản hồi mới tạo giá trị. Ưu tiên hệ thống cho feedback chi tiết hơn hệ thống cho điểm. 2. Đo quá trình, không chỉ sản phẩm: Diff-checking và Cognitive Trace tốt hơn chấm bài cuối — đặc biệt trong kỷ nguyên GenAI. 3. Dùng AES làm bộ lọc, không làm thẩm phán: Sơ lọc + flag, giáo viên quyết định cuối cùng. 4. Chấm chéo là hoạt động học: Peer Assessment + AI Mod = giảm workload VÀ tăng deep learning. 5. Không chạy đua vũ trang với AI detectors: Thay đổi cách đánh giá (process-based) thay vì cố gắng bắt AI.

---

Tổng kết chương

1. AES hoạt động ở mức "chấp nhận được" nhưng có thể bị gaming và mang bias — tốt nhất dùng bổ sung, không thay thế.

2. AIG hiệu quả cho recall, nhưng tạo Assessment Trap — dịch chuyển hệ thống về phía đánh giá bậc thấp.

3. Đánh giá quá trình (Cognitive Trace) là hướng đi phù hợp nhất cho kỷ nguyên GenAI — khi sản phẩm cuối có thể do AI tạo, quá trình là bằng chứng duy nhất.

4. AI detectors không đáng tin và bias nghiêm trọng đối với ESL — cần chuyển sang process-based assessment.

5. 6 phương pháp đánh giá đột phá biến đánh giá thành hoạt động học tập — từ AI Grouping (giảm workload) đến Socratic Scaffolding (giàn giáo tư duy).

6. "Chấm" và "Chữa" là hai chữ khác nhau — và chữ "chữa" mới tạo giá trị. AI giỏi "chấm" nhưng giá trị thực nằm ở "chữa".

Chương tiếp theo — Chương 5 — sẽ đi vào hệ thống gia sư AI (ITS) và câu hỏi lớn nhất: liệu AI có thể giải bài toán 2-Sigma của Bloom?

---

Tài liệu tham khảo

Reich, J. (2020). Failure to Disrupt. Harvard University Press. [Assessment Trap, Ch. 3-4]
Clark, R.C. & Mayer, R.E. (2016). e-Learning and the Science of Instruction. Wiley. [Transfer tests vs recall tests]
Brown, P.C., Roediger, H.L., & McDaniel, M.A. (2014). Make It Stick. Harvard University Press. [Illusion of knowing, Calibration]
Bloom, B.S. (1984). "The 2-Sigma Problem: The Search for Methods of Group Instruction as Effective as One-to-One Tutoring." Educational Researcher, 13(6), 4-16.
Shute, V.J. (2011). "Stealth Assessment in Computer-Based Games to Support Learning." In Computer Games and Instruction. Information Age Publishing.
Shute, V.J. & Ventura, M. (2013). Stealth Assessment: Measuring and Supporting Learning in Video Games. MIT Press.
Page, E.B. (1966). "The imminence of grading essays by computer." Phi Delta Kappan.
Perelman, L. (2014). "When 'ichyest' is Correct: The Need for Humanistic Assessment in an Age of Automation." Journal of Writing Assessment.
Turnitin/Gradescope. AI-assisted grading and grouping documentation.
Peerceptiv. Peer assessment platform research documentation.
UCLA Center for Teaching & Learning. (2024). Guidelines on AI detection tools.
GPTZero. Technical documentation on perplexity and burstiness metrics.
Vygotsky, L.S. (1978). Mind in Society: The Development of Higher Psychological Processes. Harvard University Press.