Chương 6: Assessment & Evaluation AI

Bối cảnh / Vấn đề

Nếu Chương 5 bàn về AI tạo nội dung, Chương 6 đi vào nơi nhạy cảm hơn: AI đo năng lực. Nội dung sai có thể sửa. Nhưng đánh giá sai có thể làm lệch lộ trình học, làm giáo viên hiểu nhầm người học, làm tổ chức ra quyết định sai, hoặc làm một người bị gắn nhãn yếu kém khi vấn đề thật nằm ở thiết kế bài kiểm tra.

Đánh giá là trung tâm của EdTech vì hệ thống sẽ tối ưu theo thứ được đo. Nếu đo số câu đúng, hệ thống sẽ đẩy luyện câu đúng. Nếu đo thời lượng học, hệ thống sẽ tối ưu giữ người học ở lại màn hình. Nếu đo điểm cuối kỳ, giáo viên và học sinh sẽ ưu tiên thứ xuất hiện trong bài thi. Nếu đo năng lực chuyển giao, phản tư, tiến bộ cá nhân và khả năng dùng phản hồi, thiết kế học tập sẽ khác hẳn.

AI làm đánh giá hấp dẫn vì nó hứa giảm một nút thắt lâu đời: chấm bài tốn thời gian. Giáo viên không có đủ giờ để viết phản hồi cá nhân cho mọi bài luận, bài nói, bài lập trình, bản thiết kế hay sản phẩm dự án. AI có thể sinh câu hỏi, chấm câu trả lời, tạo phản hồi, gom lỗi, phát hiện mẫu, gợi bài luyện tiếp theo và hỗ trợ tự đánh giá.

Nhưng chính ở đây, tiêu chuẩn phải cao hơn. Một hệ thống tạo nội dung có thể được xem là trợ lý soạn nháp. Một hệ thống đánh giá lại có quyền ảnh hưởng đến điểm số, cơ hội, tự tin, nhãn năng lực và quyết định can thiệp. Vì vậy, Assessment & Evaluation AI không thể được đánh giá bằng “có vẻ đúng” hay “giống giáo viên”. Nó cần các chuẩn: validity, reliability, fairness, transparency, actionability và contestability.

Chương này xem AI trong đánh giá qua bảy nhóm: sinh câu hỏi, chấm tự động, phản hồi tự động, đánh giá quá trình, stealth/ipsative/asset-based assessment, academic integrity và các kỹ thuật đánh giá mới. Điểm nhấn là benchmark: khi nào một hệ thống đánh giá AI đủ đáng tin để dùng.

Automated Item Generation

Automated Item Generation (AIG) là việc dùng mô hình, quy tắc hoặc AI để tạo câu hỏi, đề bài, đáp án, distractor, rubric hoặc biến thể bài kiểm tra. Trước GenAI, AIG thường dựa vào template, ngân hàng tri thức và quy tắc sinh câu hỏi. Với LLM, việc tạo câu hỏi trở nên linh hoạt hơn nhiều: từ một mục tiêu học tập, hệ thống có thể sinh câu hỏi trắc nghiệm, tự luận ngắn, tình huống, bài toán, câu hỏi phân biệt khái niệm, câu hỏi nhiều mức Bloom hoặc bài tập theo lỗi sai.

Giá trị thực tế của AIG nằm ở ba điểm: giảm chi phí duy trì ngân hàng câu hỏi, hỗ trợ cá nhân hóa luyện tập, và giảm rủi ro lộ đề trong môi trường số nhờ tạo biến thể thay vì dùng lại cùng một câu.

Tuy nhiên, câu hỏi nhiều hơn không có nghĩa là đánh giá tốt hơn. Một systematic literature review về AIG cho educational assessments, tổng hợp 71 bài từ 2010 đến 2024, cho thấy phần lớn item được tạo vẫn là multiple-choice, tập trung nhiều vào computer science và medical sciences ở bậc đại học hoặc nghề; các mô hình đánh giá chất lượng item gồm manual annotation, man-machine collaborative evaluation, item analysis, Turing test và value-added models (Song, Du, & Zheng, 2025). Nói cách khác, AIG vẫn đang mạnh ở một số dạng và bối cảnh hơn là một năng lực phổ quát.

Các nghiên cứu LLM mới cũng cho thấy giới hạn. Chan và cộng sự khảo sát việc dùng LLM prompting để sinh item trong nhiều môn STEM và lưu ý rủi ro hallucination, misconception và chất lượng câu hỏi không ổn định khi mô hình thiếu hiểu biết khái niệm sâu (Chan et al., 2024). Đây là điểm cốt lõi: một câu hỏi có ngữ pháp tốt, đáp án trông hợp lý và bốn lựa chọn cân đối vẫn có thể đo sai mục tiêu.

AIG tốt phải bắt đầu từ assessment blueprint, không bắt đầu từ prompt rời rạc. Blueprint trả lời: mục tiêu nào cần đo, cấp độ nhận thức nào, kiến thức nền nào, loại sai lầm nào cần phát hiện, độ khó mong muốn, định dạng nào phù hợp, và kết quả sẽ dùng để làm gì. Nếu thiếu blueprint, AIG rất dễ tạo ra một rừng câu hỏi đẹp nhưng không đại diện cho năng lực cần đo.

Trong thực hành, AIG nên có vòng kiểm định: sinh item, rà kiến thức, rà ngôn ngữ, rà bias, thử với mẫu nhỏ, phân tích độ khó và độ phân biệt, loại item kém, rồi theo dõi item drift theo thời gian. Với high-stakes assessment, AI chỉ nên là công cụ hỗ trợ người viết đề, không phải người quyết định cuối.

Automated Scoring

Automated scoring gồm chấm trắc nghiệm, câu trả lời ngắn, tự luận, bài nói, bài viết, lập trình, sản phẩm mở và đôi khi cả tương tác trong mô phỏng. Mỗi loại có độ rủi ro khác nhau. Chấm trắc nghiệm có đáp án rõ là bài toán tương đối ổn định. Chấm bài luận, bài nói hoặc sản phẩm sáng tạo thì phức tạp hơn vì câu trả lời có nhiều đường đúng, nhiều tiêu chí và nhiều yếu tố văn hóa-ngôn ngữ.

Trong ngôn ngữ và viết, automated essay scoring (AES) có lịch sử dài. LLM làm AES hấp dẫn hơn vì nó có thể đọc rubric, giải thích điểm, phản hồi theo tiêu chí và xử lý nhiều thể loại văn bản hơn các hệ thống dựa trên feature cũ. Nhưng validity và reliability vẫn là câu hỏi lớn. Pack, Barrett và Escalante đánh giá bốn LLM trong chấm bài viết của English language learners; GPT-4 thể hiện tốt nhất trong nghiên cứu đó, nhưng các mô hình có dao động hiệu năng theo thời gian, và không phải mô hình nào cũng đáng tin như nhau (Pack, Barrett, & Escalante, 2024). Với đánh giá thật, sự dao động này không phải chi tiết kỹ thuật nhỏ; nó ảnh hưởng đến công bằng.

Trong khoa học, Lee và cộng sự dùng GPT-3.5, GPT-4 và nhiều chiến lược prompting để chấm câu trả lời viết của học sinh trên sáu nhiệm vụ khoa học, với 1.650 phản hồi. Few-shot tốt hơn zero-shot; chain-of-thought chỉ thực sự giúp khi đi cùng stem và rubric; GPT-4 nhìn chung tốt hơn GPT-3.5 trong các thiết lập của nghiên cứu (Lee et al., 2024). Bài học không phải là “GPT-4 chấm được”, mà là: chấm tự động phụ thuộc mạnh vào rubric, ngữ cảnh item, ví dụ mẫu, chiến lược lấy mẫu và quy trình kiểm định.

Automated scoring có thể dùng ở nhiều mức: hỗ trợ giáo viên, formative assessment hoặc summative assessment. Càng tiến gần điểm chính thức, chuẩn kiểm định càng nghiêm.

Một benchmark tối thiểu cho automated scoring không chỉ là tương quan với điểm giáo viên. Cần xem inter-rater reliability giữa AI và nhiều giám khảo, intra-rater reliability của chính AI qua nhiều lần chạy, bias theo nhóm người học, calibration theo rubric, độ ổn định khi prompt thay đổi, khả năng giải thích điểm, và tỷ lệ trường hợp cần human review. Nếu AI chấm đúng trung bình nhưng luôn thấp điểm hơn với người học dùng tiếng Anh như ngôn ngữ thứ hai, hệ thống không đạt chuẩn công bằng dù accuracy tổng thể cao.

Giáo viên cũng không hoàn hảo: chấm người có noise, mệt mỏi, thiên kiến và lệch rubric. Vì vậy, benchmark không phải “AI có giống một giáo viên bất kỳ không?”, mà là “AI có giúp hệ thống chấm công bằng, nhất quán, có thể giải thích và có thể khiếu nại tốt hơn baseline hiện tại không?”.

Feedback tự động

Chấm điểm trả lời câu hỏi “bài này được bao nhiêu?”. Feedback trả lời câu hỏi quan trọng hơn: “người học nên làm gì tiếp?”. Một hệ thống AI đánh giá tốt không dừng ở điểm. Nó phải biến kết quả thành hành động học tập: sửa lỗi nào, luyện gì, xem lại khái niệm nào, thử chiến lược nào, khi nào quay lại kiểm tra.

Bằng chứng về feedback số tích cực nhưng không đơn giản. Brummer và cộng sự meta-analysis 116 can thiệp feedback số, thấy hiệu ứng tổng thể Hedges' g = 0.41, nhưng hiệu quả thay đổi theo feedback focus, môn học, loại đánh giá, learner control và các yếu tố khác; khi điều chỉnh publication bias, ước tính có thể thấp hơn đáng kể trong một phân tích trim-and-fill (Brummer et al., 2024). Điều này nhắc rằng “có feedback” không đủ. Loại feedback, thời điểm, mức chi tiết và khả năng hành động mới là phần quyết định.

Feedback AI có một lợi thế lớn: nó có thể tức thời và nhiều vòng. Người học viết một đoạn, nhận góp ý, sửa, nhận phản hồi tiếp, so sánh phiên bản, rồi phản tư về tiến bộ. Với bài nói, lập trình hoặc toán, hệ thống có thể phản hồi vào lỗi cụ thể thay vì chỉ báo đúng sai.

Nhưng feedback tự động cũng có ba bẫy. Bẫy thứ nhất là quá nhiều. Một bài viết nhận hai mươi gạch đầu dòng góp ý có thể làm người học tê liệt. Bẫy thứ hai là làm thay. Nếu phản hồi biến thành câu sửa hoàn chỉnh, người học chỉ chấp nhận thay đổi mà không hiểu. Bẫy thứ ba là sai trọng tâm. AI có thể sửa ngữ pháp bề mặt trong khi vấn đề chính là lập luận, hoặc khen cấu trúc trong khi nội dung sai.

Feedback tốt cần đúng lúc, đúng mức và có thể hành động. Với người mới, phản hồi nên tập trung vài lỗi có sức ảnh hưởng cao. Với người trung cấp, phản hồi có thể yêu cầu tự giải thích hoặc so sánh lựa chọn. Với người giỏi, phản hồi nên thách thức tiêu chuẩn cao hơn và nối với mục tiêu chuyển giao.

Một nguyên tắc quan trọng: feedback không nên thay thế metacognition. Trước khi nhận phản hồi, người học có thể tự đánh giá phần mạnh, phần yếu và chiến lược đã dùng. Sau phản hồi, hệ thống nên yêu cầu họ chọn một hành động sửa cụ thể. Như vậy, AI không chỉ nói lỗi; nó dạy người học học từ lỗi.

Process-Focused Assessment

Đánh giá truyền thống thường nhìn sản phẩm cuối: bài nộp, điểm thi, đáp án. Nhưng trong môi trường số, ta có thể thấy quá trình: lịch sử chỉnh sửa, số lần thử, loại gợi ý đã dùng, phản ứng với feedback, prompt viết cho AI, phiên bản trước-sau và thảo luận nhóm.

Process-focused assessment không hỏi chỉ “kết quả là gì?”, mà hỏi “người học đi đến kết quả đó bằng cách nào?”. Hai bài luận cùng điểm có thể phản ánh hai quá trình rất khác: một người lập dàn ý, viết, nhận phản hồi, sửa lập luận; người kia tạo một bản gần hoàn chỉnh bằng AI rồi chỉnh nhẹ. Hai lời giải toán cùng đúng có thể khác ở mức hiểu: một người chọn chiến lược phù hợp, người kia đoán theo mẫu.

Trong kỷ nguyên GenAI, process evidence trở nên quan trọng hơn vì sản phẩm cuối dễ được máy hỗ trợ. Điều này không có nghĩa phải giám sát toàn diện. Nó có nghĩa là nhiệm vụ nên thu thập bằng chứng học tập ở các điểm có ý nghĩa: dự đoán ban đầu, lựa chọn chiến lược, bản nháp, phản hồi đã dùng, lý do sửa và phản tư.

Xia và cộng sự, trong scoping review về GenAI và assessment ở higher education, cho rằng đánh giá cần chuyển để nuôi dưỡng self-regulated learning, responsible learning và integrity; đồng thời giáo viên cần professional development về assessment, AI và digital literacy (Xia et al., 2024). Đây là một tín hiệu quan trọng: vấn đề không chỉ là dùng AI để chấm nhanh hơn, mà là thiết kế lại đánh giá để người học thể hiện quá trình học có trách nhiệm.

Tuy nhiên, process-focused assessment có rủi ro quyền riêng tư. Không phải mọi click đều đáng thu. Không phải mọi khoảng dừng đều có nghĩa. Dữ liệu quá trình dễ bị diễn giải quá mức: người học dừng lâu có thể đang suy nghĩ sâu, mất tập trung, hoặc bị gián đoạn ngoài đời. Vì vậy, chỉ nên thu dữ liệu phục vụ quyết định sư phạm rõ, giải thích cho người học biết, và cho họ quyền hiểu hoặc phản biện diễn giải.

Stealth, Ipsative và Asset-Based Assessment

Stealth assessment là đánh giá được nhúng vào hoạt động thật hoặc môi trường giàu tương tác, như game, mô phỏng, lab ảo hoặc tình huống nhập vai. Người học không tách khỏi hoạt động để “làm bài kiểm tra”; hệ thống suy luận năng lực từ hành động trong nhiệm vụ. Trong giáo dục y khoa, stealth assessment được xem là cách đo tiến bộ trong hoạt động xác thực hơn, giảm lo âu kiểm tra và có thể chạm đến kỹ năng phi nhận thức như empathy hoặc ethical decision-making (Habibi et al., 2024).

Điểm mạnh của stealth assessment là nó gần với performance thật hơn bài thi tách rời. Nếu cần đánh giá ra quyết định trong ca phức tạp, xử lý sự cố, giải quyết vấn đề trong mô phỏng hoặc hợp tác thiết kế sản phẩm, dữ liệu hành động có thể giàu hơn câu hỏi trắc nghiệm.

Nhưng stealth assessment chỉ đáng tin khi mô hình suy luận rõ. Hành động nào là bằng chứng của năng lực nào? Một lựa chọn trong mô phỏng có thể có nhiều lý do. Người học đi đường vòng có thể vì chưa hiểu, hoặc vì đang khám phá. Nếu hệ thống chấm quá tự tin từ dữ liệu hành vi mơ hồ, nó tạo “điểm số bí mật”. Stealth không được đồng nghĩa với opaque.

Ipsative assessment so người học với chính họ theo thời gian. Thay vì chỉ hỏi “em đứng thứ mấy so với lớp?”, nó hỏi “em đã tiến bộ thế nào so với chính mình?”. Trong môi trường AI, ipsative assessment có thể hiển thị phiên bản bài viết trước-sau, đường tiến bộ kỹ năng, lỗi đã giảm, chiến lược đã thay đổi và mục tiêu tiếp theo. Nghiên cứu về screencast-based ipsative assessment trong viết EFL cho thấy hướng này có thể tạo phản hồi cá nhân hóa và hỗ trợ phát triển viết, dù vẫn cần thiết kế đối thoại tốt hơn (Ebrahimi & Ebadi, 2024).

Asset-based assessment đi thêm một bước: không chỉ tìm lỗi thiếu, mà phát hiện nguồn lực người học đã có. Ocumpaugh và cộng sự phê bình AIED thường đi theo deficit model: phát hiện thiếu hụt rồi sửa. Họ đề xuất asset-based paradigm, trong đó hệ thống nhận diện và xây trên funds of knowledge, chiến lược, động lực, kinh nghiệm, mạng lưới và thế mạnh của người học (Ocumpaugh et al., 2024). Đây là chỉnh hướng đạo đức quan trọng. Một dashboard chỉ toàn “yếu ở đâu” có thể làm nghèo hình ảnh về người học. Một dashboard tốt cũng cho thấy người học làm tốt gì, dựa vào đâu để tiến lên.

Academic Integrity trong kỷ nguyên GenAI

GenAI làm nhiều bài đánh giá truyền thống mất khả năng phân biệt. Bài take-home essay, summary, short answer, proposal hoặc code assignment đơn giản giờ có thể được tạo với chất lượng đủ cao để vượt qua nhiều tiêu chí cũ. Nếu trường học chỉ phản ứng bằng AI detector, họ sẽ rơi vào cuộc đua khó thắng: mô hình sinh tốt hơn, công cụ paraphrase nhiều hơn, detector có false positive, và người học trung thực có thể bị nghi ngờ.

Xia và cộng sự ghi nhận academic integrity là một trong những thách thức nổi bật của GenAI trong assessment ở higher education; đồng thời review này đề xuất chuyển đánh giá để phát triển self-regulated learning, responsible learning và integrity, không chỉ truy bắt gian lận (Xia et al., 2024). Lye và Lim cũng nhấn mạnh rằng assessment redesign cần đi xa hơn nỗi lo đạo văn, vì GenAI còn có bias, hallucination và các vấn đề về tính xác thực của bằng chứng học tập (Lye & Lim, 2024).

Câu hỏi đúng không phải “làm sao cấm AI hoàn toàn?”, vì trong nhiều ngành nghề, AI sẽ là công cụ làm việc thật. Câu hỏi đúng là “nhiệm vụ này đang đánh giá năng lực nào, và mức dùng AI nào phù hợp với năng lực đó?”. Có nhiệm vụ cần AI-free để đo truy hồi hoặc kỹ năng nền. Có nhiệm vụ nên AI-permitted để đo khả năng dùng công cụ, kiểm chứng, chỉnh sửa và chịu trách nhiệm.

Academic integrity vì vậy chuyển từ bài toán phát hiện sang bài toán thiết kế. Một assignment tốt trong kỷ nguyên GenAI nên nêu rõ: AI được dùng ở đâu, phải khai báo thế nào, phần nào là đóng góp cá nhân, bằng chứng quá trình gồm gì, tiêu chí đánh giá chú trọng gì, và người học phải bảo vệ quyết định của mình ra sao.

Sáu kỹ thuật đánh giá mới

Error clustering dùng AI gom lỗi hoặc bài làm theo mẫu: nhầm khái niệm, thiếu bằng chứng, lỗi lập luận, sai bước biến đổi, dùng công thức không phù hợp. Giáo viên phản hồi theo cụm, rồi cá nhân hóa ở điểm quan trọng.

Peer assessment với AI moderator giữ giá trị học từ việc chấm bài người khác, nhưng dùng AI để hỗ trợ rubric, phát hiện phản hồi quá ngắn, chỉ ra lệch điểm, gợi câu hỏi làm rõ và giúp giáo viên kiểm tra chất lượng chấm chéo. AI không thay thế peer learning; nó làm chấm chéo bớt hỗn loạn hơn.

Reverse grading yêu cầu người học chấm, sửa hoặc phản biện một bài sai, có thể là bài do AI cố ý tạo lỗi. Kỹ thuật này đưa người học lên tầng phân tích: họ phải nhận ra tiêu chí, phát hiện lỗi, giải thích vì sao sai và đề xuất sửa. Đây là cách biến lỗi thành đối tượng học.

Socratic scaffolding dùng AI hỏi gợi mở thay vì trả đáp án. Khi người học sai, hệ thống hỏi về giả định, dữ kiện liên quan, phản ví dụ hoặc bước chưa được chứng minh. Kỹ thuật này phù hợp khi mục tiêu là reasoning chứ không chỉ đáp án.

Mastery loops nối chấm, chữa, luyện lại và kiểm tra lại. AI giúp giảm chi phí vòng lặp này: phát hiện lỗi, đề xuất bài luyện đúng điểm yếu, kiểm tra lại sau khoảng trì hoãn. Nhưng mastery không nên bị hiểu là làm quiz đến khi đúng; nó phải gồm hiểu lỗi, sửa chiến lược và dùng được trong biến thể mới.

Reflective assessment yêu cầu người học giải thích quá trình, chiến lược, quyết định, cách dùng phản hồi và tiến bộ của mình. Trong kỷ nguyên AI, reflection buộc người học nối sản phẩm với nhận thức cá nhân.

Tiêu chí benchmark / Cách đánh giá

Với Assessment & Evaluation AI, benchmark phải tách theo mục đích sử dụng. Một công cụ dùng cho formative feedback có thể chấp nhận rủi ro khác công cụ dùng để quyết định điểm cuối kỳ, lên lớp, cấp chứng chỉ hoặc tuyển chọn.

Một: baseline là gì? So AI với chấm tay hiện tại, với nhiều giám khảo đã chuẩn hóa, với phiên bản không AI, hay với một can thiệp feedback tốt? AI dễ trông hiệu quả nếu baseline là “không có phản hồi”. Nó khó hơn nếu baseline là giáo viên giỏi dùng rubric rõ.

Hai: validity. Hệ thống có đo đúng construct cần đo không? Nếu bài viết được chấm chủ yếu theo độ dài, từ vựng học thuật và ngữ pháp, nó có thể bỏ qua tư duy, cấu trúc lập luận hoặc hiểu biết nội dung. Kaldaras, Akaeze và Reckase nhấn mạnh rằng trong kỷ nguyên GenAI, assessment validity cần được xem lại theo khả năng đo knowledge application và phát triển nhận thức, không chỉ sản phẩm dễ chấm (Kaldaras, Akaeze, & Reckase, 2024).

Ba: reliability. Hệ thống có ổn định qua nhiều lần chấm, nhiều phiên bản mô hình, nhiều prompt và nhiều nhóm bài không? Với LLM, cùng một input có thể cho output hơi khác. Nếu điểm chính thức phụ thuộc vào lần chạy, đó là rủi ro.

Bốn: fairness. Sai số có phân bố đều không? Có nhóm người học nào bị chấm khắt khe hơn vì ngôn ngữ, phương ngữ, phong cách viết, nền văn hóa, khuyết tật, hoặc cách diễn đạt không giống dữ liệu huấn luyện không?

Năm: actionability. Kết quả có dẫn đến hành động học tập không? Một điểm 7/10 ít giá trị hơn phản hồi chỉ ra lỗi chính và bước sửa tiếp theo.

Sáu: transparency và contestability. Người học và giáo viên có hiểu vì sao có điểm đó không? Có quyền yêu cầu chấm lại không? Có thể thấy rubric, bằng chứng và giới hạn của hệ thống không?

Bảy: cost và workload thật. AI có giảm tải tổng thể không, hay chỉ chuyển việc từ chấm bài sang kiểm lỗi AI, xử lý khiếu nại, viết prompt và sửa rubric?

Tám: learning impact. Công cụ có cải thiện retention, transfer, chất lượng sửa bài hoặc năng lực dùng phản hồi không? Nếu chỉ tăng tốc trả điểm, nó chưa chắc cải thiện học tập.

Phân tích phản biện

Rủi ro lớn nhất của AI assessment là biến cái dễ chấm thành cái đáng học. Nếu AI chấm tốt ngữ pháp, hệ thống có thể vô tình dạy người học tối ưu ngữ pháp. Nếu AI chấm tốt đáp án ngắn, giáo viên có thể ra nhiều câu ngắn hơn. Nếu dashboard hiển thị lỗi sai theo cụm, tổ chức có thể xem học tập như danh sách lỗi cần sửa.

Rủi ro thứ hai là automation bias. Khi AI đưa điểm kèm giải thích trôi chảy, giáo viên có thể tin quá nhanh. Một hệ thống cần hiển thị mức chắc chắn, trường hợp ngoại lệ và khuyến nghị human review, đặc biệt với bài biên, bài bất thường hoặc quyết định high-stakes.

Rủi ro thứ ba là giám sát hóa học tập. Process-focused và stealth assessment có thể rất mạnh, nhưng cũng dễ biến thành thu thập dữ liệu quá mức. Người học không nên sống trong cảm giác mọi thao tác đều bị chấm. Đánh giá tốt cần đủ bằng chứng, không cần toàn bộ đời sống số.

Rủi ro thứ tư là công bằng giả. AI có thể làm điểm số nhất quán hơn nhưng vẫn đo sai năng lực. Nó có thể giảm thiên kiến của một giáo viên nhưng tái tạo thiên kiến từ dữ liệu huấn luyện. Nó có thể cho phản hồi tức thời nhưng không phù hợp văn hóa lớp học. Vì vậy, fairness phải được kiểm định bằng dữ liệu thật, không chỉ bằng ý định tốt.

Nguyên tắc thiết kế

Một: xác định quyết định trước khi chọn công nghệ. Đánh giá này dùng để học tiếp, phản hồi, xếp lớp, cấp chứng chỉ hay tuyển chọn? Quyết định càng lớn, yêu cầu validity, reliability và human oversight càng cao.

Hai: tách formative và summative. AI rất phù hợp cho phản hồi luyện tập, tự đánh giá và sửa bài nhiều vòng. Với summative, AI cần quy trình kiểm định nghiêm hơn và thường nên có con người trong vòng quyết định.

Ba: dùng rubric như hợp đồng sư phạm. Rubric phải mô tả construct cần đo, tiêu chí, mức đạt, ví dụ và giới hạn. Prompt chấm điểm không thay thế rubric.

Bốn: thiết kế feedback thành vòng học. Mỗi phản hồi nên dẫn đến hành động: sửa gì, luyện gì, thử gì, kiểm tra lại khi nào.

Năm: thu dữ liệu quá trình có chủ đích. Chỉ thu dấu vết phục vụ suy luận sư phạm rõ. Giải thích cho người học biết dữ liệu nào được dùng và dùng để làm gì.

Sáu: luôn có cơ chế khiếu nại và human review. Người học cần quyền phản biện điểm AI. Giáo viên cần quyền chỉnh, bỏ qua hoặc yêu cầu hệ thống giải thích.

Bảy: benchmark theo nhóm người học. Không chỉ báo accuracy trung bình. Hãy kiểm sai số theo ngôn ngữ, giới, mức thành thạo, nhu cầu hỗ trợ, thiết bị và bối cảnh.

Tám: không để integrity chỉ là bắt gian lận. Thiết kế nhiệm vụ phải làm rõ vai trò AI, yêu cầu bằng chứng quá trình và dạy người học dùng AI có trách nhiệm.

Tổng kết chương

Assessment & Evaluation AI có thể làm giáo dục phản hồi nhanh hơn, nhiều vòng hơn và giàu dữ liệu hơn. Nó có thể sinh câu hỏi, chấm bài, tạo feedback, phát hiện mẫu lỗi, theo dõi quá trình, hỗ trợ tự đánh giá và mở ra các mô hình đánh giá mới như stealth, ipsative và asset-based assessment.

Nhưng đây là vùng không được phép dễ dãi. AI đánh giá phải được benchmark bằng validity, reliability, fairness, transparency, actionability, contestability, workload thật và tác động học tập. Một hệ thống chấm nhanh nhưng đo sai sẽ làm giáo dục tệ hơn với tốc độ cao hơn.

Chương 6 đặt ra nguyên tắc cho toàn bộ phần còn lại: AI trong giáo dục chỉ có giá trị khi nó cải thiện vòng học tập, không chỉ tự động hóa điểm số. Chương tiếp theo sẽ đi vào Tutoring & Scaffolding AI, nơi đánh giá trở thành đầu vào cho can thiệp: hệ thống biết gì về người học, và nó dùng hiểu biết đó để hỗ trợ như thế nào?

Tài liệu tham khảo

  • Arslan, B., Lehman, B., Tenison, C., Sparks, J. R., López, A. A., Gu, L., & Zapata-Rivera, D. (2024). Opportunities and challenges of using generative AI to personalize educational assessment. Frontiers in Artificial Intelligence, 7, 1460651. https://doi.org/10.3389/frai.2024.1460651
  • Brummer, L., de Boer, H., Mouw, J. M., & Strijbos, J.-W. (2024). A meta-analysis of the effects of context, content, and task factors of digitally delivered instructional feedback on learning performance. Learning Environments Research, 27, 453-476. https://doi.org/10.1007/s10984-024-09501-4
  • Chan, K. W., Ali, F., Park, J., Sham, K. S. B., Tan, E. Y. T., Chong, F. W. C., Qian, K., & Sze, G. K. (2024). Automatic item generation in various STEM subjects using large language model prompting. Computers and Education: Artificial Intelligence, 8, 100344. https://doi.org/10.1016/j.caeai.2024.100344
  • Ebrahimi, B., & Ebadi, S. (2024). Exploring the impact of screencast-based ipsative assessment on EFL students' writing development. Language Testing in Asia, 14, 41. https://doi.org/10.1186/s40468-024-00315-y
  • Habibi, A., Toofaninejad, E., Rahimi, S. A., & Kalantarion, M. (2024). The transformative impact of stealth assessment on medical education. Journal of Advances in Medical Education & Professionalism, 12(3), 208-210. https://doi.org/10.30476/JAMP.2024.101479.1931
  • Kaldaras, L., Akaeze, H. O., & Reckase, M. D. (2024). Developing valid assessments in the era of generative artificial intelligence. Frontiers in Education, 9, 1399377. https://doi.org/10.3389/feduc.2024.1399377
  • Lee, G.-G., Latif, E., Wu, X., Liu, N., & Zhai, X. (2024). Applying large language models and chain-of-thought for automatic scoring. Computers and Education: Artificial Intelligence, 6, 100213. https://doi.org/10.1016/j.caeai.2024.100213
  • Lye, C. Y., & Lim, L. (2024). Generative artificial intelligence in tertiary education: Assessment redesign principles and considerations. Education Sciences, 14(6), 569. https://doi.org/10.3390/educsci14060569
  • Ocumpaugh, J., Roscoe, R. D., Baker, R. S., Hutt, S., & Aguilar, S. J. (2024). Toward asset-based instruction and assessment in artificial intelligence in education. International Journal of Artificial Intelligence in Education, 34, 1559-1598. https://doi.org/10.1007/s40593-023-00382-x
  • Pack, A., Barrett, A., & Escalante, J. (2024). Large language models and automated essay scoring of English language learner writing: Insights into validity and reliability. Computers and Education: Artificial Intelligence, 6, 100234. https://doi.org/10.1016/j.caeai.2024.100234
  • Song, Y., Du, J., & Zheng, Q. (2025). Automatic item generation for educational assessments: A systematic literature review. Interactive Learning Environments, 33(2), 1-20. https://doi.org/10.1080/10494820.2025.2482588
  • Xia, Q., Weng, X., Ouyang, F., Lin, T. J., & Chiu, T. K. F. (2024). A scoping review on how generative artificial intelligence transforms assessment in higher education. International Journal of Educational Technology in Higher Education, 21, 40. https://doi.org/10.1186/s41239-024-00468-z