Chương 16: Các mô hình đánh giá mới

Bối cảnh / Vấn đề

Trong nhiều thập niên, phần lớn hệ thống giáo dục vận hành trên một giả định khá ổn định: nếu một học sinh nộp bài luận, làm bài kiểm tra, viết báo cáo phòng thí nghiệm hoặc giải một bộ câu hỏi, sản phẩm đó là dấu vết tương đối đáng tin của năng lực người học. Giả định này chưa bao giờ hoàn hảo. Học thêm, gia sư, phụ huynh sửa bài, bài mẫu, đạo văn, ngân hàng đề và khác biệt điều kiện sống luôn làm đánh giá phức tạp. Nhưng GenAI làm vấn đề chuyển pha. Một sản phẩm cuối có thể trôi chảy, có cấu trúc, đúng văn phong và vượt mức năng lực độc lập của người học, trong khi quá trình tạo ra nó rất khó nhìn thấy nếu hệ thống chỉ nhận bài nộp cuối.

Điều này không có nghĩa là mọi bài viết sau ChatGPT đều vô nghĩa, cũng không có nghĩa là thi giấy truyền thống bỗng trở thành chuẩn vàng. Nó chỉ buộc giáo dục phải hỏi lại: ta đang đánh giá cái gì? Một sản phẩm? Một quá trình? Một năng lực độc lập? Một năng lực dùng công cụ? Một khả năng giải thích quyết định? Một sự tiến bộ cá nhân? Một năng lực hợp tác trong bối cảnh thật? Nếu không trả lời rõ, các trường dễ rơi vào hai phản xạ nghèo nàn: hoặc cấm AI và cố dùng detector như hàng rào, hoặc thả AI vào đánh giá mà không đổi mục tiêu, tiêu chí và bằng chứng.

Tốc độ thay đổi của hành vi người học khiến câu hỏi này không còn là chuyện tương lai. Khảo sát Student Generative AI Survey 2025 của HEPI và Kortext với 1.041 sinh viên đại học toàn thời gian ở Anh cho thấy 92% sinh viên đã dùng một dạng AI nào đó, tăng từ 66% năm 2024; 88% cho biết đã dùng GenAI cho assessment, tăng từ 53% năm trước (Freeman, 2025). Con số này không tự động chuyển sang mọi quốc gia hay bậc học, nhưng nó cho thấy một thực tế: trong các môi trường có tiếp cận công cụ, GenAI nhanh chóng trở thành một phần của cách người học chuẩn bị, viết, sửa, tìm ý và tự đánh giá.

Một scoping review năm 2024 về GenAI và đánh giá trong giáo dục đại học rà soát 969 bài ban đầu và chọn 32 nghiên cứu thực nghiệm để phân tích. Review này kết luận rằng đánh giá cần chuyển đổi để nuôi self-regulated learning, responsible learning và integrity; đồng thời giáo viên cần năng lực assessment literacy, AI literacy và digital literacy, còn tổ chức phải xem lại chính sách đánh giá thay vì chỉ thêm quy định chống gian lận (Xia et al., 2024). Nói cách khác, GenAI không chỉ là vấn đề “phát hiện bài do máy viết”. Nó là vấn đề thiết kế lại quan hệ giữa học, phản hồi, bằng chứng và trách nhiệm.

Chương này bàn về các mô hình đánh giá mới theo nghĩa thực dụng: không phải mọi mô hình đều mới về mặt lịch sử, nhưng chúng trở nên cấp thiết hơn trong môi trường AI. Formative assessment, stealth assessment, ipsative assessment, asset-based assessment, complex competency evaluation, authentic assessment và AI-assisted feedback đều đã có nền tảng trước GenAI. Điểm mới là chúng không còn là lựa chọn phụ cho những giáo viên thích đổi mới; chúng trở thành điều kiện để đánh giá còn giữ được giá trị giáo dục khi sản phẩm cuối dễ được tự động hóa.

Nền tảng lý thuyết

Đánh giá giáo dục có ít nhất ba chức năng: xác nhận kết quả, hỗ trợ học tập và điều hướng hành vi. Summative assessment xác nhận mức đạt ở một thời điểm: điểm cuối kỳ, bài thi chuẩn hóa, chứng chỉ, quyết định đỗ-trượt. Formative assessment hỗ trợ học trong quá trình: phản hồi, câu hỏi chẩn đoán, bài nháp, kiểm tra ngắn, quan sát, self-assessment, peer feedback. Trong thực tế, hai chức năng này thường trộn vào nhau. Một bài kiểm tra có thể vừa cho điểm vừa chỉ ra lỗ hổng. Một portfolio có thể vừa giúp người học phản tư vừa phục vụ chứng nhận.

Vấn đề là áp lực hệ thống thường kéo đánh giá về summative. Điểm số dễ quản trị, dễ báo cáo, dễ xếp hạng, dễ dùng cho tuyển sinh và trách nhiệm giải trình. Nhưng khi AI có thể tạo ra nhiều loại sản phẩm cuối, đánh giá dựa quá nhiều vào một lần nộp bài sẽ yếu đi. Nếu bài luận cuối kỳ có thể được soạn bởi AI, rubrics chỉ chấm văn phong và cấu trúc sẽ đo một hỗn hợp mờ giữa năng lực người học, khả năng dùng công cụ, chất lượng prompt, mức can thiệp của người khác và tiêu chí chấm của giáo viên. Kết quả vẫn là một điểm số, nhưng assessment argument phía sau bị thủng.

Khái niệm “assessment argument” rất quan trọng. Một đánh giá tốt không chỉ có câu hỏi và điểm. Nó phải có lập luận: từ hành vi quan sát được, ta có quyền suy ra năng lực nào, với mức chắc chắn nào, trong điều kiện nào. Evidence-centered design (ECD) diễn đạt điều này qua ba lớp: competency model xác định năng lực cần đo; evidence model xác định dấu hiệu quan sát nào chứng minh năng lực đó; task model thiết kế nhiệm vụ tạo ra dấu hiệu ấy (Mislevy, Steinberg, & Almond, 2003). Khi AI xuất hiện, ba lớp này đều phải được xem lại. Năng lực có thể bao gồm cả AI literacy; bằng chứng không chỉ là câu trả lời cuối; nhiệm vụ phải tạo cơ hội quan sát quá trình, lựa chọn, kiểm chứng và giải thích.

Đánh giá còn phải giữ bốn giá trị cốt lõi: validity, reliability, fairness và educational consequence. Validity hỏi: điểm số hoặc nhận xét có đo đúng điều cần đo không? Reliability hỏi: kết quả có ổn định, nhất quán và ít phụ thuộc vào ngẫu nhiên không? Fairness hỏi: người học có cơ hội hợp lý để thể hiện năng lực, không bị phạt vì nền tảng ngôn ngữ, thiết bị, điều kiện sống hoặc thiên lệch hệ thống không? Educational consequence hỏi: cách đánh giá này làm người học học theo hướng nào?

GenAI làm bốn giá trị này căng hơn. Arslan và cộng sự, trong bài perspective năm 2024 về GenAI và personalized educational assessment, cho rằng GenAI có cơ hội tăng engagement, performance và access, nhưng cũng đe dọa các giá trị cốt lõi của đánh giá: validity, reliability và fairness nếu đầu ra thiếu kiểm soát, có hallucination, bias, thiếu explainability hoặc không khớp mục tiêu đánh giá (Arslan et al., 2024). Đây là điểm cần giữ trong suốt chương: AI có thể làm đánh giá giàu hơn, nhưng chỉ khi thiết kế đánh giá đủ chặt để biết AI đang hỗ trợ phần nào và không được phép thay thế phần nào.

Một nền tảng khác là assessment for learning. Đánh giá không chỉ là đo sau khi học; nó có thể là một cơ chế học. Retrieval practice trong chương 13 đã cho thấy kiểm tra có thể giúp nhớ lâu hơn. Feedback trong chương 14 và 15 đã cho thấy phản hồi giúp người học điều chỉnh nếu nó cụ thể, kịp thời và được dùng. Nhưng feedback không tự động có tác dụng. Nếu người học không hiểu tiêu chí, không có cơ hội sửa, hoặc chỉ quan tâm điểm, feedback trở thành tiếng ồn. Wood và Pitt nghiên cứu learner-orchestrated self-generated feedback trong môi trường Google Drive/Classroom và nhấn mạnh vai trò của việc người học tự tạo feedback thông qua so sánh với bài của bạn, chiến lược uptake và phản hồi giáo viên; điều này liên quan trực tiếp đến agency và feedback literacy (Wood & Pitt, 2024).

Vì vậy, đánh giá mới không nên được hiểu là thêm công cụ chấm tự động. Nó là tái cấu trúc vòng học: nhiệm vụ tạo ra bằng chứng tốt hơn; người học thấy tiêu chí rõ hơn; giáo viên có dữ liệu quá trình chứ không chỉ sản phẩm; AI hỗ trợ phản hồi nhưng không thay thế phán đoán; hệ thống đo tiến bộ, năng lực phức hợp và khả năng tự điều chỉnh thay vì chỉ đo đáp án cuối.

Formative và summative trong môi trường AI

Trong môi trường AI, formative assessment trở nên quan trọng hơn vì nó nhìn vào quá trình, còn sản phẩm cuối ngày càng dễ được gia công. Một bài viết cuối kỳ vẫn có giá trị, nhưng giá trị của nó tăng lên nếu đi kèm outline ban đầu, bản nháp, nhật ký sửa, phản hồi đã nhận, lý do chọn nguồn, phần tự đánh giá và phần bảo vệ miệng. Một bài toán vẫn có giá trị, nhưng giá trị tăng nếu người học ghi lại chiến lược thử, lỗi gặp phải, cách kiểm chứng đáp án và lúc nào dùng AI để nhận gợi ý.

Điều này không có nghĩa là mọi bài đánh giá đều phải thành portfolio cồng kềnh. Formative có thể rất nhỏ: một câu confidence rating trước khi nộp đáp án; một câu hỏi “em chắc phần nào, chưa chắc phần nào?”; một bản giải thích vì sao chọn phương án; một micro-reflection sau khi AI góp ý; một phiếu exit ticket cuối buổi; một lần yêu cầu người học so sánh lời giải của mình với lời giải AI. Điểm chính là đánh giá phải tạo ra dấu vết của suy nghĩ, không chỉ dấu vết của sản phẩm.

Summative assessment vẫn cần thiết. Xã hội cần chứng nhận: bác sĩ, kỹ sư, giáo viên, kế toán, phi công, điều dưỡng, lập trình viên, nhà nghiên cứu đều cần bằng chứng rằng họ đạt chuẩn tối thiểu nào đó. Nhưng summative trong kỷ nguyên AI cần rõ điều kiện. Có thể có bài thi không AI để đo năng lực độc lập. Có thể có bài thi AI-allowed để đo năng lực dùng công cụ. Có thể có bài đánh giá hybrid: người học chuẩn bị với AI, nhưng phải giải thích và bảo vệ trước người thật. Sai lầm là trộn các điều kiện này mà không công bố. Nếu người học không biết phần nào được dùng AI, dùng đến đâu, phải khai báo ra sao, đánh giá sẽ biến thành trò đoán luật.

Xia và cộng sự ghi nhận GenAI tạo ra cơ hội cho feedback tức thời, self-assessment và perceived unbiased feedback, nhưng cũng làm tăng thách thức academic integrity và đòi hỏi giáo viên thiết kế assessment đa dạng hơn, nhấn mạnh higher-order thinking, authentic tasks và process of learning (Xia et al., 2024). Nói cách khác, formative không chỉ là “cho quiz nhiều hơn”. Nó là đưa bằng chứng quá trình vào trung tâm: người học làm gì trước khi có đáp án, dùng phản hồi thế nào, sửa ra sao, và có hiểu tiêu chí không.

Một thiết kế thực tế là phân tách ba lớp điểm. Lớp thứ nhất là knowledge check ngắn, thường xuyên, có thể không tính điểm cao, dùng để phát hiện lỗ hổng. Lớp thứ hai là process evidence: bản nháp, log quyết định, peer feedback, AI-use declaration, reflection. Lớp thứ ba là performance task hoặc defense: sản phẩm cuối, trình bày, giải thích, ứng dụng vào tình huống mới. Khi ba lớp này khớp nhau, giáo viên có assessment argument mạnh hơn. Nếu sản phẩm cuối rất tốt nhưng process evidence nghèo và defense yếu, có lý do để nghi ngờ năng lực độc lập hoặc yêu cầu bổ sung. Nếu sản phẩm cuối chưa bóng bẩy nhưng quá trình cho thấy tiến bộ, chiến lược tốt và hiểu sâu, giáo viên có cơ sở phản hồi công bằng hơn.

Một điểm cần thận trọng là workload. Nhiều giáo viên nghe “đánh giá quá trình” là thấy thêm việc: thêm bài nháp, thêm reflection, thêm log, thêm chấm. Vì vậy thiết kế phải chọn bằng chứng có giá trị cao. Không cần thu mọi thao tác. Không cần đọc toàn bộ lịch sử chỉnh sửa. Không cần biến mỗi nhiệm vụ thành hồ sơ điều tra. Hãy chọn vài dấu vết có khả năng phân biệt học thật với sản phẩm được làm hộ: kế hoạch ban đầu, một điểm sai đã sửa, một quyết định dùng/không dùng AI, một đoạn giải thích tiêu chí, một lần chuyển kiến thức sang bối cảnh mới.

Stealth assessment

Stealth assessment là đánh giá được nhúng vào hoạt động học, thường là game, simulation hoặc môi trường số giàu tương tác. Người học không phải dừng lại để “làm bài kiểm tra”; hệ thống suy luận năng lực từ hành động: chọn chiến lược nào, thử bao nhiêu lần, phản ứng với lỗi ra sao, dùng tài nguyên nào, hợp tác thế nào, có điều chỉnh sau feedback không. Khái niệm này gắn mạnh với công trình của Valerie Shute và Matthew Ventura về đánh giá trong trò chơi học tập (Shute & Ventura, 2013).

Giá trị của stealth assessment nằm ở chỗ nó đo được những năng lực khó bắt trong bài kiểm tra tĩnh: persistence, problem solving, systems thinking, creativity, computational thinking, collaboration, risk taking, troubleshooting. Một bài thi truyền thống thường hỏi người học sản phẩm cuối. Stealth assessment hỏi thêm: để đi đến sản phẩm đó, người học đã tương tác với hệ thống như thế nào? Dấu vết hành động có cho thấy chiến lược tốt không? Người học có học từ lỗi không? Có đổi hướng khi bằng chứng không ủng hộ giả thuyết không?

Một systematic review về stealth assessment tại ICLS 2023 xác định 93 nghiên cứu liên quan, gồm 41 bài journal, 27 conference papers, 14 book chapters, 10 dissertations và 1 book; các nghiên cứu trải từ học sinh lớp 3 đến người lớn, đánh giá cả năng lực khó đo như creativity, persistence, problem solving, computational thinking lẫn kiến thức môn học như toán, vật lý, genetics, reading và writing (Rahimi et al., 2023). Review này cũng cho thấy phần lớn nghiên cứu vẫn ở giai đoạn validation, còn việc dùng ước lượng stealth assessment để thích ứng và cung cấp feedback thời gian thực chưa phổ biến bằng. Đây là tín hiệu vừa tích cực vừa thận trọng: phương pháp có nền nghiên cứu đáng kể, nhưng triển khai đại trà phải giải quyết validity, transparency và đạo đức dữ liệu.

Trong môi trường AI, stealth assessment có thể mở rộng ngoài game. Một môi trường học viết có thể theo dõi người học lập dàn ý, dùng nguồn, so sánh lập luận, phản hồi với góp ý AI và sửa bản nháp. Một môi trường học lập trình có thể quan sát cách người học đọc lỗi, viết test, sửa bug, dùng AI để giải thích stack trace và kiểm chứng đoạn code gợi ý. Một phòng lab ảo có thể ghi lại thao tác thí nghiệm, lựa chọn biến, cách đọc dữ liệu và quyết định thử lại. Một simulation quản lý lớp học có thể đo khả năng phản ứng với tình huống học sinh khác nhau.

Nhưng “stealth” cũng có mặt tối. Nếu người học không biết mình đang bị đo, hoặc không hiểu dữ liệu nào được thu, mục tiêu đánh giá nào đang hoạt động, ai được xem dữ liệu, dữ liệu dùng để giúp hay phạt, thì đánh giá nhúng có thể biến thành giám sát ngầm. Một hệ thống tốt phải phân biệt rõ learning analytics phục vụ học tập với surveillance phục vụ kiểm soát. Đặc biệt với trẻ em, dữ liệu hành vi cần nguyên tắc tối thiểu hóa, bảo mật, quyền truy cập và giải thích được.

Một nguyên tắc thực dụng là “transparent stealth”: đánh giá được nhúng vào hoạt động để giảm gián đoạn, nhưng không bí mật về mục tiêu. Người học có thể không thấy mỗi mô hình thống kê, nhưng họ cần biết hệ thống đang theo dõi loại bằng chứng nào: chiến lược thử, cách dùng gợi ý, mức độc lập, sự tiến bộ, hợp tác, phản tư. Giáo viên cần biết ước lượng đó đáng tin đến đâu, dựa trên dữ liệu nào và không nên dùng ngoài phạm vi nào. Nếu stealth assessment trở thành hộp đen cho điểm, nó phản bội chính mục tiêu giáo dục.

Ipsative assessment

Ipsative assessment đánh giá người học so với chính họ qua thời gian, thay vì chỉ so với chuẩn chung hoặc bạn cùng lớp. Nó hỏi: so với tháng trước, em tiến bộ ở đâu? Chiến lược của em đã đổi thế nào? Lỗi nào giảm? Khả năng tự đánh giá có chính xác hơn không? Em dùng feedback tốt hơn chưa? Trong môi trường học bị ám ảnh bởi xếp hạng, ipsative assessment đưa một câu hỏi nhân bản và cũng rất thực dụng: người học có đang tăng năng lực thật không?

Ipsative không thay thế hoàn toàn criterion-referenced assessment. Xã hội vẫn cần biết người học có đạt chuẩn tối thiểu hay không. Một sinh viên y khoa không thể chỉ nói “em tiến bộ hơn chính em” nếu vẫn chưa đạt chuẩn an toàn bệnh nhân. Nhưng trong nhiều giai đoạn học, nhất là khi người học có xuất phát điểm khác nhau, so sánh với chính mình giúp giảm tác hại của xếp hạng sớm. Người yếu thấy tiến bộ nhỏ cũng có ý nghĩa. Người mạnh không ngủ quên trên vị trí cao nếu tiêu chí là tăng trưởng tiếp tục.

Kukol năm 2024 đề xuất kết hợp ipsative assessment với sociomaterial assessment trong giáo dục khoa học đại học. Bài viết nhấn mạnh bốn chủ đề: science education phù hợp với đánh giá sociomaterial, feedback ipsative hỗ trợ học, personal learning gain cần được đo, và đánh giá ipsative phải được dung hòa với hệ thống quy ước trong kỷ nguyên GenAI (Kukol, 2024). Ví dụ phòng thí nghiệm rất rõ: một sinh viên ban đầu vụng về với spectrophotometer, sau nhiều lần thực hành có thể thao tác chính xác hơn, hiểu calibration graph hơn, biết hỏi bạn và giáo viên đúng lúc hơn. Điểm cuối cùng không nói hết quá trình đó. Portfolio kỹ năng và phản tư theo thời gian cho thấy học diễn ra như thế nào.

Trong học viết ngoại ngữ, Ebrahimi và Ebadi nghiên cứu screencast-based ipsative assessment với sinh viên EFL tại Iran. Công nghệ screencast giúp giáo viên ghi phản hồi chi tiết, còn nguyên tắc ipsative giúp người học nhìn lại sản phẩm trước đó và phản tư về tiến bộ viết của mình (Ebrahimi & Ebadi, 2024). Điểm đáng chú ý là công nghệ không thay thế logic sư phạm; nó làm phản hồi cá nhân hóa và dấu vết tiến bộ dễ truy cập hơn.

AI có thể hỗ trợ ipsative assessment khá tốt nếu được thiết kế đúng. Nó có thể so sánh bản nháp 1 và bản nháp 3, chỉ ra loại lỗi giảm, phân tích sự thay đổi trong lập luận, theo dõi mức độ người học tự sửa trước khi hỏi, tạo bản đồ tiến bộ theo kỹ năng nhỏ, nhắc lại mục tiêu cũ và hỏi người học tự đánh giá. Nhưng AI cũng có thể làm hỏng ipsative nếu nó cải thiện sản phẩm thay người học. Khi bản nháp sau tốt hơn vì AI viết lại toàn bộ, “tiến bộ” là tiến bộ của sản phẩm, không nhất thiết là tiến bộ của người học.

Vì vậy, ipsative assessment trong môi trường AI cần đo thêm mức hỗ trợ. Một bản đồ tiến bộ nên phân biệt: người học tự làm, người học dùng gợi ý nhẹ, người học dùng feedback chi tiết, người học dùng AI tạo phương án, người học nhờ AI viết lại. Không phải mức nào cũng xấu. Nhưng nếu không ghi mức hỗ trợ, không thể biết tiến bộ thuộc về ai. Một kỹ năng được xem là vững khi người học có thể thực hiện lại với ít hỗ trợ hơn, giải thích được quyết định, và chuyển chiến lược sang nhiệm vụ mới.

Asset-based assessment

Nhiều hệ thống đánh giá vận hành theo deficit model: tìm lỗi, tô đỏ, xếp người học theo thiếu hụt so với chuẩn. Cách này có giá trị chẩn đoán, nhưng nếu nó là lăng kính duy nhất, người học dễ bị đóng khung: yếu toán, kém viết, thiếu tập trung, không có tư duy phản biện, thấp hơn chuẩn. Asset-based assessment bắt đầu từ câu hỏi khác: người học đang có tài sản nào? Họ hiểu gì, làm được gì, quan sát tốt ở đâu, có kinh nghiệm sống nào, ngôn ngữ nào, chiến lược nào, mạng lưới hỗ trợ nào, sở thích nào có thể trở thành đường vào học tập?

Asset-based không phải khen cho vui. Nó vẫn cần tiêu chuẩn và bằng chứng. Sự khác biệt là nó xem điểm mạnh như dữ liệu thiết kế, không phải lời động viên bên lề. Một học sinh viết câu còn lủng củng nhưng kể chuyện tốt có thể được giao nhiệm vụ xây dựng lập luận từ narrative trước. Một học sinh tính toán chậm nhưng giải thích bằng hình tốt có thể dùng sơ đồ để đi vào đại số. Một người học song ngữ có thể dùng kiến thức ngôn ngữ mẹ đẻ để phân tích khái niệm, thay vì bị xem là “thiếu tiếng Anh”. Một học viên nghề có kinh nghiệm thực địa có thể dùng tình huống công việc để chứng minh năng lực, không chỉ làm bài kiểm tra trừu tượng.

Trong môi trường AI, asset-based assessment có hai cơ hội. Thứ nhất, AI có thể giúp phát hiện pattern tích cực mà giáo viên quá tải dễ bỏ qua: người học luôn đặt câu hỏi tốt, biết sửa lỗi sau feedback, có vốn ví dụ phong phú, giải thích tốt cho bạn, kiên trì thử nhiều chiến lược. Thứ hai, AI có thể tạo nhiều con đường thể hiện năng lực: nói thay vì viết, sơ đồ trước khi văn bản, mô phỏng trước khi báo cáo, ví dụ cá nhân trước khi khái niệm trừu tượng, bản nháp đa ngôn ngữ trước khi bản cuối.

Nhưng đây cũng là vùng dễ bị lạm dụng. Nếu AI gán nhãn “thế mạnh” bằng dữ liệu nghèo, nó có thể đóng khung người học theo stereotype mới. Một học sinh ít nói trên nền tảng số không có nghĩa là thiếu năng lực hợp tác. Một người dùng nhiều hint không luôn là yếu; có thể nhiệm vụ không rõ hoặc nền tảng ngôn ngữ gây cản trở. Một học sinh chọn video không có nghĩa là “visual learner” theo huyền thoại learning styles. Asset-based assessment phải tránh biến thế mạnh thành hộp cố định.

Một thiết kế tốt là coi asset profile như giả thuyết tạm thời, do người học và giáo viên cùng kiểm chứng. Hệ thống có thể nói: “Trong ba nhiệm vụ gần đây, em giải thích bằng ví dụ cụ thể khá tốt; thử dùng thế mạnh này để viết đoạn mở đầu.” Người học có thể xác nhận, sửa hoặc bác bỏ. Giáo viên có thể thêm quan sát ngoài nền tảng. Asset-based assessment không phải hồ sơ tâm lý tự động; nó là cuộc đối thoại dựa trên bằng chứng về cách người học có thể tiến lên.

Asset-based cũng liên quan đến công bằng. Nếu assessment chỉ cho phép một dạng biểu hiện, nó sẽ ưu tiên người quen dạng đó. Nếu cho phép nhiều hình thức thể hiện nhưng tiêu chí mờ, fairness lại suy yếu. Vì vậy cần tách tiêu chí năng lực khỏi hình thức biểu đạt. Nếu mục tiêu là lập luận dựa trên bằng chứng, người học có thể thể hiện qua bài viết, trình bày miệng, poster nghiên cứu hoặc video giải thích, nhưng rubric phải giữ các tiêu chí chung: claim rõ, evidence phù hợp, reasoning hợp lý, counterargument được xử lý, nguồn đáng tin. Linh hoạt hình thức không có nghĩa là lỏng tiêu chuẩn.

Complex competency evaluation

Các năng lực quan trọng nhất trong kỷ nguyên AI thường là năng lực khó chấm tự động: tư duy phản biện, hợp tác, đạo đức, sáng tạo, judgment, transfer, giao tiếp trong bối cảnh thật, khả năng dùng công cụ mà không mất agency. Chúng phức hợp vì không nằm trong một hành vi đơn. Tư duy phản biện không chỉ là phát hiện lỗi logic trong một đoạn văn; nó gồm đặt câu hỏi, đánh giá nguồn, nhận diện giả định, cân nhắc trade-off, chịu sửa niềm tin khi có bằng chứng mới. Hợp tác không chỉ là có mặt trong nhóm; nó gồm phân chia việc, lắng nghe, xử lý xung đột, xây dựng trên ý tưởng người khác, chịu trách nhiệm chung. Đạo đức AI không chỉ là biết định nghĩa bias; nó là quyết định dùng hay không dùng AI trong tình huống có hậu quả.

Complex competency evaluation cần nhiệm vụ giàu bối cảnh. Một câu hỏi trắc nghiệm có thể kiểm tra thuật ngữ đạo đức, nhưng không đủ để biết người học có xử lý một case thật không. Một bài viết cá nhân có thể kiểm tra lập luận, nhưng không đủ để biết người học hợp tác ra sao. Một project đẹp có thể cho thấy sáng tạo, nhưng không đủ nếu ta không biết ai làm gì và quyết định nào được cân nhắc.

Thiết kế đánh giá năng lực phức hợp nên có ba lớp. Lớp đầu là scenario hoặc problem space có đủ ràng buộc: dữ liệu không hoàn hảo, stakeholder khác nhau, tiêu chí xung đột, thời gian hạn chế. Lớp thứ hai là artifact: proposal, prototype, policy memo, lesson plan, phân tích dữ liệu, kế hoạch can thiệp, sản phẩm truyền thông, mô hình giải thích. Lớp thứ ba là evidence of reasoning: process log, decision record, source critique, peer contribution, oral defense, reflection về giới hạn.

Trong bối cảnh AI, một năng lực mới cần đánh giá là evaluative judgement: khả năng nhận ra chất lượng công việc, tiêu chí phù hợp và điểm cần cải thiện, kể cả khi AI đưa ra đáp án có vẻ thuyết phục. Bearman, Tai, Dawson, Boud và cộng sự lập luận rằng thời của GenAI đòi hỏi phát triển evaluative judgement, vì người học phải biết đánh giá cả sản phẩm của mình, sản phẩm của AI và tiêu chí của nhiệm vụ (Bearman et al., 2024). Đây là năng lực nền cho mọi AI literacy thực chất. Người học không chỉ cần prompt tốt; họ cần biết khi nào một câu trả lời đáng tin, khi nào thiếu căn cứ, khi nào phù hợp mục tiêu và khi nào đẹp nhưng sai.

UNESCO AI Competency Framework for Teachers năm 2024 cũng đặt năng lực AI của giáo viên trong năm chiều: human-centred mindset, ethics of AI, AI foundations and applications, AI pedagogy và AI for professional learning (Miao & Cukurova, 2024). Dù khung này dành cho giáo viên, nó gợi ý một điểm rộng hơn: đánh giá trong thời AI phải mở rộng từ kiến thức môn học sang năng lực làm việc có trách nhiệm với hệ thống AI. Nếu giáo viên không có assessment literacy cho các năng lực này, họ sẽ hoặc cấm AI bằng quy định chung, hoặc chấm sản phẩm AI như sản phẩm người học.

Một thách thức của complex competency evaluation là reliability. Khi nhiệm vụ mở, chấm điểm dễ lệch giữa giáo viên. Cách giải không phải quay lại trắc nghiệm hoàn toàn, mà là tăng chất lượng rubric, dùng exemplars, calibration giữa người chấm, oral defense có câu hỏi chuẩn, và kết hợp nhiều nguồn bằng chứng. AI có thể hỗ trợ bằng cách gợi ý rubric, so sánh bài với tiêu chí, phát hiện thiếu bằng chứng, tạo câu hỏi defense. Nhưng AI không nên là người phán quyết cuối cho năng lực đạo đức, sáng tạo hoặc judgment trong bối cảnh giàu hệ quả. Con người cần giữ vai trò diễn giải và chịu trách nhiệm.

Authentic assessment

Authentic assessment yêu cầu người học thực hiện nhiệm vụ giống hoặc gần với cách kiến thức được dùng ngoài lớp học: viết policy memo cho một stakeholder cụ thể, phân tích dữ liệu thật, thiết kế bài học cho nhóm học sinh thật, tạo prototype, phỏng vấn người dùng, xây dựng portfolio, trình bày trước hội đồng, bảo vệ quyết định, sửa sản phẩm sau feedback. Trong thời GenAI, authentic assessment không phải vì nó “AI-proof” tuyệt đối. Không có nhiều thứ AI-proof. Giá trị của nó là làm nhiệm vụ giàu bối cảnh, có đối tượng thật, có quá trình và có trách nhiệm giải thích, khiến việc dùng AI phải được tích hợp như công cụ chứ khó thay thế toàn bộ năng lực.

Một bài luận chung chung “hãy phân tích tác động của AI tới giáo dục” rất dễ được AI viết. Một nhiệm vụ yêu cầu người học quan sát một lớp học cụ thể, phỏng vấn hai giáo viên, đối chiếu với khung lý thuyết, thiết kế can thiệp nhỏ, ghi lại phản hồi, sửa thiết kế và bảo vệ quyết định trước câu hỏi phản biện sẽ khó hơn nhiều. AI vẫn có thể hỗ trợ tóm tắt, đặt câu hỏi, gợi ý cấu trúc. Nhưng bằng chứng năng lực nằm trong lựa chọn bối cảnh, chất lượng quan sát, khả năng liên hệ lý thuyết, cách xử lý phản hồi và phần defense.

Xia và cộng sự ghi nhận trong các nghiên cứu về GenAI assessment, presentation, discussion, product design, creative/artistic work, podcast, storyboard, case-based questions và authentic assessment được xem như hướng giảm sự phụ thuộc vào bài kiểm tra kiến thức truyền thống và thúc đẩy higher-order thinking (Xia et al., 2024). Lye và Lim năm 2024 cũng bàn về nguyên tắc redesign assessment trong giáo dục đại học, nhấn mạnh rằng mối lo academic integrity không nên che khuất câu hỏi sâu hơn: cần tái thiết kế assessment để phù hợp với môi trường có GenAI, bao gồm cả bias, hallucination và giới hạn của mô hình (Lye & Lim, 2024).

Các thành phần thực dụng của authentic assessment gồm portfolio, oral defense, process log, peer review và public-facing product. Portfolio cho thấy tiến trình qua nhiều artifact, không chỉ một lần nộp. Oral defense kiểm tra người học có hiểu sản phẩm không, có trả lời được câu hỏi mới không, có giải thích quyết định không. Process log ghi lại những điểm rẽ quan trọng: chọn nguồn nào, bỏ ý nào, dùng AI ở đâu, vì sao sửa. Peer review tạo cơ hội học tiêu chí qua bài của người khác. Public-facing product đưa nhiệm vụ ra khỏi mô phỏng quá sạch của lớp học.

Tuy nhiên, authentic assessment có rủi ro. Nó có thể bất công nếu người học có điều kiện xã hội khác nhau: người có mạng lưới tốt dễ tìm project thật; người có thiết bị tốt làm sản phẩm đẹp hơn; người hướng ngoại dễ tỏa sáng trong presentation; người có thời gian rảnh dễ làm portfolio phong phú. Vì vậy authentic không tự động công bằng. Nó cần scaffold, lựa chọn hình thức, tiêu chí rõ, hỗ trợ tài nguyên và chuẩn tối thiểu về cơ hội.

Một thiết kế cân bằng là “bounded authenticity”: nhiệm vụ đủ thật để có bối cảnh và trách nhiệm, nhưng đủ giới hạn để công bằng và chấm được. Thay vì “hãy làm một dự án xã hội”, giáo viên có thể cung cấp ba case, bộ dữ liệu chung, stakeholder giả lập nhưng có ràng buộc thật, mẫu process log, lịch feedback và oral defense ngắn. Người học vẫn phải phân tích, quyết định và trình bày, nhưng không bị bỏ mặc trong một dự án quá rộng.

AI trong vòng phản hồi

AI có thể làm feedback nhanh hơn, thường xuyên hơn và cá nhân hóa hơn. Một giáo viên có 150 bài viết khó phản hồi sâu cho từng em mỗi tuần. AI có thể góp ý bản nháp, hỏi câu gợi mở, kiểm tra rubric, đưa ví dụ, tạo bài luyện lỗi cá nhân, gợi ý nguồn, giúp người học tự đánh giá trước khi nộp. Đây là cơ hội lớn nếu feedback là điểm nghẽn của học tập.

Nhưng feedback bằng AI chỉ có giá trị nếu nằm trong vòng phản hồi có tiêu chuẩn. Một vòng phản hồi tốt gồm: tiêu chí rõ; người học tạo sản phẩm hoặc nỗ lực ban đầu; feedback chỉ ra khoảng cách với tiêu chí; người học có cơ hội hành động; hệ thống hoặc giáo viên kiểm tra uptake; người học phản tư về chiến lược. Nếu AI chỉ phun nhận xét dài, vòng phản hồi không hoàn tất. Feedback không được dùng thì không phải feedback theo nghĩa giáo dục; nó chỉ là comment.

Brummer và cộng sự meta-analysis năm 2024 về digitally delivered instructional feedback, được nhắc ở chương 2 và 4, cho thấy feedback số có hiệu ứng tích cực trung bình lên học tập nhưng hiệu quả thay đổi theo focus, môn học, loại assessment và learner control (Brummer et al., 2024). Điều này nhắc rằng “AI feedback tức thời” không tự động tốt. Feedback có thể quá dài, quá chung, sai tiêu chí, gây lệ thuộc hoặc làm người học sửa bề mặt thay vì hiểu sâu.

AI feedback nên được phân tầng. Ở tầng thấp, nó xử lý lỗi kỹ thuật ít rủi ro: chính tả, định dạng trích dẫn, kiểm tra thiếu mục, câu hỏi ôn tập. Ở tầng trung, nó gợi ý theo tiêu chí: claim chưa rõ, evidence chưa đủ, reasoning còn nhảy bước, ví dụ chưa khớp. Ở tầng cao, nó đặt câu hỏi phản biện thay vì sửa hộ: giả định nào đang ẩn? Nếu stakeholder phản đối thì sao? Nguồn này có giới hạn gì? Ở tầng phán quyết, giáo viên hoặc hội đồng vẫn cần chịu trách nhiệm: điểm cuối, chuẩn đạt, đánh giá đạo đức, quyết định đỗ-trượt.

Một kỹ thuật tốt là yêu cầu người học phản hồi lại feedback. Sau khi AI góp ý, người học phải chọn ba điểm sẽ sửa, một điểm không sửa và lý do. Sau khi sửa, họ đánh dấu phần nào thay đổi do feedback. Điều này biến feedback thành hoạt động metacognitive. Nó cũng tạo bằng chứng quá trình. Nếu người học nhận 20 góp ý và chấp nhận hết, có thể họ đang outsource judgment. Nếu họ biết chọn, bỏ, điều chỉnh và giải thích, đó là dấu hiệu của evaluative judgement.

AI cũng có thể hỗ trợ peer assessment. Người học chấm chéo thường gặp ba vấn đề: tiêu chí không đều, feedback nông và thiên lệch quan hệ. AI có thể giúp giải thích rubric, gợi ý câu hỏi, kiểm tra feedback có cụ thể không, phát hiện nhận xét thiếu bằng chứng, hỗ trợ calibration bằng exemplar. Nhưng AI không nên làm mất vai trò của peer review như một hoạt động học. Lợi ích chính của peer assessment không chỉ là nhận feedback, mà là học cách nhìn chất lượng qua bài người khác. Nếu AI chấm hết, người học mất cơ hội phát triển con mắt đánh giá.

Vấn đề đạo đức lớn là dùng AI để chấm điểm. Chấm tự động có thể hữu ích ở nhiệm vụ cấu trúc rõ, đáp án hoặc tiêu chí ổn định, rủi ro thấp, có kiểm định chất lượng. Nhưng với bài viết mở, năng lực phức hợp hoặc quyết định có hậu quả cao, AI grading cần human-in-the-loop, audit, quyền khiếu nại và kiểm tra bias. HEPI 2025 cho thấy sinh viên có phản ứng không đồng nhất: một phần nói sẽ nỗ lực hơn nếu bài thi được đánh giá bởi AI, một phần nói sẽ nỗ lực ít hơn, và một phần không đổi (Freeman, 2025). Điều này gợi ý rằng việc AI tham gia chấm điểm không chỉ là vấn đề kỹ thuật; nó ảnh hưởng đến động lực, niềm tin và cảm giác công bằng.

Thực trạng triển khai

Trong nhiều trường, phản ứng đầu tiên với GenAI là sửa chính sách academic integrity. Điều này cần thiết, nhưng chưa đủ. Nếu assessment vẫn giữ dạng cũ, chính sách sẽ đuổi theo công cụ. Hôm nay cấm ChatGPT, ngày mai sinh viên dùng công cụ khác, model chạy trong trình soạn thảo, tiện ích paraphrase hoặc agent tự động. Càng đặt trọng tâm vào phát hiện, hệ thống càng dễ biến quan hệ giáo viên-người học thành nghi ngờ.

AI detectors là ví dụ rõ. Nghiên cứu của Liang và cộng sự năm 2023 trên Patterns cho thấy GPT detectors có thể thiên lệch với người viết tiếng Anh không phải bản ngữ, thường xuyên gán nhầm bài viết của họ là AI-generated và có thể bị vượt qua bằng prompting đơn giản (Liang et al., 2023). Chaka năm 2024 đánh giá 30 detector với bài luận sinh viên English L1 và L2, tập trung vào accuracy, false positive rates và true negative rates, tiếp tục cho thấy câu hỏi độ tin cậy của detector không thể xem nhẹ (Chaka, 2024). Với giáo dục Việt Nam, điểm này đặc biệt quan trọng vì nhiều người học viết bằng ngoại ngữ hoặc dùng tiếng Việt trong môi trường mà công cụ detector được huấn luyện chủ yếu trên tiếng Anh.

Điều đó không có nghĩa là bỏ qua gian lận. Nó nghĩa là không thể dựa một điểm số detector để kết luận đạo đức học thuật. Nếu dùng detector, nó chỉ nên là tín hiệu phụ trong quy trình có bằng chứng khác: lịch sử bản nháp, oral defense, trao đổi với người học, so khớp với năng lực đã quan sát, và quyền giải trình. Trong nhiều trường hợp, thiết kế assessment tốt hơn sẽ giảm nhu cầu dùng detector.

Ở cấp lớp học, giáo viên bắt đầu thử nhiều dạng: bài nộp kèm AI-use statement, yêu cầu bản nháp và reflection, presentation ngắn sau bài viết, viva voce cho dự án, bài tập cá nhân hóa theo dữ liệu địa phương, portfolio theo thời gian, rubric đánh giá cách dùng AI, và bài kiểm tra không AI để xác nhận nền tảng. Một số thiết kế cho phép AI ở giai đoạn brainstorming nhưng không ở giai đoạn writing; một số cho phép AI feedback nhưng yêu cầu người học khai báo; một số yêu cầu so sánh câu trả lời AI với nguồn học thuật.

Ở cấp tổ chức, câu hỏi khó hơn là chuẩn hóa. Nếu mỗi giảng viên có một luật AI khác nhau, người học rối. Nếu tổ chức ban một luật cứng cho mọi môn, assessment mất phù hợp bối cảnh. Cách hợp lý hơn là policy theo mức sử dụng AI: cấm trong nhiệm vụ đo năng lực độc lập; cho phép hạn chế với khai báo; khuyến khích dùng AI như công cụ học; yêu cầu dùng AI trong nhiệm vụ đánh giá AI literacy. Mỗi mức phải có ví dụ cụ thể, không chỉ câu chung “dùng AI có trách nhiệm”.

Một thực trạng khác là bất bình đẳng. Người học có tài khoản trả phí, máy tốt, tiếng Anh tốt và kinh nghiệm prompt sẽ có lợi thế nếu assessment cho phép AI nhưng không dạy cách dùng. Người học ít tiếp cận có thể vừa yếu công cụ vừa sợ vi phạm. HEPI 2025 ghi nhận dấu hiệu digital divide trong sử dụng AI, bao gồm khác biệt theo giới, điều kiện kinh tế và ngành học (Freeman, 2025). Vì vậy đánh giá trong môi trường AI phải đi cùng dạy AI literacy, cung cấp công cụ công bằng và thiết kế lựa chọn không trừng phạt người thận trọng.

Phân tích phản biện

Ảo tưởng thứ nhất là “AI làm assessment cũ chết hết”. Không đúng. Một số bài kiểm tra trực tiếp, thi vấn đáp, bài thực hành có giám sát, retrieval quiz, bài toán nền tảng và kiểm tra kỹ năng cơ bản vẫn có giá trị. Vấn đề là phải biết chúng đo gì và không đo gì. Thi giấy có thể đo kiến thức độc lập trong điều kiện hạn chế công cụ, nhưng không đo năng lực dùng AI trong công việc thật. Portfolio có thể đo tiến bộ và quá trình, nhưng khó chuẩn hóa. Authentic project có thể đo transfer, nhưng cần scaffold để công bằng.

Ảo tưởng thứ hai là “authentic assessment sẽ chống được AI”. Không có thiết kế nào chống hoàn toàn. AI có thể hỗ trợ phỏng vấn, phân tích dữ liệu, viết báo cáo, tạo slide, luyện oral defense. Mục tiêu không phải AI-proof, mà là AI-aware: nhiệm vụ làm rõ phần nào người học được dùng AI, phần nào phải tự chịu trách nhiệm, bằng chứng nào cho thấy hiểu thật, và cách kiểm tra năng lực độc lập khi cần.

Ảo tưởng thứ ba là “đánh giá quá trình luôn tốt hơn sản phẩm”. Quá trình có thể bị làm giả, quá tải và xâm phạm riêng tư. Một process log dài không tự động chứng minh học sâu. Một lịch sử chỉnh sửa không tự giải thích chất lượng quyết định. Đánh giá quá trình chỉ tốt khi dấu vết được chọn có ý nghĩa, liên kết với tiêu chí và không biến người học thành đối tượng bị giám sát liên tục.

Ảo tưởng thứ tư là “AI chấm khách quan hơn người”. AI có thể nhất quán trong một số tác vụ, nhưng nhất quán không đồng nghĩa công bằng hay đúng. Nếu rubric mơ hồ, dữ liệu huấn luyện lệch, prompt kém hoặc mô hình không hiểu bối cảnh lớp học, AI có thể tạo nhận xét tự tin nhưng sai. Người học có thể cảm thấy AI ít phán xét hơn, như Xia và cộng sự ghi nhận trong một số nghiên cứu, nhưng cảm nhận “ít thiên vị” không chứng minh hệ thống thật sự công bằng (Xia et al., 2024).

Ảo tưởng thứ năm là “nhiều dữ liệu hơn sẽ giải quyết đánh giá”. Dữ liệu hành vi nhiều có thể giúp thấy quá trình, nhưng cũng tăng nguy cơ suy diễn quá mức. Click nhiều không bằng hiểu sâu. Thời gian trên task dài có thể là kiên trì hoặc bối rối. Dùng nhiều hint có thể là yếu hoặc biết tìm hỗ trợ. Learning analytics cần lý thuyết học tập và diễn giải của giáo viên; nếu không, nó chỉ là bảng số.

Ảo tưởng thứ sáu là “asset-based assessment là hạ chuẩn”. Asset-based không hạ chuẩn; nó tìm đường vào chuẩn qua thế mạnh. Hạ chuẩn là bỏ tiêu chí vì muốn người học thấy dễ chịu. Asset-based đúng nghĩa vẫn yêu cầu claim, evidence, reasoning, kỹ năng và trách nhiệm, nhưng không giả định mọi người phải đi cùng một đường biểu đạt.

Nguyên tắc thiết kế

Nguyên tắc đầu tiên: bắt đầu từ assessment argument, không bắt đầu từ công cụ. Hãy viết rõ năng lực cần suy ra, bằng chứng quan sát, nhiệm vụ tạo bằng chứng và giới hạn diễn giải. Nếu không làm được bước này, đừng thêm AI grading, dashboard hay detector.

Nguyên tắc thứ hai: phân biệt năng lực độc lập và năng lực có công cụ. Một chương trình tốt cần cả hai. Người học phải có nền để không phụ thuộc AI, nhưng cũng phải biết dùng AI như công cụ nghề nghiệp. Assessment cần ghi rõ điều kiện: no-AI, AI-assisted, AI-required hoặc AI-evaluated.

Nguyên tắc thứ ba: tăng trọng lượng formative mà không làm quá tải. Chọn vài dấu vết quá trình có giá trị cao: kế hoạch, bản nháp, quyết định sửa, cách dùng feedback, giải thích tiêu chí, defense ngắn. Tránh thu dữ liệu chỉ vì có thể thu.

Nguyên tắc thứ tư: dùng authentic assessment có giới hạn. Nhiệm vụ nên gắn với bối cảnh thật hoặc gần thật, nhưng phải có scope, tài nguyên, tiêu chí và scaffold để người học có cơ hội công bằng.

Nguyên tắc thứ năm: thiết kế AI feedback như vòng hành động. Feedback phải gắn rubric, yêu cầu người học chọn và phản hồi lại, có cơ hội sửa, và kiểm tra uptake. Không để AI tạo feedback dài mà không có hành động tiếp theo.

Nguyên tắc thứ sáu: không dùng AI detector như bằng chứng duy nhất. Detector có nguy cơ false positive, thiên lệch ngôn ngữ và dễ bị vượt qua. Nếu dùng, chỉ xem là tín hiệu phụ trong quy trình công bằng.

Nguyên tắc thứ bảy: phát triển evaluative judgement. Người học phải học cách đánh giá chất lượng, so sánh với tiêu chí, kiểm chứng AI, nhận ra hallucination, và giải thích lựa chọn. Đây là năng lực assessment và AI literacy cùng lúc.

Nguyên tắc thứ tám: đưa ipsative và asset-based vào hệ thống, không chỉ lời khuyên cá nhân. Dashboard tiến bộ, portfolio, reflection, progress conference và feedback theo thế mạnh cần có cấu trúc. Nếu không, chúng sẽ bị điểm số cuối kỳ nuốt mất.

Nguyên tắc thứ chín: giữ con người ở các quyết định có hệ quả cao. AI có thể hỗ trợ chấm, gợi ý, phát hiện pattern và tạo câu hỏi. Nhưng quyết định cuối về đạt chuẩn, nghi ngờ misconduct, năng lực đạo đức hoặc đánh giá phức hợp cần người có trách nhiệm.

Nguyên tắc thứ mười: đánh giá phải dạy cách học. Nếu assessment khiến người học giấu quá trình, tối ưu điểm, sợ thử, sao chép AI hoặc săn rubric, nó đang dạy sai. Nếu assessment khiến người học lập kế hoạch, dùng feedback, kiểm chứng nguồn, giải thích quyết định và tiến bộ qua thời gian, nó đang làm đúng việc giáo dục.

Tổng kết chương

GenAI không làm đánh giá biến mất; nó làm lộ ra những điểm yếu đã tồn tại: phụ thuộc quá nhiều vào sản phẩm cuối, tiêu chí mờ, feedback chậm, đánh giá năng lực phức hợp bằng nhiệm vụ nghèo, và niềm tin quá lớn vào điểm số như bằng chứng đầy đủ. Phản ứng tốt không phải là cấm toàn bộ AI hay giao phó đánh giá cho AI. Phản ứng tốt là thiết kế lại assessment argument: năng lực nào cần đo, bằng chứng nào đủ mạnh, quá trình nào cần thấy, AI được phép hỗ trợ ở đâu, và con người phải giữ phán đoán ở đâu.

Có sáu điểm cần giữ. Thứ nhất, formative assessment trở nên trung tâm vì quá trình học là bằng chứng quan trọng hơn khi sản phẩm cuối dễ được tạo bởi máy. Thứ hai, stealth assessment mở khả năng đo năng lực qua hành động thật trong môi trường số, nhưng phải minh bạch và bảo vệ dữ liệu. Thứ ba, ipsative assessment giúp thấy tiến bộ cá nhân, đặc biệt khi người học có xuất phát điểm khác nhau. Thứ tư, asset-based assessment dùng thế mạnh như dữ liệu thiết kế, không phải lời khen rỗng. Thứ năm, năng lực phức hợp cần nhiệm vụ giàu bối cảnh, nhiều nguồn bằng chứng và defense. Thứ sáu, AI feedback chỉ có giá trị khi nằm trong vòng hành động có tiêu chí, uptake và phán đoán con người.

Chương 17 sẽ chuyển từ đánh giá sang tương tác Human-AI. Nếu chương này hỏi “ta biết người học đã học thật bằng chứng nào?”, chương sau hỏi “AI nên đóng vai gì trong quan hệ học tập: tutor, tool, tutee, peer, coach hay một vai khác?”. Hai câu hỏi này liên kết chặt: vai trò của AI trong học tập quyết định loại bằng chứng ta có thể và nên dùng để đánh giá.

Tài liệu tham khảo

Arslan, B., Lehman, B., Tenison, C., Sparks, J. R., López, A. A., Gu, L., & Zapata-Rivera, D. (2024). Opportunities and challenges of using generative AI to personalize educational assessment. Frontiers in Artificial Intelligence, 7, 1460651. https://doi.org/10.3389/frai.2024.1460651

Bearman, M., Tai, J., Dawson, P., Boud, D., & Ajjawi, R. (2024). Developing evaluative judgement for a time of generative artificial intelligence. Assessment & Evaluation in Higher Education, 49(6), 1-13. https://doi.org/10.1080/02602938.2024.2335321

Brummer, L., de Boer, H., Mouw, J. M., & Strijbos, J.-W. (2024). A meta-analysis of the effects of context, content, and task factors of digitally delivered instructional feedback on learning performance. Learning Environments Research, 27, 453-476. https://doi.org/10.1007/s10984-024-09501-4

Chaka, C. (2024). Accuracy pecking order: How 30 AI detectors stack up in detecting generative artificial intelligence content in university English L1 and English L2 student essays. Journal of Applied Learning and Teaching, 7(1). https://doi.org/10.37074/jalt.2024.7.1.33

Ebrahimi, B., & Ebadi, S. (2024). Exploring the impact of screencast-based ipsative assessment on EFL students' writing development. Language Testing in Asia, 14, 41. https://doi.org/10.1186/s40468-024-00315-y

Freeman, J. (2025). Student Generative AI Survey 2025. Higher Education Policy Institute Policy Note 61. https://www.hepi.ac.uk/reports/student-generative-ai-survey-2025/

Kukol, A. (2024). Combination of ipsative and sociomaterial assessment methodologies within university-level science education. Higher Education for the Future, 11(2). https://doi.org/10.1177/23476311241268970

Liang, W., Yuksekgonul, M., Mao, Y., Wu, E., & Zou, J. (2023). GPT detectors are biased against non-native English writers. Patterns, 4(7), 100779. https://doi.org/10.1016/j.patter.2023.100779

Lye, C. Y., & Lim, L. (2024). Generative artificial intelligence in tertiary education: Assessment redesign principles and considerations. Education Sciences, 14(6), 569. https://doi.org/10.3390/educsci14060569

Miao, F., & Cukurova, M. (2024). AI competency framework for teachers. UNESCO. https://www.unesco.org/en/articles/ai-competency-framework-teachers

Mislevy, R. J., Steinberg, L. S., & Almond, R. G. (2003). On the structure of educational assessments. Measurement: Interdisciplinary Research and Perspectives, 1(1), 3-62. https://doi.org/10.1207/S15366359MEA0101_02

Rahimi, S., Shute, V. J., Rouhollah, K., Kuba, R., Babaee, M., & Esmaeiligoujar, S. (2023). Stealth assessment: A systematic review of the literature. Proceedings of the 17th International Conference of the Learning Sciences. https://doi.org/10.22318/icls2023.395429

Shute, V. J., & Ventura, M. (2013). Stealth assessment: Measuring and supporting learning in video games. MIT Press. https://doi.org/10.7551/mitpress/9589.001.0001

Wood, J., & Pitt, E. (2024). Empowering agency through learner-orchestrated self-generated feedback. Assessment & Evaluation in Higher Education, 50(1), 1-17. https://doi.org/10.1080/02602938.2024.2365856

Xia, Q., Weng, X., Ouyang, F., Lin, T. J., & Chiu, T. K. F. (2024). A scoping review on how generative artificial intelligence transforms assessment in higher education. International Journal of Educational Technology in Higher Education, 21, 40. https://doi.org/10.1186/s41239-024-00468-z