Chương 22. Đánh giá trong đời thật: công bằng hơn hay chỉ nhanh hơn?
Đánh giá là nơi giáo dục trở nên có hậu quả.
Một bài luyện sai có thể chỉ là feedback.
Một bài kiểm tra giữa kỳ có thể ảnh hưởng điểm số.
Một kỳ thi tốt nghiệp có thể ảnh hưởng cơ hội đại học.
Một bài luận tuyển sinh có thể ảnh hưởng học bổng.
Một chứng chỉ nghề có thể ảnh hưởng việc làm.
Một điểm dự đoán có thể ảnh hưởng lộ trình học.
Một cảnh báo gian lận có thể ảnh hưởng danh dự.
Vì vậy, công nghệ trong đánh giá không giống công nghệ trong nội dung học tập.
Một AI tutor giải thích sai có thể gây hại.
Nhưng một AI scorer chấm sai có thể đóng cửa.
Một dashboard học tập hiểu sai có thể gây áp lực.
Nhưng một hệ thống đánh giá tự động hiểu sai có thể làm người học bị rớt, bị loại, bị nghi ngờ, bị gắn nhãn.
Đây là lý do chương này phải cẩn thận.
Không thể nói đơn giản:
“AI chấm bài là nguy hiểm.”
Cũng không thể nói:
“AI chấm nhanh hơn nên tốt hơn.”
Con người chấm cũng có thiên kiến.
Con người mệt.
Con người không nhất quán.
Con người bị ảnh hưởng bởi chữ viết, giọng văn, tên tuổi, kỳ vọng, accent, phong cách ngôn ngữ, rater severity.
Một hệ thống automated scoring tốt có thể giúp scale.
Có thể tăng consistency.
Có thể cho feedback nhanh.
Có thể phát hiện bất thường.
Có thể làm quality control cho human scoring.
Có thể giảm thời gian giáo viên dành cho phản hồi lặp lại.
Nhưng AI chấm cũng có thiên kiến.
AI học từ dữ liệu cũ.
AI có thể thưởng văn phong bề mặt.
AI có thể không hiểu lập luận sâu.
AI có thể không biết khi nội dung nghe hay nhưng sai.
AI có thể không công bằng với English language learners, phương ngữ, nhóm xã hội, phong cách viết khác chuẩn.
AI có thể nén điểm.
AI có thể tự tin sai.
AI có thể khiến giáo viên và trường học tin rằng “đã có điểm” nghĩa là “đã có đánh giá”.
Đó là mâu thuẫn của chương này:
Đánh giá tự động có thể làm hệ thống công bằng hơn ở một số điểm.
Nhưng cũng có thể chỉ làm bất công chạy nhanh hơn, sạch hơn, khó khiếu nại hơn.
Câu hỏi không phải:
AI có chấm được không?
Câu hỏi là:
AI được quyền chấm cái gì, trong bối cảnh nào, với hậu quả nào, và người học có quyền gì khi nó sai?
1. Cảnh mở: một bài luận bị chấm trong vài giây
Một học sinh nộp bài luận.
Hệ thống trả điểm trong 12 giây.
7/10.
Feedback:
“Bài viết có cấu trúc rõ, nhưng cần phát triển luận điểm thứ hai và cải thiện chuyển đoạn.”
Học sinh nhìn điểm.
Giáo viên nhìn dashboard.
Phụ huynh nhìn app.
Nhà trường nhìn thống kê.
Vendor nói:
“Hệ thống giúp phản hồi tức thời, giảm tải giáo viên, chuẩn hóa scoring.”
Một phần đúng.
Nếu đây là bài luyện, feedback nhanh có thể rất hữu ích.
Học sinh có thể sửa ngay.
Giáo viên không phải viết cùng một nhận xét cho 40 bài.
Lớp có thêm vòng revision.
Nhưng hãy đổi bối cảnh.
Cũng bài luận đó.
Cũng hệ thống đó.
Nhưng điểm này quyết định học sinh có được vào chương trình nâng cao không.
Hoặc quyết định học sinh có đạt chuẩn tốt nghiệp không.
Hoặc quyết định hồ sơ học bổng.
Bỗng 12 giây không còn là tiện lợi.
Nó là quyền lực.
Học sinh hỏi:
“Vì sao em 7 mà không phải 8?”
Hệ thống trả lời:
“Cần phát triển luận điểm thứ hai.”
Học sinh nói:
“Nhưng luận điểm thứ hai của em dùng ví dụ từ trải nghiệm địa phương, không giống mẫu trong bài học.”
Giáo viên hỏi:
“Tôi có quyền sửa điểm không?”
Nhà trường hỏi:
“Nếu sửa thì mất consistency không?”
Phụ huynh hỏi:
“Ai chịu trách nhiệm nếu con tôi bị loại?”
Vendor nói:
“Mô hình đã được validation.”
Cơ quan quản lý hỏi:
“Validation với nhóm học sinh nào, ngôn ngữ nào, dạng bài nào, và mục đích nào?”
Đây là đánh giá trong đời thật.
Không phải câu chuyện AI chấm nhanh.
Mà là câu chuyện điểm số trở thành quyết định, và quyết định cần quyền giải thích.
2. Các bên trong cuộc tranh luận
Người học nói:
“Tôi muốn feedback nhanh. Nhưng nếu điểm ảnh hưởng tương lai của tôi, tôi muốn được hiểu, được khiếu nại, và được một người thật nghe.”
Người học không phản đối tự động hóa mọi lúc.
Nhiều người thích feedback tức thời.
Nhưng họ cần quyền khi điểm số có hậu quả.
Điểm tự động không được là bức tường.
Giáo viên nói:
“Tôi cần giảm tải chấm bài. Nhưng đừng biến tôi thành người ký tên cho điểm máy.”
Giáo viên có thể hưởng lợi từ AI feedback.
Nhưng nếu hệ thống chấm, giáo viên phải giải thích, sửa, xử lý khiếu nại, kiểm tra bias, và chịu trách nhiệm với phụ huynh/học sinh, workload có thể không giảm.
Nó chỉ đổi hình.
Nhà trường nói:
“Chúng tôi cần scale, consistency, chi phí hợp lý và dữ liệu nhanh.”
Nhà trường có lý.
Chấm tay mọi thứ rất tốn.
Human scoring không luôn nhất quán.
Feedback chậm làm mất cơ hội sửa.
Nhưng nhà trường cũng phải nhớ:
đánh giá không chỉ là logistics.
Nó là trust.
Vendor nói:
“Hệ thống của chúng tôi có độ tương đồng cao với human raters.”
Đó là một bằng chứng cần xem.
Nhưng chưa đủ.
Tương đồng với human raters không tự động chứng minh công bằng, validity, explainability, hoặc phù hợp mục đích.
Nếu human raters cũng có thiên kiến, AI học theo họ có thể chỉ đóng gói thiên kiến trong mô hình.
Phụ huynh nói:
“Nếu máy chấm công bằng hơn người, tôi ủng hộ. Nhưng nếu máy sai, tôi muốn biết ai sửa.”
Đây là câu hỏi rất đời:
Khi điểm sai, đường sửa ở đâu?
Nếu không có đường sửa, “công nghệ công bằng” chỉ là niềm tin bắt buộc.
Cơ quan quản lý nói:
“Đánh giá giáo dục là high-stakes khi ảnh hưởng tiếp cận, phân luồng, kết quả học tập và cơ hội.”
EU AI Act xếp các hệ thống AI dùng để xác định access/admission, đánh giá learning outcomes, xác định mức giáo dục phù hợp, hoặc giám sát hành vi bị cấm trong kiểm tra vào nhóm high-risk trong education and vocational training.[^eu-ai-act]
Điều này không có nghĩa mọi app chấm quiz là nguy hiểm như nhau.
Nó nói rằng khi AI bước vào quyết định giáo dục có hậu quả, nó phải chịu tiêu chuẩn cao hơn app tiêu dùng.
AI scorer nếu có tiếng nói sẽ nói:
“Tôi chỉ dự đoán điểm dựa trên dữ liệu.”
Nhưng trong giáo dục, dự đoán điểm không chỉ là dự đoán.
Nó là hành động xã hội.
Nó trao hoặc lấy cơ hội.
3. Không phải mọi đánh giá có cùng rủi ro
Một lỗi lớn là nói “AI chấm bài” như một khối.
Rủi ro khác nhau rất lớn.
Một quiz luyện tập low-stakes khác bài thi tốt nghiệp.
Một feedback nháp khác điểm chính thức.
Một gợi ý sửa câu khác phán quyết đạt/rớt.
Một bài kiểm tra nội bộ lớp khác admission.
Một auto-graded multiple choice khác essay scoring.
Một pronunciation practice khác chứng chỉ ngôn ngữ.
Một AI detector gợi ý giáo viên xem lại khác cáo buộc gian lận.
Vì vậy, cần risk-tiering.
Low-stakes formative assessment có thể dùng AI rộng hơn nếu:
người học biết đó là hỗ trợ,
sai sót không gây hậu quả lớn,
giáo viên có thể can thiệp,
và feedback giúp sửa.
Medium-stakes assessment cần kiểm tra kỹ hơn:
rubric rõ,
sample audit,
human moderation,
appeal process,
và kiểm tra bias theo nhóm.
High-stakes assessment cần tiêu chuẩn cao:
validity argument,
độc lập đánh giá,
human review,
explainability đủ dùng,
quyền khiếu nại,
record-keeping,
data governance,
security,
và trách nhiệm pháp lý rõ.
Một công cụ phù hợp low-stakes có thể không được phép high-stakes.
Đây là điều nhiều vendor và trường học phải nói rõ ngay từ đầu.
Không có “AI scorer tốt” chung chung.
Chỉ có công cụ phù hợp hoặc không phù hợp với mục đích đánh giá cụ thể.
4. Con người chấm có thiên kiến; đừng lãng mạn hóa human scoring
Phê phán AI scoring không nên biến con người thành chuẩn vàng tuyệt đối.
Human scoring có vấn đề thật.
Hai giám khảo có thể cho điểm khác nhau.
Một người nghiêm hơn.
Một người dễ hơn.
Một người bị ảnh hưởng bởi bài trước đó.
Một người bị mệt.
Một người bị ảnh hưởng bởi chữ viết đẹp.
Một người đánh giá thấp phong cách ngôn ngữ không quen.
Một người thấy lỗi ngữ pháp rồi đánh giá thấp cả lập luận.
Một người có bias về accent, tên, giới, chủng tộc, tầng lớp, phương ngữ.
Một người đánh giá bài học sinh dựa trên kỳ vọng đã có về em ấy.
Vì vậy, automated scoring có một luận điểm mạnh:
Nếu được thiết kế và kiểm định tốt, nó có thể tăng consistency.
Nó không mệt.
Nó không bị ảnh hưởng bởi tâm trạng trong ngày.
Nó có thể chấm nhiều bài.
Nó có thể phát hiện một số mẫu lỗi.
Nó có thể làm quality control.
ETS e-rater, ví dụ, được dùng để cung cấp automatic scoring và feedback cho writing; trong high-stakes settings như GRE Analytical Writing và TOEFL iBT writing prompts, ETS nói e-rater được dùng kết hợp với human ratings, không phải đơn độc, và nghiên cứu của ETS cho rằng kết hợp human + automated scoring có lợi cho reliability/measurement.[^ets-erater]
Điều này cho thấy một vị trí thực tế hơn:
AI không nhất thiết thay con người.
Nó có thể là người chấm thứ hai.
Là công cụ quality control.
Là feedback nháp.
Là hệ thống phát hiện bất thường.
Là cách giúp human raters tập trung hơn vào higher-order aspects.
Nhưng nếu dùng AI để thay thế toàn bộ human judgment trong nơi high-stakes, luận điểm phải mạnh hơn rất nhiều.
Và thường chưa đủ.
5. Automated scoring giúp scale, consistency và feedback nhanh
Không thể phủ nhận lợi ích vận hành.
Một giáo viên có 150 bài viết không thể phản hồi sâu từng bài mỗi tuần.
Một hệ thống thi lớn cần chấm hàng trăm nghìn bài.
Một nền tảng học tập muốn cho người học luyện tập nhiều vòng.
Một người học ngôn ngữ cần phản hồi phát âm tức thời.
Một học sinh viết nháp cần biết lỗi cơ bản trước khi gửi giáo viên.
Ở đây, automated scoring và automated feedback có thể hữu ích.
Nó giúp người học nhận feedback ngay, thay vì chờ đến khi quên mình đã nghĩ gì.
Nó giúp giáo viên dùng thời gian cho nhận xét sâu hơn.
Nó giúp hệ thống phát hiện bài cần human review.
Nó giúp giảm một số inconsistency giữa người chấm.
Nó giúp học sinh luyện nhiều hơn.
Nhưng cần phân biệt grade và feedback.
Feedback là thông tin để cải thiện.
Grade là phán quyết.
Hai thứ có thể liên quan, nhưng không giống nhau.
Education Endowment Foundation nhấn mạnh feedback tốt có thể hỗ trợ tiến bộ bằng cách giải quyết misunderstanding và giúp người học biết khoảng cách giữa hiện tại và mục tiêu; nhưng feedback xấu có thể không hiệu quả hoặc gây hại, và feedback không hề miễn phí vì tốn thời gian lớn.[^eef-feedback]
AI feedback có thể giảm một phần chi phí feedback.
Nhưng nó vẫn phải trả lời câu hỏi:
Feedback có đúng không?
Người học có hiểu không?
Người học có sửa không?
Feedback có hướng tới mục tiêu học không?
Hay chỉ tạo cảm giác đã được phản hồi?
Nếu AI feedback nhanh nhưng nông, nó có thể làm người học sửa bề mặt.
Nếu AI feedback quá nhiều, người học có thể bị ngợp.
Nếu AI feedback quá tự tin, người học có thể tin sai.
Tốc độ là lợi ích.
Nhưng tốc độ không thay thế chất lượng.
6. AI chấm được gì tốt hơn, và kém hơn?
Automated scoring mạnh hơn ở những thứ có cấu trúc rõ.
Ví dụ:
câu trả lời đúng/sai,
quiz có đáp án,
một số lỗi ngữ pháp,
chính tả,
độ dài,
từ vựng,
organization markers,
format,
rubric hẹp,
pronunciation feature rõ,
code tests có test cases,
short answer có đáp án mẫu đủ tốt.
Nó yếu hơn ở những thứ cần phán đoán sâu:
lập luận mới,
độ đúng của kiến thức ngoài văn bản,
ý tưởng sáng tạo,
giọng riêng,
liên hệ bối cảnh địa phương,
đạo đức của lập luận,
quá trình sửa,
khả năng bảo vệ ý tưởng,
hợp tác,
transfer sang tình huống mới,
và sự trưởng thành trong tư duy.
ETS mô tả e-rater dùng các feature như content analysis theo vocabulary measures, lexical complexity, grammar/usage/mechanics errors, style comments, organization/development và idiomatic phraseology; ETS cũng nói hệ thống tự động flag responses off-topic hoặc inconsistent để review.[^ets-how]
Các feature này có giá trị.
Nhưng chúng cũng cho thấy giới hạn:
Máy thường bắt được dấu hiệu bề mặt tốt hơn nghĩa sâu.
Một bài viết có tổ chức đẹp nhưng luận điểm sai có thể được đánh giá quá tốt nếu hệ thống không kiểm tra truth.
Một bài viết ít hoa mỹ nhưng có insight thật có thể bị đánh giá thấp.
Một học sinh English learner có thể viết đơn giản nhưng hiểu sâu.
Một học sinh khác có thể dùng AI tạo văn phong bóng bẩy nhưng hiểu ít.
Trong thời GenAI, rủi ro này lớn hơn:
Sản phẩm cuối ngày càng dễ làm đẹp.
Do đó, đánh giá chỉ dựa trên sản phẩm cuối ngày càng kém đáng tin.
7. AI có thể công bằng hơn người, nhưng cũng có thể đóng băng thiên kiến
Một lập luận ủng hộ AI scoring là:
Máy không biết học sinh là ai.
Không thấy mặt.
Không nghe accent.
Không nhớ quá khứ.
Không bị cảm xúc.
Không thiên vị học sinh mình thích.
Điều này đúng một phần nếu hệ thống thật sự không có hoặc không suy ra thông tin nhóm.
Nhưng AI vẫn học từ dữ liệu con người tạo.
Nếu dữ liệu chấm trước đây có bias, AI có thể học bias đó.
Nếu feature bề mặt tương quan với nhóm xã hội, AI có thể tái tạo bất bình đẳng mà không cần biết tên nhóm.
Nếu bài viết của English language learners có đặc điểm ngôn ngữ khác, hệ thống có thể đọc khác.
Nếu rubric được xây trên chuẩn văn phong hẹp, AI sẽ thưởng chuẩn đó.
Nghiên cứu của Wilson và Huang năm 2024 về MI Write với 2.829 học sinh lớp 3-5 cho thấy automated scores không uniquely biased hơn human scores đối với English language learners về predictive validity; nhưng automated scoring có thể tái tạo cùng bias có trong human scoring.[^wilson-huang]
Đây là kết quả rất quan trọng vì nó không cho phép ta nói đơn giản:
“AI bias, người công bằng.”
Hay:
“AI khách quan hơn người.”
Sự thật khó hơn:
AI có thể không tệ hơn người ở một số bối cảnh.
Nhưng nếu người đã bias, AI học từ người có thể đóng gói bias đó ở quy mô lớn.
Một nghiên cứu 2025 về GPT-4o rating essays của English language learners cũng tìm thấy không có bias đáng kể theo gender hoặc socioeconomic status, nhưng có bias đáng kể theo race/ethnicity, ví dụ điểm cao bất thường hơn cho Asian/Pacific Islander group và thấp hơn cho Hispanic/Latino group.[^yamashita-gpt4o]
Điều này nhắc ta:
Fairness không thể được suy luận từ việc mô hình hiện đại.
Phải kiểm tra.
Theo nhóm.
Theo bối cảnh.
Theo dạng bài.
Theo hậu quả.
Và phải kiểm tra lại khi model thay đổi.
8. AI detector không phải bằng chứng gian lận
Một phần rất nguy hiểm của đánh giá thời GenAI là AI detection.
Trường sợ học sinh dùng AI làm hộ.
Nỗi sợ này có lý.
Nhưng nếu phản ứng bằng cách dùng AI detector như bằng chứng quyết định, rủi ro rất lớn.
Stanford HAI tóm tắt nghiên cứu năm 2023 của Liang và cộng sự: các GPT detectors không đáng tin và đặc biệt không đáng tin với non-native English writers; trong thử nghiệm, detectors phân loại hơn một nửa TOEFL essays của người viết không phải native English là AI-generated.[^stanford-detectors]
Điều này có hậu quả đạo đức trực tiếp.
Một học sinh viết tiếng Anh chưa mượt có thể bị nghi oan.
Một sinh viên quốc tế có thể bị phạt vì văn phong “ít phức tạp”.
Một học sinh nghèo ít được luyện viết phong phú có thể bị flag.
Một người học neurodivergent hoặc dùng cấu trúc lặp có thể bị nghi ngờ.
AI detector có thể hữu ích như tín hiệu để giáo viên xem kỹ hơn.
Nhưng không nên là phán quyết.
Nếu trường dùng detector, tối thiểu phải có:
ngưỡng nghi ngờ rõ,
không xử phạt chỉ dựa trên detector,
quyền giải trình của học sinh,
quy trình human review,
kiểm tra lịch sử bản nháp,
đối thoại về quá trình,
và hiểu biết về false positives.
Trong thời GenAI, integrity không thể được bảo vệ chỉ bằng cảnh sát thuật toán.
Nó phải được bảo vệ bằng thiết kế đánh giá tốt hơn.
9. High-stakes assessment cần giải thích, khiếu nại và human review
Khi đánh giá ảnh hưởng cơ hội thật, người học cần quyền thủ tục.
Không chỉ quyền học.
Mà quyền được xét xử công bằng trong giáo dục.
Nếu AI chấm bài thi quan trọng, người học cần biết:
AI chấm phần nào?
Human chấm phần nào?
Rubric là gì?
Điểm được tạo ra ra sao ở mức có thể hiểu?
Dữ liệu nào được dùng?
Có audit không?
Mô hình đã được kiểm định với nhóm giống mình chưa?
Ai có quyền sửa điểm?
Khiếu nại ở đâu?
Thời hạn khiếu nại?
Nếu AI sai, ai chịu trách nhiệm?
NIST AI Risk Management Framework và Generative AI Profile nhấn mạnh quản trị rủi ro AI theo vòng đời, bao gồm govern, map, measure, manage; các tổ chức phải xác định, đo lường, giám sát và quản lý rủi ro của hệ thống AI, đặc biệt với các rủi ro trustworthiness như validity, reliability, robustness, privacy, safety, fairness, accountability và transparency.[^nist-rmf]
Trong giáo dục, điều này không nên chỉ nằm trong tài liệu kỹ thuật.
Nó phải thành quyền của người học.
High-stakes AI assessment cần:
documentation,
human oversight,
appeal,
audit trail,
bias testing,
model change control,
incident process,
và khả năng giải thích đủ để người học không bị xử bởi một hộp đen.
Nếu một hệ thống quá phức tạp để giải thích khi nó quyết định cơ hội của trẻ, có thể nó chưa nên được quyền quyết định.
10. GenAI làm sản phẩm cuối kém đáng tin hơn
Trước GenAI, một bài luận về nhà vẫn có thể bị thuê viết, chép mạng, nhờ người khác sửa quá mức.
Gian lận không mới.
Nhưng GenAI làm việc tạo sản phẩm cuối trở nên rẻ, nhanh, khó phân biệt hơn.
Một bài essay hoàn chỉnh không còn chứng minh chắc người học đã tự đi qua quá trình viết.
Một đoạn code chạy được không chứng minh chắc người học hiểu.
Một slide đẹp không chứng minh chắc người học nghiên cứu.
Một lời giải đúng không chứng minh chắc người học biết giải.
Một reflection bóng bẩy không chứng minh chắc người học đã reflection.
Điều này buộc đánh giá phải dịch chuyển.
Không chỉ hỏi:
Sản phẩm cuối là gì?
Mà hỏi:
Người học đã tạo sản phẩm đó bằng quá trình nào?
Họ hiểu gì?
Họ sửa gì?
Họ bảo vệ quyết định ra sao?
Họ chuyển kiến thức sang tình huống mới được không?
Họ dùng AI thế nào?
Họ biết giới hạn của AI không?
TEQSA trong Assessment Reform for the Age of Artificial Intelligence nói GenAI làm trầm trọng các thách thức assessment integrity vốn đã có, và assessment trong thời AI cần được cải cách để vừa tận dụng cơ hội, vừa quản lý rủi ro.[^teqsa-2023]
TEQSA 2025 tiếp tục nhấn mạnh hai nguyên tắc: assessment và learning experiences phải giúp sinh viên tham gia xã hội nơi GenAI phổ biến một cách ethical, critical, active; và forming trustworthy judgements about student learning requires multiple, inclusive and contextualised approaches to assessment.[^teqsa-2025]
Đây là câu then chốt:
Muốn phán đoán đáng tin về học tập, không thể dựa vào một sản phẩm cuối đơn lẻ.
Phải có nhiều bằng chứng.
Đa dạng.
Có ngữ cảnh.
Và có quan hệ với quá trình học.
11. Revision, reflection, defense và transfer
Trong kỷ nguyên AI, assessment tốt cần đo những thứ AI khó làm hộ trọn vẹn, hoặc ít nhất làm lộ quá trình người học dùng AI.
Revision.
Không chỉ nộp bản cuối.
Nộp bản nháp.
Nộp dấu vết sửa.
Giải thích vì sao sửa.
So sánh feedback người/AI.
Chỉ ra phần nào giữ, phần nào bỏ.
Một người học hiểu bài sẽ sửa có chủ ý, không chỉ polish.
Reflection.
Không chỉ “em học được nhiều”.
Reflection phải cụ thể:
Em hiểu sai điều gì ban đầu?
Em đổi chiến lược khi nào?
AI giúp gì, làm em sai ở đâu?
Em kiểm chứng thông tin thế nào?
Em còn chưa chắc điều gì?
Defense.
Người học phải bảo vệ sản phẩm:
oral defense,
viva,
Q&A,
giải thích quyết định,
ứng biến với câu hỏi mới,
phản biện giả định.
AI có thể chuẩn bị, nhưng người học phải hiện diện bằng hiểu biết của mình.
Transfer.
Đánh giá khả năng chuyển kiến thức sang tình huống mới:
bài toán mới,
dữ liệu mới,
case mới,
khán giả mới,
ràng buộc mới.
Nếu người học chỉ tạo được sản phẩm đã luyện, chưa đủ.
Nếu người học có thể dùng nguyên lý trong bối cảnh khác, đó là học sâu hơn.
Những hướng này không phải chống AI.
Ngược lại, chúng cho phép AI hiện diện minh bạch.
Người học có thể dùng AI để brainstorm, critique, generate examples.
Nhưng phải chứng minh mình hiểu, chọn, sửa, bảo vệ và chuyển giao.
12. Đánh giá quá trình không được biến thành giám sát quá trình
Nói “đánh giá quá trình” dễ dẫn tới một rủi ro mới:
giám sát mọi thao tác.
Keystroke logging.
Screen recording.
Version history bắt buộc.
AI detector.
Browser lockdown.
Proctoring.
Camera.
Eye tracking.
Time stamp.
Process analytics.
Một phần có thể cần trong bối cảnh high-stakes.
Nhưng nếu mọi hoạt động học đều bị theo dõi để chứng minh “em không gian lận”, trường học trở thành môi trường nghi ngờ.
Đánh giá quá trình nên nhằm hiểu học tập.
Không phải giám sát người học như nghi phạm.
Có nhiều cách đánh giá quá trình ít giám sát hơn:
conference với giáo viên,
draft checkpoints,
learning journal có chọn lọc,
peer review,
in-class planning,
oral defense,
annotated bibliography,
reflection sau feedback,
portfolio có curated evidence.
Những cách này không hoàn hảo.
Nhưng chúng giữ quan hệ giáo dục tốt hơn so với việc đặt mọi học sinh dưới nghi ngờ công nghệ.
Academic integrity cần trust.
Không phải trust ngây thơ.
Mà trust được thiết kế bằng nhiệm vụ tốt, quan hệ tốt, chính sách rõ và quyền khiếu nại.
13. Automated scoring trong lớp học: feedback trước, điểm sau
Trong lớp học, nguyên tắc thực dụng là:
Cho AI bắt đầu bằng feedback, đừng bắt đầu bằng phán quyết.
Một AI có thể:
gợi ý chỗ bài viết thiếu ví dụ,
chỉ ra câu mơ hồ,
đánh dấu lỗi ngữ pháp,
gợi ý câu hỏi để người học tự kiểm tra,
đưa rubric cho học sinh tự đối chiếu,
so sánh bản nháp trước-sau,
và giúp giáo viên thấy pattern chung.
Nhưng điểm cuối vẫn nên là phán đoán giáo dục, nhất là khi có hậu quả.
Black và Wiliam trong truyền thống formative assessment nhấn mạnh assessment trở thành formative khi evidence được dùng để điều chỉnh dạy và học; đánh giá tốt không chỉ đo, mà giúp dạy-học thay đổi.[^black-wiliam]
AI feedback nên phục vụ tinh thần đó.
Không phải:
“Máy nói bạn 7.”
Mà:
“Đây là dấu hiệu bạn có thể sửa, thử làm lại, rồi giải thích bạn sửa gì.”
Điểm số đóng cuộc đối thoại quá sớm.
Feedback mở cuộc đối thoại.
Nếu AI được đưa vào lớp học, hãy để nó mở thêm vòng học trước khi nó đóng lại bằng grade.
14. Người học phải được dạy cách đọc feedback của AI
Một giả định sai:
AI feedback tự nhiên hữu ích.
Không.
Người học cần biết đọc feedback.
AI nói “phát triển luận điểm” nghĩa là gì?
AI nói “cải thiện coherence” thì làm thế nào?
AI sửa câu có làm mất giọng của mình không?
AI gợi ý ví dụ có đúng không?
AI có bỏ qua yêu cầu rubric không?
AI có khen quá mức không?
AI có chấm nặng lỗi bề mặt không?
AI có đánh giá thấp phong cách khác chuẩn không?
Nếu người học yếu, họ có thể tin AI quá nhiều.
Nếu người học mạnh, họ có thể dùng AI như người phản biện.
Vậy AI feedback có thể làm bất bình đẳng tăng nếu không dạy AI literacy.
Giáo viên cần dạy người học:
đọc feedback như giả thuyết,
không như chân lý,
yêu cầu ví dụ,
kiểm tra với rubric,
so sánh với feedback người,
giữ quyền lựa chọn,
và ghi lại quyết định sửa.
AI feedback tốt không chỉ là feedback đúng.
Nó là feedback mà người học biết dùng để học.
15. Giáo viên không được bị thay bằng “human in the loop” hình thức
Rất nhiều hệ thống nói:
“Có human in the loop.”
Nghe yên tâm.
Nhưng phải hỏi:
Human nào?
Có đủ thời gian không?
Có quyền sửa không?
Có hiểu mô hình không?
Có thấy evidence không?
Có được đào tạo không?
Có bị áp lực giữ điểm máy không?
Có chịu trách nhiệm pháp lý không?
Có được trả công cho việc review không?
Nếu human chỉ bấm duyệt hàng trăm điểm máy trong vài phút, đó không phải oversight.
Đó là rubber stamp.
Human review thật phải có:
sample audit,
case review,
disagreement protocol,
escalation,
training,
time allocation,
và quyền override.
Nếu không, “human in the loop” chỉ là cách hệ thống mượn uy tín con người để hợp thức hóa tự động hóa.
16. Benchmark đúng cho đánh giá AI
Khi đánh giá một công cụ AI/automated assessment, không nên chỉ hỏi:
Nó chấm nhanh không?
Nó tương quan với human score không?
Nó có dashboard không?
Nó tiết kiệm tiền không?
Hãy hỏi:
Một: mục đích đánh giá là gì?
Formative feedback, summative grade, placement, admission, certification, detection, hay monitoring?
Mục đích càng high-stakes, tiêu chuẩn càng cao.
Hai: construct cần đo là gì?
Viết hay ngữ pháp?
Lập luận hay độ dài?
Hiểu hay trình bày?
Quá trình hay sản phẩm?
Nếu construct mơ hồ, AI sẽ đo dấu hiệu dễ hơn.
Ba: bằng chứng validity là gì?
Không chỉ agreement với human raters.
Cần quan hệ với outcome khác, bias analysis, subgroup performance, task fit, và consequence analysis.
Bốn: fairness đã được kiểm tra theo nhóm chưa?
Ngôn ngữ, phương ngữ, disability, gender, race/ethnicity, socioeconomic status, tuổi, thiết bị, bối cảnh.
Năm: người học có quyền khiếu nại không?
Không có appeal thì không nên high-stakes.
Sáu: human review thật hay hình thức?
Human có quyền, thời gian, training, evidence không?
Bảy: model thay đổi thì sao?
Có revalidation không?
Có version control không?
Có thông báo không?
Tám: AI detector có bị dùng như bằng chứng quyết định không?
Nếu có, rủi ro công bằng rất lớn.
Chín: assessment có thích ứng với GenAI chưa?
Có đo revision, reflection, defense, transfer không?
Hay vẫn giả định sản phẩm cuối là bằng chứng đủ?
Mười: công cụ làm giáo dục công bằng hơn hay chỉ nhanh hơn?
Đây là câu hỏi cuối.
Nhanh hơn không đủ.
Rẻ hơn không đủ.
Nhất quán hơn cũng chưa đủ nếu nhất quán trong việc đo sai.
Đánh giá tốt phải giúp người học được hiểu đúng hơn và có cơ hội sửa đúng hơn.
17. Lập trường của chương này
Đánh giá tự động không phải kẻ thù.
Nó có thể rất hữu ích.
Đặc biệt trong formative feedback, practice, low-stakes assessment, quality control, pattern detection, và hỗ trợ giáo viên giảm việc lặp lại.
Con người chấm bài cũng không phải thiên thần.
Human scoring có thiên kiến, mệt mỏi, inconsistency và chi phí cao.
Nhưng đánh giá giáo dục không chỉ là bài toán dự đoán điểm.
Nó là bài toán công bằng, niềm tin, quyền giải thích, quyền sửa, và trách nhiệm với hậu quả.
AI scoring làm ta phải phân biệt rõ hơn:
feedback và grade,
low-stakes và high-stakes,
speed và validity,
agreement và fairness,
product và process,
detection và proof,
human review thật và human review hình thức.
Trong kỷ nguyên GenAI, một sản phẩm cuối đẹp không còn đủ để chứng minh học tập.
Nhưng câu trả lời không phải biến trường học thành máy giám sát.
Câu trả lời là thiết kế đánh giá giàu hơn:
nhiều bằng chứng hơn,
ngữ cảnh hơn,
revision hơn,
reflection hơn,
defense hơn,
transfer hơn,
và minh bạch hơn về vai trò của AI.
AI có thể giúp đánh giá nhanh hơn.
Nhưng giáo dục không nên chỉ muốn nhanh.
Giáo dục cần đánh giá làm người học được nhìn đúng hơn.
Được sửa nhiều hơn.
Được bảo vệ khỏi phán quyết sai.
Được thách thức để hiểu thật.
Được dùng công nghệ mà không mất quyền.
Nếu AI giúp điều đó, hãy dùng.
Nếu AI chỉ làm điểm số xuất hiện nhanh hơn mà quyền giải thích biến mất, hãy dừng lại.
Vì trong đánh giá, sai một chút không chỉ là lỗi kỹ thuật.
Nó có thể là một cánh cửa đóng trước mặt một người học.
Và mọi hệ thống giáo dục tử tế phải rất chậm, rất cẩn thận, trước khi giao chìa khóa cánh cửa ấy cho một mô hình.
Ghi chú nguồn cho chương
[^eu-ai-act]: European Commission / AI Act Service Desk, Annex III: High-risk AI systems. EU AI Act xếp các hệ thống AI dùng để xác định access/admission, đánh giá learning outcomes, xác định mức giáo dục phù hợp, hoặc giám sát/detect prohibited behaviour trong tests vào nhóm high-risk trong education and vocational training. Nguồn: https://ai-act-service-desk.ec.europa.eu/en/ai-act/annex-3
[^ets-erater]: ETS, About the e-rater Scoring Engine. ETS mô tả e-rater là AI/NLP scoring engine dùng cho automatic scoring và feedback; trong high-stakes settings như GRE Analytical Writing và TOEFL iBT writing prompts, ETS nói e-rater được dùng kết hợp với human ratings và có research về reliability/measurement benefits. Nguồn: https://www.ets.org/erater/about.html
[^ets-how]: ETS, How the e-rater Engine Works. ETS mô tả e-rater scoring features gồm vocabulary/content analysis, lexical complexity, grammar/usage/mechanics errors, style, organization/development, idiomatic phraseology; hệ thống cũng flag off-topic hoặc inconsistent responses để review. Nguồn: https://www.ets.org/erater/how.html
[^eef-feedback]: Education Endowment Foundation, Teacher Feedback to Improve Pupil Learning (2021). EEF nhấn mạnh feedback tốt có thể hỗ trợ tiến bộ bằng cách giải quyết misunderstandings và giúp người học biết khoảng cách giữa hiện tại và mục tiêu; feedback xấu có thể gây hại và feedback không miễn phí vì tốn nhiều thời gian. Nguồn: https://educationendowmentfoundation.org.uk/education-evidence/guidance-reports/feedback
[^wilson-huang]: Joshua Wilson & Yue Huang, “Validity of automated essay scores for elementary-age English language learners: Evidence of bias?” (Assessing Writing, 2024). Nghiên cứu 2.829 học sinh lớp 3-5 với MI Write cho thấy automated scoring không uniquely biased hơn human scoring với ELLs về predictive validity, nhưng có thể tái tạo bias có trong human scoring. Nguồn: https://doi.org/10.1016/j.asw.2024.100815 và trang ScienceDirect: https://www.sciencedirect.com/science/article/pii/S1075293524000084
[^yamashita-gpt4o]: Taichi Yamashita, “Exploring potential biases in GPT-4o’s ratings of English language learners’ essays” (Language Testing, 2025). Nghiên cứu dùng ELLIPSE corpus 6.482 essays, so sánh human ratings và GPT-4o ratings; kết quả không thấy bias lớn theo gender/SES nhưng thấy bias đáng kể theo race/ethnicity. Nguồn: https://doi.org/10.1177/02655322251329435
[^stanford-detectors]: Stanford HAI, “AI-Detectors Biased Against Non-Native English Writers” (2023), tóm tắt nghiên cứu Liang et al., Patterns 2023. Stanford ghi nhận detectors không đáng tin, dễ bị qua mặt và đặc biệt hay false positive với non-native English writing; trong thử nghiệm, hơn một nửa TOEFL essays của non-native English students bị phân loại là AI-generated. Nguồn: https://hai.stanford.edu/news/ai-detectors-biased-against-non-native-english-writers và bài nghiên cứu: https://doi.org/10.1016/j.patter.2023.100779
[^nist-rmf]: NIST, Artificial Intelligence Risk Management Framework (AI RMF 1.0) (2023) và Generative AI Profile (2024, updated 2026). NIST cung cấp khung quản trị rủi ro AI theo vòng đời với các function govern, map, measure, manage; nhấn mạnh trustworthiness như validity, reliability, robustness, privacy, safety, fairness, accountability và transparency. Nguồn: https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-ai-rmf-10 và https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence
[^teqsa-2023]: TEQSA, Assessment reform for the age of artificial intelligence (2023). Tài liệu của cơ quan quản lý chất lượng giáo dục đại học Australia nêu GenAI vừa tạo cơ hội vừa làm trầm trọng thách thức academic integrity; assessment cần được cải cách để quản lý rủi ro và tận dụng cơ hội của AI. Nguồn: https://www.teqsa.gov.au/guides-resources/resources/corporate-publications/assessment-reform-age-artificial-intelligence
[^teqsa-2025]: TEQSA, Enacting assessment reform in a time of artificial intelligence (2025), trong Gen AI resources. Tài liệu nhấn mạnh hai nguyên tắc: assessment/learning experiences phải giúp người học tham gia xã hội có GenAI một cách ethical, critical, active; và trustworthy judgements about student learning cần multiple, inclusive and contextualised approaches to assessment. Nguồn: https://www.teqsa.gov.au/guides-resources/higher-education-good-practice-hub/gen-ai-knowledge-hub/gen-ai-teqsa-resources
[^black-wiliam]: Paul Black & Dylan Wiliam, “Inside the Black Box: Raising Standards Through Classroom Assessment” (Phi Delta Kappan, 1998; reprinted 2010). Bài kinh điển về formative assessment nhấn mạnh assessment trở thành formative khi evidence được dùng để điều chỉnh dạy và học. Nguồn DOI bản reprint: https://doi.org/10.1177/003172171009200119