Chương 21: Dữ liệu, riêng tư, thiên kiến và chính sách
Bối cảnh / Vấn đề
AI trong giáo dục không chạy bằng ý tưởng sư phạm. Nó chạy bằng dữ liệu. Dữ liệu người học, bài làm, điểm số, lịch sử đăng nhập, câu hỏi gửi chatbot, bản ghi âm, video, thời gian làm bài, hành vi click, vị trí trong khóa học, phản hồi của giáo viên, thông tin phụ huynh, tình trạng khuyết tật, cảm xúc suy luận từ khuôn mặt, hoặc hồ sơ can thiệp đều có thể trở thành đầu vào cho hệ thống. Khi dữ liệu được dùng tốt, giáo viên có thể nhìn rõ hơn; người học nhận phản hồi kịp hơn; tổ chức phát hiện lỗ hổng sớm hơn. Khi dữ liệu được dùng kém, giáo dục có thể biến thành giám sát, phân loại, dự đoán và tối ưu hóa hành vi mà người học không hiểu và không có quyền phản biện.
Chương 20 đã bàn về tổ chức học tập như hệ thống vận hành. Nhưng không có vận hành AI nghiêm túc nếu thiếu quản trị dữ liệu. Một trường có thể có kế hoạch triển khai tốt, professional development tốt, pilot tốt, nhưng nếu không biết dữ liệu nào được thu, ai truy cập, lưu bao lâu, dùng lại vào việc gì, chuyển cho vendor nào, có huấn luyện mô hình hay không, và người học có quyền gì, hệ thống vẫn đứng trên nền yếu. Trong giáo dục, dữ liệu không chỉ là tài sản vận hành. Nó là dấu vết đời sống của trẻ em, thanh thiếu niên, sinh viên và giáo viên. Vì vậy, quản trị dữ liệu là quản trị quyền lực.
Điểm khó là dữ liệu giáo dục thường có vẻ vô hại. Một điểm quiz, một lần vắng mặt, một câu hỏi chatbot, một timestamp, một bản nháp, một lượt xem video không giống dữ liệu y tế hay tài chính. Nhưng khi ghép lại, chúng có thể tạo hồ sơ rất sâu về năng lực, thói quen, động lực, hoàn cảnh, ngôn ngữ, quan hệ và rủi ro của người học. Một dashboard có thể biết học sinh nào thường học lúc khuya. Một hệ thống adaptive biết em sai dạng nào. Một chatbot biết em hỏi điều gì khi ngại nói với giáo viên. Một công cụ viết biết bản nháp đầu tiên vụng về ra sao. Một nền tảng quản trị biết phụ huynh nào phản hồi chậm, học sinh nào nộp bài muộn, lớp nào có nhiều cảnh báo. Những mảnh dữ liệu này có thể giúp hỗ trợ, nhưng cũng có thể gắn nhãn, giám sát, thương mại hóa hoặc khóa cơ hội.
AI làm rủi ro tăng vì ba lý do. Thứ nhất, AI cần hoặc hấp thụ nhiều dữ liệu hơn các công cụ số truyền thống. Một LMS lưu bài nộp; một hệ thống AI có thể phân tích bài nộp, tạo đặc trưng, suy luận năng lực, dự đoán rủi ro và dùng dữ liệu để tinh chỉnh mô hình. Thứ hai, AI tạo ra dữ liệu mới: điểm dự báo, mức thành thạo, nhãn cảm xúc, xác suất gian lận, khuyến nghị lộ trình, risk score, hoặc hồ sơ cá nhân hóa. Dữ liệu suy luận này có thể ảnh hưởng đến người học dù họ chưa từng trực tiếp cung cấp nó. Thứ ba, AI làm quyết định có vẻ khách quan hơn. Một giáo viên nói “tôi lo em này đang tụt lại” nghe như phán đoán có thể thảo luận. Một dashboard nói “risk score 0.82” dễ tạo cảm giác chính xác.
Vì vậy, chương này đặt ra một nguyên tắc nền: trong giáo dục, dữ liệu chỉ chính đáng khi nó phục vụ mục tiêu học tập rõ, được thu ở mức cần thiết, được bảo vệ từ kiến trúc, được diễn giải với bối cảnh, có quyền phản biện, và không làm người học mất agency hoặc cơ hội. Privacy không phải phần pháp lý đứng ngoài sư phạm. Bias không phải lỗi kỹ thuật đứng ngoài lớp học. Transparency không phải tài liệu kỹ thuật dài. Contestability không phải nút “liên hệ hỗ trợ”. Những khái niệm này quyết định người học có được đối xử như chủ thể hay như đối tượng dữ liệu.
UNESCO trong hướng dẫn năm 2023 về GenAI trong giáo dục và nghiên cứu nhấn mạnh tiếp cận lấy con người làm trung tâm, bảo vệ dữ liệu, giới hạn độ tuổi phù hợp, và yêu cầu công cụ GenAI phải được xác nhận về đạo đức và sư phạm trước khi dùng rộng trong giáo dục (UNESCO, 2023). UNESCO năm 2025 tiếp tục đặt trọng tâm vào quyền của người học trong kỷ nguyên AI, trong đó quyền tiếp cận, quyền riêng tư, công bằng và bảo vệ khỏi sử dụng dữ liệu có hại là điều kiện cơ bản (UNESCO, 2025). EU AI Act năm 2024 xếp một số hệ thống AI dùng trong giáo dục và đào tạo nghề vào nhóm high-risk, nhất là hệ thống liên quan đến truy cập, tuyển chọn, đánh giá kết quả học tập, định hướng học tập hoặc giám sát hành vi trong đánh giá (European Union, 2024). Những khung này cho thấy AI education không còn là vùng thử nghiệm tự do. Nó đang trở thành vùng quản trị quyền.
Chương này đi qua sáu phần. Privacy by design: thu thập ít nhất có thể, giải thích rõ mục đích, bảo vệ dữ liệu từ kiến trúc. Algorithmic bias: dữ liệu quá khứ có thể tái tạo bất bình đẳng trong dự đoán, chấm điểm và khuyến nghị. Model transparency và contestability: người học và giáo viên cần quyền hiểu, hỏi lại và phản biện quyết định của hệ thống. Age-appropriate AI: công cụ cho trẻ em cần chuẩn khác công cụ cho người lớn, đặc biệt với hội thoại độc lập. Data governance trong trường học: ai sở hữu dữ liệu, ai truy cập, lưu bao lâu, dùng lại vào việc gì. Cuối cùng là regulation và chuẩn quốc tế: UNESCO, OECD, EU, FERPA, GDPR, COPPA và khung nội địa hóa, trong đó có bối cảnh Việt Nam.
Mục tiêu không phải biến giáo viên thành luật sư hay kỹ sư bảo mật. Mục tiêu là đưa ra cách nghĩ đủ rõ để nhà trường, trung tâm, đại học và doanh nghiệp đào tạo biết đặt câu hỏi đúng trước khi dữ liệu người học trở thành nhiên liệu cho hệ thống mà họ không kiểm soát.
Nền tảng lý thuyết
Nền tảng đầu tiên là quyền riêng tư như điều kiện của học tập, không chỉ quyền pháp lý. Học tập cần thử sai, bản nháp, câu hỏi vụng, khoảng im lặng, thay đổi ý kiến, và đôi khi cả những khó khăn cá nhân chưa sẵn sàng công khai. Nếu mọi hành vi học tập đều được ghi, phân tích, dự đoán và lưu trữ lâu dài, người học có thể tự kiểm duyệt. Họ hỏi ít hơn, thử ít hơn, viết bản nháp an toàn hơn, né câu hỏi nhạy cảm hơn, và học cách trình diễn cho hệ thống thay vì học cho mình. Privacy bảo vệ không gian phát triển.
Privacy by design, do Ann Cavoukian phát triển, nhấn mạnh rằng quyền riêng tư phải được tích hợp vào thiết kế hệ thống từ đầu, mặc định bảo vệ người dùng, và không đánh đổi quyền riêng tư lấy chức năng như một lựa chọn sau cùng (Cavoukian, 2009). GDPR sau đó đưa nguyên tắc data protection by design and by default vào Điều 25: tổ chức phải áp dụng biện pháp kỹ thuật và tổ chức phù hợp, như data minimisation, để bảo vệ quyền của chủ thể dữ liệu và chỉ xử lý dữ liệu cần thiết theo mặc định (European Union, 2016). Trong giáo dục, điều này có nghĩa là không thể nói “cứ thu trước, sau này dùng gì tính sau”. Dữ liệu trẻ em và người học phải được thiết kế với giới hạn ngay từ đầu.
Nền tảng thứ hai là công bằng thuật toán (algorithmic fairness). Hệ thống AI học từ dữ liệu quá khứ. Nếu dữ liệu quá khứ phản ánh bất bình đẳng, hệ thống có thể tái tạo hoặc làm cứng bất bình đẳng đó. Một mô hình dự đoán bỏ học học từ dữ liệu nơi học sinh nghèo nghỉ học nhiều hơn có thể gắn rủi ro cao cho nhóm nghèo, nhưng nếu can thiệp đi kèm là hạ kỳ vọng hoặc chuyển sang lộ trình dễ hơn, mô hình làm bất bình đẳng thành tương lai. Một hệ thống chấm viết học từ văn bản của nhóm chuẩn có thể đánh giá thấp người học dùng phương ngữ, tiếng Anh như ngôn ngữ thứ hai, hoặc cách lập luận văn hóa khác. Một AI detector có thể nghi ngờ người viết không bản ngữ vì văn phong đơn giản, như Liang và cộng sự đã cho thấy với GPT detectors: các bộ phát hiện có thiên lệch đáng kể chống lại non-native English writers (Liang et al., 2023).
Bias không chỉ nằm trong mô hình. Nó có thể nằm ở dữ liệu thu thập, nhãn, mục tiêu tối ưu, cách hiển thị kết quả, policy sau dự đoán và người dùng diễn giải. Nếu hệ thống chỉ thu dữ liệu online, người học học offline bị xem là ít tham gia. Nếu “thành công” được định nghĩa là hoàn thành nhanh, người học cần thêm thời gian bị xem là kém. Nếu dashboard tô đỏ học sinh vắng mặt mà không hiển thị lý do gia đình, bệnh tật hoặc đi lại, giáo viên có thể nhìn thiếu bối cảnh. Nếu can thiệp sau cảnh báo chỉ là gửi email nhắc nhở, người học thiếu thiết bị hoặc phải làm thêm không được hỗ trợ thật.
Nền tảng thứ ba là transparency và explainability, nhưng phải hiểu theo người dùng. Một mô hình có thể có tài liệu kỹ thuật, nhưng học sinh, phụ huynh và giáo viên vẫn không hiểu tại sao có quyết định. Transparency trong giáo dục cần trả lời các câu hỏi thực dụng: dữ liệu nào được dùng, hệ thống làm gì với dữ liệu đó, kết quả có ý nghĩa gì, độ chắc chắn ra sao, giới hạn nào, ai xem được, quyết định nào do người làm, quyết định nào do máy gợi ý, và người bị ảnh hưởng có thể làm gì nếu không đồng ý. Explainability không phải lúc nào cũng cần mô tả toán học. Nó cần giải thích đủ để người có quyền lợi có thể hiểu, hành động và phản biện.
Nền tảng thứ tư là contestability. Nếu một hệ thống ảnh hưởng đến điểm, quyền truy cập khóa học, cáo buộc gian lận, phân nhóm năng lực, cảnh báo rủi ro, hỗ trợ đặc biệt hoặc cơ hội học tập, người học và giáo viên cần quyền hỏi lại. Contestability gồm quyền biết có hệ thống tự động tham gia; quyền xem bằng chứng; quyền yêu cầu con người xem lại; quyền bổ sung bối cảnh; quyền sửa dữ liệu sai; quyền khiếu nại; và quyền không bị phạt vì phản biện hợp lý. GDPR Điều 22 đặt giới hạn đối với quyết định hoàn toàn tự động có tác động pháp lý hoặc tương tự đáng kể, và yêu cầu các bảo đảm phù hợp trong một số trường hợp (European Union, 2016). Dù không phải mọi bối cảnh đều chịu GDPR, nguyên tắc giáo dục là rõ: quyết định high-stakes không nên bị đóng trong hộp đen.
Nền tảng thứ năm là age-appropriate design. Trẻ em không phải người lớn nhỏ lại. Chúng khác về năng lực hiểu rủi ro, kiểm soát dữ liệu, bị thuyết phục, phụ thuộc cảm xúc, quyền đồng ý và khả năng phản biện. UNICEF trong policy guidance on AI for children nhấn mạnh AI cho trẻ em phải hỗ trợ phát triển và wellbeing, bảo vệ trẻ khỏi khai thác dữ liệu, bảo đảm inclusion, transparency, accountability và quyền tham gia phù hợp lứa tuổi (UNICEF, 2021). Trong giáo dục, điều này đặc biệt quan trọng với AI hội thoại độc lập. Một chatbot có thể tạo cảm giác thân mật, kiên nhẫn và biết lắng nghe. Với trẻ em, cảm giác này cần ranh giới rõ: hệ thống không phải bạn thân, không phải chuyên gia tâm lý, không phải người giám hộ, và không nên khuyến khích chia sẻ dữ liệu nhạy cảm.
Nền tảng thứ sáu là governance như thực hành tổ chức. NIST AI Risk Management Framework chia quản trị AI thành các chức năng Govern, Map, Measure và Manage: xây cấu trúc quản trị, hiểu bối cảnh và rủi ro, đo rủi ro, và quản lý rủi ro trong vòng đời hệ thống (NIST, 2023). Với trường học, điều này có thể dịch thành: ai chịu trách nhiệm, hệ thống dùng ở đâu, dữ liệu nào, rủi ro nào, đo thế nào, ai giám sát, khi nào dừng. Governance không phải một văn bản chính sách cất trong thư mục. Nó là routine: kiểm tra vendor, phân quyền, audit log, đào tạo người dùng, xử lý sự cố, đánh giá bias, cập nhật consent, và review định kỳ.
Nền tảng cuối cùng là proportionality. Không phải mọi dữ liệu và mọi AI đều có cùng rủi ro. Một công cụ tạo flashcard từ tài liệu công khai khác hệ thống chấm điểm tự động. Một chatbot luyện từ vựng không lưu dữ liệu cá nhân khác chatbot tư vấn wellbeing. Một dashboard tổng hợp lỗi lớp khác mô hình dự đoán từng học sinh bỏ học. Quản trị tốt phải theo mức rủi ro. Nếu mọi công cụ đều bị kiểm soát như high-stakes, đổi mới nghẹt. Nếu mọi công cụ đều được thả như low-risk, người học bị đặt vào nguy cơ. Câu hỏi là: dữ liệu nhạy đến đâu, người học bao nhiêu tuổi, hệ thống ảnh hưởng đến quyết định gì, có tự động hóa không, có con người review không, lỗi có sửa được không, và nhóm yếu thế có chịu rủi ro lớn hơn không.
Từ các nền tảng này, một định nghĩa thực dụng xuất hiện: quản trị dữ liệu và AI trong giáo dục là việc thiết kế quyền, trách nhiệm, giới hạn và cơ chế phản biện quanh dữ liệu học tập, để công nghệ phục vụ học tập mà không biến người học thành hồ sơ bị tối ưu.
Privacy by Design
Privacy by design bắt đầu bằng data minimisation: chỉ thu dữ liệu cần thiết cho mục tiêu đã xác định. Đây là nguyên tắc nghe đơn giản nhưng trái với bản năng của nhiều hệ thống AI. Công nghệ thường muốn thu nhiều dữ liệu vì “sau này có thể hữu ích”. Giáo dục không nên chấp nhận logic đó. Với trẻ em và người học, dữ liệu không phải tài nguyên vô hạn để khai thác. Nó là thông tin về con người đang phát triển.
Data minimisation cần được áp dụng ở từng quyết định thiết kế. Nếu mục tiêu là gợi bài luyện toán tiếp theo, có cần thu vị trí địa lý không? Nếu mục tiêu là tạo feedback bài viết, có cần lưu toàn bộ bản nháp vĩnh viễn không? Nếu mục tiêu là điểm danh, có cần nhận diện khuôn mặt không, hay mã lớp và xác nhận giáo viên đủ? Nếu mục tiêu là phát hiện học sinh cần hỗ trợ, có cần quay video liên tục không, hay dữ liệu chuyên cần và bài nộp đã đủ để bắt đầu cuộc trò chuyện? Nếu mục tiêu là cải thiện bài học, có cần dữ liệu cá nhân hay chỉ cần dữ liệu tổng hợp theo lớp?
Một nguyên tắc thực tế là “purpose first, data second”. Trước khi thu dữ liệu, tổ chức phải viết mục đích: dữ liệu này dùng để làm gì, ai hưởng lợi, quyết định nào sẽ dựa vào nó, có cách ít xâm phạm hơn không, và khi mục đích kết thúc thì dữ liệu được xóa hay ẩn danh ra sao. Nếu không viết được mục đích rõ, không nên thu. GDPR Điều 5 đặt các nguyên tắc như lawfulness, fairness, transparency, purpose limitation, data minimisation, accuracy, storage limitation, integrity and confidentiality, và accountability (European Union, 2016). Dù không phải mọi tổ chức ở Việt Nam chịu GDPR, bộ nguyên tắc này vẫn là chuẩn tham chiếu mạnh cho giáo dục.
Privacy by design cũng yêu cầu privacy by default. Người học không nên mặc định bị đưa vào tracking sâu, chia sẻ dữ liệu với vendor, dùng dữ liệu để huấn luyện mô hình, nhận phân tích cảm xúc, hoặc lưu prompt dài hạn. Nếu một tính năng có rủi ro cao, mặc định nên tắt hoặc yêu cầu phê duyệt rõ. Với trẻ em, mặc định bảo vệ càng quan trọng vì consent thường phức tạp: trẻ có thể không hiểu, phụ huynh có thể không đọc, trường có thể đại diện trong một số trường hợp nhưng không nên biến điều đó thành giấy phép thu mọi thứ.
Privacy by design có năm lớp trong EdTech AI.
Lớp thứ nhất là kiến trúc dữ liệu. Dữ liệu nào nằm trong hệ thống trường, dữ liệu nào gửi sang vendor, dữ liệu nào được mã hóa, dữ liệu nào được tách định danh, dữ liệu nào lưu cục bộ, dữ liệu nào đi qua API? Nếu giáo viên dùng công cụ AI công khai bằng tài khoản cá nhân và dán bài làm học sinh vào, dữ liệu đã vượt khỏi governance của trường. Một kiến trúc tốt cần cung cấp công cụ được phê duyệt, cấu hình không dùng dữ liệu học sinh để huấn luyện ngoài phạm vi hợp đồng, và hướng dẫn rõ dữ liệu nào không được nhập.
Lớp thứ hai là phân quyền. Không phải ai trong trường cũng cần xem mọi dữ liệu. Giáo viên cần dữ liệu lớp mình. Cố vấn cần dữ liệu học sinh mình hỗ trợ. Lãnh đạo cần dữ liệu tổng hợp và chỉ một số trường hợp cá nhân có lý do chính đáng. IT cần quyền vận hành nhưng không nhất thiết quyền đọc nội dung học tập. Vendor cần quyền tối thiểu để cung cấp dịch vụ. Role-based access control không phải chi tiết kỹ thuật; nó là bảo vệ phẩm giá người học.
Lớp thứ ba là retention. Dữ liệu không nên sống mãi. Bản nháp bài viết lớp 8, câu hỏi ngây ngô gửi chatbot, điểm quiz thấp, cảnh báo rủi ro tạm thời, dữ liệu cảm xúc hoặc audio luyện nói không nên trở thành hồ sơ dài hạn không rõ mục đích. Tổ chức cần retention schedule: loại dữ liệu nào lưu bao lâu, vì sao, ai phê duyệt kéo dài, khi nào xóa, khi nào ẩn danh, khi học sinh rời trường thì sao. Storage limitation là một nguyên tắc đạo đức vì con người cần quyền thay đổi.
Lớp thứ tư là security. Privacy không tồn tại nếu bảo mật yếu. Trường học thường có nhiều tài khoản, thiết bị chung, mật khẩu yếu, nhân sự thay đổi, vendor phụ và bảng tính xuất ra ngoài hệ thống. AI làm dữ liệu hấp dẫn hơn vì dữ liệu học tập có thể dùng để huấn luyện, phân tích và thương mại hóa. Security cần gồm xác thực mạnh, quản lý tài khoản, audit log, mã hóa, backup, incident response, quy trình khóa tài khoản cũ, kiểm tra vendor, và đào tạo người dùng. Một vụ rò rỉ dữ liệu học sinh có thể phá niềm tin nhanh hơn mọi lợi ích công nghệ.
Lớp thứ năm là user-facing explanation. Privacy policy dài không đủ. Học sinh, phụ huynh và giáo viên cần bản giải thích ngắn: công cụ thu gì, dùng để làm gì, ai xem, lưu bao lâu, có dùng để huấn luyện AI không, có chia sẻ với ai không, quyền từ chối hoặc lựa chọn thay thế ra sao, và liên hệ ai khi có câu hỏi. Với trẻ em, giải thích cần phù hợp lứa tuổi. Một biểu tượng hoặc thông báo trong lúc dùng công cụ có thể quan trọng hơn tài liệu pháp lý dài.
Một ví dụ: trường muốn dùng AI feedback cho bài viết. Privacy by design sẽ hỏi: bài viết có chứa thông tin cá nhân không; hệ thống có cần tên học sinh không hay chỉ cần mã ẩn danh; vendor có lưu bài viết không; bài viết có dùng để huấn luyện mô hình không; giáo viên có thể xóa dữ liệu không; học sinh có biết feedback được AI hỗ trợ không; bản nháp được lưu bao lâu; phụ huynh có cần thông báo không; có phương án cho học sinh không muốn dữ liệu đi ra ngoài không; hệ thống có log ai xem bài không. Nếu những câu hỏi này chỉ được đặt sau khi công cụ đã dùng, privacy đã bị thiết kế muộn.
Privacy by design không có nghĩa không dùng dữ liệu. Nó có nghĩa dùng dữ liệu có giới hạn và mục đích. Một trường không dùng dữ liệu nào có thể bỏ lỡ học sinh cần hỗ trợ. Nhưng một trường thu mọi thứ có thể biến hỗ trợ thành giám sát. Điểm cân bằng nằm ở proportionality: dữ liệu đủ để hành động giáo dục, không nhiều đến mức tạo hồ sơ toàn diện không cần thiết.
Một nguyên tắc hay là “progressive data use”. Bắt đầu bằng dữ liệu ít nhạy cảm và tổng hợp. Chỉ tăng mức chi tiết khi có mục tiêu rõ, lợi ích đủ lớn, rủi ro được kiểm soát và có human review. Ví dụ, để cải thiện bài học, dữ liệu lỗi theo lớp có thể đủ. Chỉ khi cần hỗ trợ cá nhân mới xem dữ liệu từng học sinh. Với wellbeing, không nên bắt đầu bằng phân tích khuôn mặt hoặc giọng nói; có thể bắt đầu bằng kênh tự báo cáo tự nguyện, check-in của giáo viên, và quy trình hỗ trợ.
Cuối cùng, privacy by design phải đi cùng “no hidden secondary use”. Dữ liệu thu để phản hồi học tập không nên âm thầm dùng để marketing, huấn luyện sản phẩm thương mại, đánh giá giáo viên, phân loại rủi ro kỷ luật hoặc bán chéo dịch vụ. Secondary use là nơi niềm tin bị phá. Nếu muốn dùng lại dữ liệu cho mục đích mới, tổ chức cần đánh giá lại rủi ro, thông báo, và trong nhiều trường hợp cần consent mới.
Algorithmic Bias
Algorithmic bias trong giáo dục nguy hiểm vì nó thường được che bằng ngôn ngữ khách quan. Điểm số, xác suất, recommendation và classification nhìn có vẻ trung tính hơn phán đoán con người. Nhưng chúng được tạo từ dữ liệu, nhãn, mục tiêu và thiết kế. Nếu dữ liệu và thiết kế mang bất bình đẳng, kết quả sẽ mang bất bình đẳng, đôi khi ở quy mô lớn hơn và khó thấy hơn.
Bias có thể xuất hiện ở năm điểm.
Điểm thứ nhất là sampling bias. Dữ liệu huấn luyện không đại diện cho người học thật. Một mô hình luyện nói được huấn luyện nhiều trên giọng chuẩn sẽ kém với vùng miền. Một công cụ viết được thử chủ yếu với sinh viên đại học bản ngữ sẽ kém với học sinh phổ thông hoặc người học tiếng Anh như ngôn ngữ thứ hai. Một dashboard được phát triển từ dữ liệu trường đô thị có thể sai với vùng nông thôn. Khi sản phẩm mở rộng, nhóm ít được đại diện trở thành nhóm chịu lỗi.
Điểm thứ hai là measurement bias. Dữ liệu đo không đúng năng lực cần đo. Thời gian online không đo nỗ lực nếu học sinh tải tài liệu về đọc offline. Số lượt phát biểu không đo tham gia nếu văn hóa lớp khiến một số em ít nói. Tốc độ trả lời không đo hiểu sâu nếu người học cần thêm thời gian vì disability hoặc ngôn ngữ. Điểm quiz gần với bài luyện không đo transfer. Nếu proxy sai, AI tối ưu sai.
Điểm thứ ba là label bias. Nhãn trong dữ liệu quá khứ có thiên kiến. Điểm giáo viên, nhận xét kỷ luật, nhãn “học sinh yếu”, “nguy cơ”, “không tham gia” đều được tạo trong hệ thống xã hội. Nếu nhóm nào đó từng bị đánh giá thấp hơn vì định kiến, mô hình học từ nhãn ấy sẽ lặp lại định kiến. “Dữ liệu thật” không đồng nghĩa với dữ liệu công bằng.
Điểm thứ tư là objective bias. Mục tiêu tối ưu không khớp mục tiêu giáo dục. Nếu hệ thống tối ưu completion, nó có thể làm nhiệm vụ dễ hơn. Nếu tối ưu engagement, nó có thể kéo dài thời gian dùng. Nếu tối ưu predicted grade, nó có thể khuyên người học tránh môn khó. Nếu tối ưu giảm cảnh báo rủi ro, tổ chức có thể tập trung vào người dễ cứu hơn thay vì người cần hỗ trợ sâu. Mục tiêu kỹ thuật định hình hành vi tổ chức.
Điểm thứ năm là deployment bias. Một mô hình có thể hợp lý trong phòng thí nghiệm nhưng gây hại khi triển khai. Ví dụ, dự đoán bỏ học có thể hữu ích nếu dẫn đến cố vấn hỗ trợ, học bổng, điều chỉnh lịch và kết nối người thật. Cùng mô hình đó có thể gây hại nếu dùng để hạ kỳ vọng, giảm quyền truy cập khóa khó, hoặc ưu tiên nguồn lực theo khả năng “thành công” thay vì nhu cầu.
Trong giáo dục, bias không chỉ là accuracy khác nhau giữa nhóm. Nó là câu hỏi cơ hội. Một hệ thống khuyến nghị có thể đưa học sinh nghèo vào lộ trình dễ hơn vì dữ liệu quá khứ nói nhóm này ít đạt điểm cao. Một hệ thống tuyển sinh có thể đánh giá thấp ứng viên từ trường ít tài nguyên. Một AI feedback có thể sửa giọng văn của người học về chuẩn trung lưu, làm mất giọng cộng đồng. Một bộ tạo hình minh họa có thể lặp lại stereotype nghề nghiệp theo giới. Một AI detector có thể cáo buộc sai người học không bản ngữ. Tất cả đều ảnh hưởng đến việc người học được nhìn như ai và được mời vào cơ hội nào.
Liang và cộng sự năm 2023 là ví dụ rõ về rủi ro công cụ phát hiện AI. Nghiên cứu cho thấy các GPT detector có thể đánh giá nhầm văn bản của người viết không bản ngữ là do AI tạo với tỷ lệ cao, trong khi văn bản của người bản ngữ ít bị nghi ngờ hơn (Liang et al., 2023). Trong bối cảnh giáo dục, một false positive không chỉ là lỗi kỹ thuật. Nó có thể dẫn đến cáo buộc gian lận, mất niềm tin, điểm thấp, hoặc kỷ luật. Vì vậy, AI detection không nên là bằng chứng độc lập cho high-stakes decision. Nó có thể là tín hiệu để thảo luận, nhưng phải có human review, quyền giải thích và bằng chứng quá trình.
Predictive analytics cũng cần thận trọng. Một mô hình cảnh báo sớm có thể dùng điểm, chuyên cần, tương tác LMS, lịch sử học, dữ liệu nhân khẩu học hoặc tài chính. Nếu dùng dữ liệu nhân khẩu học, mô hình có thể dự đoán tốt hơn nhưng cũng có nguy cơ tái tạo bất bình đẳng. Nếu không dùng, các biến khác như zip code, thiết bị, thời gian online có thể vẫn đóng vai proxy. Fairness không giải quyết bằng cách xóa một cột dữ liệu. Cần hiểu causal pathways và chính sách can thiệp. Nếu mô hình dùng thông tin về nghèo để cấp thêm hỗ trợ tự nguyện, có thể có lợi. Nếu dùng để giới hạn cơ hội, gây hại.
Chấm điểm tự động là vùng bias nhạy cảm. Một hệ thống automated essay scoring có thể nhất quán hơn con người ở một số khía cạnh, nhưng vẫn đo sai nếu rubric hẹp hoặc dữ liệu huấn luyện thiên lệch. Nó có thể thưởng độ dài, cấu trúc công thức, từ vựng học thuật, hoặc phong cách gần chuẩn dữ liệu. Nó có thể phạt sáng tạo, giọng địa phương, argument không quen, hoặc người học đang phát triển ngôn ngữ. Chương 6 đã nhấn mạnh automated scoring cần benchmark bằng validity, reliability, fairness, transparency, actionability và contestability. Ở chương này, điểm thêm là: fairness phải được kiểm tra trước và sau triển khai, vì cách giáo viên và học sinh phản ứng với hệ thống cũng tạo bias mới.
Bias audit trong trường học không cần bắt đầu bằng mô hình toán phức tạp. Có thể bắt đầu bằng câu hỏi thực hành:
1. Công cụ sai nhiều hơn với nhóm nào? 2. Nhóm nào ít được đại diện trong dữ liệu thử nghiệm? 3. Đầu ra có khác theo ngôn ngữ, vùng miền, giới, disability, thiết bị, thu nhập, hoặc trường lớp không? 4. Proxy nào có thể đo hoàn cảnh thay vì năng lực? 5. Lỗi nào gây hậu quả nặng nhất? 6. Có human review cho trường hợp biên không? 7. Người bị ảnh hưởng có quyền phản biện không? 8. Can thiệp sau dự đoán có mở cơ hội hay khóa cơ hội?
Một tổ chuyên môn có thể audit AI feedback bằng cách đưa nhiều bài viết đại diện cho các nhóm khác nhau, ẩn thông tin cá nhân, và so sánh phản hồi. Một trường có thể audit dashboard bằng cách xem cảnh báo rủi ro có tập trung bất thường vào nhóm nào và can thiệp sau cảnh báo là gì. Một đại học có thể audit AI proctoring hoặc AI detection bằng cách đo false positive theo ngôn ngữ, disability và điều kiện thiết bị. Một trung tâm đào tạo có thể audit recommendation engine bằng cách xem học viên nào được gợi lộ trình khó hơn và học viên nào bị giữ ở bài dễ.
Bias mitigation phải đi qua cả kỹ thuật và tổ chức. Kỹ thuật gồm dữ liệu đại diện hơn, kiểm tra subgroup performance, calibration, fairness constraints, model cards, audit logs, human review thresholds. Tổ chức gồm policy không dùng AI cho quyết định high-stakes nếu chưa đủ bằng chứng, training người dùng về giới hạn, quyền khiếu nại, và thiết kế can thiệp mở cơ hội. Nếu chỉ sửa mô hình mà không sửa cách dùng, bias vẫn sống.
Một nguyên tắc quan trọng là không dùng AI để che bất bình đẳng xã hội bằng nhãn cá nhân. Nếu hệ thống nói một học sinh “low engagement”, cần hỏi engagement thấp vì động lực, vì thiết kế bài học, vì thiết bị, vì việc nhà, vì ngôn ngữ, vì cảm giác không thuộc về, hay vì công cụ không ghi nhận loại tham gia khác. Nếu hệ thống nói một nhóm “cần remediation”, cần hỏi chương trình, giáo viên, nguồn lực và kỳ vọng đã tạo điều kiện chưa. AI nên giúp nhìn cấu trúc, không chỉ gắn nhãn cá nhân.
Model Transparency và Contestability
Transparency trong giáo dục phải bắt đầu bằng thông báo rõ: AI đang được dùng ở đâu. Người học không nên phát hiện sau rằng bài viết được AI chấm, cuộc trò chuyện được phân tích, camera được dùng để suy luận hành vi, hoặc chatbot lưu dữ liệu để cải thiện mô hình. Giáo viên không nên phát hiện sau rằng dữ liệu lớp của họ được dùng để đánh giá hiệu quả giảng dạy. Phụ huynh không nên phát hiện sau rằng ứng dụng học tập gửi dữ liệu cho bên thứ ba. Transparency đầu tiên là không giấu.
Nhưng thông báo “chúng tôi dùng AI” chưa đủ. Cần giải thích chức năng và mức quyền. AI đang tạo nội dung, gợi ý, chấm điểm, xếp hạng, dự đoán, giám sát, hay tự động quyết định? Con người có xem lại không? Kết quả AI có bắt buộc không? Người học có bị ảnh hưởng nếu không dùng không? Dữ liệu nào được dùng? Kết quả có được lưu vào hồ sơ không? Khi AI sai, ai sửa? Một nhãn “AI-powered” trên giao diện không có giá trị giáo dục nếu không trả lời những câu hỏi này.
Transparency phải được thiết kế theo người nhận. Học sinh tiểu học cần giải thích khác sinh viên đại học. Phụ huynh cần biết quyền và rủi ro. Giáo viên cần hiểu workflow, dữ liệu và giới hạn. Lãnh đạo cần hiểu trách nhiệm và metric. IT cần tài liệu kỹ thuật. Nhà nghiên cứu cần thông tin đánh giá. Một tài liệu duy nhất không đủ. Tổ chức cần nhiều lớp giải thích: ngắn, dễ hiểu, chuyên môn, kỹ thuật, và pháp lý.
Một công cụ hữu ích là model card hoặc system card, được điều chỉnh cho giáo dục. Nó có thể gồm: mục đích sử dụng, nhóm người học phù hợp, dữ liệu huấn luyện hoặc dữ liệu vận hành ở mức có thể công bố, giới hạn đã biết, nhóm chưa được kiểm thử đầy đủ, metric hiệu năng, kiểm tra fairness, yêu cầu human review, dữ liệu được lưu, contact khi có lỗi, và trường hợp không nên dùng. Với công cụ trường tự cấu hình, có thể thêm “local card”: trường dùng ở môn nào, lớp nào, với chính sách nào, ai chịu trách nhiệm.
Transparency cũng cần đi kèm uncertainty. AI thường đưa kết quả quá sạch: điểm, nhãn, khuyến nghị, risk score. Nhưng giáo dục đầy bất định. Một mô hình dự báo nên hiển thị mức chắc chắn và lý do chính, đồng thời nhắc rằng kết quả là tín hiệu để xem xét, không phải phán quyết. Một AI feedback nên cho biết phần nào dựa trên rubric, phần nào là gợi ý, và khi nào cần giáo viên xem. Một AI detector nếu được dùng, phải hiển thị giới hạn mạnh và không được trình bày như bằng chứng chắc chắn.
Contestability là phần tiếp theo của transparency. Nếu biết mà không thể phản biện, transparency chỉ là quan sát bất lực. Người học cần quy trình rõ khi không đồng ý với điểm AI, nhãn rủi ro, cáo buộc AI-generated text, phân nhóm năng lực, hoặc đề xuất lộ trình. Giáo viên cần quyền sửa đề xuất AI, bỏ cảnh báo, thêm bối cảnh, và ghi chú vì sao không theo khuyến nghị. Phụ huynh cần kênh hỏi dữ liệu nào được dùng và yêu cầu sửa dữ liệu sai. Tổ chức cần log để truy lại quyết định.
Contestability tốt có bốn tầng.
Tầng thứ nhất là immediate correction. Nếu dữ liệu sai như tên, lớp, điểm nhập, chuyên cần, giáo viên phụ trách, người học phải có cách sửa nhanh. Dữ liệu sai nhỏ có thể tạo dự đoán sai lớn.
Tầng thứ hai là human review. Với quyết định ảnh hưởng điểm số, kỷ luật, quyền truy cập khóa học, hỗ trợ đặc biệt hoặc nhãn rủi ro, người bị ảnh hưởng cần con người có thẩm quyền xem lại. Human review không phải người bấm duyệt hình thức. Người review phải có quyền thay đổi kết quả và xem bằng chứng.
Tầng thứ ba là explanation and evidence. Người học không thể phản biện nếu không biết kết quả dựa trên gì. Với chấm điểm, cần rubric và ví dụ. Với cảnh báo rủi ro, cần tín hiệu chính. Với AI detection, cần nói rõ công cụ không đủ làm bằng chứng duy nhất và cần xem quá trình. Với recommendation, cần giải thích vì sao lộ trình này được gợi ý.
Tầng thứ tư là policy appeal. Nếu một người cho rằng hệ thống gây bất công, không chỉ lỗi cá nhân, họ cần kênh nâng vấn đề lên cấp tổ chức: công cụ thiên lệch với nhóm ngôn ngữ, policy khai báo bất hợp lý, dashboard gây giám sát quá mức. Contestability không chỉ sửa từng case; nó sửa hệ thống.
EU AI Act đặt yêu cầu transparency, human oversight và quản trị rủi ro cho high-risk AI systems, trong đó có một số hệ thống AI trong giáo dục và đào tạo nghề (European Union, 2024). Dù tổ chức ngoài EU không nhất thiết chịu trực tiếp, logic high-risk rất hữu ích: hệ thống ảnh hưởng đến cơ hội học tập cần tiêu chuẩn cao hơn công cụ tạo hình minh họa. Một school chatbot trả lời câu hỏi về lịch học khác với hệ thống quyết định học sinh được vào chương trình nâng cao hay không.
Transparency cũng liên quan đến giáo viên. Nếu nhà trường dùng analytics để đánh giá lớp hoặc giáo viên, giáo viên cần biết dữ liệu nào, công thức nào, mục tiêu nào, và quyền phản biện. Một chỉ số “student engagement” tổng hợp từ LMS có thể bị dùng để so sánh giáo viên, nhưng lớp khác nhau có nhiệm vụ khác nhau. Một giáo viên dùng nhiều thảo luận giấy hoặc lab có thể có ít dấu vết online. Nếu chỉ số được dùng cho accountability mà không có contestability, giáo viên sẽ tối ưu chỉ số hoặc mất niềm tin.
Một nguy cơ là transparency theater: tổ chức công bố nhiều tài liệu nhưng người dùng không hiểu hoặc không có quyền. Dấu hiệu gồm policy dài, thuật ngữ pháp lý nặng, thông báo một lần lúc đăng ký, không có ví dụ, không có người liên hệ, không có quy trình appeal, và không có thay đổi sau phản hồi. Transparency thật phải làm người học và giáo viên hành động tốt hơn.
Một tiêu chuẩn đơn giản: trước khi dùng một hệ thống AI có ảnh hưởng đến học tập, hãy hỏi một học sinh, một giáo viên và một phụ huynh có thể trả lời ba câu không: hệ thống dùng dữ liệu gì; kết quả ảnh hưởng đến tôi thế nào; nếu sai tôi làm gì. Nếu không trả lời được, transparency chưa đủ.
Age-Appropriate AI
Công cụ AI cho trẻ em cần chuẩn khác công cụ cho người lớn. Điều này không chỉ vì trẻ em yếu thế hơn. Nó còn vì giáo dục trẻ em có mục tiêu phát triển: hình thành năng lực tự chủ, phán đoán, quan hệ xã hội, bản sắc và an toàn. Một hệ thống AI có thể hữu ích cho sinh viên đại học nhưng không phù hợp cho học sinh tiểu học. Một chatbot hội thoại mở có thể giúp người lớn brainstorm, nhưng với trẻ em có thể tạo phụ thuộc, chia sẻ dữ liệu nhạy cảm, tiếp xúc nội dung không phù hợp, hoặc nhầm lẫn về bản chất máy.
UNESCO năm 2023 khuyến nghị các quốc gia và cơ sở giáo dục thiết lập giới hạn tuổi phù hợp khi dùng GenAI, lưu ý rằng nhiều nền tảng thương mại đặt độ tuổi tối thiểu và trẻ em cần bảo vệ đặc biệt (UNESCO, 2023). UNICEF nhấn mạnh AI cho trẻ em phải đặt quyền trẻ em, wellbeing, inclusion, privacy, safety và accountability ở trung tâm (UNICEF, 2021). Age-appropriate AI không phải dán nhãn “dành cho trẻ em”. Nó là thiết kế lại dữ liệu, giao diện, nội dung, quyền kiểm soát, ranh giới hội thoại và vai trò người lớn.
Có năm rủi ro đặc biệt với AI hội thoại cho trẻ em.
Rủi ro thứ nhất là anthropomorphism. Trẻ em dễ gán ý định, cảm xúc và sự hiểu biết cho chatbot. Nếu chatbot dùng giọng thân mật, nhớ thông tin cá nhân, khen ngợi liên tục, hoặc phản hồi như bạn thân, trẻ có thể tin rằng nó thật sự quan tâm. Trong giáo dục, một chút thân thiện có thể giảm lo âu, nhưng phải có ranh giới. Hệ thống nên nói rõ nó là công cụ, không phải người; không nên khuyến khích bí mật với người lớn; không nên tạo quan hệ cảm xúc độc quyền.
Rủi ro thứ hai là over-disclosure. Trẻ có thể chia sẻ thông tin gia đình, sức khỏe, cảm xúc, địa chỉ, mâu thuẫn bạn bè hoặc nỗi sợ. Một chatbot học tập không nên thu hoặc lưu dữ liệu nhạy cảm ngoài mục tiêu. Nó cần cơ chế phát hiện khi trẻ chia sẻ nguy cơ an toàn và chuyển sang người lớn có trách nhiệm, nhưng phải làm điều đó theo chính sách rõ, không âm thầm giám sát mọi cảm xúc.
Rủi ro thứ ba là developmental mismatch. AI có thể đưa lời giải, khái niệm, ví dụ hoặc nội dung vượt tuổi. Nó có thể giải thích quá phức tạp, hoặc ngược lại làm đơn giản hóa sai. Nó có thể đưa ví dụ xã hội không phù hợp văn hóa hoặc tuổi. Age-appropriate content cần gắn với chương trình, mức đọc, cảm xúc, và bối cảnh lớp, không chỉ lọc từ cấm.
Rủi ro thứ tư là dependency. Nếu trẻ luôn hỏi AI trước khi thử, năng lực tự điều chỉnh, chịu khó suy nghĩ và hỏi người thật có thể yếu đi. Với trẻ nhỏ, scaffold cần thiết kế để yêu cầu dự đoán, thử, giải thích và hỏi giáo viên/bạn khi cần. AI tutor nên giảm dần hỗ trợ, không giữ trẻ trong vòng hỏi-đáp vô hạn.
Rủi ro thứ năm là parental and educator visibility. Trẻ cần không gian riêng để học, nhưng người lớn có trách nhiệm cần biết công cụ đang làm gì. Thiết kế cân bằng là khó. Giáo viên không cần đọc mọi câu hỏi của trẻ, nhưng cần dashboard an toàn ở mức phù hợp: chủ đề học, lỗi thường gặp, dấu hiệu cần hỗ trợ, không phải nội dung riêng tư không cần thiết. Phụ huynh cần biết mục tiêu và quyền dữ liệu, không nhất thiết giám sát từng tương tác.
Age-appropriate AI nên có các nguyên tắc sau.
Thứ nhất, giới hạn phạm vi. Công cụ cho trẻ em nên có domain rõ: học toán lớp 5, luyện đọc, hỗ trợ từ vựng, hỏi đáp về bài học. Chatbot mở cho mọi chủ đề có rủi ro cao hơn. Nếu công cụ phải trả lời ngoài phạm vi, nó nên chuyển hướng sang giáo viên hoặc người lớn.
Thứ hai, không thiết kế gây nghiện. Không dùng streak, phần thưởng, thông báo, nhân vật hoặc hội thoại để kéo dài tương tác ngoài mục tiêu học. Engagement của trẻ không nên bị tối ưu như retention sản phẩm.
Thứ ba, bảo vệ dữ liệu mặc định. Không thu dữ liệu nhạy cảm, không dùng dữ liệu trẻ để huấn luyện mô hình thương mại nếu không có cơ sở pháp lý và consent rõ, không lưu chat lâu hơn cần thiết, không chia sẻ cho quảng cáo, không profiling cho mục đích ngoài học tập.
Thứ tư, explainability phù hợp tuổi. Trẻ cần hiểu ở mức đơn giản: AI có thể giúp, nhưng có thể sai; không đưa thông tin riêng; nếu thấy nội dung lạ hãy hỏi người lớn; bài làm vẫn là trách nhiệm của em; AI không phải người thật.
Thứ năm, human escalation. Khi có nội dung về tự hại, bạo lực, lạm dụng, khủng hoảng tâm lý, hoặc thông tin nhạy cảm, hệ thống cần quy trình chuyển sang người lớn có thẩm quyền. Nhưng quy trình này phải được thiết kế với chuyên gia bảo vệ trẻ em, không phải chỉ dựa vào phản hồi tự động.
Thứ sáu, kiểm thử với trẻ thật trong điều kiện đạo đức. Không thể giả định công cụ phù hợp chỉ vì người lớn thấy giao diện dễ dùng. Trẻ em hiểu biểu tượng, nhân vật, lời khen, cảnh báo và lỗi khác người lớn. Cần kiểm thử theo tuổi, ngôn ngữ, disability, vùng miền và bối cảnh thiết bị.
Thứ bảy, không thay thế quan hệ chăm sóc. AI có thể giúp trẻ luyện hỏi, đọc lại, nghe giải thích, nhưng không nên thay giáo viên, bạn học, phụ huynh hoặc cố vấn trong các nhu cầu xã hội-cảm xúc. Trường học vẫn là không gian người-người.
COPPA tại Hoa Kỳ đặt yêu cầu bảo vệ thông tin cá nhân trẻ dưới 13 tuổi trong dịch vụ trực tuyến, với các nghĩa vụ về thông báo, đồng ý của phụ huynh, bảo mật và giới hạn sử dụng; FTC đã cập nhật COPPA Rule vào năm 2024-2025 để tăng cường bảo vệ, bao gồm giới hạn retention và yêu cầu riêng về một số hình thức chia sẻ dữ liệu (FTC, 2025). FERPA bảo vệ quyền riêng tư hồ sơ giáo dục của học sinh trong các cơ sở nhận tài trợ liên bang tại Hoa Kỳ, với yêu cầu kiểm soát truy cập và tiết lộ thông tin nhận dạng cá nhân từ education records (U.S. Department of Education, 2025). Dù các luật này thuộc Hoa Kỳ, chúng gợi ý một nguyên tắc rộng: trẻ em cần lớp bảo vệ cao hơn, và trường học không thể xem consent như một thủ tục nhỏ.
Ở Việt Nam, Luật Bảo vệ dữ liệu cá nhân được Quốc hội thông qua năm 2025 và có hiệu lực từ ngày 1 tháng 1 năm 2026; luật này kế thừa và mở rộng các quy định từ Nghị định 13/2023/NĐ-CP về bảo vệ dữ liệu cá nhân. Với giáo dục, điều này làm rõ rằng dữ liệu cá nhân, đặc biệt dữ liệu của trẻ em và dữ liệu nhạy cảm, không thể được xử lý tùy tiện. Các tổ chức giáo dục dùng AI cần theo dõi hướng dẫn thi hành cụ thể và xây năng lực tuân thủ thay vì chờ sự cố mới xử lý.
Age-appropriate AI là một lĩnh vực sẽ còn thay đổi nhanh. Nhưng một nguyên tắc ổn định là: càng trẻ, càng cần ít dữ liệu hơn, nhiều bảo vệ mặc định hơn, phạm vi hẹp hơn, giải thích đơn giản hơn, và con người hiện diện rõ hơn.
Data Governance Trong Trường Học
Data governance trong trường học trả lời sáu câu hỏi: dữ liệu nào được thu; ai sở hữu hoặc kiểm soát; ai truy cập; dùng vào mục đích gì; lưu bao lâu; và ai chịu trách nhiệm khi có lỗi hoặc rủi ro. Nếu không có câu trả lời, mỗi công cụ sẽ tự tạo quy tắc riêng. Khi đó trường học mất quyền quản trị hệ sinh thái dữ liệu của mình.
Một bản đồ dữ liệu giáo dục nên bắt đầu từ các nhóm dữ liệu:
1. Dữ liệu định danh: tên, mã học sinh, ngày sinh, lớp, phụ huynh, liên hệ. 2. Dữ liệu học tập: điểm, bài nộp, phản hồi, rubric, lịch sử sửa, câu trả lời. 3. Dữ liệu hành vi số: đăng nhập, click, thời gian xem video, thiết bị, IP, vị trí tương đối. 4. Dữ liệu giao tiếp: email, tin nhắn, chat với chatbot, phản hồi phụ huynh. 5. Dữ liệu nhạy cảm: sức khỏe, disability, tư vấn tâm lý, kỷ luật, hoàn cảnh gia đình, tài chính. 6. Dữ liệu sinh trắc hoặc đa phương thức: khuôn mặt, giọng nói, video, eye-tracking, cảm biến. 7. Dữ liệu suy luận: risk score, mastery estimate, engagement label, AI-generated feedback, predicted grade, suspected misconduct.
Dữ liệu suy luận thường bị bỏ quên nhưng rất quan trọng. Một risk score không phải dữ liệu người học trực tiếp cung cấp, nhưng có thể ảnh hưởng đến cách giáo viên nhìn em. Một nhãn “low motivation” có thể bám vào hồ sơ dù được suy ra từ proxy yếu. Một predicted grade có thể định hình tư vấn môn học. Governance phải xem dữ liệu suy luận cũng là dữ liệu cần quản lý, không chỉ dữ liệu thô.
Vấn đề sở hữu dữ liệu trong giáo dục phức tạp. Người học là chủ thể dữ liệu. Trường hoặc tổ chức thường là bên kiểm soát dữ liệu trong nhiều bối cảnh. Vendor có thể là bên xử lý dữ liệu hoặc có vai trò khác tùy hợp đồng và luật. Giáo viên tạo phản hồi và dữ liệu lớp. Phụ huynh có quyền với dữ liệu trẻ em theo mức luật định. Vì vậy, câu hỏi thực tế không chỉ là “ai sở hữu”, mà là “ai có quyền quyết định mục đích xử lý, ai có quyền truy cập, ai có quyền xóa, ai có quyền chuyển dữ liệu, ai có quyền dùng lại, và ai chịu trách nhiệm”.
Một trường cần data inventory. Danh mục này không cần phức tạp lúc đầu, nhưng phải có: hệ thống nào đang dùng; vendor nào; dữ liệu nào thu; mục đích; cơ sở pháp lý hoặc consent; ai truy cập; lưu ở đâu; lưu bao lâu; có chuyển ra nước ngoài không; có dùng để huấn luyện AI không; có API với hệ thống khác không; rủi ro; người phụ trách. Không có inventory, không thể quản trị tool sprawl.
Data governance cũng cần data classification. Không phải mọi dữ liệu có cùng mức nhạy. Một tài liệu bài học công khai khác hồ sơ tư vấn tâm lý. Một điểm tổng kết khác transcript chatbot cá nhân. Một thống kê lớp ẩn danh khác video khuôn mặt. Classification giúp đặt mức bảo vệ: public, internal, confidential, restricted. Dữ liệu restricted như sức khỏe, disability, dữ liệu trẻ em nhạy cảm, sinh trắc, kỷ luật, wellbeing và dữ liệu suy luận high-stakes cần kiểm soát đặc biệt.
Phân quyền phải dựa trên need-to-know. Một lỗi phổ biến là nhiều người trong trường có quyền xem quá rộng vì tiện. Nhưng tiện không phải lý do đủ. Giáo viên không cần xem hồ sơ tài chính của học sinh. Nhân viên hành chính không cần đọc bài chat học tập. Vendor không cần dữ liệu định danh nếu chỉ xử lý nội dung ẩn danh. Lãnh đạo không cần xem từng prompt trừ khi có sự cố có quy trình. Quyền truy cập nên được review định kỳ, nhất là khi giáo viên đổi lớp, nhân sự nghỉ việc, học sinh chuyển trường.
Hợp đồng vendor là một phần của data governance. Trường cần hỏi: vendor là processor hay controller; dữ liệu có dùng để huấn luyện mô hình không; dữ liệu có bán hoặc chia sẻ cho bên thứ ba không; subprocessor nào tham gia; dữ liệu lưu ở quốc gia nào; bảo mật ra sao; breach notification trong bao lâu; audit rights có không; dữ liệu xuất ra được không; xóa dữ liệu khi chấm dứt thế nào; AI outputs thuộc về ai; vendor có thay đổi điều khoản một chiều không. Chương 22 sẽ bàn procurement, nhưng ở đây cần nhấn mạnh: điều khoản dữ liệu là điều khoản sư phạm vì nó quyết định niềm tin.
Data governance phải có quy trình incident response. Khi lộ dữ liệu, gửi nhầm email, vendor bị breach, chatbot tạo nội dung không phù hợp, hoặc dashboard hiển thị sai học sinh, ai làm gì trong 24 giờ đầu? Ai khóa truy cập, ai thông báo lãnh đạo, ai thông báo phụ huynh, ai liên hệ vendor, ai ghi log, ai báo cơ quan quản lý nếu luật yêu cầu, ai hỗ trợ người bị ảnh hưởng? Không có quy trình trước, tổ chức sẽ phản ứng chậm và mất niềm tin.
Một trường cũng cần AI use register: danh sách các hệ thống AI đang dùng, mục đích, nhóm người dùng, loại dữ liệu, mức rủi ro, trạng thái phê duyệt, người phụ trách, ngày review, và điều kiện dùng. Điều này nghe hành chính, nhưng rất thực tế. Khi giáo viên và học sinh dùng nhiều công cụ AI khác nhau, tổ chức cần biết công cụ nào được phép cho dữ liệu học sinh, công cụ nào chỉ dùng với dữ liệu giả hoặc tài liệu công khai, công cụ nào bị cấm, công cụ nào đang pilot.
Data governance trong trường học nên có hội đồng hoặc nhóm liên chức năng. Không nên chỉ giao IT. Nhóm cần lãnh đạo, giáo viên, IT, người phụ trách bảo vệ dữ liệu hoặc pháp lý, hỗ trợ học sinh, phụ huynh/học sinh đại diện khi phù hợp, và người hiểu assessment. IT hiểu bảo mật, nhưng giáo viên hiểu tác động sư phạm. Lãnh đạo hiểu trách nhiệm tổ chức. Học sinh hiểu trải nghiệm bị thu dữ liệu. Governance cần nhiều góc nhìn.
Một chính sách dữ liệu tốt cũng phải bảo vệ giáo viên. Dữ liệu lớp học, thời gian phản hồi, mức dùng nền tảng, điểm học sinh và nội dung bài dạy có thể bị dùng để đánh giá giáo viên. Nếu không rõ mục đích, giáo viên sẽ mất trust. Data governance nên phân biệt dữ liệu dùng cho hỗ trợ chuyên môn, dữ liệu dùng cho vận hành, và dữ liệu dùng cho đánh giá nhân sự. Không dùng dữ liệu thu cho một mục đích sang mục đích khác mà không thông báo và thảo luận.
Cuối cùng, data governance phải có education layer. Người học cần được dạy về dữ liệu của mình: dữ liệu nào được tạo khi học online, dữ liệu có thể suy luận gì, quyền riêng tư là gì, khi nào không nhập thông tin cá nhân vào AI, cách khai báo AI, cách hỏi về dữ liệu. Giáo viên cần biết dữ liệu nào không đưa vào công cụ ngoài, cách ẩn danh bài làm, cách đọc dashboard thận trọng, và cách phản hồi khi học sinh hỏi về quyền dữ liệu. Governance không sống nếu người dùng không hiểu.
Regulation và Chuẩn Quốc Tế
Khung pháp lý và chuẩn quốc tế về AI, dữ liệu và giáo dục đang phát triển nhanh. Không có một luật duy nhất giải quyết mọi tình huống. Tổ chức giáo dục thường phải đi qua nhiều lớp: luật bảo vệ dữ liệu cá nhân, luật trẻ em, quy định giáo dục, hợp đồng vendor, chuẩn an ninh mạng, hướng dẫn đạo đức AI, và chính sách nội bộ. Điều quan trọng là không đọc luật như phần tối thiểu để “khỏi bị phạt”, mà đọc như nền để thiết kế niềm tin.
UNESCO là nguồn định hướng quan trọng cho giáo dục. Hướng dẫn năm 2023 về GenAI trong giáo dục và nghiên cứu nhấn mạnh human-centred approach, inclusion, equity, cultural diversity, data protection, age-appropriate use và validation đạo đức-sư phạm trước triển khai (UNESCO, 2023). UNESCO AI competency frameworks năm 2024 cho học sinh và giáo viên đưa năng lực đạo đức, human-centred mindset và AI literacy vào giáo dục (Miao et al., 2024; Miao & Cukurova, 2024). UNESCO năm 2025 về quyền người học nhấn mạnh AI phải bảo vệ quyền tiếp cận, privacy, agency và non-discrimination (UNESCO, 2025). Đây là khung phù hợp cho chương trình giáo dục, không chỉ compliance.
OECD AI Principles, cập nhật trong bối cảnh AI phát triển nhanh, nhấn mạnh inclusive growth, human-centred values, fairness, transparency, robustness, security, safety và accountability (OECD, 2024). Với giáo dục, các nguyên tắc này chuyển thành câu hỏi: AI có mở rộng cơ hội hay tăng khoảng cách; có tôn trọng quyền người học; có minh bạch; có an toàn; có ai chịu trách nhiệm; và có cơ chế phản biện không.
NIST AI Risk Management Framework không phải luật, nhưng là khung quản trị rủi ro hữu ích. Bốn chức năng Govern, Map, Measure, Manage giúp tổ chức không chỉ hỏi “AI có tốt không” mà hỏi rủi ro nào, bối cảnh nào, đo thế nào, ai quản lý, và vòng đời ra sao (NIST, 2023). Với trường học, NIST AI RMF có thể được dùng như checklist quản trị: lập nhóm chịu trách nhiệm, xác định use case, phân loại rủi ro, đo bias, thiết lập human review, theo dõi sau triển khai.
EU AI Act là khung pháp lý quan trọng vì nó đi theo risk-based approach. Một số hệ thống AI trong giáo dục và đào tạo nghề được xếp high-risk, bao gồm hệ thống liên quan đến quyết định truy cập hoặc tuyển chọn vào cơ sở giáo dục, đánh giá kết quả học tập, đánh giá mức độ giáo dục phù hợp, hoặc giám sát hành vi bị cấm trong đánh giá khi có tác động đáng kể (European Union, 2024). High-risk không có nghĩa cấm, nhưng yêu cầu cao về quản trị rủi ro, dữ liệu, documentation, logging, transparency, human oversight, accuracy, robustness và cybersecurity. EU AI Act cũng đặt giới hạn với một số ứng dụng như emotion recognition trong nơi làm việc và cơ sở giáo dục, trừ một số trường hợp an toàn hoặc y tế được quy định. Với EdTech toàn cầu, EU AI Act sẽ ảnh hưởng đến chuẩn sản phẩm ngay cả ngoài EU vì vendor thường thiết kế theo thị trường nghiêm ngặt.
GDPR là nền tảng mạnh về dữ liệu cá nhân tại EU. Các nguyên tắc Điều 5 như purpose limitation, data minimisation, accuracy, storage limitation, integrity/confidentiality và accountability rất hữu ích cho giáo dục (European Union, 2016). Điều 25 về data protection by design and by default phù hợp trực tiếp với privacy by design. Điều 22 về automated decision-making and profiling đặt vấn đề quyền con người khi quyết định tự động có tác động đáng kể. Dù bối cảnh pháp lý khác nhau, các nguyên tắc này đã trở thành chuẩn tham chiếu quốc tế.
FERPA tại Hoa Kỳ bảo vệ privacy của education records trong các trường nhận tài trợ liên bang. Nó trao quyền cho phụ huynh và học sinh đủ điều kiện truy cập, yêu cầu sửa hồ sơ sai, và kiểm soát một số tiết lộ thông tin nhận dạng cá nhân (U.S. Department of Education, 2025). Trong EdTech, FERPA đặc biệt liên quan đến việc chia sẻ dữ liệu với vendor theo school official exception hoặc các ngoại lệ khác, và yêu cầu nhà trường vẫn chịu trách nhiệm về dữ liệu giáo dục.
COPPA tại Hoa Kỳ bảo vệ thông tin cá nhân của trẻ dưới 13 tuổi trong dịch vụ trực tuyến. FTC nhấn mạnh yêu cầu notice, parental consent, data security, limits on retention và quyền của phụ huynh; cập nhật COPPA Rule gần đây tăng cường một số bảo vệ, bao gồm yêu cầu riêng cho disclosure tới bên thứ ba trong một số bối cảnh (FTC, 2025). Với công cụ AI cho trẻ em, COPPA gợi ý rằng trường và vendor phải đặc biệt cẩn trọng với thu thập dữ liệu, profiling, retention và sharing.
Ở Việt Nam, Nghị định 13/2023/NĐ-CP là nền tảng quan trọng về bảo vệ dữ liệu cá nhân, với các khái niệm dữ liệu cá nhân cơ bản, dữ liệu cá nhân nhạy cảm, quyền của chủ thể dữ liệu, consent và trách nhiệm của bên kiểm soát/xử lý dữ liệu. Luật Bảo vệ dữ liệu cá nhân được Quốc hội thông qua năm 2025 và có hiệu lực từ ngày 1 tháng 1 năm 2026, nâng khung bảo vệ dữ liệu lên cấp luật. Đối với tổ chức giáo dục ở Việt Nam, điều này có nghĩa là triển khai EdTech và AI cần được xem như hoạt động xử lý dữ liệu cá nhân có trách nhiệm, không phải chỉ là đổi mới công nghệ. Dữ liệu trẻ em, dữ liệu học tập, sức khỏe, disability, hình ảnh, giọng nói và dữ liệu suy luận cần được phân loại và quản trị chặt.
Khung nội địa hóa rất quan trọng. Không thể sao chép GDPR, FERPA hay COPPA vào Việt Nam theo từng điều khoản rồi xem là xong. Mỗi hệ thống pháp lý có định nghĩa, cơ sở xử lý, quyền, cơ quan giám sát và chế tài khác nhau. Nhưng có thể nội địa hóa nguyên tắc: mục đích rõ, tối thiểu hóa dữ liệu, minh bạch, bảo mật, giới hạn lưu trữ, quyền truy cập/sửa/xóa hoặc phản biện theo luật, bảo vệ trẻ em, human review cho high-stakes AI, và trách nhiệm vendor. Tổ chức giáo dục nên làm việc với chuyên gia pháp lý địa phương, nhưng không chờ luật hoàn hảo mới bắt đầu bảo vệ người học.
Một chính sách AI/dữ liệu cấp trường nên có ít nhất mười phần:
1. Phạm vi: công cụ nào, dữ liệu nào, người dùng nào. 2. Mục đích hợp lệ: các mục tiêu học tập và vận hành được phép. 3. Dữ liệu cấm hoặc hạn chế: thông tin nhạy cảm, trẻ em, sinh trắc, wellbeing, kỷ luật. 4. Công cụ được phê duyệt và công cụ không được dùng với dữ liệu học sinh. 5. Quy định khai báo AI trong học tập và đánh giá. 6. Quyền truy cập, phân quyền và audit log. 7. Retention, deletion, export và exit plan. 8. Human review, contestability và appeal. 9. Incident response và breach notification. 10. Review định kỳ, training và kênh phản hồi.
Với AI high-risk, cần thêm đánh giá tác động: mục tiêu, nhóm bị ảnh hưởng, dữ liệu, rủi ro bias, privacy, security, trẻ em, accessibility, human oversight, contestability, alternatives, và tiêu chí dừng. Đánh giá tác động không cần quá nặng cho mọi công cụ, nhưng bắt buộc với hệ thống chấm điểm, proctoring, predictive analytics, admission, placement, wellbeing, biometric hoặc emotion recognition.
Regulation thường đi sau công nghệ. Vì vậy, nguyên tắc tổ chức phải đi trước: nếu không thể giải thích với một học sinh và phụ huynh rằng dữ liệu được dùng công bằng, cần thiết và có quyền phản biện, thì chưa nên triển khai ở quy mô lớn, dù luật chưa cấm.
Thực trạng triển khai
Thực trạng triển khai dữ liệu và AI trong giáo dục hiện nay có một nghịch lý: các tổ chức nói nhiều hơn về privacy và ethics, nhưng thực hành hằng ngày vẫn rất phân mảnh. Một trường có thể có chính sách bảo vệ dữ liệu ở cấp văn bản, nhưng giáo viên vẫn dùng công cụ AI cá nhân để xử lý bài làm. Một đại học có hội đồng đạo đức nghiên cứu, nhưng chưa có quy trình rõ cho AI detection hoặc AI feedback trong môn học. Một trung tâm có app quản lý học viên, chatbot chăm sóc và báo cáo phụ huynh, nhưng không có data inventory. Một doanh nghiệp đào tạo có learning analytics, nhưng người học không biết dữ liệu học tập có liên quan đến đánh giá nhân sự hay không.
Tool sprawl làm rủi ro tăng. Mỗi công cụ học tập mới thêm một luồng dữ liệu. LMS, quiz app, video platform, AI writing assistant, plagiarism checker, AI detector, chatbot, proctoring, parent communication app, attendance system, CRM, payment system, survey tool, và spreadsheet đều có thể chứa dữ liệu người học. Nếu tổ chức không có danh mục, không ai biết toàn bộ dữ liệu đang ở đâu. Khi có sự cố, việc tìm đường dữ liệu trở nên khó.
AI công khai làm tình hình phức tạp hơn. Giáo viên và học sinh có thể dùng ChatGPT, Gemini, Claude, Copilot, Perplexity, Grammarly, Canva, NotebookLM hoặc các công cụ khác ngoài hệ thống trường. Một số công cụ có phiên bản enterprise hoặc education với kiểm soát dữ liệu tốt hơn; một số dùng tài khoản cá nhân và điều khoản thay đổi. Nếu trường chỉ cấm chung, người dùng có thể lén dùng. Nếu trường cho dùng tự do, dữ liệu có thể rò rỉ. Cách hợp lý hơn là phân loại: công cụ được phép với dữ liệu học sinh, công cụ chỉ dùng với dữ liệu giả hoặc đã ẩn danh, công cụ chỉ dùng cho tài liệu công khai, công cụ bị cấm cho đánh giá hoặc dữ liệu nhạy cảm.
AI detection là ví dụ về policy đi trước bằng chứng. Nhiều trường muốn dùng detector để xử lý gian lận GenAI. Nhưng bằng chứng về false positive, đặc biệt với người viết không bản ngữ, đã tạo cảnh báo mạnh (Liang et al., 2023). Nếu trường dùng detector như bằng chứng kỷ luật, rủi ro công bằng cao. Một chính sách tốt nên nói: detector không được dùng như bằng chứng duy nhất; phải xem quá trình viết, bản nháp, oral defense, lịch sử chỉnh sửa, trao đổi với học sinh, và quyền appeal. Tốt hơn nữa là thiết kế lại đánh giá để giảm động cơ và khả năng nộp sản phẩm không có bằng chứng quá trình.
Proctoring và emotion recognition cũng là vùng rủi ro. Trong đại dịch, nhiều tổ chức dùng online proctoring để bảo vệ kỳ thi. Nhưng các công cụ này có thể thu video, audio, màn hình, khuôn mặt, chuyển động mắt, phòng riêng, và hành vi. Rủi ro gồm privacy, bias với màu da/ánh sáng/khuôn mặt, disability, điều kiện nhà ở, lo âu, và false flags. EU AI Act đặt giới hạn mạnh với emotion recognition trong cơ sở giáo dục, phản ánh lo ngại rằng suy luận cảm xúc từ tín hiệu sinh trắc trong bối cảnh học tập có rủi ro cao (European Union, 2024). Với giáo dục, nguyên tắc nên là: không dùng sinh trắc hoặc emotion inference nếu không thật sự cần, có phương án ít xâm phạm hơn, và không có quy trình human review mạnh.
Predictive analytics trong retention và early warning đang được dùng ở nhiều đại học và hệ thống học trực tuyến. Khi có cố vấn và hỗ trợ thật, nó có thể giúp. Nhưng nhiều nơi triển khai dashboard mà không có nguồn lực can thiệp. Kết quả là cảnh báo nhiều hơn, trách nhiệm nhiều hơn, nhưng hỗ trợ không tăng. Data governance ở đây không chỉ là privacy; nó là actionability. Nếu hệ thống tạo nhãn rủi ro mà không mở đường hỗ trợ, nó có thể gây stigma.
Ở cấp chính sách quốc tế, các khung đang dần rõ hơn. EU AI Act tạo tiêu chuẩn risk-based. UNESCO đưa ra hướng dẫn giáo dục và quyền người học. OECD và NIST đưa ra nguyên tắc quản trị. Hoa Kỳ có FERPA và COPPA cho dữ liệu giáo dục/trẻ em. Việt Nam đang nâng khung bảo vệ dữ liệu cá nhân lên cấp luật từ năm 2026. Nhưng ở cấp trường, năng lực chuyển các khung này thành routine còn hạn chế. Nhiều tổ chức chưa có data protection officer, chưa có quy trình AI approval, chưa có template vendor assessment, chưa có training cho giáo viên về dữ liệu AI, và chưa có incident response thực hành.
Thực trạng tốt hơn xuất hiện ở những nơi xem dữ liệu như hạ tầng tin cậy. Họ có danh mục công cụ, phân loại dữ liệu, hướng dẫn cho giáo viên, hợp đồng vendor rõ, công cụ enterprise cho dữ liệu nhạy cảm, pilot có đánh giá tác động, chính sách khai báo AI, quyền appeal, và review định kỳ. Họ không nhất thiết có công nghệ mạnh nhất, nhưng có trust tốt hơn.
Phân tích phản biện
Rủi ro thứ nhất là privacy bị hiểu như consent form. Consent quan trọng, nhưng trong giáo dục có quan hệ quyền lực. Học sinh có thật sự tự do từ chối nếu bài tập yêu cầu công cụ? Phụ huynh có thật sự hiểu điều khoản? Giáo viên có lựa chọn nếu trường mua nền tảng? Privacy không thể chỉ dựa vào đồng ý. Nó cần minimisation, default protection, purpose limitation và quyền thay thế.
Rủi ro thứ hai là security được dùng để biện minh cho giám sát. Nhà trường có thể nói cần proctoring, camera, log hành vi, AI detection để bảo vệ integrity. Một phần đúng. Nhưng integrity không tự động vượt trên mọi quyền khác. Cần proportionality: mức giám sát có tương xứng với rủi ro không; có cách ít xâm phạm hơn không; dữ liệu lưu bao lâu; ai xem; false positive xử lý ra sao; nhóm yếu thế có bị ảnh hưởng hơn không.
Rủi ro thứ ba là fairness washing. Vendor có thể nói hệ thống đã “kiểm tra bias” nhưng không công bố nhóm nào, dữ liệu nào, metric nào, bối cảnh nào. Một mô hình fairness ở Hoa Kỳ không chứng minh fairness ở Việt Nam. Một kiểm tra theo giới không chứng minh fairness theo ngôn ngữ, disability hoặc vùng miền. Fairness phải cụ thể theo use case và bối cảnh.
Rủi ro thứ tư là transparency quá tải. Nếu tổ chức đưa cho người dùng tài liệu 40 trang, về mặt hình thức có minh bạch, nhưng thực tế không ai đọc. Transparency phải có thiết kế thông tin: ngắn, đúng lúc, phù hợp vai trò, có ví dụ, và có hành động tiếp theo.
Rủi ro thứ năm là human review hình thức. Nhiều hệ thống nói có human-in-the-loop, nhưng con người quá tải, không có thông tin, không có quyền override, hoặc luôn tin máy. Human review thật cần thời gian, năng lực, bằng chứng và quyền thay đổi. Nếu không, nó chỉ chuyển trách nhiệm sang con người.
Rủi ro thứ sáu là policy quá cứng. Nếu chính sách cấm mọi AI vì sợ dữ liệu, người học sẽ dùng ngoài tầm quản trị và không học AI literacy. Nếu chính sách cho phép quá rộng, rủi ro tăng. Chính sách tốt phải phân tầng theo rủi ro và mục tiêu học, không dùng một câu cho mọi tình huống.
Rủi ro thứ bảy là dữ liệu hóa giáo dục. Khi mọi thứ có thể đo, tổ chức có thể bắt đầu tin rằng thứ đo được là thứ quan trọng. Nhưng học tập có nhiều phần khó đo: niềm tin, bản sắc, quan hệ, sự tò mò, dũng khí hỏi, khả năng sống với bất định. Data governance cần bảo vệ không gian không bị đo quá mức.
Rủi ro thứ tám là chuyển quyền từ nhà trường sang vendor. Nếu mô hình, dữ liệu, analytics, policy template và dashboard đều nằm trong hệ sinh thái vendor, tổ chức có thể mất năng lực tự hiểu học tập của mình. Vendor lock-in không chỉ là kinh tế; nó là lock-in nhận thức. Trường nhìn học sinh qua khung đo của sản phẩm.
Rủi ro cuối cùng là xem tuân thủ luật là đủ. Một việc có thể hợp pháp nhưng vẫn không tốt về giáo dục. Thu dữ liệu hợp lệ nhưng không cần thiết vẫn xâm phạm. AI feedback minh bạch nhưng làm học sinh phụ thuộc vẫn có vấn đề. Dashboard đúng luật nhưng làm giáo viên mất niềm tin vẫn thất bại. Ethics bắt đầu nơi compliance chưa đủ.
Nguyên tắc thiết kế
Nguyên tắc thứ nhất: mục đích rõ trước dữ liệu. Không thu dữ liệu nếu không viết được mục đích học tập hoặc vận hành cụ thể, người chịu trách nhiệm, và hành động dự kiến.
Nguyên tắc thứ hai: tối thiểu hóa dữ liệu. Thu ít nhất có thể, xử lý cục bộ khi được, ẩn danh hoặc giả danh khi phù hợp, và tránh dữ liệu sinh trắc/nhạy cảm nếu có phương án ít xâm phạm hơn.
Nguyên tắc thứ ba: bảo vệ mặc định. Tắt mặc định các tính năng tracking sâu, huấn luyện mô hình bằng dữ liệu học sinh, chia sẻ bên thứ ba, lưu chat dài hạn và profiling high-risk nếu chưa có phê duyệt.
Nguyên tắc thứ tư: phân loại rủi ro AI. Công cụ tạo nội dung, feedback, chấm điểm, proctoring, predictive analytics, wellbeing và admission có mức rủi ro khác nhau. Mức rủi ro quyết định mức review.
Nguyên tắc thứ năm: không dùng AI high-stakes nếu thiếu human review và contestability. Điểm số, kỷ luật, tuyển chọn, phân luồng và hỗ trợ đặc biệt cần con người có quyền xem lại.
Nguyên tắc thứ sáu: audit bias theo bối cảnh. Kiểm tra hiệu năng theo nhóm người học, ngôn ngữ, disability, thiết bị, vùng miền và điều kiện học. Không chỉ xem accuracy trung bình.
Nguyên tắc thứ bảy: minh bạch theo vai trò. Học sinh, phụ huynh, giáo viên, lãnh đạo và IT cần thông tin khác nhau. Giải thích phải ngắn, đúng lúc và gắn với quyền hành động.
Nguyên tắc thứ tám: quản trị dữ liệu suy luận. Risk score, mastery estimate, engagement label, predicted grade và suspected AI use phải được kiểm soát như dữ liệu có tác động thật.
Nguyên tắc thứ chín: thiết kế age-appropriate từ đầu. Công cụ cho trẻ em cần phạm vi hẹp, bảo vệ mặc định, giải thích phù hợp tuổi, không tối ưu gây nghiện, và escalation sang người lớn khi cần.
Nguyên tắc thứ mười: hợp đồng vendor phải có điều khoản dữ liệu rõ. Không dùng dữ liệu học sinh để huấn luyện ngoài hợp đồng, không chia sẻ bên thứ ba không rõ, có breach notification, export, deletion, audit rights và exit plan.
Nguyên tắc thứ mười một: giữ quyền dữ liệu trong tổ chức học tập. Trường cần data inventory, AI register, retention schedule, access review, incident response và review định kỳ.
Nguyên tắc thứ mười hai: dạy data literacy và AI rights. Người học và giáo viên cần hiểu dữ liệu nào được tạo, quyền nào có, rủi ro nào cần tránh, và cách phản biện hệ thống.
Nguyên tắc thứ mười ba: không đo quá mức. Có những không gian học tập nên ít dữ liệu: bản nháp riêng, thảo luận nhạy cảm, wellbeing, thử nghiệm sáng tạo. Dữ liệu nhiều hơn không tự làm giáo dục tốt hơn.
Nguyên tắc thứ mười bốn: nội địa hóa pháp lý và văn hóa. Dùng UNESCO, OECD, EU, FERPA, GDPR, COPPA như nguồn tham chiếu, nhưng phải thiết kế theo luật, ngôn ngữ, văn hóa và hạ tầng địa phương.
Tổng kết chương
Dữ liệu là nền của AI trong giáo dục, nhưng cũng là nơi quyền lực tập trung. Nếu không có privacy by design, AI dễ thu quá nhiều và lưu quá lâu. Nếu không kiểm soát algorithmic bias, dữ liệu quá khứ có thể khóa cơ hội tương lai. Nếu thiếu transparency và contestability, người học và giáo viên bị đặt dưới quyết định họ không hiểu. Nếu không age-appropriate, trẻ em bị đưa vào hệ thống thiết kế cho người lớn. Nếu thiếu data governance, mỗi công cụ tạo một luật riêng. Nếu chỉ chạy theo compliance, tổ chức có thể hợp pháp nhưng vẫn không chính đáng về giáo dục.
Một hệ sinh thái AI đáng tin trong giáo dục phải trả lời được các câu hỏi rất cụ thể: dữ liệu nào, mục đích gì, ai xem, lưu bao lâu, dùng lại ra sao, sai thì sửa thế nào, thiên lệch với ai, trẻ em được bảo vệ ra sao, và người bị ảnh hưởng có quyền phản biện không. Đây không phải phần phụ của đổi mới. Đây là điều kiện để đổi mới có đạo đức.
Chương 22 sẽ chuyển sang kinh tế học EdTech: procurement, business models, chi phí ẩn, sustainability và local market adaptation. Nếu chương này hỏi dữ liệu và quyền của ai, chương sau sẽ hỏi tiền đến từ đâu, incentive nào định hình sản phẩm, và khi công nghệ giáo dục trở thành thị trường, người học có nguy cơ bị biến thành gì.
Tài liệu tham khảo
Cavoukian, A. (2009). Privacy by Design: The 7 Foundational Principles. Information and Privacy Commissioner of Ontario. https://www.ipc.on.ca/wp-content/uploads/resources/7foundationalprinciples.pdf
European Union. (2016). Regulation (EU) 2016/679: General Data Protection Regulation. https://eur-lex.europa.eu/eli/reg/2016/679/oj
European Union. (2024). Regulation (EU) 2024/1689 laying down harmonised rules on artificial intelligence. https://eur-lex.europa.eu/eli/reg/2024/1689/oj
Federal Trade Commission. (2025). Children's Online Privacy Protection Rule (COPPA). https://www.ftc.gov/legal-library/browse/rules/childrens-online-privacy-protection-rule-coppa
Liang, W., Yuksekgonul, M., Mao, Y., Wu, E., & Zou, J. (2023). GPT detectors are biased against non-native English writers. Patterns, 4(7), 100779. https://doi.org/10.1016/j.patter.2023.100779
Miao, F., & Cukurova, M. (2024). AI competency framework for teachers. UNESCO. https://www.unesco.org/en/articles/ai-competency-framework-teachers
Miao, F., Shiohira, K., & Lao, N. (2024). AI competency framework for students. UNESCO. https://www.unesco.org/en/articles/ai-competency-framework-students
National Institute of Standards and Technology. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0). https://doi.org/10.6028/NIST.AI.100-1
OECD. (2024). OECD AI Principles overview. https://oecd.ai/en/ai-principles
UNESCO. (2023). Guidance for generative AI in education and research. https://www.unesco.org/en/articles/guidance-generative-ai-education-and-research
UNESCO. (2025). AI and education: Protecting the rights of learners. https://www.unesco.org/en/articles/ai-and-education-protecting-rights-learners
UNICEF. (2021). Policy guidance on AI for children. https://www.unicef.org/globalinsight/reports/policy-guidance-ai-children
U.S. Department of Education. (2025). Family Educational Rights and Privacy Act (FERPA). https://studentprivacy.ed.gov/ferpa
Vietnam National Assembly. (2025). Law on Personal Data Protection. Effective January 1, 2026.