Google tăng cường bảo mật với GenAI nhằm đối phó các cuộc tấn công gián tiếp qua prompt injection

Trong bối cảnh trí tuệ nhân tạo tạo sinh (Generative AI – GenAI) ngày càng được ứng dụng rộng rãi trong mọi lĩnh vực, Google đã triển khai nhiều biện pháp bảo mật nâng cao để bảo vệ người dùng trước một loại hình tấn công tinh vi mới – prompt injection gián tiếp (indirect prompt injection).

Khác với prompt injection trực tiếp – nơi kẻ tấn công cố tình đưa các lệnh độc hại vào prompt – prompt injection gián tiếp được ẩn giấu trong các nguồn dữ liệu bên ngoài, chẳng hạn như email, tệp tài liệu, hoặc lời mời trên lịch. Những chỉ thị ẩn này có thể đánh lừa mô hình GenAI như Gemini để tiết lộ thông tin nhạy cảm hoặc thực thi các hành vi không được cấp phép.

Để đối phó với các nguy cơ mới, Google đã triển khai một kiến trúc bảo mật theo chiều sâu dành riêng cho nền tảng Gemini – công nghệ đứng sau Google Workspace và ứng dụng Gemini độc lập. Cấu trúc này bao gồm nhiều lớp phòng vệ: từ huấn luyện mô hình đối kháng (adversarial model training), phân tích mối đe dọa nâng cao, tuân thủ các thực hành bảo mật AI tốt nhất, cho đến thử nghiệm định kỳ bằng các nhóm red team chuyên biệt.

Trọng tâm của chiến lược là củng cố mô hình Gemini 2.5 bằng dữ liệu đối kháng, giúp hệ thống có khả năng nhận biết – và miễn nhiễm – trước các chiêu thức prompt injection tinh vi. Mô hình được huấn luyện để nhận diện các mẫu prompt bất thường và phản ứng một cách an toàn, dù phải xử lý các chuỗi lệnh phức tạp được nguỵ trang khéo léo.

Song song đó, Google cũng phát triển các bộ phân loại nội dung (content classifiers) ứng dụng học máy, dựa trên kho dữ liệu thực tế thu thập được từ chương trình “AI Vulnerability Reward Program”. Các bộ phân loại này giúp phát hiện và loại bỏ các prompt độc hại được nhúng trong tệp, email hoặc các dữ liệu giao tiếp khác.

Theo: Cyberpress