
Một kỹ thuật tấn công mới mang tên Policy Puppetry vừa được công bố, cho phép khai thác lỗ hổng trong cơ chế kiểm soát an toàn của hầu hết các mô hình AI tạo sinh (gen-AI) lớn hiện nay. Policy Puppetry tận dụng kỹ thuật prompt injection tạo các prompt sao cho mô hình ngôn ngữ lớn (LLM) hiểu nhầm đây là các tập tin chính sách (policy file), từ đó ghi đè các hướng dẫn hệ thống và vô hiệu hóa các cơ chế an toàn đã được huấn luyện trước.
Thông thường, các mô hình gen-AI được tinh chỉnh kỹ lưỡng để từ chối tạo ra nội dung nguy hiểm, bao gồm các chủ đề liên quan đến vũ khí hóa học, sinh học, phóng xạ, hạt nhân (CBRN), tự làm hại bản thân hoặc kích động bạo lực. Các biện pháp này được áp dụng nhằm đảm bảo rằng mô hình sẽ không sản xuất ra nội dung nguy hiểm ngay cả khi người dùng cố tình ngụy trang yêu cầu dưới hình thức giả định hoặc hư cấu.
Tuy nhiên, công ty an ninh mạng HiddenLayer cho biết bằng cách tái cấu trúc yêu cầu theo định dạng giả lập như XML, INI hoặc JSON, kẻ tấn công có thể đánh lừa mô hình, khiến nó hiểu rằng nội dung nhận được là một chính sách nội bộ cần thực thi. Khi đó, các cơ chế kiểm soát bị bỏ qua, và mô hình có thể bị điều khiển để sinh ra nội dung độc hại theo ý đồ của kẻ tấn công.
Việc mô hình diễn giải nhầm yêu cầu như một file chính sách không chỉ làm vô hiệu hóa các lệnh hạn chế, mà còn cho phép kẻ tấn công chèn thêm các phần chỉ định định dạng đầu ra hoặc thay đổi các hướng dẫn vận hành. HiddenLayer đã thử nghiệm thành công kỹ thuật này trên nhiều mô hình gen-AI nổi tiếng hiện nay, bao gồm Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI và Qwen. Dù ở một số mô hình cần điều chỉnh nhẹ về kỹ thuật, nhưng nhìn chung Policy Puppetry đều khai thác thành công khả năng kiểm soát nội dung an toàn.
Thực tế này cho thấy các mô hình ngôn ngữ lớn hiện tại vẫn chưa đủ khả năng tự giám sát và ngăn chặn triệt để các hành vi khai thác thông qua prompt injection. Việc tồn tại một kỹ thuật có thể vượt qua gần như toàn bộ các mô hình tiên tiến nhất cũng cho thấy những lỗ hổng căn bản trong quy trình huấn luyện và tinh chỉnh AI hiện nay.
Các chuyên gia an ninh mạng cũng nhấn mạnh rằng, để đảm bảo an toàn cần sớm triển khai thêm các lớp bảo vệ chuyên biệt, kết hợp các công cụ phát hiện tấn công, thay vì chỉ dựa vào các biện pháp kiểm soát nội bộ của mô hình.