Phương pháp AI Jailbreak mới “Bad Likert Judge” tăng tỷ lệ tấn công thành công lên đến hơn 60%

Các nhà nghiên cứu an ninh mạng vừa phát hiện một kỹ thuật jailbreak mới, mang tên “Bad Likert Judge”, có thể vượt qua cơ chế bảo vệ của mô hình ngôn ngữ lớn (LLM) và tạo ra các phản hồi độc hại.

Phương pháp này yêu cầu LLM đóng vai trò như một “giám khảo,” sử dụng thang đo Likert để đánh giá mức độ độc hại của các phản hồi. Sau đó, LLM được yêu cầu tạo ra các phản hồi tương ứng với từng mức độ đánh giá, trong đó các phản hồi có điểm cao nhất trên thang đo có thể chứa nội dung nguy hiểm.

Sự phát triển mạnh mẽ của trí tuệ nhân tạo trong những năm gần đây đã dẫn đến sự xuất hiện của một loại hình tấn công mới, “prompt injection”. Đây là phương pháp tấn công vốn thiết kế để khiến AI bỏ qua các quy tắc an toàn ban đầu thông qua chuỗi hướng dẫn được điều chỉnh tinh vi. 

Một biến thể của kỹ thuật này, được gọi là “many-shot jailbreaking”, tận dụng khả năng xử lý ngữ cảnh dài của AI để dẫn dụ mô hình từng bước tạo ra các phản hồi độc hại mà không kích hoạt các cơ chế bảo vệ.

Trong thử nghiệm, kỹ thuật “Bad Likert Judge” đã được áp dụng trên các mô hình AI tiên tiến từ Amazon, Google, Meta, Microsoft, OpenAI, và NVIDIA. Kết quả cho thấy tỷ lệ tấn công thành công tăng hơn 60% so với các phương pháp thông thường.

Phương pháp này có thể được dùng để tạo ra nội dung độc hại, bao gồm: phát ngôn gây thù hận, quấy rối, hướng dẫn hoạt động bất hợp pháp, mã độc, và tiết lộ thông tin hệ thống. Tuy nhiên, các bộ lọc nội dung có thể giảm đáng kể tỷ lệ tấn công, lên đến 89%, theo nhóm nghiên cứu.

Các nhà nghiên cứu cảnh báo rằng việc phát triển và áp dụng các biện pháp bảo vệ nghiêm ngặt là điều cần thiết khi triển khai AI trong thực tế.

Nguồn: Thehackernews