Fun-Tuning: Hacker dùng AI để tấn công AI Gemini của Google

AI

Một nghiên cứu mới đây đã tiết lộ một phương thức tấn công vô cùng nguy hiểm, khi hacker sử dụng chính AI để khai thác lỗ hổng của các mô hình AI khác. Phương pháp này, được gọi là Fun-Tuning, giúp tự động hóa hoàn toàn quá trình tấn công prompt injection—một kỹ thuật lợi dụng các chỉ dẫn ẩn để đánh lừa AI, khiến nó thực hiện những hành vi ngoài tầm kiểm soát của nhà phát triển.

Điều đáng lo ngại hơn, Fun-Tuning có thể dễ dàng qua mặt những mô hình trí tuệ nhân tạo hàng đầu như Google Gemini, với tỷ lệ thành công lên đến 82%, cao hơn nhiều so với các phương thức tấn công truyền thống. Điều này không chỉ đặt ra thách thức lớn về bảo mật, mà còn đánh dấu một bước leo thang trong cuộc đối đầu giữa hacker và các hệ thống phòng thủ mạng.

Biến AI thành công cụ tấn công 

Theo một báo cáo nghiên cứu gần đây, Fun-Tuning là một phương pháp cho phép hacker chèn prompt vào các mô hình trí học máy, trong đó có Google Gemini, với khả năng tự động tạo ra các cuộc tấn công có hiệu quả cực kỳ cao. Kỹ thuật này làm việc phá vỡ bảo mật của trí tuệ nhân tạo trở nên nhanh chóng, dễ dàng và rẻ tiền, đánh dấu một bước leo thang mới trong cuộc chiến an ninh mạng liên quan đến trí tuệ nhân tạo.

Tấn công chèn prompt là một phương pháp mà các hacker lén lút đưa vào các chỉ dẫn độc hại vào trong dữ liệu đầu vào của các mô hình trí tuệ nhân tạo, ví dụ như thông qua các bình luận trong mã nguồn hoặc văn bản ẩn trên web. Mục đích của các cuộc tấn công này là làm cho mô hình bỏ qua các quy tắc an toàn đã được lập trình sẵn.

Khi điều này xảy ra, các mô hình học máy có thể dẫn đến những hậu quả nghiêm trọng như làm rò rỉ dữ liệu nhạy cảm, cung cấp thông tin sai lệch, hoặc thực hiện các hành vi nguy hiểm khác. Trước đây, việc thực hiện thành công các cuộc tấn công này, đặc biệt trên các mô hình “đóng” như Gemini hay GPT-4, yêu cầu rất nhiều thử nghiệm thủ công phức tạp và tốn thời gian.

Chi phí thấp nhưng hiểm họa cao

Tuy nhiên, với sự xuất hiện của Fun-Tuning, mọi chuyện đã thay đổi. Phương pháp này được phát triển bởi một nhóm nhà nghiên cứu từ các trường đại học và đã khai thác một cách thông minh API tinh chỉnh mà Google cung cấp miễn phí cho người dùng Gemini.

Fun-Tuning tận dụng các phản ứng tinh vi của mô hình trong quá trình tinh chỉnh, ví dụ như cách Gemini phản ứng lại với các lỗi trong dữ liệu, để tự động xác định những “tiền tố” và “hậu tố” hiệu quả nhất giúp che giấu câu lệnh độc hại. Điều này làm tăng đáng kể khả năng mô hình trí tuệ nhân tạo sẽ tuân theo yêu cầu của hacker, tạo nên một cuộc tấn công cực kỳ hiệu quả.

Kết quả thử nghiệm đã cho thấy tỷ lệ thành công của Fun-Tuning đạt tới 82% trên một số phiên bản của Gemini, một con số vượt trội so với các phương pháp tấn công truyền thống, thường chỉ đạt dưới 30%. Điều đáng chú ý là Fun-Tuning không chỉ hiệu quả mà còn có chi phí rất thấp. Vì API tinh chỉnh của Google được cung cấp miễn phí, chi phí tính toán để thực hiện một cuộc tấn công chỉ tốn khoảng 10 USD.

Hơn nữa, các nhà nghiên cứu còn phát hiện ra rằng một cuộc tấn công được thiết kế cho một phiên bản Gemini có thể dễ dàng chuyển sang các phiên bản khác mà không gặp phải khó khăn gì, mở ra nguy cơ tấn công diện rộng.

Google đã nhận thức được mối đe dọa từ Fun-Tuning, nhưng hiện tại chưa có phản hồi chính thức về việc họ có thay đổi cách thức hoạt động của API tinh chỉnh hay không. Các nhà nghiên cứu cảnh báo rằng việc phòng thủ chống lại các cuộc tấn công kiểu này không phải là chuyện dễ dàng.

Nếu loại bỏ các thông tin mà Fun-Tuning khai thác khỏi quá trình tinh chỉnh, API sẽ trở nên kém hữu dụng đối với các nhà phát triển hợp pháp. Tuy nhiên, nếu giữ nguyên các thông tin này, nó sẽ tiếp tục là điểm yếu mà hacker có thể lợi dụng để thực hiện tấn công.

Sự xuất hiện của Fun-Tuning là một cảnh báo rõ ràng rằng không gian mạng đang bước vào một giai đoạn mới, phức tạp hơn. Trí tuệ nhân tạo không chỉ là mục tiêu của các cuộc tấn công, mà nó còn trở thành vũ khí trong tay các hacker. Điều này khiến cho cuộc chiến bảo mật trở nên khó khăn hơn bao giờ hết, yêu cầu các nhà phát triển và các chuyên gia bảo mật phải tìm ra các giải pháp để bảo vệ hệ thống của mình khỏi những mối đe dọa tiềm tàng.

Để đối phó với những mối đe dọa tiên tiến và các cuộc tấn công phức tạp, dịch vụ Compromise Assessment của VSEC là giải pháp tối ưu cho doanh nghiệp của bạn. Chúng tôi cung cấp một quy trình đánh giá chuyên sâu, giúp phát hiện những dấu vết tấn công chưa được phát hiện, đánh giá mức độ xâm nhập và bảo vệ hệ thống của bạn khỏi các cuộc tấn công AI-Powered tiềm tàng.

Liên hệ ngay để tìm hiểu thêm về dịch vụ Compromise Assessment của VSEC.