Sự tham gia của con người là yếu tố không thể thiếu trong red-teaming, đặc biệt khi xử lý các rủi ro phức tạp mà công nghệ AI không thể tự mình giải quyết. Mặc dù AI có thể hỗ trợ, nhưng chỉ có trí tuệ, sự nhạy bén, và trí tuệ cảm xúc của con người mới đủ khả năng phát hiện lỗ hổng và dự đoán các phương thức khai thác của tin tặc.
Trong lĩnh vực an ninh mạng, red-teaming là một quá trình quan trọng nhằm phát hiện và khai thác các lỗ hổng bảo mật. Sự tham gia của con người trong quy trình này là yếu tố không thể thiếu, đặc biệt khi đối mặt với những rủi ro phức tạp mà công nghệ AI không thể tự mình giải quyết.
Sự sáng tạo của con người đóng vai trò trung tâm trong việc xác định các điểm yếu tiềm tàng trong hệ thống. Dù cho có sự hỗ trợ từ các công cụ như PyRIT (Python Risk Identification Toolkit), những công cụ này chỉ có thể tăng cường hiệu quả trong các cuộc tấn công mô phỏng mà không thể thay thế khả năng xử lý những rủi ro tinh vi mà chỉ con người mới có thể hiểu rõ.
Vai trò không thể thay thế của con người trong redteam
Trong những lĩnh vực đặc thù như an ninh mạng, y tế, và sinh học, chuyên môn của con người là không thể thay thế. Các mô hình ngôn ngữ lớn (LLMs) mặc dù rất tiên tiến, nhưng không thể đạt được mức độ chính xác và tinh tế như chuyên gia con người khi đánh giá các phản hồi AI trong những kịch bản phức tạp.
Một khía cạnh quan trọng khác trong red-team là “năng lực văn hóa” (cultural competence). Các đội ngũ red-team phải cân nhắc đến các yếu tố ngôn ngữ và văn hóa để phát hiện những rủi ro mà các mô hình AI, thường được huấn luyện chủ yếu trên dữ liệu tiếng Anh, có thể dễ dàng bỏ sót.
Vai trò của con người càng trở nên rõ ràng hơn khi giải quyết các vấn đề liên quan đến an toàn AI, nơi mà trí tuệ cảm xúc là cần thiết. Chỉ có con người mới có khả năng đánh giá liệu phản hồi từ AI có thể bị hiểu sai trong các ngữ cảnh khác nhau hay không, hoặc liệu các kết quả đầu ra có gây khó chịu hoặc bất an cho người dùng.
Một nghiên cứu điển hình cho thấy red-team của họ đã điều tra những tổn thương tâm lý xã hội xảy ra khi chatbot tương tác với người dùng đang gặp khủng hoảng. Báo cáo chỉ ra rằng các red-teamer thường xuyên phải đối mặt với nội dung AI tạo ra có thể gây lo ngại, nhấn mạnh sự cần thiết của các quy trình giúp đội ngũ này giảm thiểu căng thẳng và duy trì sức khỏe tinh thần.
Việc tích hợp AI generative vào các ứng dụng hiện đại đã mở ra những lỗ hổng tấn công mới. Một ví dụ đáng chú ý là lỗi bảo mật trong thành phần FFmpeg lỗi thời của một ứng dụng AI xử lý video, dẫn đến lỗ hổng server-side request forgery (SSRF), cho phép tin tặc leo thang đặc quyền trên hệ thống.
Ngoài ra, các lỗ hổng như prompt injections khai thác sự thiếu khả năng của AI trong việc phân biệt giữa lệnh hệ thống và dữ liệu người dùng. Những thách thức này nhấn mạnh rằng mặc dù AI có thể mở rộng khả năng của con người, nhưng chính sự tham gia của con người mới có thể đảm bảo an toàn và hiệu quả trong thực tế sử dụng.