
Một nghiên cứu mới phát hiện gần 12.000 khóa API và mật khẩu bị lộ trong tập dữ liệu Common Crawl – kho dữ liệu mở thường được sử dụng để huấn luyện mô hình AI. Common Crawl là một tổ chức phi lợi nhuận thu thập dữ liệu web từ năm 2008, cung cấp miễn phí cho cộng đồng và được nhiều dự án AI, bao gồm OpenAI, Google, Meta, Anthropic, sử dụng để phát triển mô hình ngôn ngữ lớn (LLM).
Các nhà nghiên cứu từ Truffle Security đã phân tích 400 terabyte dữ liệu từ 2,67 tỷ trang web trong kho Common Crawl tháng 12/2024 và phát hiện 11.908 khóa API và mật khẩu vẫn hoạt động. Nguyên nhân chính đến từ việc lập trình viên hardcode trực tiếp các khóa này vào mã nguồn thay vì sử dụng các biện pháp bảo mật như biến môi trường phía server.
Trong số các khóa API bị lộ, nhiều khóa thuộc Amazon Web Services (AWS), MailChimp và WalkScore. Đặc biệt, có gần 1.500 khóa API của MailChimp bị mã hóa cứng trong HTML và JavaScript, tạo cơ hội cho tin tặc lợi dụng để thực hiện các cuộc tấn công, giả mạo thương hiệu hoặc đánh cắp dữ liệu. Một trường hợp đáng chú ý khác là một khóa API của WalkScore xuất hiện tới 57.029 lần trên 1.871 tên miền phụ.
Mặc dù dữ liệu huấn luyện AI được tiền xử lý để loại bỏ thông tin nhạy cảm, nhưng việc lọc bỏ hoàn toàn các dữ liệu cá nhân (PII), tài chính hay bảo mật vẫn là một thách thức lớn. Sau khi phát hiện vấn đề, Truffle Security đã làm việc với các nhà cung cấp dịch vụ để thu hồi hàng nghìn khóa API, đồng thời cảnh báo về những rủi ro bảo mật tiềm ẩn trong quá trình phát triển AI.