Phát hiện gần 12.000 API Key và mật khẩu trong dữ liệu huấn luyện mô hình AI

Một nghiên cứu mới phát hiện gần 12.000 khóa API và mật khẩu bị lộ trong tập dữ liệu Common Crawl – kho dữ liệu mở thường được sử dụng để huấn luyện mô hình AI. Common Crawl là một tổ chức phi lợi nhuận thu thập dữ liệu web từ năm 2008, cung cấp miễn phí cho cộng đồng và được nhiều dự án AI, bao gồm OpenAI, Google, Meta, Anthropic, sử dụng để phát triển mô hình ngôn ngữ lớn (LLM).

Các nhà nghiên cứu từ Truffle Security đã phân tích 400 terabyte dữ liệu từ 2,67 tỷ trang web trong kho Common Crawl tháng 12/2024 và phát hiện 11.908 khóa API và mật khẩu vẫn hoạt động. Nguyên nhân chính đến từ việc lập trình viên hardcode trực tiếp các khóa này vào mã nguồn thay vì sử dụng các biện pháp bảo mật như biến môi trường phía server.

Trong số các khóa API bị lộ, nhiều khóa thuộc Amazon Web Services (AWS), MailChimp và WalkScore. Đặc biệt, có gần 1.500 khóa API của MailChimp bị mã hóa cứng trong HTML và JavaScript, tạo cơ hội cho tin tặc lợi dụng để thực hiện các cuộc tấn công, giả mạo thương hiệu hoặc đánh cắp dữ liệu. Một trường hợp đáng chú ý khác là một khóa API của WalkScore xuất hiện tới 57.029 lần trên 1.871 tên miền phụ.

Mặc dù dữ liệu huấn luyện AI được tiền xử lý để loại bỏ thông tin nhạy cảm, nhưng việc lọc bỏ hoàn toàn các dữ liệu cá nhân (PII), tài chính hay bảo mật vẫn là một thách thức lớn. Sau khi phát hiện vấn đề, Truffle Security đã làm việc với các nhà cung cấp dịch vụ để thu hồi hàng nghìn khóa API, đồng thời cảnh báo về những rủi ro bảo mật tiềm ẩn trong quá trình phát triển AI.

Theo: Bleeping computer

Tin tức báo chí liên quan

Tháng Tư 6, 2026 Tin tổng hợp

Hành lang pháp lý – chìa khóa bảo vệ an ninh mạng

Trong bối cảnh các mối đe dọa trên không gian mạng ngày càng phức tạp, Dự thảo Nghị định về lực lượng bảo vệ an ninh mạng được kỳ vọng sẽ tạo ra hành lang pháp lý rõ ràng hơn cho công tác phối hợp, ứng phó sự cố và huy động nguồn lực xã…

Tháng Tư 2, 2026 Tin tổng hợp

Anthropic làm rò rỉ hơn 500.000 dòng mã nguồn Claude Code

Anthropic vừa xác nhận đã vô tình làm lộ mã nguồn của công cụ lập trình AI Claude Code do lỗi trong quá trình phát hành trên npm. Công ty cho biết đây là sai sót nội bộ, không phải tấn công mạng và không ảnh hưởng đến dữ liệu khách hàng. Sự cố xảy…

Tháng Tư 2, 2026 Tin tổng hợp

Dùng một mật khẩu cho nhiều tài khoản: Tiện nhưng tiềm ẩn nhiều rủi ro

Dùng chung một mật khẩu cho nhiều tài khoản là thói quen không hiếm gặp hiện nay. Theo chuyên gia an ninh mạng, sự tiện lợi đó có thể khiến người dùng đối mặt với nguy cơ mất quyền kiểm soát hàng loạt tài khoản. Dùng chung mật khẩu: lựa chọn tiện lợi trong đời sống số Trong nhịp sống số hiện nay, chuyện đăng nhập…