OpenAI: Trình duyệt AI có thể luôn dễ bị tấn công “Prompt Injection” – Cảnh báo lớn cho an ninh AI

OpenAI mới đây đã thừa nhận một thách thức an ninh trọng yếu trong kỷ nguyên trình duyệt AI: liên quan đến các cuộc tấn công “prompt injection”, tức là việc kẻ xấu lợi dụng nội dung để lừa AI làm theo lệnh có hại thay vì theo yêu cầu của người dùng. LinkedIn

Trong một bài đăng chính thức ngày 22/12/2025 trên blog của OpenAI, công ty này cho biết dù họ đang cố gắng gia cố an ninh cho ChatGPT Atlas – trình duyệt AI mới nhất của mình – những cuộc tấn công prompt injection có thể không bao giờ bị triệt tiêu hoàn toàn.

Prompt Injection là gì? Lý do nó nguy hiểm

Prompt injection về cơ bản là một kiểu tấn công với kỹ thuật xã hội (social engineering) nhưng nhắm vào các mô hình AI – kẻ tấn công chèn những hướng dẫn có hại vào nội dung mà AI đọc phải, khiến AI thực thi những hành động nó không được người dùng yêu cầu.

Điều này đặc biệt nguy hiểm với AI browser (trình duyệt AI), vì khi nó đọc và xử lý nội dung web, email, tài liệu hay bình luận không kiểm soát được nguồn gốc, thì mkẻ xấu có thể chèn mã lệnh, câu lệnh hay yêu cầu độc hại ẩn trong nội dung đó.

Ví dụ: AI đang tìm kiếm thông tin cho bạn, nhưng kẻ tấn công nhúng trong một trang web một đoạn lệnh yêu cầu AI gửi email với nội dung độc hại… kết quả là AI thực thi yêu cầu đó thay vì truy vấn gốc. Đây chính là prompt injection.

OpenAI thừa nhận “không thể giải quyết hoàn toàn”

Trong bài đăng, OpenAI thừa nhận rằng prompt injection là một nguy cơ “không thể triệt tiêu hoàn toàn”, tương tự như scam và social engineering tồn tại mãi trên Internet.

“Prompt injection, giống như lừa đảo và kỹ thuật xã hội trên web, khó có thể được giải quyết hoàn toàn”, OpenAI viết. LinkedIn

Điều này đặt ra thách thức lớn cho toàn ngành AI, bởi những trình duyệt như ChatGPT Atlas đang được phát triển để làm trợ lý cá nhân, tự động thao tác trên web, và truy cập nội dung riêng tư – nhưng điều đó cũng mở rộng bề mặt tấn công.

ChatGPT Atlas – sức mạnh cũng là rủi ro

ChatGPT Atlas, trình duyệt AI của OpenAI ra mắt tháng 10/2025, được thiết kế để hỗ trợ người dùng tìm kiếm, phân tích và thao tác trên web một cách tự động.

Nhưng chính khả năng tự động đọc nội dung web và thực hiện tác vụ thay bạn khiến nó dễ bị prompt injection lợi dụng hơn các công cụ AI truyền thống.

Thực tế, các nhà nghiên cứu bảo mật đã chứng minh rằng chỉ cần vài dòng trong một Google Docs cũng có thể thay đổi hành vi trình duyệt AI nếu không có biện pháp kiểm soát chặt – và OpenAI thừa nhận điều này trong bài đăng của mình.

Giải pháp của OpenAI: “Tấn công tự động” để phòng thủ

Để đối phó, OpenAI cho biết họ đang sử dụng một công cụ phòng thủ khá thú vị: một hệ thống “attacker tự động” dựa trên LLM (reinforcement learning). LinkedIn

Hệ thống này hoạt động như một bot hacker mô phỏng, liên tục thử nghiệm và tìm ra các kiểu tấn công mới trước khi chúng bị kẻ xấu khai thác ngoài đời thực. Ý tưởng là thông qua phương pháp phòng thủ chủ động, họ có thể phát hiện và vá lỗi nhanh hơn. LinkedIn

OpenAI cũng đang yêu cầu người dùng xác nhận hành động quan trọng (như gửi email, thanh toán, thay đổi dữ liệu) thay vì để AI tự động làm, nhằm giảm nguy cơ bị lợi dụng.

Không chỉ OpenAI – Cả ngành đều bị ảnh hưởng

Những cảnh báo về prompt injection không chỉ xuất hiện ở OpenAI. Các tổ chức như U.K.’s National Cyber Security Centre cũng nhận định rằng prompt injection có thể không bao giờ hoàn toàn bị loại bỏ, và các công ty cần giảm thiểu rủi ro thay vì kỳ vọng loại trừ hoàn toàn. LinkedIn

Các hãng khác như Brave hay Perplexity cũng từng chỉ ra rủi ro này đối với trình duyệt AI nói chung.

Ý nghĩa đối với người dùng và doanh nghiệp

🔐 Với người dùng cá nhân

Không nên giao quyền toàn quyền cho trình duyệt AI (như truy cập hộp thư, thanh toán tự động).
Xác nhận mọi hành động nhạy cảm – đặt bảo mật lên hàng đầu.

🛡️ Với doanh nghiệp

Kiểm soát chặt truy cập nội bộ, giới hạn AI truy cập dữ liệu nhạy cảm.
Kết hợp nhiều lớp phòng thủ: xác thực, phân tích hành vi, red-teaming liên tục.
Nhận thức rằng không có hệ thống nào miễn nhiễm hoàn toàn với tấn công prompt injection.

AI Browser mạnh – nhưng rủi ro vẫn còn đó

OpenAI đã khiến cả cộng đồng phải chú ý khi nói rằng ngay cả các trình duyệt AI tiên tiến như ChatGPT Atlas cũng không thể hoàn toàn thoát khỏi nguy cơ prompt injection.

Điều này không có nghĩa là trình duyệt AI không có giá trị – ngược lại, nó cho thấy ngành phải phát triển cả về năng lực lẫn an ninh, với chiến lược phòng thủ liên tục, mô phỏng tấn công, và kiến thức rộng hơn về rủi ro để bảo vệ người dùng