Điều gì xảy ra với dữ liệu của bạn khi dán vào công cụ AI
Bạn sao chép một đoạn từ hợp đồng bảo mật và dán vào chatbot AI để yêu cầu tóm tắt. Bạn nhập địa chỉ nhà vào trợ lý AI để xin chỉ đường. Bạn tải lên bảng tính chứa dữ liệu khách hàng vào công cụ AI hứa hẹn sẽ "phân tích ngay lập tức."
Trong mỗi trường hợp, bạn vừa chia sẻ thông tin có thể nhạy cảm cho một dịch vụ bên thứ ba. Và bạn không phải là người duy nhất.
Quy mô của vấn đề
Một nghiên cứu năm 2024 phát hiện rằng 64% người dùng đã chia sẻ dữ liệu nhạy cảm với công cụ AI, thường mà không hiểu rõ điều gì xảy ra với dữ liệu đó sau đó. Dữ liệu này bao gồm thông tin nhận dạng cá nhân, thông tin tài chính, chi tiết y tế và dữ liệu kinh doanh bảo mật.
Sự tiện lợi của công cụ AI là không thể phủ nhận. Chúng tóm tắt tài liệu, viết email, sửa lỗi code và trả lời các câu hỏi phức tạp trong vài giây. Nhưng sự tiện lợi đó đi kèm với một sự đánh đổi mà hầu hết người dùng không nghĩ đến: dữ liệu bạn nhập có thể được lưu trữ, ghi nhật ký, sử dụng để huấn luyện mô hình, hoặc nhân viên của nhà cung cấp AI có thể truy cập được.
Cảnh báo Khi bạn dán văn bản vào công cụ AI, bạn đang gửi văn bản đó đến máy chủ của công ty. Ngay cả khi công ty nói dữ liệu "không được sử dụng để huấn luyện," nó vẫn có thể được ghi nhật ký để giám sát lạm dụng, đảm bảo chất lượng hoặc gỡ lỗi. "Không sử dụng để huấn luyện" không có nghĩa là "không lưu trữ."
Các công ty AI làm gì với dữ liệu của bạn
Các công cụ AI khác nhau có quy định xử lý dữ liệu khác nhau, nhưng đây là những gì thường xảy ra khi bạn gửi một yêu cầu:
1. Truyền tải
Dữ liệu đầu vào của bạn được gửi qua internet đến máy chủ của công ty AI. Nếu kết nối được mã hóa (HTTPS), dữ liệu được bảo vệ trong quá trình truyền. Nhưng khi đến máy chủ, công ty sẽ kiểm soát nó.
2. Xử lý
Mô hình AI xử lý dữ liệu đầu vào của bạn để tạo phản hồi. Việc này diễn ra trên cơ sở hạ tầng của công ty, nghĩa là dữ liệu của bạn tồn tại trên máy chủ của họ ít nhất là tạm thời.
3. Ghi nhật ký
Hầu hết dịch vụ AI ghi nhật ký đầu vào và đầu ra cho nhiều mục đích: phát hiện lạm dụng, cải thiện dịch vụ, gỡ lỗi và tuân thủ quy định. Các nhật ký này có thể được giữ lại trong vài ngày, vài tháng hoặc vô thời hạn tùy thuộc vào chính sách của công ty.
4. Huấn luyện (Có thể)
Một số công cụ AI sử dụng dữ liệu đầu vào của người dùng để cải thiện mô hình. Điều này có nghĩa là dữ liệu của bạn có thể trở thành một phần kiến thức mà AI sử dụng để phản hồi người dùng trong tương lai. Không phải tất cả công ty đều làm điều này, và nhiều công ty cung cấp tùy chọn từ chối, nhưng mặc định thì khác nhau.
Những gì bạn không bao giờ nên dán vào công cụ AI
Mật khẩu và thông tin xác thực
Điều này có vẻ hiển nhiên, nhưng nó vẫn xảy ra. Mọi người dán mật khẩu, API key, chuỗi kết nối cơ sở dữ liệu và token xác thực vào công cụ AI để nhờ giúp đỡ về vấn đề cấu hình. Một khi đã gửi, bạn nên coi thông tin xác thực đó đã bị lộ.
Số nhận dạng cá nhân
Số CMND/CCCD, số hộ chiếu, số giấy phép lái xe. Đây là những thành phần cơ bản của hành vi đánh cắp danh tính. Không bao giờ dán chúng vào bất kỳ công cụ trực tuyến nào.
Dữ liệu kinh doanh bảo mật
Danh sách khách hàng, báo cáo tài chính, mã nguồn độc quyền, bí mật thương mại, tài liệu pháp lý, chi tiết sáp nhập. Nhân viên tại các công ty lớn bao gồm Samsung, Amazon và Apple đã bị phát hiện dán dữ liệu bảo mật vào chatbot AI, dẫn đến rò rỉ dữ liệu và lệnh cấm AI trên toàn công ty.
Bạn có biết? Năm 2023, Samsung đã cấm nhân viên sử dụng chatbot AI sau khi các kỹ sư dán mã nguồn độc quyền và ghi chú cuộc họp nội bộ vào ChatGPT. Dữ liệu đã trở thành một phần của bộ dữ liệu huấn luyện dịch vụ, khiến nó có thể bị người dùng khác truy cập.
Thông tin y tế và sức khỏe
Chẩn đoán, thuốc men, hồ sơ y tế, ghi chú trị liệu. Dữ liệu sức khỏe nằm trong số các loại thông tin cá nhân nhạy cảm nhất và được bảo vệ cụ thể bởi các luật như HIPAA tại Hoa Kỳ, GDPR tại Châu Âu, và Luật An ninh mạng tại Việt Nam.
Thông tin tài chính
Số tài khoản ngân hàng, số thẻ tín dụng, tờ khai thuế, chi tiết đầu tư. Thông tin tài chính trong tay kẻ xấu sẽ tạo điều kiện cho hành vi lừa đảo.
Truyền thông riêng tư
Email cá nhân, tin nhắn, các cuộc trò chuyện riêng tư. Dán nội dung truyền thông riêng tư của người khác vào công cụ AI cũng có thể vi phạm quyền riêng tư của họ.
Cách sử dụng công cụ AI an toàn
Mục tiêu không phải là tránh hoàn toàn công cụ AI. Chúng thực sự hữu ích. Mục tiêu là sử dụng chúng một cách có suy nghĩ.
1. Ẩn danh trước khi dán
Nếu bạn cần AI giúp đỡ với một tài liệu, hãy thay thế tên thật bằng tên giả, xóa các số nhận dạng và loại bỏ các chi tiết bảo mật. Bạn thường có thể nhận được sự giúp đỡ cùng chất lượng từ AI mà không cần bao gồm các phần nhạy cảm.
2. Sử dụng công cụ cục bộ khi có thể
Đối với các tác vụ liên quan đến tệp nhạy cảm, hãy ưu tiên các công cụ xử lý dữ liệu cục bộ trên thiết bị của bạn thay vì tải lên máy chủ. Các công cụ dựa trên trình duyệt sử dụng xử lý phía client là một lựa chọn tốt.
Mẹo Khi làm việc với PDF nhạy cảm, hãy sử dụng các công cụ xử lý tệp cục bộ trong trình duyệt. Ví dụ: Xóa siêu dữ liệu PDF hoặc Trích xuất văn bản PDF — cả hai đều chạy hoàn toàn trên thiết bị của bạn mà không tải lên máy chủ.
3. Đọc chính sách bảo mật
Trước khi dán dữ liệu nhạy cảm vào bất kỳ công cụ AI nào, hãy kiểm tra chính sách bảo mật của nó. Tìm câu trả lời cho các câu hỏi sau:
- Dữ liệu của tôi có được sử dụng để huấn luyện mô hình không?
- Dữ liệu của tôi được giữ lại bao lâu?
- Tôi có thể xóa dữ liệu của mình không?
- Có tùy chọn từ chối thu thập dữ liệu không?
4. Sử dụng phiên bản doanh nghiệp
Nếu công ty bạn sử dụng công cụ AI, hãy yêu cầu gói doanh nghiệp cung cấp bảo vệ dữ liệu theo hợp đồng, không huấn luyện trên dữ liệu của bạn và đảm bảo nơi lưu trữ dữ liệu.
5. Giả định mọi thứ đều được lưu trữ
Mô hình tư duy an toàn nhất là giả định rằng bất cứ thứ gì bạn dán vào công cụ AI đều có thể được lưu trữ vô thời hạn và nhân viên của công ty có thể xem được. Nếu bạn không thoải mái với điều đó, đừng dán nó.
Cảnh báo "Xóa" một cuộc trò chuyện trong chatbot AI thường chỉ xóa nó khỏi giao diện của bạn, nhưng dữ liệu vẫn có thể tồn tại trong nhật ký và bản sao lưu của công ty. Xóa khỏi giao diện người dùng không giống với xóa khỏi máy chủ.
Bức tranh lớn hơn
Công cụ AI đang được tích hợp vào mọi khía cạnh của công việc và cuộc sống hàng ngày. Sự tiện lợi là thực tế. Nhưng trách nhiệm hiểu rõ điều gì xảy ra với dữ liệu chúng ta chia sẻ cũng vậy.
Cách tiếp cận tốt nhất rất đơn giản: hãy đối xử với công cụ AI như cách bạn đối xử với một cuộc trò chuyện với người lạ có kiến thức. Bạn sẽ vui vẻ thảo luận các chủ đề chung, xin lời khuyên và tìm kiếm giải thích. Nhưng bạn sẽ không đưa cho họ hộ chiếu, mật khẩu hay tài liệu bảo mật của công ty.
Bảo vệ tệp của bạn trước khi chia sẻ
Ngay cả khi không sử dụng công cụ AI, hãy thực hành vệ sinh dữ liệu tốt với các tệp bạn chia sẻ:
- Xóa siêu dữ liệu PDF trước khi chia sẻ tài liệu ra bên ngoài
- Xóa dữ liệu EXIF ảnh trước khi đăng ảnh trực tuyến
- Bảo vệ PDF bằng mật khẩu khi gửi tài liệu nhạy cảm qua email
- Kiểm tra mật khẩu đã bị rò rỉ chưa để đảm bảo tài khoản của bạn an toàn
Kiểm soát dữ liệu của bạn ngay hôm nay:
Tất cả công cụ đều miễn phí, xử lý dữ liệu cục bộ và không bao giờ tải tệp của bạn lên bất kỳ máy chủ nào.