Security in AI

# EN: ## Summary: - While the previous sections have extensively covered the privacy implications of AI, it’s crucial to recognize that security is the other side of the same coin. - The AI needs to: - not leak sensitive data (personal data, high-valuable data like nuclear code or neighbor's password) - not make wrong decisions in big moments, like misdiagnosing medical conditions or somehow causing financial ruins. - To protect the AI systems, we need to - protect the data they use - ensure the integrity of the AI models, not allowing others to change the behaviour of the AI systems. - Example: subtly change the data fed into an AI facial recognition system, then some unauthorized people can access. - The process of creating and maintaining the AI models involves multiple peoples, which creates numerous points of vulnerability. ## Potential Threats to Security: ### Adversarial Attacks: - What: small, carefully crafted changes to the input data. - Example: Two McAfee researchers demonstrated how using only black electrical tape could trick a 2016 Tesla into a dangerous burst of acceleration by changing a speed limit sign from 35 mph to 85 mph. ### Data Poisoning: - What: insert some "poison" to the training data, causing the whole model to learn incorrect behaviour since birth - Example: inserting fake news articles into a dataset used to train a news classification algorithm could lead the model to make biased or incorrect classifications. ### Model Inversion and Extraction - What: use the outputs of the model to reconstruct information of the training data. - Why: replicate a proprietary model, collect information from the datasets which can lead to intellectual property theft and compromise user privacy. - How: querying it multiple times ### Evasion Attacks - What: Manipulates input data during the interference stage to receive a specific output, effectively evading the intended function of the model - Example: altering the features of malware file to bypass an AI-based antivirus system. - Difference with Adversarial Attacks above: Adversarial Attacks fools the model, Evasion Attacks make use of the models' error ### Backdoor Attacks - What: introduces a hidden pattern into the training data, which the model then learns, then the attacker can later exploit the data - Why: not to make the model "wrong" entirely, but just to make the attacker know the outcome of the model for an instance ## Mitigating Security Risks in AI: ### Defense Mechanism against Adversarial Attacks - Through adversarial training: involves augmenting the training dataset with adversarial examples and retrain the model => The model learns about adversarial cases => Less being manipulated - Gradient masking: modifying the model's architecture or training process to make it difficult for attackers to compute the gradients needed to generate adversarial examples. Methods including dropout, L1/L2 regularization, custom loss functions, ... - Feature squeezing: a pre-processing step: reduce the depth, color, spatial resolution of the input data to make the model less sensitive to the small adjustments in adversarial attacks. ### Model Hardening - What: A series of techniques aimed at making AI models more resilient to various types of attacks, including model extraction and reverse engineering - How: involve adding layers of complexity or security checks (filter unauthorized access) - Example: rate limiting to limit number of queries to the model, use obfuscation techniques (adding noise to the data, ensembling multiple models, altering architecture, ...) ### Input Filtering for Evasion Attacks - How: scan incoming data for any anomaliies or suspicious patterns - Example: in image recognition models: checking for pixel values that deviate significantly from the expected range or patterns ### Backdoor Detection and Removal - How: involves rigorous testing and validation of the model's behaviour under various conditions + check the training data for anomalies or suspicious patterns ### Monitoring and Auditing - How: continuously tracking the behaviour of AI models and the data they process + periodically reviewing these activities - Monitoring: real-time tracking of data access, model predictions, ... - Monitoring examples: sudden spikes in data access or unexpected model predictions can be flagged for further investigation. - Auditing: takes place at regular intervals, examines logs, configurations, other records so that it follows privacy policies and regulations. Also includes penetration testing: ethical hackers attempt to exploit vulnerabilities in the system. - Auditing examples: using specialized software that trackes data lineage, access logs, model decisions over time. ## Summary - Securing AI models is a multifaceted endeavor that goes beyond just implementing robust algorithms. - Each strategy plays a crucial role in fortifying your AI systems. - By adopting these various strategies, you can significantly enhance the security posture of your AI models, making them resilient against a wide array of potential threats. # VI ## Summary: - Mặc dù các phần trước đã đề cập rộng rãi đến ý nghĩa về quyền riêng tư của AI, nhưng ta cần nhận ra rằng bảo mật cũng quan trọng không kém - AI cần: - không rò rỉ dữ liệu nhạy cảm (dữ liệu cá nhân, dữ liệu có giá trị cao như mã hạt nhân hoặc mật khẩu của hàng xóm) - không đưa ra những quyết định sai lầm trong những thời điểm quan trọng, chẳng hạn như chẩn đoán sai tình trạng bệnh lý hoặc bằng cách nào đó gây ra sự tàn phá tài chính. - Để bảo vệ hệ thống AI, chúng ta cần - bảo vệ dữ liệu họ sử dụng - đảm bảo tính toàn vẹn của các mô hình AI, không cho phép người khác thay đổi hành vi của hệ thống AI. - Ví dụ: thay đổi một cách khéo léo dữ liệu được đưa vào hệ thống nhận dạng khuôn mặt AI, sau đó một số người không được phép có thể truy cập. - Quá trình tạo và duy trì các mô hình AI có sự tham gia của nhiều người, điều này tạo ra nhiều vấn đề dễ bị khai thác. ## Các mối đe dọa tiềm ẩn đối với bảo mật: ### Tấn công đối nghịch (Adversarial Attacks): - Là gì: những thay đổi nhỏ, được thực hiện cẩn thận đối với dữ liệu đầu vào. - Ví dụ: Hai nhà nghiên cứu của McAfee đã chứng minh cách chỉ sử dụng băng keo điện màu đen có thể khiến chiếc Tesla 2016 tăng tốc đột ngột một cách nguy hiểm bằng cách thay đổi biển báo giới hạn tốc độ từ 35 dặm/giờ thành 85 dặm/giờ. ### Đầu độc dữ liệu (Data Poisoning): - Là gì: chèn một số "độc" vào dữ liệu huấn luyện, khiến cả mô hình học hành vi không đúng ngay từ khi sinh ra - Ví dụ: việc chèn các bài báo giả vào tập dữ liệu dùng để huấn luyện thuật toán phân loại tin tức có thể khiến mô hình đưa ra các phân loại bị thiên vị, sai lệch hoặc không chính xác. ### Đảo ngược và trích xuất mô hình (Model Inversion and Extraction): - Là gì: sử dụng kết quả đầu ra của mô hình để tái tạo lại thông tin của dữ liệu huấn luyện. - Lý do: sao chép mô hình độc quyền, thu thập thông tin từ bộ dữ liệu có thể dẫn đến đánh cắp tài sản trí tuệ và xâm phạm quyền riêng tư của người dùng. - Cách thực hiện: truy vấn nó nhiều lần ### Tấn công né tránh (Evasion Attacks): - Là gì: Thao tác dữ liệu đầu vào trong giai đoạn can thiệp để nhận một đầu ra cụ thể, né tránh hiệu quả chức năng dự định của mô hình - Ví dụ: tinh chỉnh tính năng của file mã độc để vượt qua hệ thống diệt virus dựa trên AI. - Điểm khác biệt với tấn công đối nghịch ở trên: Các cuộc tấn công đối nghịch đánh lừa mô hình, các cuộc tấn công né tránh lợi dụng lỗi của mô hình (phỏng đoán dựa trên ng dịch :v) ### Tấn công cửa sau (Backdoor Attacks): - Là gì: đưa một quy luật ẩn vào dữ liệu huấn luyện, sau đó mô hình sẽ học, sau đó kẻ tấn công có thể khai thác dữ liệu - Để làm gì: không phải làm cho mô hình "sai" hoàn toàn mà chỉ để kẻ tấn công kiểm soát được kết quả của mô hình ## Giảm thiểu rủi ro bảo mật trong AI: ### Cơ chế phòng thủ chống lại tấn công đối nghịch (Adversarial Attacks): - Thông qua đào tạo đối nghịch (Adversarial training): bao gồm việc tăng cường tập dữ liệu huấn luyện với các ví dụ đối nghịch và đào tạo lại mô hình => Mô hình tìm hiểu về các trường hợp đối nghịch => Ít bị thao túng hơn - Gradient masking: sửa đổi kiến trúc hoặc quy trình huấn luyện của mô hình để gây khó khăn cho kẻ tấn công trong việc tính toán gradient cần thiết để tạo ra các ví dụ đối nghịch. Các phương pháp bao gồm dropout, L1/L2 regularization, tự tạo hàm loss function, ... - Nén feature: là 1 bước pre-processing: giảm độ sâu, màu sắc, độ phân giải của dữ liệu đầu vào để mô hình ít nhạy cảm hơn trước những điều chỉnh nhỏ trong các cuộc tấn công đối nghịch. ### Làm cứng mô hình (Model hardening): - Là gì: Một loạt các kỹ thuật nhằm làm cho các mô hình AI có khả năng "kháng" tốt hơn trước các loại tấn công khác nhau, bao gồm trích xuất mô hình và kỹ thuật đảo ngược - Cách thức: liên quan đến việc thêm nhiều layer phức tạp hoặc kiểm tra bảo mật (lọc những lượt truy cập trái phép) - Ví dụ: giới hạn tốc độ để giới hạn số lượng truy vấn vào mô hình, sử dụng các kỹ thuật như thêm nhiễu vào dữ liệu, tập hợp nhiều mô hình, thay đổi kiến trúc, ... ### Lọc đầu vào cho các cuộc tấn công né tránh - Cách thực hiện: quét input để tìm bất kỳ điểm bất thường hoặc quy luật đáng ngờ nào - Ví dụ: trong các mô hình nhận dạng hình ảnh: kiểm tra các giá trị pixel sai lệch đáng kể so với phạm vi dự kiến ### Phát hiện và loại bỏ "cửa sau" - Cách thức: bao gồm việc kiểm thử nghiêm ngặt hành vi của mô hình trong các điều kiện khác nhau + kiểm tra dữ liệu huấn luyện để phát hiện các điểm bất thường hoặc các quy luật đáng ngờ ### Giám sát và kiểm tra - Cách thức: liên tục theo dõi hành vi của các mô hình AI và dữ liệu chúng xử lý + định kỳ kiểm tra lại các hoạt động này - Giám sát: theo dõi việc truy cập dữ liệu, dự đoán mô hình,... theo thời gian thực - Ví dụ: truy cập dữ liệu tăng đột biến hoặc dự đoán mô hình không như mong muốn có thể được đánh dấu để kiểm tra thêm. - Kiểm tra: diễn ra định kỳ, kiểm tra nhật ký, cấu hình, các thông số khác để tuân thủ các chính sách và quy định về quyền riêng tư. Có thể sử dụng cả thử nghiệm thâm nhập: mời các tin tặc mũ trắng cố gắng tìm và khai thác các lỗ hổng trong hệ thống. - Ví dụ: sử dụng phần mềm chuyên dụng theo dõi dòng dữ liệu, nhật ký truy cập, kết quả của mô hình theo thời gian. ## Summary - Bảo mật các mô hình AI là một nỗ lực nhiều mặt, không chỉ đơn thuần là triển khai các thuật toán mạnh mẽ. - Mỗi chiến lược đóng một vai trò quan trọng trong việc củng cố hệ thống AI của bạn. - Bằng cách áp dụng các chiến lược khác nhau này, bạn có thể nâng cao đáng kể tình trạng bảo mật của các mô hình AI của mình, giúp chúng có khả năng chống chịu trước hàng loạt mối đe dọa tiềm ẩn.