보안 Flashcards
적대적 공격
[정의] 머신러닝 알고리즘에 내재된 취약점에 의해 적대적 환경에서 발생할 수 있는 보안 위협 공격
[배경] 신뢰도 감소(예측 신뢰도를 낮추는 공격), 입력/출력 오분류 기술 융합(입력에 따라 오답 유발 공격)
[유형]
<직접적> 무결성 취약점 악용
- 중독 공격(Poisoning Attack) : 악의적인 학습 데이터를 주입해 모신 러닝 모델 공격
- 회피 공격(Evasion Attack) : 학습 데이터에 잡음을 추가하여 판단 결과 오류 유도 공격
<간접적> 기밀성 취약점을 악용
- 전도 공격(Inversion) : 머신 러닝 모델에 쿼리 전송후 리턴값 분석 통한 학습 데이터 유추
- 모델 추출 공격(Model Extraction Attack) : 공개API 이용 반복적인 쿼리 x에 대한 리턴값 f(x)로 모델 유추
[대응방안]
<무결성>
- 공통 : Defence-GAN (적대적 예제를 추가 학습 데이터로 활용)
- 중독 공격 : 적대적 훈련(Training Data를 수정 다양한 노이즈 학습) 입력값 제한 (편향된 학습 제한, BlackList)
- 회피 공격 : 이진 분류기 판별(적대적 교란 포함 데이터와 진짜 데이터 구별, MagNet, HCNN 알골리즘 활용)
<무결성>
- 공통 : Feature Squeezing (이미지 인코딩 및 평활화(smoothing)필터 적용 후 원본 이미지와 비교)
- 전도 공격 : Gradient Masking (학습 모델 출력에 노이즈 추가)
- 모델 추출 공격 : 쿼리 횟수 제한, Distillation (힌트를 주지 않아 해석이 어렵도록)
</무결성></무결성></간접적></직접적>
회피공격
[정의] 인공신경망 인식 시 원래 Class가 아닌 다른 Class로 인식하게 하는 입력 데이터 변조 공격
[원리]
1. 변환기에 원본 샘플 x와 원본 Class y 입력
2. 출력값으로 원본샘플 x에 노이즈 w 추가
3. 변형 샘플의 클래스 확률값 추출 & 조정
[대응방법] Defence-GAN, 이진 분류기 판별