모델학습 Flashcards
차원의 저주
[개념] 벡터의 차원이 높아짐에 따라 생길수 있는 문제점
- 특징이 많으면 잡음 특징도 같이 증가
- 특징이 많으면 패턴 분류기에 의한 학습과 인식속도 저하
- 특징이 많으면 모델링에 필요한 학습 집합의 크기가 커짐
Overfitting
[리드] High Variance
[정의] Noise 데이터 학습, 복잡한 모델로 인해 학습데이터에 지나치게 민감하게 반응하는 신규 데이터 예측 성능 저하 현상
[특징] (오분대) 과학습(오류 분산), 과분산(High Variance)(비슷한 입력에 부정확 반응 결과)
[원인/대응방안]
<모델측면>
- 모델 복잡도, 차원의 저주 / 모델 변경(SVM,CNN), 불필요한 독립변수 통제
- 편중된 학습 데이터 / 다양한 훈련 데이터 확보
- Too many Features / 배치 정규화, 표준화 (분포 편차 최소화)
- 무분별한 Noise 수용 / Regularization(Drop Out), Early Stopping(학습 수준 제약)
</모델측면>
Underfitting
[리드] High Bias
[정의] 부족한 학습 데이터와 단순한 모델로 인해 데이터간 상관관계를 제대로 설명하지 못하는 일반화 예측 부족 현상
[특징] 학습 부족(데이터해석 능력저하), 과편향(High bias)(여러 가지 입력에 제대로 반응불가)
[원인/대응방안]
- 부적절한 분석 모형 / 분석 모델 유연성 확보, SVM 활용(Variance 향상 모델 활용)
- 학습 데이터 부족, Less Features / 충분한 학습데이터 확보, Feature 추가(특성 데이터 확충)
- 표준 집합 부족 / K-Fold Cross Validation (Training/Validation)
- Gradient Vanishing(시그모이드 함수) / ReLu 함수 사용
* 오버핏과 언더핏은 Trade-off 관계이므로 적절한 훈련 데이터셋을 통해 최적의 값 파악 필요
Overfitting vs Underfitting
[비교] Underfitting vs Overfitting
- 학습데이터 특성 : 불충분한 학습 데이터, 단순한 모델 / 데이터 대비 높은 모델 복잡도
- 학습 결과 : 일부 특성만 학습, 일반화 부족 / 지엽적 특성까지 학습, Noise 민감
- 모델 특성 : High Bias / High Variance
- 모델 성능 : 낮은 학습 성능, 낮은 평가 성능 / 높은 학습 성능, 낮은 평가 성능
- 문제 해결 방안 : K-Fold CV, Feature 추가, SVM / Drop out, Early Stopping, 배치 정규화
* 편향,분산 최소화를 통한 오버피팅, 언더피팅 문제 해결시 Trade-off 문제 발생
[오버피팅, 언더피팅의 편향-분산 Trade-off 고려한 해결 방안]
- PCA (Principal Component Analysis) : 차원 축소, 모집단 특성 반영한 데이터 활용 학습 수행
- VIF (Variance inflation factor) : 데이터간 상관성 검증 (<10)
편향분산 Trade-off
[Trade-Off] 오류를 최소화위해 편향과 분산의 합이 최소가 되는 적당한 지점
- 모델 복잡 : 편향은 작아지고, 분산은 커짐, over-fitting
- 모델 단순 : 편향은 커지고, 분산은 작아짐, under-fitting
[편향]
- 예측값이 정답과 얼마나 멀리 떨어져 있는지로 측정
- 지나치게 단순한 모델로 인한 Error
- 편향이 크면 과소 적합(under-fitting)을 야기
[분산]
- 예측값들끼리의 차이로 측정
- 지나치게 복잡한 모델로 인한 Error
- 분산이 크면 과대 적합(Over-fitting)을 야기
드롭아웃 규제화
[리드] co-adaptation 해결 기법
[정의] 딥러닝 시 Overfitting 문제를 해결하기 위해 노드 중 일부를 제거하는 인공지능 최적 학습기법
[수행효과] Voting 효과 (임의구간, 반복학습 Voting 통한 평균 효과), 공동적응방지 효과 (특정 뉴런 의존 탈피, Robust 망 구성 효과)
[메커니즘]
1. 입력층과 은닉층의 임의 노드 선택 및 제거 (확률 p 기준 제거)
2. 임의 노드 제거 상태에서 축소 신경망 학습 수행
3. 실제 테스트 시 제거 노드 복원 및 가중치 연산 (확률 p 곱연산하여 학습결과 보상)
[유형] 1. Feed Forward 드랍아웃 2. Back Propagation 드랍아웃 3. 시간/공간 드랍아웃
[문제점/해결안]
- 학습 속도 저하 / Batch Normalization 구현 + Dropout → 학습속도 증가
연합학습
[정의] 개인정보보호를 위해 분산 저장된 데이터를 직접 공유 없이 서로 협력하여 AI 모델을 학습 할 수 있는 분산형 머신 러닝
[특징] 우수한 연산 속도, 개인정보보호
* 단말의 결과값 압축/암호화하여 클라우드 전송 개선된 AI모델을 다시 단말 모델로 업데이트
[주요알고리즘]
- FedSGD(1회 학습, 모든 참가자가 참여), FedAVG(k회 학습), FedBCD, FedTrans
[보안 및 프라이버시 보장형 기술]
- 차등정보보호 : 원 데이터에 수학적 노이즈 추가
- 동형 암호 : 복호화 없이 연산 할 수 있는 암호기술
- 안전한 다자간 계산 : 동형 암호와 유사, 원래 값 노출없이 전체 합 알 수 있음
전이학습
[정의] 사전 학습된 신경망을 이용하며 학습치를 전이하여 Fine Tuning 기반 신경망 학습 재사용 기법
[필요성] 데이터 부족 해소, 학습 시간 단축, 학습치 재사용
* 최근 초거대 AI에서 유사 모델의 재사용으로 성능과 생성성 높이는데 활용
[절차도]
1. Feature Learning : Data Set 기반 학습 수행
2. Transfer Parameter : 학습치(Parameter) 전이
3. Classifier Learning : Fine Tuning 기반 미세 조정
[유형/알고리즘]
1. Inductive
- Multi-task 학습 : 하나의 훈련셋으로 여러 분류 모델 처리
- Self-taught 학습 : 원본 데이터의 Labeled Data 변환후 Feature 생성, 최종 분류자 변환
2. Transductive
- Domain Adaptation : Feature 생성 후 Target Domain 구별 차단
- Sample Select. Bias : 학습치 샘플 선택, 해당 학습치만 전이
* 파인 튜닝위한 데이터, 파라메터 설정 값들에 대한 전이 기반의 메타러닝 존재
파인튜닝
[리드] 정교한 파라미터 튜닝
[정의] 기존 학습된 모델의 가중치를 미세하게 조정,학습시켜 새로운 목적에 맞게 아키텍처 변경 기법
[배경] 데이터 확보의 어려움, 전이학습의 장점 확용(시간 및 난이도 감소)
* 준비된 데이터가 적은 경우 학습된 모델 기반 높은 성능의 딥러닝 실현 목적
[매커니즘]
1. 적은 데이터 수 활용 : Pre-Training model의 가중치를 약간씩 변화 사용
2. 미세하게 조정 : 가중치 미세 조정
3. 거의 모든층 파라메터 재학습 : 입력층에 가까운 부분은 작은 학습률, 출력층 근처는 학습률을 크게 설정
[구성요소]
- Pre-training model : 사이즈가 큰 데이터로 이미 학습된 인공신경망 모델
- Transfer learning : 훈련된 모델을 재사용
- Convolutional base : Convolutional layer와 pooling layer 겹친 부분
- Classifier : class로 분류
* 학습 환경, 데이터 셋 규모등 조건에 따라 최적의 학습방식 적용 필요
[차별화] 파인튜닝 학습 최적화 방안
- 모델 전체 학습 : 전부 새롭게 학습
- 일부만 학습 : 하위 레벨 계층은 일반적 특성, 상위 레벨 계층은 명확한 특징 추출 특성 고려(Convolutional base의 일부 고정, 나머지 계층과 Classifier를 새로 학습)
- 학습없이 바로 사용 : 컴퓨터 연상 능력이 부족, 데이터 셋이 너무 작을 때 (Classifie만 새로 학습)
자기지도학습
[리드] 인간처럼 학습하는 인공지능
[정의] 다량의 Label이 없는 Raw Data 로부터 데이터 부분들의 관계를 통해 Label 을 자동으로 생성하여 지도학습에 이용하는 비지도 학습 기법
[활용장점] AI 데이터 기근 완화, 편향 현상 최소화(데이터 자체로 부터 정보 획득)
[학습절차]
1. Pretext Task 기반 비지도 학습 : Label 생성, 데이터 관계 기반 표현 학습(Latent variable)
2. 지도학습 : 모델 생성 : Label 기반 지도학습, 최종 출력 레이어 추가, 전이 학습 활용
3. 미지 정보 예측 재구성 : Constraint Relaxation 기반 추론, Fill in the Blank
[유형]
- Contrastive Methods : 데이터 유사성 대조를 통한 학습 수행, 원본 데이터를 정답 Label로 사용하여 자가 학습 (Max Likelihood, GAN, BERT)
- Regularized/ Architectural Methods : 규제, 공간/시간적 구조 이용 학습 수행, 견본 패치 변화, 클러스터링, 시간적 순서 활용 (Sparse Auto-encoder, PCA, K-means)
[비교] 지도학습 vs 비지도 학습 vs 자기지도 학습
- 지도 방식 : Labled Data / Row Data / Pretext Task
- 학습 목표 : 새로운 입력값에 대한 결과 예측 / 내재화된 패턴 발견 / 인간 유사 예측
- 활용 방안 : 예측,분류 / Feature 추출, 군집 / Fill in the Blank
*자기지도학습을 통해 기존에 주어진 정보를 활용, 미지의 분야를 예측, 추론 할 수 있는 인공지능 연구 진행
지도vs비지도vs자기지도학습 비교
-지도방식:Labeled Data/Raw Data/Pretext Task
-학습목표:새로운 입력값에 대한 결과 예측/내재화된패턴 발견/인간 유사 예측
-활용방안:예측/분류/Feature 추출,군집/Fill in the Blank
*자기지도학습을 통해 기존에 주어진 정보를 활용, 미지의 분야를 예측, 추론 할수 있는 인공지능 연구 진행
능동학습
[정의] 학습 데이터에 레이블이 부여된 경우가 소수인 경우 예측 성능을 높이기 위해 불확실성이 큰 데이터 부터 반복적으로 라벨링하여 학습하는 방법
* 반복적인 지도학습을 통해 라벨링 비용을 최소화해 모델의 성능을 높이기 위한 방법으로 활용
[프로세스]
1. 초벌 기계학습 : 레이블이 없는 대규모 데이터셋과 소량의 학습용 레이블 데이터로 기계학습 수행
2. 예측/분류 : 레이블이 없는 대규모 데이터에 대한 예측/분류, 후보 데이터 pool 생성
3. 재학습용 후보 데이터 선정 : 전문 큐레이터가 도구를 통해 재학습용 후보 데이터 선정
4. 품질향상 / 개선 : 증강된 학습용 레이블 데이터로 기계 학습
모방 학습
[정의] 학습자로 하여금 최상의 성능을 달성 하기 위해 전문가의 행동을 모방하려고 하는 순차적 작업
[특징] 직접적인 보상이 불필요, 정책을 직접적으로 설계하여 전문가가 원하는 행동을 보다 쉽게 발현 가능
퓨샷 러닝
[정의] 메타 러닝, 메트릭 러닝 기반 적은 양의 데이터를 통해 새로운 작업이나 도메인을 학습하기 위한 기계 학습 기법
[특징] 메타 러닝(N-way K-shot 태스크를 통한 학습 전략에 대한 앙상블 학습), 메트릭 러닝(거리 학습 기반의 오차 함수를 사용하여 내재된 범위에 대한 의미 학습)
* 일반 학습 방식으로 적은 샷의 학습은 훈련데이터에서의 과적합 발생
[기법]
- 메트릭 러닝 : 특징공간, 유클리디안 거리 (거리 학습)
- GNN(그래프 신경망 방식) : 노드 별 거리(유사도)를 곱한 값들의 합(가중 평균)기반 그래프 변환 학습 (Dense Graph 구조 활용)
* 퓨샷 러닝(few-shot learning)을 통해 소량의 데이터로 원하는 결과 도출이 가능하도록 학습 가능
ChatGPT
[리드] 오픈AI가 개발 대화 전문 AI 챗봇
[정의] 초거대 AI GPT-3.5를 기반으로 자연스러운 대화의 상호작용을 구현한 대화에 최적화된 인공지능
[특징] GPT-3.5(문장해석), GPT-4(이미지), 초거대 AI(대규모 언어 모델)
* 프로프트 기반의 지도학습과 RLHF 알고리즘을 통한 추가학습의 3단계로 구성
[학습 매커니즘]
- 1단계 : 데모 답변 수집 및 정책 부합성 검증 (Fine-tuned GPT-3.5, 지도학습)
- 2단계 : 비교 데이터 수집 및 보상 모델 훈련 (보상 모델)
- 3단계 : 강화학습 알고리즘으로 정책 최적화 (Proximal Policy Optimization(PPO), 강화학습)
[주요기술]
- RLHF : 강화 학습의 방법을 사용, 사람의 피드백으로 언어 모델을 직접 최적화 수행
- PPO(Proximal Policy Optimization) : OpenAI에서 개발한 모델 없는 강화 학습 알고리즘
[차별화] ChatGPT 한계
- 편향성 문제, 상식의 결여, 패턴 의존적(독창성, 창의성 부족), 개인화 부족