검색 Flashcards
검색엔진
[정의] 사용자 요구 정보의 효율적 검색 위해 색인 및 질의 관리 기반 랭킹화하는 검색 서비스 제공 시스템
[구성요소] 수색검질
- 기본구성 : 문서수집기(Crawler) → 색인기(Indexer) → 검색기(Searcher) → 질의관리기(Query Manager)
- 확장구성 : 필터모듈, 자연어처리, 추천시스템, 포털시스템
[색인] 형태소분석, n-gram ( 글자를 겹쳐서 색인어 추출(“정보”, “보검”, “검색” 등) 후 필터링)
대화형 플랫폼
[리드] NLU를 통한 Zero UI구현
[정의] 사람과 자연어로 상호작용하도록 자연어/음성 인식 등을 처리하는 자연어기반 인터랙션 플랫폼
[기술] 입출력(STT, TTS, OCR, CRNN) 자연어처리(NLU, NLG) 시맨틱처리(패턴인식, 상황인식) 대화엔진(LOD 연동, AI 엔진) 입자시대
웹 크롤링
[정의] 크롤러(Cralwer)를 통해 여러 웹 페이지(Html,문서)를 자동화 수집해서 분류하고 저장하는 기술
[구성요소] FAM
- Frontier : URL 리스트 저장, 방문할 URL 분배, URL 필터링
- Agent : HTML 파싱 URL 정규화
- Monitor : 동작 상태 실시간 파악, 데이터 시각화
[동작방식]
- 정적 웹페이지 :주소를 통한 단발 접근, Python에서 request 라이브러리 이용, beautifulsoap를 이용한 파싱
- 동적 웹페이지 : applicatin을 이용한 연속 접근, Python에서 selenium 라이브러리와 브라우저의 웹 드라이버를 이용한 동적 수집
[보안 취약점 및 대응방안]
- (취약점) 클로링 해킹, DDoS/봇 공격, 개인정보 노출
- (대응방안) Robots.txt 규약, IDS/IPS, 개인정보 비 식별화 처리