AI 개발 공부 공간

AI, 머신러닝, 딥러닝, Python & PyTorch, 실전 프로젝트

빅데이터분석기사 필기/2과목 : 빅데이터 탐색 5

2.5 추정과 검정

📚 2.5 추정과 검정✅ 1. 추정 (Estimation)📌 개념 요약표본 데이터를 이용해 모집단의 모수를 추정목적: 전체 모집단 특성을 일부 표본으로 예측방식:점추정구간추정🔹 1-1. 점추정 (Point Estimation) 🔎 시험 출제 포인트:불편성: 기대값이 실제 모수와 같은 추정량일치성: n → ∞일 때 모수에 수렴바이어스: 추정량 기대값과 모수 간 차이✔️ 예시 출제 유형Q: S² = 1/n ∑(X - X̄)² 은 모분산의 불편 추정량인가?A: ❌ → 불편 추정량은 1/(n-1) 사용해야 함. ✅ 2. 검정 (Hypothesis Testing)📌 개념 요약특정한 주장(H₀)을 통계적으로 채택 or 기각하는 절차표본을 기반으로 모집단 판단 ✅ 3. 시험 자주 나오는 유형 요약 ✅ 4. ..

2.3 기초 통계량

📘 2.3 기초 통계량 1️⃣ 기초 통계량이란?데이터의 핵심 특성을 요약하여 수치로 표현하는 가장 기본적인 통계 지표데이터 요약, 변동성 파악, 의사결정 지원, 극단값 식별에 필수🔹 활용 목적 2️⃣ 기초 통계량의 주요 분류 3️⃣ 중심 경향 지표 4️⃣ 변동성(산포도) 지표✅ 분산 공식 5️⃣ 비대칭성(외도) & 첨도6️⃣ 분위수 관련 지표7️⃣ 기출 핵심 정리 8️⃣ 예제 계산 요약✍️ 예제 1: 표본 분산 계산9️⃣ 핵심 암기 정리📌 평균은 극단값에 민감, 중앙값은 안전.📌 표본분산은 n-1, 모분산은 n으로 나눈다.📌 외도는 좌우 치우침, 첨도는 뾰족함.📌 Q3 - Q1 = IQR → 이상치 탐지도 가능!📌 표준편차는 단위 맞춰서 퍼짐 정도 해석.

2.2 주성분 분석(PCA) 및 특이값 분해(SVD)

📘 주성분 분석(PCA) & 특이값 분해(SVD)1️⃣ PCA (Principal Component Analysis): 개요 및 목적🔹 정의고차원 데이터를 저차원으로 정보 손실 최소화하며 축소하는 기법.기존 변수의 선형 조합으로 구성된 새로운 비상관 변수 집합(주성분) 생성.🔹 주요 목적차원 축소많은 변수 → 핵심 정보만 담은 적은 수의 주성분으로시각화 용이성2D/3D로 축소해 패턴 탐색, 클러스터 확인 등노이즈 제거정보가 적은 변수 제거 → 데이터 정제 효과분석 효율 향상모델 복잡도 감소, 계산량 축소상관성 제거상호 상관된 변수들을 직교 주성분으로 전환 2️⃣ PCA 적용 절차: 단계별 정리데이터 정규화 (표준화)변수 단위/분포 불일치 시 필수 (z-score 방식)평균 0, 표준편차 1로 변환공..

2.1 이상치와 결측치 처리

📘 2.1 이상치 & 결측치 처리1️⃣ 결측치(Missing Value)란?정의: 데이터셋 내에서 어떤 관측값이 누락되거나 비어 있는 상태예시:설문조사에서 응답하지 않은 항목센서 고장, 데이터 수집 실패수작업 입력 누락▶ 주요 원인데이터 수집 오류응답 누락, 기기 고장, 센서 오류 등기술적 결함수작업 입력 누락, 포맷 깨짐 등의도적 비공개응답자가 특정 항목 건너뜀 (민감 항목)측정 불가능실험 실패, 관측 불가, 환경적 한계 등 2️⃣ 결측치 처리 방법삭제결측치가 포함된 행 또는 열을 제거결측치 비율이 낮을 때대체평균, 중앙값, 최빈값 등 통계량으로 채움데이터가 정규 분포일 때예측값 대체다른 변수 기반 회귀모델, KNN 등결측치 패턴이 예측 가능할 때모델링 기반다중 대체법 (MICE), ML 기반 기법 ..