AI 개발 공부 공간

AI, 머신러닝, 딥러닝, Python & PyTorch, 실전 프로젝트

빅데이터분석기사 필기 10

3.5 과적합 방지

✅ 3.5 과적합 방지 기법 🔍 1. 과적합(Overfitting)이란?모델이 훈련 데이터에 너무 과하게 맞춰져서,새로운 데이터(테스트셋)에는 성능이 떨어지는 현상훈련셋의 **노이즈(에러, 이상값)**까지 모델이 학습해버림테스트 성능 저하 → 일반화 실패주로 데이터 부족, 모델 복잡도 과도, 불균형 데이터 등에서 발생✅ 예시훈련 정확도 95%, 테스트 정확도 70% → 과적합 의심 🎯 2. 과적합 원인 요약 🛡️ 3. 과적합 방지 기법 (스크립트 기반 정리)📌 (1) 정규화 (Regularization)손실 함수에 규제항 추가 → 복잡한 모델에 패널티 부여✅ 종류 📌 (2) 드롭아웃 (Dropout)학습 시 은닉층 뉴런 일부를 무작위로 꺼버림각 에폭마다 다른 구조의 모델이 학습됨 → 과적합 방지..

3.4 교차 검증

📚 3.4 교차 검증(Cross Validation) 기법 🌱 1. 교차 검증이란?데이터를 나눠서 여러 번 훈련하고 평가하는 방법 ❓왜 필요할까?데이터를 한 번만 나눠서 테스트하면,운에 따라 결과가 달라질 수 있어요 😢그래서 데이터를 여러 번 나눠서,모델이 정말 잘 작동하는지 평균을 내서 평가해요! 🎯 핵심 기법 3가지🧩 1. K-Fold 교차 검증데이터를 K등분해서 K번 훈련하고 평가하는 방법✔️방법데이터를 K개로 나눔 (예: 5조각)매번 다른 한 조각만 검사용(검증셋)나머지 조각은 공부용(훈련셋)K번 반복 → 성능 평균이 최종 성능✔️예시 ➡️ 마지막에 다섯 번 성능의 평균을 냄!✔️특징데이터를 다양하게 나눠서 평가 가능과적합(외우기만 하는 모델)을 방지K값이 크면 성능은 더 정확해지지만 시..

3.3 시계열 데이터 분석

🕒 3.3 시계열 데이터 분석✅ 1. 시계열 데이터란?시간 흐름에 따라 쌓인 데이터예: 날마다 측정한 기온, 시간대별 매출, 월별 방문자 수 등특징: 시간이 중요하다.→ 과거의 패턴을 바탕으로 미래를 예측할 수 있다. ✅ 2. 시계열 데이터 안에는 어떤 성분(요소)이 있을까? ✅ 3. 시계열 데이터 예측 기법 ① 이동 평균법 (Moving Average)최근 며칠 평균을 내서 다음을 예측예: 최근 3일 판매량 평균 → 내일 예상 판매량단순 이동 평균: 과거 값들 평균가중 이동 평균: 최근 값에 더 큰 비중🎯 이건 간단하고 기본적인 방법 ② 지수 평활법 (Exponential Smoothing)최근 값에 더 많이 반영해서 예측알파(α): 0~1 사이 값→ 높을수록 최근 값 더 중요과거 값은 점점 덜 ..

3.2 로지스틱 회귀 분석

3.2 로지스틱 회귀 분석 ✅ 1. 로지스틱 회귀란?결과(종속변수)가 두 가지로 나뉘는 문제(예: 합격/불합격, 구매/비구매 등)에 사용선형 회귀처럼 입력값(X)이 결과(Y)에 어떤 영향을 주는지를 분석하지만,Y는 **숫자(연속값)**이 아닌 **분류(0 또는 1)**임예:“흡연 여부에 따라 폐암에 걸릴 확률은?”X: 흡연 여부 (0 또는 1)Y: 폐암 여부 (0 또는 1) ✅ 2. 왜 로지스틱 회귀를 쓰나요?선형 회귀는 결과가 무한대까지 가는 숫자를 예측하지만,로지스틱 회귀는 결과가 항상 0~1 사이의 확률값으로 표현됨→ 그래서 0.5 기준으로 분류하기 좋음 ✅ 3. 핵심 개념 요약 ✅ 4. 로지스틱 회귀 공식 쉽게 풀기 ✅ 5. 선형 회귀 vs 로지스틱 회귀 ✅ 6. 베르누이 분포란?결과가 **두..

3.1 연관 규칙

📘 연관 규칙✅ 1. 연관 규칙(Association Rule)이란?장바구니 분석에 활용되는 데이터 마이닝 기법."A를 샀으면 B도 샀다" 같은 패턴을 찾는 것.예) "기저귀를 사면 맥주를 같이 산다" ✅ 2. 평가 지표 3가지 (※ 시험 자주 출제) ✅ 3. 각각 예시로 이해하기📌 예시 데이터 (총 거래 수: 10건) ✅ 예시: 맥주 → 과자 분석전체 거래 수: 10맥주만 포함된 거래 수 (A): 8맥주 & 과자 동시 포함 (A∩B): 6과자만 포함된 거래 수 (B): 6▶ 지지도 (Support)전체에서 맥주와 과자를 동시에 구매한 비율= A∩B / 전체 = 6 / 10 = 0.6 ▶ 신뢰도 (Confidence)맥주를 구매한 거래 중 과자도 함께 구매한 비율 = A∩B / A = 6 /..

2.5 추정과 검정

📚 2.5 추정과 검정✅ 1. 추정 (Estimation)📌 개념 요약표본 데이터를 이용해 모집단의 모수를 추정목적: 전체 모집단 특성을 일부 표본으로 예측방식:점추정구간추정🔹 1-1. 점추정 (Point Estimation) 🔎 시험 출제 포인트:불편성: 기대값이 실제 모수와 같은 추정량일치성: n → ∞일 때 모수에 수렴바이어스: 추정량 기대값과 모수 간 차이✔️ 예시 출제 유형Q: S² = 1/n ∑(X - X̄)² 은 모분산의 불편 추정량인가?A: ❌ → 불편 추정량은 1/(n-1) 사용해야 함. ✅ 2. 검정 (Hypothesis Testing)📌 개념 요약특정한 주장(H₀)을 통계적으로 채택 or 기각하는 절차표본을 기반으로 모집단 판단 ✅ 3. 시험 자주 나오는 유형 요약 ✅ 4. ..

2.3 기초 통계량

📘 2.3 기초 통계량 1️⃣ 기초 통계량이란?데이터의 핵심 특성을 요약하여 수치로 표현하는 가장 기본적인 통계 지표데이터 요약, 변동성 파악, 의사결정 지원, 극단값 식별에 필수🔹 활용 목적 2️⃣ 기초 통계량의 주요 분류 3️⃣ 중심 경향 지표 4️⃣ 변동성(산포도) 지표✅ 분산 공식 5️⃣ 비대칭성(외도) & 첨도6️⃣ 분위수 관련 지표7️⃣ 기출 핵심 정리 8️⃣ 예제 계산 요약✍️ 예제 1: 표본 분산 계산9️⃣ 핵심 암기 정리📌 평균은 극단값에 민감, 중앙값은 안전.📌 표본분산은 n-1, 모분산은 n으로 나눈다.📌 외도는 좌우 치우침, 첨도는 뾰족함.📌 Q3 - Q1 = IQR → 이상치 탐지도 가능!📌 표준편차는 단위 맞춰서 퍼짐 정도 해석.

2.2 주성분 분석(PCA) 및 특이값 분해(SVD)

📘 주성분 분석(PCA) & 특이값 분해(SVD)1️⃣ PCA (Principal Component Analysis): 개요 및 목적🔹 정의고차원 데이터를 저차원으로 정보 손실 최소화하며 축소하는 기법.기존 변수의 선형 조합으로 구성된 새로운 비상관 변수 집합(주성분) 생성.🔹 주요 목적차원 축소많은 변수 → 핵심 정보만 담은 적은 수의 주성분으로시각화 용이성2D/3D로 축소해 패턴 탐색, 클러스터 확인 등노이즈 제거정보가 적은 변수 제거 → 데이터 정제 효과분석 효율 향상모델 복잡도 감소, 계산량 축소상관성 제거상호 상관된 변수들을 직교 주성분으로 전환 2️⃣ PCA 적용 절차: 단계별 정리데이터 정규화 (표준화)변수 단위/분포 불일치 시 필수 (z-score 방식)평균 0, 표준편차 1로 변환공..

2.1 이상치와 결측치 처리

📘 2.1 이상치 & 결측치 처리1️⃣ 결측치(Missing Value)란?정의: 데이터셋 내에서 어떤 관측값이 누락되거나 비어 있는 상태예시:설문조사에서 응답하지 않은 항목센서 고장, 데이터 수집 실패수작업 입력 누락▶ 주요 원인데이터 수집 오류응답 누락, 기기 고장, 센서 오류 등기술적 결함수작업 입력 누락, 포맷 깨짐 등의도적 비공개응답자가 특정 항목 건너뜀 (민감 항목)측정 불가능실험 실패, 관측 불가, 환경적 한계 등 2️⃣ 결측치 처리 방법삭제결측치가 포함된 행 또는 열을 제거결측치 비율이 낮을 때대체평균, 중앙값, 최빈값 등 통계량으로 채움데이터가 정규 분포일 때예측값 대체다른 변수 기반 회귀모델, KNN 등결측치 패턴이 예측 가능할 때모델링 기반다중 대체법 (MICE), ML 기반 기법 ..