AI 개발 공부 공간

AI, 머신러닝, 딥러닝, Python & PyTorch, 실전 프로젝트

빅데이터분석기사 필기/3과목 : 빅데이터 모델링 5

3.5 과적합 방지

✅ 3.5 과적합 방지 기법 🔍 1. 과적합(Overfitting)이란?모델이 훈련 데이터에 너무 과하게 맞춰져서,새로운 데이터(테스트셋)에는 성능이 떨어지는 현상훈련셋의 **노이즈(에러, 이상값)**까지 모델이 학습해버림테스트 성능 저하 → 일반화 실패주로 데이터 부족, 모델 복잡도 과도, 불균형 데이터 등에서 발생✅ 예시훈련 정확도 95%, 테스트 정확도 70% → 과적합 의심 🎯 2. 과적합 원인 요약 🛡️ 3. 과적합 방지 기법 (스크립트 기반 정리)📌 (1) 정규화 (Regularization)손실 함수에 규제항 추가 → 복잡한 모델에 패널티 부여✅ 종류 📌 (2) 드롭아웃 (Dropout)학습 시 은닉층 뉴런 일부를 무작위로 꺼버림각 에폭마다 다른 구조의 모델이 학습됨 → 과적합 방지..

3.4 교차 검증

📚 3.4 교차 검증(Cross Validation) 기법 🌱 1. 교차 검증이란?데이터를 나눠서 여러 번 훈련하고 평가하는 방법 ❓왜 필요할까?데이터를 한 번만 나눠서 테스트하면,운에 따라 결과가 달라질 수 있어요 😢그래서 데이터를 여러 번 나눠서,모델이 정말 잘 작동하는지 평균을 내서 평가해요! 🎯 핵심 기법 3가지🧩 1. K-Fold 교차 검증데이터를 K등분해서 K번 훈련하고 평가하는 방법✔️방법데이터를 K개로 나눔 (예: 5조각)매번 다른 한 조각만 검사용(검증셋)나머지 조각은 공부용(훈련셋)K번 반복 → 성능 평균이 최종 성능✔️예시 ➡️ 마지막에 다섯 번 성능의 평균을 냄!✔️특징데이터를 다양하게 나눠서 평가 가능과적합(외우기만 하는 모델)을 방지K값이 크면 성능은 더 정확해지지만 시..

3.3 시계열 데이터 분석

🕒 3.3 시계열 데이터 분석✅ 1. 시계열 데이터란?시간 흐름에 따라 쌓인 데이터예: 날마다 측정한 기온, 시간대별 매출, 월별 방문자 수 등특징: 시간이 중요하다.→ 과거의 패턴을 바탕으로 미래를 예측할 수 있다. ✅ 2. 시계열 데이터 안에는 어떤 성분(요소)이 있을까? ✅ 3. 시계열 데이터 예측 기법 ① 이동 평균법 (Moving Average)최근 며칠 평균을 내서 다음을 예측예: 최근 3일 판매량 평균 → 내일 예상 판매량단순 이동 평균: 과거 값들 평균가중 이동 평균: 최근 값에 더 큰 비중🎯 이건 간단하고 기본적인 방법 ② 지수 평활법 (Exponential Smoothing)최근 값에 더 많이 반영해서 예측알파(α): 0~1 사이 값→ 높을수록 최근 값 더 중요과거 값은 점점 덜 ..

3.2 로지스틱 회귀 분석

3.2 로지스틱 회귀 분석 ✅ 1. 로지스틱 회귀란?결과(종속변수)가 두 가지로 나뉘는 문제(예: 합격/불합격, 구매/비구매 등)에 사용선형 회귀처럼 입력값(X)이 결과(Y)에 어떤 영향을 주는지를 분석하지만,Y는 **숫자(연속값)**이 아닌 **분류(0 또는 1)**임예:“흡연 여부에 따라 폐암에 걸릴 확률은?”X: 흡연 여부 (0 또는 1)Y: 폐암 여부 (0 또는 1) ✅ 2. 왜 로지스틱 회귀를 쓰나요?선형 회귀는 결과가 무한대까지 가는 숫자를 예측하지만,로지스틱 회귀는 결과가 항상 0~1 사이의 확률값으로 표현됨→ 그래서 0.5 기준으로 분류하기 좋음 ✅ 3. 핵심 개념 요약 ✅ 4. 로지스틱 회귀 공식 쉽게 풀기 ✅ 5. 선형 회귀 vs 로지스틱 회귀 ✅ 6. 베르누이 분포란?결과가 **두..

3.1 연관 규칙

📘 연관 규칙✅ 1. 연관 규칙(Association Rule)이란?장바구니 분석에 활용되는 데이터 마이닝 기법."A를 샀으면 B도 샀다" 같은 패턴을 찾는 것.예) "기저귀를 사면 맥주를 같이 산다" ✅ 2. 평가 지표 3가지 (※ 시험 자주 출제) ✅ 3. 각각 예시로 이해하기📌 예시 데이터 (총 거래 수: 10건) ✅ 예시: 맥주 → 과자 분석전체 거래 수: 10맥주만 포함된 거래 수 (A): 8맥주 & 과자 동시 포함 (A∩B): 6과자만 포함된 거래 수 (B): 6▶ 지지도 (Support)전체에서 맥주와 과자를 동시에 구매한 비율= A∩B / 전체 = 6 / 10 = 0.6 ▶ 신뢰도 (Confidence)맥주를 구매한 거래 중 과자도 함께 구매한 비율 = A∩B / A = 6 /..