AI 개발 공부 공간

AI, 머신러닝, 딥러닝, Python & PyTorch, 실전 프로젝트

빅데이터분석기사 필기/3과목 : 빅데이터 모델링

3.1 연관 규칙

qordnswnd123 2025. 7. 8. 09:16

📘 연관 규칙

✅ 1. 연관 규칙(Association Rule)이란?

  • 장바구니 분석에 활용되는 데이터 마이닝 기법.
  • "A를 샀으면 B도 샀다" 같은 패턴을 찾는 것.
  • 예) "기저귀를 사면 맥주를 같이 산다"

 

✅ 2. 평가 지표 3가지 (※ 시험 자주 출제)

 

 

 

 

✅ 3. 각각 예시로 이해하기

📌 예시 데이터 (총 거래 수: 10건)

 

 

 

✅ 예시: 맥주 → 과자 분석

  • 전체 거래 수: 10
  • 맥주만 포함된 거래 수 (A): 8
  • 맥주 & 과자 동시 포함 (A∩B): 6
  • 과자만 포함된 거래 수 (B): 6

▶ 지지도 (Support)

전체에서 맥주와 과자를 동시에 구매한 비율

= A∩B / 전체 = 6 / 10 = 0.6

▶ 신뢰도 (Confidence)

맥주를 구매한 거래 중 과자도 함께 구매한 비율

 
= A∩B / A = 6 / 8 = 0.75

▶ 향상도 (Lift)

과자를 우연히 사는 것보다, 맥주를 사서 과자를 살 확률이 얼마나 더 높은가?

= 신뢰도 / B의 지지도 = 0.75 / 0.6 = 1.25 → 1보다 크므로 양의 상관관계

 

✅ 4. 향상도 해석 정리

 

 

✅ 5. Apriori 알고리즘 (아프리오리)

연관 규칙 찾을 때 가장 유명한 알고리즘
**빈발 항목 집합(Frequent Itemset)**을 단계적으로 추출

작동 원리 요약

  1. 최소 지지도 기준보다 높은 단일 아이템 찾기
  2. 그 아이템들로부터 2개짜리, 3개짜리 조합 생성
  3. 계속 반복하면서 지지도가 높은 조합만 남김
  4. 최종적으로 의미 있는 연관규칙 생성

📝 시험 포인트

  • 지지도 기반 알고리즘이다.
  • 순서는 고려하지 않는다.
  • 연산을 반복하여 연관성 있는 집합만 남김

 

✅ 6. 기출 예제 핵심 요약

💡 예제 1

오렌지, 사과 → 키위의 지지도 & 신뢰도?

주어진 거래: 6건

  • 오렌지, 사과, 키위 동시 포함: 2건
  • 오렌지+사과만 포함: 3건

→ 지지도 = 2 / 6 = 0.33
→ 신뢰도 = 2 / 3 = 0.66

 

✅ 7. 실전 팁 & 자주 나오는 오답 주의

 

 

✅ 8. 핵심 정리 문장 (암기용)

  • 지지도: A와 B를 함께 산 비율 (전체 기준)
  • 신뢰도: A를 산 사람 중 B도 산 비율
  • 향상도: 기대치보다 얼마나 더 자주 B가 일어났는가
  • Apriori: 지지도 기준 반복 필터링 알고리즘

'빅데이터분석기사 필기 > 3과목 : 빅데이터 모델링' 카테고리의 다른 글

3.5 과적합 방지  (0) 2025.07.08
3.4 교차 검증  (0) 2025.07.08
3.3 시계열 데이터 분석  (1) 2025.07.08
3.2 로지스틱 회귀 분석  (0) 2025.07.08