📘 연관 규칙
✅ 1. 연관 규칙(Association Rule)이란?
- 장바구니 분석에 활용되는 데이터 마이닝 기법.
- "A를 샀으면 B도 샀다" 같은 패턴을 찾는 것.
- 예) "기저귀를 사면 맥주를 같이 산다"
✅ 2. 평가 지표 3가지 (※ 시험 자주 출제)

✅ 3. 각각 예시로 이해하기
📌 예시 데이터 (총 거래 수: 10건)

✅ 예시: 맥주 → 과자 분석
- 전체 거래 수: 10
- 맥주만 포함된 거래 수 (A): 8
- 맥주 & 과자 동시 포함 (A∩B): 6
- 과자만 포함된 거래 수 (B): 6
▶ 지지도 (Support)
전체에서 맥주와 과자를 동시에 구매한 비율
= A∩B / 전체 = 6 / 10 = 0.6
▶ 신뢰도 (Confidence)
맥주를 구매한 거래 중 과자도 함께 구매한 비율
= A∩B / A = 6 / 8 = 0.75
▶ 향상도 (Lift)
과자를 우연히 사는 것보다, 맥주를 사서 과자를 살 확률이 얼마나 더 높은가?
= 신뢰도 / B의 지지도 = 0.75 / 0.6 = 1.25 → 1보다 크므로 양의 상관관계
✅ 4. 향상도 해석 정리

✅ 5. Apriori 알고리즘 (아프리오리)
연관 규칙 찾을 때 가장 유명한 알고리즘
**빈발 항목 집합(Frequent Itemset)**을 단계적으로 추출
작동 원리 요약
- 최소 지지도 기준보다 높은 단일 아이템 찾기
- 그 아이템들로부터 2개짜리, 3개짜리 조합 생성
- 계속 반복하면서 지지도가 높은 조합만 남김
- 최종적으로 의미 있는 연관규칙 생성
📝 시험 포인트
- 지지도 기반 알고리즘이다.
- 순서는 고려하지 않는다.
- 연산을 반복하여 연관성 있는 집합만 남김
✅ 6. 기출 예제 핵심 요약
💡 예제 1
오렌지, 사과 → 키위의 지지도 & 신뢰도?
주어진 거래: 6건
- 오렌지, 사과, 키위 동시 포함: 2건
- 오렌지+사과만 포함: 3건
→ 지지도 = 2 / 6 = 0.33
→ 신뢰도 = 2 / 3 = 0.66
✅ 7. 실전 팁 & 자주 나오는 오답 주의

✅ 8. 핵심 정리 문장 (암기용)
- 지지도: A와 B를 함께 산 비율 (전체 기준)
- 신뢰도: A를 산 사람 중 B도 산 비율
- 향상도: 기대치보다 얼마나 더 자주 B가 일어났는가
- Apriori: 지지도 기준 반복 필터링 알고리즘
'빅데이터분석기사 필기 > 3과목 : 빅데이터 모델링' 카테고리의 다른 글
3.5 과적합 방지 (0) | 2025.07.08 |
---|---|
3.4 교차 검증 (0) | 2025.07.08 |
3.3 시계열 데이터 분석 (1) | 2025.07.08 |
3.2 로지스틱 회귀 분석 (0) | 2025.07.08 |