AI 개발 공부 공간

AI, 머신러닝, 딥러닝, Python & PyTorch, 실전 프로젝트

전체 글 198

1.5 데이터 수집과 저장

🔹 1. 데이터 수집 방법 (데이터를 어디서, 어떻게 모을까?)데이터 수집은 정보를 수집하는 다양한 방식이며, 다음과 같이 나뉩니다.📌 전통적 수집 방법설문조사: 사람들이 직접 응답하는 방식. 빠르고 쉽지만 응답자의 진실성이 떨어질 수 있음.관찰법: 사람들의 행동이나 상황을 직접 보며 기록함. 신뢰도는 높지만 시간과 노력이 듬.실험법: 조건을 통제하고 실험군 vs 대조군 비교. 과학적이지만 설정이 까다로움.인터뷰 / 집단면접(FGI): 직접 만나서 얘기 듣기. FGI는 6~12명 모아서 자유 토론을 통해 인사이트 얻음. 시험에도 자주 나옴.📌 디지털/자동화 수집 방법웹 크롤링: 프로그램이 자동으로 웹사이트 돌아다니며 텍스트, 이미지, 링크 등 데이터 추출.소셜미디어 분석: 트위터, 인스타, 블로그 ..

1.4 빅데이터 분석 방법론

🔵 1. 빅데이터 분석 방법론 (3계층 구조) 🧠 암기 팁:단계 > 태스크 > 스텝큰 그림 → 주요 일 → 실제 일 🔷 2. 단계별 구성 + 암기 포인트🔹 1단계. 분석 기획 🔑 암기 문장:프로젝트 시작 전, 방향 정하고 계획 세운다! 🔹 2단계. 데이터 준비 🔑 암기 문장:필요한 데이터 모으고, 저장소 설계하고, 오류 없는지 체크! 🔹 3단계. 데이터 분석 ★★★ (가장 자주 출제) 🔑 암기 문장:데이터를 분석하고, 모델을 만들고, 평가한다! 🔹 4단계. 시스템 구현 🔑 암기 문장:분석 결과를 실제 업무에 쓰이도록 만든다! 🔹 5단계. 평가 및 전개 🔑 암기 문장:결과를 정리하고, 현업에 확산시키는 단계! 🔵 3. CRISP-DM 분석 방법론💡 실무에서 많이 쓰이고, 시험에도..

1.3 데이터 분석 기획

✅ 1. 데이터 분석 기획이란?데이터 분석을 잘 하기 위해 사전에 준비하고 설계하는 과정이에요.분석할 주제를 정하고, 어떤 방법을 쓸지, 어떤 데이터를 쓸지 계획을 세우는 단계예요.✔ 시험 포인트:데이터 분석 기획은 분석 주제, 방법, 목표, 로드맵, 절차 등을 미리 준비하는 작업이다. ✅ 2. 분석 기획의 분류 (시험 단골 유형!)📌 1) 분석 대상과 방법에 따른 분류 (4가지) 🟡 현실에서는 ‘발견’ 유형이 가장 많음🟢 시험에서는 4가지 이름과 특성을 꼭 구분해서 외우세요! 📌 2) 목표 시점에 따른 분류 ✅ 3. 분석 기획 절차 (시험 암기 필수)비즈니스 및 범위 설정→ 어떤 문제를 풀 것인지 정함프로젝트 정의→ 이 프로젝트가 왜 필요한지, 목표가 뭔지 정함수행 계획 수립→ 자원, 일정,..

1.9 본질식별자와 인조식별자

✅ 1. 식별자란?테이블의 각 행(레코드)을 유일하게 구분하기 위한 속성 (Primary Key)중복 안 되고, Null도 안 됨 ✅ 2. 본질 식별자 (Natural Identifier)📌 "이미 있는 고유번호"를 그대로 PK로 사용하는 경우예: 학생 테이블의 학번, 도서 테이블의 ISBN 등 ✅ 3. 인조 식별자 (Surrogate Identifier) 📌 원래 식별자가 너무 복잡하거나 불편할 때 새로 만드는 고유번호예: 복합키 대신 order_item_id 같은 번호 부여 ✅ 4. 왜 인조 식별자가 필요할까?📌 복합키가 너무 복잡할 때 사용!예시:주문 목록 테이블본질 식별자 방식: 주문번호 + 도서번호 (복합키)인조 식별자 방식: 주문목록번호 하나로 대체 ✅ 5. 두 식별자의 장단점 비교 ✅..

1.8 Null

✅ 1. Null이란? 🚫 Null ≠ 0→ 숫자 0은 ‘값 있음’. Null은 ‘값 자체가 없음’🚫 Null ≠ '' (빈 문자열)→ 빈 문자열도 값 있음. Null은 ‘값이 정의되지 않음’🚫 Null ≠ 'NULL'→ 'NULL'은 단지 텍스트일 뿐 ✅ 2. Null은 왜 중요할까?SQL 연산과 함수에서 Null은 특별하게 작동함잘못 이해하면 계산 오류, 논리 오류 발생시험에서 단독 문제 또는 함정 보기로 자주 출제됨 ✅ 3. Null과 연산: 두 가지 상황 정리🔹 (1) 단일행 연산 (Row당 계산)Null이 하나라도 있으면 결과는 무조건 Null📌 Null은 계산 불가 요소로 처리됨 → 연산 불가능! 🔹 (2) 다중행 연산 (집계 함수 사용 시)집계 함수(SUM, AVG 등)는 Null..

1.7 슈퍼타입과 서브타입

🎈 슈퍼타입이 뭐예요?말 그대로 “공통적인 정보가 있는 상위 개념”예) 사건(전체)긴급사건, 특수사건, 일반사건 → 이건 각각 상황에 따라 나뉘는 서브타입🎈 서브타입은?“좀 더 구체적인 정보로 나눈 하위 개념”예) 사건 중에 긴급한 사건만 따로 관리하고 싶으면 → ‘긴급사건’ 테이블💡 비유하면?슈퍼타입: 학생서브타입: 초등학생, 중학생, 고등학생모든 학생은 공통적으로 "이름, 나이"가 있지만, 각 학년은 "담임선생님, 교실번호" 등 서로 다른 정보가 있음 ✅ 그럼, 왜 테이블을 합치고 나누나요?🧐 이유는 딱 하나!"성능" 때문이에요.📌 정규화 → 쪼개는 것 → 저장 공간 아낌, 데이터 중복 제거📌 반정규화 → 다시 합치는 것 → 조회를 빠르게 하려고!예를 들어:사건을 자주 조회해야 하는데…사건..

1.6 정규화

✅ 1. 정규화란?데이터를 이상 없이 다루기 위해 테이블을 잘게 나누고,중복을 줄이고, 정리정돈하는 작업영어로: Normalization목적: 이상현상 방지, 중복 제거, 유지보수 용이테이블이 분해되므로 조인이 늘어날 수 있음 ❗ 왜 필요할까? (시험 핵심 포인트)이상현상(Anomaly) 3가지 꼭 외우기!📌 정규화는 이 3가지 이상현상을 막기 위한 기술입니다! ✅ 2. 정규화 핵심 단계 요약 (1~3차 + BCNF) 🪓 1차 정규화 (1NF)하나의 셀에는 하나의 값만 있어야 함 (원자값만 허용)반복되는 속성 → 새로운 테이블로 나눠야 함유사한 속성 다발 (예: 1개월 수량, 2개월 수량) → 나눠야📌 예시[문제 테이블] 상품코드 | 1개월 수량 | 2개월 수량 [정규화 후] 상품코드 | 월..

1.2 개인정보비식별화

🔍 비식별화란?개인의 신원을 알 수 없게 만드는 기술개인정보를 가공해서 이름이나 주민번호처럼 **누군지를 알 수 있는 정보(식별자)**를삭제하거나 변형하여 익명화하는 방법입니다. 👨‍🏫 왜 필요한가요?개인정보 보호법에 따라 개인을 보호해야 함분석 목적엔 데이터가 필요하므로 → 개인 정보는 가리고, 정보는 살린다! 🧩 용어 먼저 정리해요 🛠️ 비식별화 5가지 핵심 기법 📌 각 기법 자세히 보기🟦 1. 가명 처리 (대체)중요한 식별값을 다른 값으로 바꾸기➕ 분석에는 유리함 (구조 그대로 유지)➖ 대체값이 식별에 도움이 될 수도 있음 → 주의!🧪 세부 기술휴리스틱 처리: 규칙 기반 변경 (ex. ‘길동’ → ‘인정’)암호화: 값을 암호로 바꿈 (양방향/일방향)교환 처리: 외부 정보와 연결해 ..

1.1 데이터종류와특징

🧭 전체 분류 체계 한눈에 보기 ✅ 1. 데이터 생성 근원 기준◼️ 가역 데이터정의: 원본 ↔ 수정본 간 추적/복원 가능예시: DW, 데이터 마트특징🔁 환원성 있음 (수정본 → 원본 복원 가능)🔍 추적성 있음 (수정 이력 관리됨)🔗 의존성 있음 (원본에 의존)🔄 원본 변경 시 → 수정본도 자동 반영 가능1:1 관계, 구조 간단탐색 중심 사용💼 활용: 데이터 웨어하우스, OLAP용 ◼️ 불가역 데이터정의: 원본을 알 수 없는 가공 데이터예시: 전처리 후 분석용 데이터, 로그 결합 데이터특징❌ 환원 불가❌ 추적 불가원본과 무관하게 독립적 존재n:m 등 복잡한 구조💡 주로 분석용, 전처리 데이터분석 중심 사용 ✅ 2. 데이터 표현 방식 기준◼️ 정량적 데이터 (Quantitative)정의: 수치 ..

1.5 식별자 관계 VS 비식별자 관계

✅ 먼저! 관계(Relationship)란?두 개의 엔터티가 연결된 상태예: 회원 ↔ 주문, 사원 ↔ 부서관계가 있어야 서로 관련된 데이터를 찾을 수 있어요(회원이 어떤 책을 빌렸는지 등) ✅ 그럼, 관계는 왜 나누나요?관계는 “얼마나 강하게 연결되어 있는가” 에 따라두 가지로 나뉘어요:식별자 관계 (Identifying Relationship) → 아주 강하게 연결비식별자 관계 (Non-identifying Relationship) → 느슨하게 연결 ✅ 1. 식별자 관계란?🔹 의미부모 엔터티의 정보가 자식 엔터티의 “식별자(PK)”가 되는 관계자식 테이블이 부모의 정보를 반드시 포함해야만 존재 가능부모 없으면 자식도 없다 📦 예시예: 부서 - 사원부서 엔터티:부서번호 (PK)사원 엔터티:사원번호 +..