본문 바로가기

STUDY27

[멋쟁이사자처럼부트캠프_그로스마케팅] Day16 회귀분석, 보고서 실습 1. 회귀분석회귀분석은 통계학에서 두 개 이상의 변수 사이의 관계를 분석하고 예측 모델을 구축하는 기법입니다.2. 회귀분석의 개념2.1 주요 구성요소종속 변수 (Dependent Variable, Y):분석의 목표가 되는 변수입니다. 예를 들어, 판매량, 수익, 체중 등 예측하거나 설명하고자 하는 대상입니다.독립 변수 (Independent Variable, X):종속 변수에 영향을 주는 변수입니다. 예를 들어, 광고비, 교육 수준, 운동량 등이 해당됩니다.오차항 (Error Term, ε, 입실론):ε가 0이 되는게 모델의 최적화.모델이 설명하지 못하는 부분, 즉 관측된 값과 예측된 값 사이의 차이를 의미합니다. 이는 측정오차나 누락된 변수 등 여러 요인에 의해 발생할 수 있습니다.2.2 회귀모델의 형.. 2025. 3. 7.
[멋쟁이사자처럼부트캠프_그로스마케팅] Day15 통계 overview 1 통계의 정의와 목적통계학이란?통계학은 데이터를 수집, 정리, 분석, 해석하여 의미 있는 정보를 도출하는 학문입니다.데이터를 통해 특정 현상의 패턴을 이해하고(특징), 이를 기반으로 예측하거나 의사 결정을 지원하는 데 활용됩니다.현상 분석 → 기호로 바꿔야함(객관성 확보, 계산 가능) → 코드통계 하는 이유: 기호로 만들기 위해선 통계뿐(수식이 있기에)통계할때 범위가 중요함.통계학은 크게 기술통계(Descriptive Statistics)와 추론통계(Inferential Statistics)로 구분.1. 기술통계(Descriptive Statistics)기술통계의 개념기술통계는 데이터를 요약하고 정리하여 쉽게 이해할 수 있도록 표현하는 방법을 다룹니다. 주요 특징을 빠르게 파악할 수 있고, 비교와 분석.. 2025. 3. 5.
[멋쟁이사자처럼부트캠프_그로스마케팅] Day 14 EDA, EDA 데이터 전처리 종합 실습 1 데이터 구조 파악(EDA, 탐색적 데이터 분석, Exploratory Data Analysis)데이터 분석을 수행하기 전에 데이터의 구조를 파악하고 특성을 이해하는 과정입니다. EDA를 통해 데이터의 패턴을 발견하고, 이상치(outlier) 및 결측치(missing value)를 확인하며, 적절한 **전처리(preprocessing) 및 특성 엔지니어링(feature engineering)**을 계획하는 데 도움을 줍니다.EDA를 철저히 수행하면 더 나은 예측 모델을 만들고, 데이터 기반 의사 결정을 더욱 신뢰할 수 있게 됩니다.EDA는 기술통계, 데이터 시각화, 변수 간 관계 분석 등의 방법을 사용합니다.EDA의 주요 목적데이터의 기본 정보 파악: 데이터 크기, 컬럼 수, 데이터 타입 등을 확인.결.. 2025. 3. 5.
[멋쟁이사자처럼부트캠프_그로스마케팅] Day 13-2 데이터 표준화, 정규화 데이터 표준화 및 정규화1. 데이터 표준화 및 정규화의 필요성그로스 마케팅에서는 광고 효과 분석, 고객 행동 데이터 비교, 마케팅 성과 평가 등을 위해 다양한 데이터를 분석한다. 이러한 데이터는 값의 범위가 다르기 때문에, 효과적인 비교를 위해 데이터 변환(Data Transformation)이 필수적이다.대표적인 데이터 변환 기법정규화(Normalization): 데이터를 0과 1 사이의 범위로 변환하여 상대적인 크기를 조정표준화(Standardization): 데이터를 평균 0, 표준편차 1의 정규 분포 형태로 변환데이터를 표준화 또는 정규화하면 다음과 같은 장점이 있다.서로 다른 크기를 가진 변수를 동일한 기준으로 비교할 수 있음머신러닝 모델 학습 시, 특정 변수에 영향을 크게 받는 문제 방지광고 .. 2025. 2. 26.
[멋쟁이사자처럼부트캠프_그로스마케팅] Day 13-1 이상치, 데이터 변환(결측치, 데이터 타입 변환) 데이터 변환 및 이상치 처리1️⃣ 이상치 (Outlier)이상치는 사분위 범위(IQR, Interquartile Range)를 벗어난 값으로 정의됩니다.데이터 분석 및 모델링의 신뢰성을 저해하므로 적절한 처리가 필요합니다.1.1 이상치(Outlier)의 정의이상치는 다음 범위를 벗어나는 데이터 포인트를 의미합니다.IQR (Interquartile Range) 정의:$$ \text{IQR} = Q3 - Q1 $$하한 경계값 (Lower Bound)이상치 판단기준(최솟값)Q1−1.5×IQRQ1 - 1.5 \times \text{IQR}$Q1 - 1.5 \times \text{IQR}$상한 경계값 (Upper Bound)이상치 판단기준(최댓값)$Q3 + 1.5 \times \text{IQR}$1.2 이상치 판.. 2025. 2. 26.
[멋쟁이사자처럼부트캠프_그로스마케팅] Day 12 Matplotlib, Seaborn Matplotlib1️⃣ Matplotlib이란?Python에서 데이터를 시각화하기 위해 가장 널리 사용되는 라이브러리matplotlib.pyplot 모듈의 plt 함수를 사용하여사용하여 다양한 그래프를 손쉽게 생성그래프 그리기, 커스터마이징, 저장 등 데이터 시각화에 필요한 모든 기능 제공2️⃣ 설치 및 한글 깨짐 방지# Matplotlib 설치pip install matplotlibimport matplotlib.pyplot as plt# 한글 깨짐 방지 (필요시)pip install koreanize-matplotlibimport koreanize_matplotlib3️⃣ Matplotlib로 시각화 가능한 그래프 유형언제 사용하면 좋은가?선 그래프 (Line Plot)연속적인 데이터 변화를 선으로.. 2025. 2. 21.