분류 전체보기27 [멋쟁이사자처럼부트캠프_그로스마케팅] Day 27-2 K-Means Clustering K-평균 군집화(K-Means Clustering) 개념과 구현K-평균 군집화(K-Means Clustering)는 데이터를 K개의 그룹으로 나누는 군집화(Clustering) 알고리즘이다.주어진 데이터에서 각 데이터 포인트를 가장 가까운 중심(centroid)으로 할당하고, 중심을 반복적으로 업데이트하여 최적의 군집을 찾는다.K-평균 군집화는 비지도 학습(Unsupervised Learning) 방법에 속한다.(군집화는 집단을 만드는 역할, 지도학습-분류는 집담에 데이터를 분류해 넣는 역할)1. K-평균 군집화의 기본 개념K-평균 군집화는 다음과 같은 단계를 반복하여 최적의 군집을 형성한다.데이터에서 K개의 중심(centroid)을 무작위로 초기화한다.각 데이터 포인트를 가장 가까운 중심에 할당하여 군.. 2025. 3. 15. [멋쟁이사자처럼부트캠프_그로스마케팅] Day 27-1 인공신경망 ANN 1. ANN 개요(1) 인공신경망(ANN)란?인간의 뇌를 모방한 머신러닝 모델.데이터에서 패턴을 학습하여 분류(Classification)와 예측(Regression) 수행.입력층 (→ 은닉층 )→ 출력층 구조.(2) ANN의 핵심 개념뉴런(Neuron) (노드)입력 → 계산(가중치 곱, 활성화 함수 적용) → 출력뇌의 뉴런(Neuron)처럼 데이터 신호를 전달함.레이어(Layer) (층)입력층(Input Layer): 원본 데이터를 입력받음.은닉층(Hidden Layer): 데이터의 중요한 특징을 추출.출력층(Output Layer): 최종 결과를 출력.가중치(Weight)와 편향(Bias)가중치(Weight): 뉴런 간 연결 강도를 결정하는 값.편향(Bias): 추가적인 조정값으로, 뉴런의 활성화 정.. 2025. 3. 14. [멋쟁이사자처럼부트캠프_그로스마케팅] Day 26 kNN, SVM, 로지스틱 회귀 실습 1. k-NN 알고리즘 개요k-NN (k-Nearest Neighbors, k-최근접 이웃) 알고리즘은 새로운 데이터가 주어졌을 때, 가장 가까운 k개의 데이터를 참고하여 예측하는 알고리즘입니다.거리 측정: 새로운 데이터 포인트와 모든 (기존)훈련 데이터 포인트 간의 거리를 계산합니다.일반적으로 **유클리드 거리(Euclidean Distance)**를 사용하지만, 맨해튼 거리(Manhattan Distance) 등 다른 거리 측정 방법도 사용할 수 있습니다.이웃 선택: 계산된 거리 값을 기준으로 가장 가까운 $k$개의 이웃을 선택합니다.분류/회귀:분류: 선택된 $k$개의 이웃 중 가장 많은 클래스를 새로운 데이터 포인트의 클래스로 할당합니다. 즉, 다수결 투표(Majority Voting) 방식으로 클.. 2025. 3. 13. [멋쟁이사자처럼부트캠프_그로스마케팅] Day 24 로지스틱 회귀, 실습 1. 로지스틱 회귀 개념로지스틱 회귀는 이진 분류(Binary Classification) 문제를 해결하는 지도 학습(Supervised Learning) 알고리즘이다.선형 회귀와 달리 종속 변수( )가 연속형이 아닌 이진 값(0 또는 1)을 가지는 경우 사용된다.예측값을 0~1 사이의 확률 값으로 변환하기 위해 시그모이드 함수(Sigmoid Function)를 적용한다.1.1 시그모이드 함수(Sigmoid Function) $z = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_n x_n$ (선형 결합) $h(x)$ 값은 항상 0과 1 사이의 확률 값을 가진다.특정 임계값(보통 0.5) 기준으로 0과 1을 구분한다.h(x) >=0.5$ 이면 클래스 1h(x) .. 2025. 3. 11. [멋쟁이사자처럼부트캠프_그로스마케팅] Day 23 선형 회귀분석 복습, 실습 오늘은 전에 했던 거 복습을 했다. day 24는 밥먹고 와서 하는걸루.데이터 전처리와 특징 엔지니어링선형 회귀 개념과 원리 1. 데이터 전처리 (Data Preprocessing)데이터 분석의 첫 번째 단계로, 데이터를 정리하고 모델 학습에 적합한 형태로 변환하는 과정이다. 1) 데이터 탐색 및 정리데이터를 로드하고 기본 통계(분포, 데이터 타입 등)를 확인df.info(), df.describe()시각화: matplotlib, seaborn 등을 사용해 변수 간 관계 탐색2) 결측값(Missing Values) 처리df.isnull().sum() 으로 결측값 확인평균/중앙값 대체 (df.fillna()), 특정 행 제거 (df.dropna())3) 이상치(Outliers) 처리박스플롯(sns.boxp.. 2025. 3. 10. [멋쟁이사자처럼부트캠프_그로스마케팅] Day22 머신러닝 기초, 로지스틱 회귀 실습 1 머신러닝1. 머신러닝의 정의머신러닝은 데이터에서 패턴을 학습하여 새로운 데이터에 대한 예측을 수행하는 인공지능(AI) 기술이다.전통적인 프로그래밍 방식과는 달리 명시적인 규칙을 프로그래머가 지정하는 것이 아니라 (틀만 줌), 알고리즘이 데이터를 분석하여 스스로 규칙을 찾아내는 방식으로 동작한다.2. 머신러닝의 주요 학습 유형 (지도 vs. 비지도)1) 지도 학습(Supervised Learning)정의: 입력 데이터(특징, Feature)와 이에 대응하는 정답(레이블, Label)이 주어진 상태에서 학습하는 방식목표: 주어진 데이터를 기반으로 입력과 출력 간의 관계를 학습하여, 새로운 입력값에 대해 올바른 출력을 예측하는 것대표 알고리즘선형 회귀(Linear Regression)로지스틱 회귀(Logi.. 2025. 3. 7. 이전 1 2 3 4 5 다음