본문 바로가기
반응형

Studying/Machine Learning24

[머신러닝] K-Means Clustering 정리 이전 포스트까지는 input, output이 정해져 있고 이 둘의 관계를 잘 설명하는 model을 학습시켜왔다. 이렇게 아웃풋(target)이 정해져 있고 학습에 이걸 사용하는 것을 supervised learning(지도 학습)이라고 한다. 이런 아웃풋을 정하지 않고도 학습하는 방법이 있다. 이를 unsupervised learning(비지도학습)이라고 한다. 이 방법 중 하나인 K-Means Clustering에 대해 정리해보려고 한다. K-Means Clustering K-Means Clustering은 분류가 되어있지 않은 데이터들을 다룰 때 사용한다. 미리 정해놓은 개수의 클러스터로 주어진 데이터를 묶는 방법이다. 데이터를 반복적으로 k개의 클러스터 중 하나로 할당하는 방법의 학습이 진행된다. .. 2022. 7. 15.
[머신러닝] Overfitting & Regularization (with Polynomial function) 이전 포스트까지는 linear regression으로 데이터에 가장 잘 맞는 직선을 찾았다. 하지만 직선이 데이터를 설명할 수 없다면 곡선을 찾아야 할 것이다. 이때 Polynomial regression을 사용한다. Overfitting 이해 먼저 4차 polynomial function을 정의하고 그래프로 표현해보겠다. from matplotlib import pyplot from autograd import grad from autograd import numpy numpy.random.seed(0) # fix seed for reproducibility x = numpy.linspace(-3, 3, 20) y = x**4 + x**3 - 4*x**2 + 8*numpy.random.normal(si.. 2022. 7. 12.
[머신러닝] Logistic Regression - 타이타닉 탑승자 사망여부 예측 2022.07.07 - [Studying/Machine Learning] - [머신러닝] Logistic Regression [머신러닝] Logistic Regression 이전의 두 포스트에서는 데이터와 잘 맞는 직선을 찾는 linear regression을 했는데 예측 값이 떨어져 있다면 이 모델로는 예측이 어려울 것이다. 가장 대표적인 것이 binary classification인데 예측값이 0 gm-note.tistory.com 이전 포스팅에서 정리한 Logistic Regression을 실제 데이터에 적용해보려고 한다. Data 우선 모듈을 import 해온다. import sympy import numpy import numpy as np import pandas as pd from matpl.. 2022. 7. 11.
[머신러닝] Logistic Regression 이전의 두 포스트에서는 데이터와 잘 맞는 직선을 찾는 linear regression을 했는데 예측 값이 떨어져 있다면 이 모델로는 예측이 어려울 것이다. 가장 대표적인 것이 binary classification인데 예측값이 0 또는 1이다. 이때 이 예측값을 확률로 표현한 다음 특정 값 이상이면 1 아니면 0으로 분류한다. 이러한 문제에 적용하는 방법이 Logistic Regression이다. 이론 logistic regression을 진행하기 위해서는 출력 값을 0과 1로 맞춰주어야 한다. 이를 위해 다음과 같은 logistic function을 사용한다. $$\sigma(z) = \frac{1}{1 + e^{-z}}$$ 입력 데이터를 x, 실제 class 값을 y, 예측된 출력 값을 y_hat이라.. 2022. 7. 7.
반응형