CNU/2023 CNU SW 아카데미

[CNU SW 아카데미] 데이터 분석 및 AI (23-01-05)

김뱅쓰 2023. 1. 5. 11:49

3.데이터 시각화

상자 차트 : 데이터의 최대, 최소, 중간값과 사분위 등을 효율적으로 가시화 할 수 있는 방법

.boxplot()

 

힌 화면에 여러 그래프 그리기

subplots()

 

4. Regression 

Linear regression : 지금 데이터를 적절한 식을 생성해서 얼마나 더 잘 표현할 수 있냐

쌍으로 관찰된 연속형 변수들 사이의 관계에 ㅣㅇㅆ어서 한 변수를 원인으로 하고 다른 변수들을 경과로 하는 분석

독립변수와 종속 변수 사이 선형식을 수하고 그 식을 이용하여 변수값들이 주어졌을 때 종속변수의 변수 값을 예측하는 방법

linear model

y = w1x + w0

 

너무 높은 차수의 식은 데이터를 구체화 할 수 있지만 이상한 식을 낼 수 있다.

그래서 적절한 차수의 식을 가져야 한다.

 

Machine learning based regression만들 떄 필요한것

 

- 손실 함수

선형회귀식과 실제 값의 오차

성형회귀에서 평균제곱오차는 머신어닐 모델을 구축할 때 작을수록 원본과의 오차가 적은 것이므로 추측한 값의 정확성이 높다고 할 수 ㅣㅇㅆ음

 

- Gradient descent

손실 함수를 최소화하는 매개변수를 찾는 방법

learning rate를 잘 잡아야 손실을 최대한으로 줄일 수 있다. learning rate는 손실을 줄이기 위한 업데이트 방향

종류 batch,mini-batch, stechastic

 

- regularivation

회귀모델의 일반화를 향상시킨다.

norm penalities : 모델 수용성을 제한( 모델에 규제를 건다)

 

좋은  regression 모델이란?

- 데이터의 향

- 모델의 특징 개수 ( 적절한 차수)

- 적절한 규제

 

5. Classification & Clustiering

 

-Logistic regression(계단함수처럼 생긴)

 

- softmax regression(소프트맥스 함수를 씀)

 -multi-label classification

 

-cross entropy( 손실 함수)

오차를 계산하는 식

 

 

무슨 개소리야 식을 이해할 수 없음 자기만의 세계야 뭐야