[CNU SW 아카데미] 데이터 분석 및 AI (23-01-05)
3.데이터 시각화
상자 차트 : 데이터의 최대, 최소, 중간값과 사분위 등을 효율적으로 가시화 할 수 있는 방법
.boxplot()
힌 화면에 여러 그래프 그리기
subplots()
4. Regression
Linear regression : 지금 데이터를 적절한 식을 생성해서 얼마나 더 잘 표현할 수 있냐
쌍으로 관찰된 연속형 변수들 사이의 관계에 ㅣㅇㅆ어서 한 변수를 원인으로 하고 다른 변수들을 경과로 하는 분석
독립변수와 종속 변수 사이 선형식을 수하고 그 식을 이용하여 변수값들이 주어졌을 때 종속변수의 변수 값을 예측하는 방법
linear model
y = w1x + w0
너무 높은 차수의 식은 데이터를 구체화 할 수 있지만 이상한 식을 낼 수 있다.
그래서 적절한 차수의 식을 가져야 한다.
Machine learning based regression만들 떄 필요한것
- 손실 함수
선형회귀식과 실제 값의 오차
성형회귀에서 평균제곱오차는 머신어닐 모델을 구축할 때 작을수록 원본과의 오차가 적은 것이므로 추측한 값의 정확성이 높다고 할 수 ㅣㅇㅆ음
- Gradient descent
손실 함수를 최소화하는 매개변수를 찾는 방법
learning rate를 잘 잡아야 손실을 최대한으로 줄일 수 있다. learning rate는 손실을 줄이기 위한 업데이트 방향
종류 batch,mini-batch, stechastic
- regularivation
회귀모델의 일반화를 향상시킨다.
norm penalities : 모델 수용성을 제한( 모델에 규제를 건다)
좋은 regression 모델이란?
- 데이터의 향
- 모델의 특징 개수 ( 적절한 차수)
- 적절한 규제
5. Classification & Clustiering
-Logistic regression(계단함수처럼 생긴)
- softmax regression(소프트맥스 함수를 씀)
-multi-label classification
-cross entropy( 손실 함수)
오차를 계산하는 식
무슨 개소리야 식을 이해할 수 없음 자기만의 세계야 뭐야