머신러닝야학-Tensorflow (python) 핵심요약-5
딥러닝 데이터의 전처리 과정
데이터 타입의 변경
원핫 인코딩, 즉 카테고리의 범주화가 필요한 데이터인데, 품종 이라는 변수가 int 값으로 되어 있어서 원핫 인코딩이 되지 않는 상태?
int(정수형)타입을 category(범주형)타입으로 바꿔주자.
원핫 인코딩, 즉 카테고리의 범주화가 필요한 데이터인데, 품종 이라는 변수가 int 값으로 되어 있어서 원핫 인코딩이 되지 않는 상태?
int(정수형)타입을 category(범주형)타입으로 바꿔주자.
다음 예제인 아이리스 품종 분류 모델은 여러 독립변수가 하나의 종속변수(품종)을 예측하는 모델인데, 예측해야 하는 종속변수가 양적변수가 아닌 범주형 데이터라는 차이점이 있다.
해당 지역 주택 값 중에 가장 가운데에 있는 값 (Range List 중 중앙 인덱스 값)
일반적으론 평균값이 집단을 대표하는 숫자로 많이 사용되지만, 평균값의 표준편차가 너무 커서, 평균의 대표성을 무너뜨리는 이상치(Outlier)가 평균을 왜곡시킬때, 중앙값을 많이 사용함.
Tensorflow로 주로 사용하는 Deep Learning Algorithm은
지도 학습(회귀, 분류)을 위한 5가지가 주로 쓰인다.
이런 알고리즘을 구현하기 위한 라이브러리들도 여러가지가 있는데,
TensorFlow, PyTorch, Caffe2, theano 등이 있다.
평소 SSAFY 에서부터 관심이 생겼던 Machine Learning 분야에 새롭게 도전해 보았다.
친구들이 딥러닝 프로젝트로 Image Scanning 이나 Classification 기술을 도입해서
얼굴 관상 보기 프로젝트라던지, 물고기 종류 분류라던지 신박한 기술들을 많이 보여줬었는데,
평소 자연어 처리에 관심 많았던지라, 그동안 배워왔던 빅데이터 기술들을 좀 더 딥하게 적용시켜 보고 싶어서
머신러닝 야학 2기를 신청하게 되었다.