[1] 배경지식
1.1. 인공지능, 머신러닝, 딥러닝
- 인공지능(AI)
- 인간의 뇌를 모방하는 모든 프로그램
- 머신러닝(ML)
- 데이터를 기반으로 학습해 무언가를 예측하거나, 데이터 자체의 어떤 특성을 찾아내는 프로그램
- 딥러닝(DL)
- 머신러닝 알고리즘 중 하나로, 인공신경망에서 진화한 형태.
- 이미지, 비디오, 자연어 분석에 쓰임
1.2. 머신러닝
- 기계학습
- 머신이 학습을 하는 걸 말함
- 비교
- [전통적인(일반적인) 프로그램] Traditional Programming
데이터 ==> Y = 3x + 10 [1, 3, 5] ==> Y = 3x + 10 ==> [13, 19, 25]
- Machine Learning
[1, 3, 5] ==> Y = 3x + 10 ==> [13, 19, 25] [샘플 데이터] ==> 모델 ==> [13, 19, 25] [정답 값] // 정답 값에 근접한 모델을 만듦 [새로운 데이터] // 위에 만들어진 모델로 새로운 데이터에 대한 값을 예측(Supervised Learning)
1.3. 머신러닝 핵심 라이브러리
- 넘파이 (Numpy)
- 다차원 배열에 대한 빠른 처리를 지원하는 라이브러리
- 판다스 (Pandas)
- 넘파이 기반으로 구현한 라이브러리
- 사이킷런 (Sklearn)
- 데이터 전처리, 모델링, 모델 평가 등 광범위한 분야 지원
- 맷플롯립 (Matplotlib)
- 시각화 라이브러리
- 시본 (Seaborn)
- 맷플롯립 기반으로 구현한 라이브러리
1.4. 딥러닝 분야
- 텐서플로
- 파이토치
- 케라스
1.5. 변수
- 프로그래밍에서의 변수
- 어떠한 데이터/정보를 저장하는 공간
- 통계에서의 변수
- 관찰하려는 대상의 '특성'을 의미
- 변수(컬럼)
- 독립변수 (Independent Variable)
- 예측에 사용되는 재료와 같은 변수들
- 피처 변수(Feature Variable), 피처(Feature)라고도 부름.
- 예) 키, 몸무게, 성별
- 종속변수 (Dependent Variable)
- 예측을 하려는 대상 변수
- 목표 변수 (Target Variable), 타깃이라고도 부름.
- 예) 보험료
1.6. 판다스
- 두 가지 자료구조 제공
- 데이터프레임
- 시리즈
- 데이터프레임의 한 열만 떼어내면 시리즈가 됨
1.7. 데이터셋 split (Train Test Split)
- 학습셋(Train), 시험셋(Test) 구분하지 않고 예측 모델을 만드는 경우
- 전체 데이터를 가지고 모델링(학습)을 하고, 또 다시 전체 데이터에 대해서
예측값을 만들어서 종속변수와 비교해 예측이 잘 되었는지 평가함
- 전체 데이터를 가지고 모델링(학습)을 하고, 또 다시 전체 데이터에 대해서
제대로 잘 예측할수 있을지 장담할 수 없음.
-
- 전체 데이터셋 = 학습셋 + 시험셋
- 시험셋으로 예측/평가를 했을 때 예측력이 좋게 나타난다면, 향후 예측하게 될 새로운 데이터에 대해서도 잘 작동할거라고 기대할수 있음
- 학습셋 : 시험셋 = 7:3 혹은 8:2
1.8. 데이터셋 나누기
- X_train, X_test, y_trin, y_test
- X 는 대문자,
- X 는 변수가 여러 개 있는 데이터프레임(DataFrame)이기 때문에 대문자로 씀.
- y 는 소문자
- y 는 변수가 하나인 시리즈(Series)이기 때문에 소문자로 씀.
- X 는 대문자,
- 독립변수 / 종속변수, 학습셋 / 시험셋 조합으로 총 4개 데이터셋이 나옴
- X_train, X_test, y_trin, y_test
'PYTHON > Machine Learning' 카테고리의 다른 글
[Machine Learning / ML] 머신러닝 프로세스 (0) | 2023.03.31 |
---|---|
[Machine Learning / ML] 머신러닝 정의 - 지도학습, 비지도학습, 회귀, 분류, 군집화, 변환, 강화학습 (0) | 2023.03.30 |
댓글