본문 바로가기

전체 글148

[STATISTICS] 선형대수학, 벡터 통계 1. 선형대수학 1) 벡터 - 숫자의 나열 - 숫자의 묶음 예) x = (1, 2, 3), y = (4, 3, 1) 2) 벡터의 연산 x + y = (5, 5, 4) 3 * x = (3, 6, 9) 3) 벡터의 특징 - 원소값, 방향(상대적인 위치) 4) 벡터의 차원 - 원소의 개수 5) 벡터의 크기(원점과의 거리) - 벡터의 모든 원소를 제곱하고 다 더한 뒤, 루트를 씌워준 값 2. 통계 1) 기술통계량(descriptive statistics) - 데이터에서 측정할 수 있는 요약된 수치값들 - 평균 : 데이터의 값을 더한 다음, 개수로 나눈 값 - 분산 : 데이터의 퍼진 정도. 각 데이터에서 평균을 뺀 값을 제곱해서 다 더한 뒤 데이터 개수로 나눈 값. - 표준분산 : 분산의 양의 제곱근 - 중앙값 .. 2023. 4. 11.
[STATISTICS] EDA 정의 - 필요성, 가설 수립, 검정 1. EDA 정의 1) Exploratory Data Analysis 2) 탐색적 데이터 분석 3) Data ==> EDA ==> 인사이트 * EDA : 시각화, 통계 분석 2. EDA 필요성(효과) 1) 데이터 이해할수 있도록 도와줌 2) 가설을 추가하거나 수정할수 있음 3. 가설 수립과 검정하기 1) 반복으로 구성됨 가설 수립 ====> EDA 를 통한 가설 검정 ===> Insight 획득, 구체화 2) 예시 - 보험 가입 기간이 긴 고객일수록 이탈율이 줄어들 것이다. - 건물별 화재 예측을 하는데 필요한 특징을 선정하는데 EDA 을 수행함. - 밸브의 불량이 발생하는 공정상 원인 파악 2023. 4. 10.
[STATISTICS] 기술통계, 추리통계 1. 기술통계 1) 수집한 자료를 분석하여 대상들의 속성을 파악하는 통계 방법 - 중심경향값 - 분산도 - 상관계수 - 회귀계수 2) 중심경향값 - 평균 : 전체 자료가 가지는 수치들의 총합을 전체 자료의 수로 나눈 수치 - 중심값 : 최대값과 최소값의 정가운데 수치 - 최빈값 : 가장 많은 빈도를 보이는 수치 3) 분산도 - 분산 : 각 자료가 평균으로부터 떨어진 거리(편차)들을 제곱한 수치들의 총합을 전체 자료의 수로 나눈 수치 - 표준분산 : 분산을 제곱근을 취한 수치 2. 추리통계 ㄱ 1) 모집단을 대표하는 표본을 추출하고 표본의 기술통계를 이용하여 모집단의 속성들을 유추하는 통계방법 - 표본집단 ==> 모집단 추정 2) 신뢰구간 - 추리통계에서 예측한 모집단의 특성이 위치할 가능성이 높은 구간 .. 2023. 4. 9.
[PYTHON] DataFrame - Pandas 1. 개요 1) 판다스와 넘파이는 파이썬에서 다루는 데 사용되는 가장 대표적인 라이브러리임 2) 데이터 분석에서 가장 많이 쓰이는 라이브러리인 판다스는 데이터프레임과 시리즈라는 두 가지 자료구조를 제공함 - 열이 하나면 시리즈, 둘 이상이면 데이터프레임 이다. - 데이터프레임에서 첫 번째 열/행만 불러오면 기본적으로 판다스 시리즈로 불러옴 2. DataFrame 1) 엑셀, 테이블, 데이터 2) 데이터 가공, 집계, 시각화가 가능한 필수템 3) 엑셀보다 빠르고 쉬움 4) 노가다를 줄여줌 5) DataFrame 은 2차원 테이블 구조임. - 1차원 구조인 Series 도 있음(1 row, 1 column) - row, column 으로 모든 원소를 구분함 (indexing) - Relational DB 와.. 2023. 4. 8.
[Machine Learning / ML] 머신러닝 프로세스 [3] 머신러닝 프로세스 3.1. 데이터 수집 내부 외부 데이터 공개 데이터 캐글 (https://www.kaggle.com/) 오픈엠엘 (https://www.openml.org/) 3.2. 데이터 전 처리 수집된 데이터는 대개는 잘못된 값이 들어 있거나 활용하기 불편하게 정리되어 있음 수정 및 정리 및 데이터를 추가로 만들어내는 과정 피처 엔지니어링 3.3. 모델 학습 주요 모델 3.4. 모델 평가 학습이 완료된 모델을 사용해 예측해 봄, 결과를 평가 3.5. 모델 배포 머신러닝 결과물을 활용하는 단계 서비스에 직/간접적으로 활용 예측 결과물을 대시보드 형태로 시각화해 공개 모델링을 통해 얻은 인사이트를 유관부서에 전달하는 방식 3.6. 반복 (ML Ops) 2023. 3. 31.
[Machine Learning / ML] 머신러닝 정의 - 지도학습, 비지도학습, 회귀, 분류, 군집화, 변환, 강화학습 [2] 머신러닝 정의 2.1. Machine Learning : 컴퓨터가 주어진 입력값(X)과 찾고자 하는 값(y) 사이의 관계를 모델링하는 방법 공부하는 것과 비슷함 기말고사에서 주어진 족보를 풀어서 기말고사 점수가 향상되는 과정을 학습이라고 함(Human Learning) 데이터와 데이터 사이의 관계를 찾는 것 모델 -- y = f(X) -- -- 타겟값() 입력(input) 입력 데이터(X)와 타겟값(y)을 알고 있는 데이터를 학습하여, 이들의 관계를 모델링하는 학습 방법 Supervised Learning - 지도 학습(답O) 입력 데이터(X)와 그에 해당하는 정답(y)가 함께 학습에 사영되는 방법론. 예) 자동차의 특성 (연식, 주행거리, 배기량, 연료 타입 등)과 가격을 입력해 중고차 가격을 .. 2023. 3. 30.
[Machine Learning] 배경지식 - PANDAS, PYTORCH, TENSORFLOW, NUMPY, Sklearn, Matplotlib [1] 배경지식 1.1. 인공지능, 머신러닝, 딥러닝 인공지능(AI) 인간의 뇌를 모방하는 모든 프로그램 머신러닝(ML) 데이터를 기반으로 학습해 무언가를 예측하거나, 데이터 자체의 어떤 특성을 찾아내는 프로그램 딥러닝(DL) 머신러닝 알고리즘 중 하나로, 인공신경망에서 진화한 형태. 이미지, 비디오, 자연어 분석에 쓰임 1.2. 머신러닝 기계학습 머신이 학습을 하는 걸 말함 비교 [전통적인(일반적인) 프로그램] Traditional Programming 데이터 ==> Y = 3x + 10 [1, 3, 5] ==> Y = 3x + 10 ==> [13, 19, 25] Machine Learning [1, 3, 5] ==> Y = 3x + 10 ==> [13, 19, 25] [샘플 데이터] ==> 모델 ==.. 2023. 3. 29.
[DBMS] 트랜잭션(Transaction) - CRUD, 4대 특징 ACID, SAVE POINT, ROLLBACK, COMMIT [20] 트랜잭션(Transaction) 20.1. 트랜잭션(Transaction) DBMS에서 논리적 연산단위. 더 이상 나눌 수 없는 작업의 단위 분할할 수 없는 최소의 단위 전부 적용하거나 전부 취소한다. Transaction은 ALL or NOTHING의 개념이다. INSERT, UPDATE, SELECT, DELETE가 각각 하나의 트랜잭션에 해당된다. 하나의 트랜잭션에는 하나 이상의 SQL 문장이 포함된다. 데이터베이스 내에 읽거나 쓰는 여러 개 쿼리를 요구한다. 예를 들면, 이체를 할 때 한 계좌에서 인출되면 다른 계좌에서 입금이 확인되는 것이 중요하다. 출금(UPDATE) -> 돈 -> 입금(UPDATE)이 하나의 Tx으로 묶여야 된다. 만약 쿼리 하나가 실패하면, DBMS은 전체 트랙잭션.. 2023. 3. 28.