본문 바로가기
PYTHON

[PYTHON] DataFrame - Pandas

by B_E_D 2023. 4. 8.

1. 개요


    1) 판다스와 넘파이는 파이썬에서 다루는 데 사용되는 가장 대표적인 라이브러리임
    2) 데이터 분석에서 가장 많이 쓰이는 라이브러리인 판다스는 데이터프레임과 시리즈라는 두 가지 자료구조를 제공함
        - 열이 하나면 시리즈, 둘 이상이면 데이터프레임 이다.
            - 데이터프레임에서 첫 번째 열/행만 불러오면 기본적으로 판다스 시리즈로 불러옴

 

 

2. DataFrame


    1) 엑셀, 테이블, 데이터
    2) 데이터 가공, 집계, 시각화가 가능한 필수템
    3) 엑셀보다 빠르고 쉬움
    4) 노가다를 줄여줌
    5) DataFrame 은 2차원 테이블 구조임.
        - 1차원 구조인 Series 도 있음(1 row, 1 column)
        - row, column 으로 모든 원소를 구분함 (indexing)
        - Relational DB 와 완전히 호환됨
        - 하나의 column 을 기준으로 모든 원소의 data type 이 동일함

 


3. Pandas 를 사용해야 하는 이유


    1) 대부분의 정제된 데이터들은 테이블 형태로 표현됨.
       이런 테이블 형태의 데이터를 분석하기에 최적의 라이브러리임.
    2) numpy 처럼 정형화된 데이터 연산에 최적화 되어 있음. 성능이 매우 뛰어남.
    3) 다양한 정형 데이터를 통합 관리할수 있음
        - json, html, csv, xlsx, sql, ... 모두 DataFrame 으로 통일해서 표현 될 수 있음.
    4) 엑셀에서 제공하는 연산 기능을 거의 다 제공함. 편의성 좋음.





댓글