pandas란
pandas는 데이터 조작 및 분석을 위한 python 라이브러리다.
엑셀 파일을 읽기 위해서는 pandas에서 제공하는 DataFrame(데이터 프레임)을 사용한다.
pandas를 사용해 엑셀 파일을 읽어 생성한 DataFrame으로 원하는 조건의 데이터만 추출하거나 여러가지 데이터 조작을 쉽게 할 수 있게 된다.
라이브러리 설치
2개의 라이브러리 설치가 필요하다. pandas와 openpyxl를 설치한다.PyCharm IDE에서 쉽게 라이브러리 설치가 가능하다.
프로그램 상단의 File을 클릭해 Settings를 선택한다.


interpreter를 검색하고 Python Interpreter를 선택한다.

+ 버튼을 클릭한다.

원하는 라이브러리 이름을 검색하고 선택 후 아래 Install Package를 클릭하면 설치된다. 특정 버전을 설치하고 싶으면 우측 하단에 Specify version을 체크 후 원하는 버전을 설치하면 된다.

read_excel
python에서 pandas의 read_excel 함수를 사용해 엑셀 파일을 읽고 DataFrame을 반환받는다.
해당 포스팅에서는 아래 엑셀 파일(score.xlsx)을 읽어보겠다.

import pandas as pd
scores = pd.read_excel('./score.xlsx')
print(scores)위 코드 실행 결과는 아래와 같다. scores 변수에 읽은 엑셀 파일이 DataFrame 개체로 삽입된다.

특정 column만 조회하는 것도 가능하다.
print(new_scores[['sno', 'midterm', 'final']])
index 없이 출력하고 싶다면 아래와 같이 to_string 함수를 사용하면 된다.
import pandas as pd
scores = pd.read_excel('./score.xlsx')
print(pd.DataFrame(scores).to_string(index=False))
