스터디를 제대로 준비하지 않다보니, Pandas 사용법을 전부 잊어버렸다.
그래서 다시 머리에 저장하기 위해서 적으면서 연습합니다.
1. Pandas 를 사용하기 위한 불러오기
import pandas as pd
-> pandas 를 쓸때마다, pd 로 읽어서 사용.
2. data.csv 란 csv파일 읽기
df = pd.read_csv('data.csv')
3. Dataframe 사이즈 확인
df.shape
-> (100, 20) : (행,열) 개수
4. 칼럼의 데이터 타입을 확인
df.dtypes
->
id | int64 |
diagnosis | object |
radius_mean | float64 |
texture_mean | float64 |
perimeter_mean | float64 |
5. DataFrame 에서 중복된 줄 찾기
df.duplicated()
6. 중복된 줄 없애기
df.drop_duplicates
7. 현재 DataFrame 을 새로운 CSV 파일에 복사하기
df.to_csv('new_edit.csv')
df.to_csv('new_edit.csv', index=False)
반응형
'Dev > DataAnalysis' 카테고리의 다른 글
Pandas Sort - 정렬 (0) | 2019.06.16 |
---|---|
Data Analysis - Types of Errors (0) | 2019.06.12 |
Data Analysis - Binomial Distribution (0) | 2019.05.01 |