본문 바로가기
반응형

Study/머신러닝23

[5] 머신러닝 - 판다스 기초(4)와 사이킷런 ▶lambda 식으로 데이터 가공 판다스는 apply 함수에 lambda 식을 결합해 데이터를 가공하는 기능을 제공한다. 예제를 통해 lambda 식이 어떻게 사용되는지 알아보자. Name 칼럼의 문자열 개수를 Name_len이라는 칼럼에 넣어보자. titanic_df['Name_len']= titanic_df['Name'].apply(lambda x : len(x)) titanic_df[['Name','Name_len']].head(3) 잘 추가된 모습을 볼 수 있다. lambda 식에 if else를 사용해서 복잡하게 가공할 수 있다. 나이가 15 이하면 child, 넘으면 adult로 구분하게 했다. titanic_df['Child_Adult'] = titanic_df['Age'].apply(lam.. 2021. 6. 1.
[4] 머신러닝 - 판다스 기초(3) ▶정렬 데이터 프레임을 정렬하려면 sort_values() 함수를 사용하면 된다. 주로 입력하는 파라미터로 by, ascending, inplace가 있다. by에는 기준으로 잡고 싶은 칼럼명을 입력한다. ascending은 true로 하면 오름차순, false면 내림차순으로 정렬이 된다. 기본값은 true다. inplace가 true면 정렬된 값이 원본에 바로 적용되고 false면 정렬된 데이터 프레임을 반환한다. 디폴트 값은 false다. #titanic_df : 타이타닉 탑승자 데이터가 담긴 데이터 프레임 titanic_sorted = titanic_df.sort_values(by=['Name']) titanic_sorted.head(3) 이름이 오름차순으로 정렬된 것을 확인할 수 있다. ▶aggr.. 2021. 5. 24.
[3] 머신러닝 - 판다스 기초(2) ▶판다스 Index 객체 판다스에서 인덱스는 데이터 프레임의 레코드를 식별할 수 있는 객체다. 타이타닉 탑승자 데이터에서 인덱스 객체를 추출해보자 탑승자 데이터는 위와 같은 형태다. # 원본 파일 재 로딩 titanic_df = pd.read_csv('titanic_train.csv') # Index 객체 추출 indexes = titanic_df.index print(indexes) # Index 객체를 실제 값 arrray로 변환 print('Index 객체 array값:\n',indexes.values) 출력값은 다음과 같다. 인덱스 객체는 1차원 array로 구성되어 있고 인덱싱도 가능하다. 하지만 값을 출력하는 것만 가능하고 인덱스 객체를 수정하는 것은 불가능하다. 데이터프레임에는 rest_in.. 2021. 5. 16.
[2] 머신러닝 - 판다스 기초(1) Kaggle 데이터셋을 활용해서 pandas 기본 사용법 알아보기 캐글에 있는 타이타닉 탑승자 파일을 활용해서 pandas의 기본 사용법을 알아보자. 판다스를 활용해 데이터셋 불러오기 판다스의 핵심 객체는 데이터 프레임이다. 데이터 프레임은 표라고 생각하면 된다. 캐글에서 받은 csv 파일을 데이터 프레임으로 로딩하는 함수로는 read_csv(), read_table(), read_fwf()가 있다. read_csv()와 read_table()에는 기능 차이가 거의 없다. read_fwf()는 고정 길이 기반의 칼럼 포맷을 데이터 프레임으로 로딩하는 함수다. #csv 파일을 데이터 프레임으로 로딩하기 titanic_df = pd.read_csv('titanic_train.csv') titanic_df.h.. 2021. 5. 11.
반응형