본문 바로가기

전체 글78

[Hands-on-ml-2] 모델 평가 [Hands-on-ml-2] 모델 평가 핸즈온머신러닝 3장에서 MNIST 숫자 데이터를 분류하는 모델을 만들었습니다. 간편하게 알아보기 위해서 숫자가 5인지 아닌지를 분류하는 분류기를 SGDClassifier로 만들었습니다. 이제 다양한 모델 평가 지표를 활용하여 모델의 성능이 어떤지 평가할 것입니다. 각각의 모델 평가 지표에 대해 알아보겠습니다. 1. 교차 검증을 사용한 정확도 측정 k-fold 교차 검증 먼저, 모든 샘플을 k개의 크기가 같은 하위 샘플로 나눕니다. 이 k개의 샘플 세트는 돌아가면서 검정 세트가 됩니다. 이때 나머지 샘플들은 모델 훈련에 사용됩니다. 최종적으로 k번의 평가 지표의 평균값을 최종 평가 지표로 사용합니다. 사이킷런의 cross_val_cross() 함수로 폴드가 3개인 k.. 2020. 7. 30.
[리눅스 우분투 18.04] 용량 확인 및 휴지통 비우기 [리눅스 우분투 18.04] 용량 확인 및 휴지통 비우기 저는 Linux Ubuntu 18.04 컴퓨터를 쓰고 있습니다. 모델 훈련을 시키는 코드를 짜고 코드를 돌리는데 다음과 같이 알 수 없는 오류가 떴습니다. 컴퓨터를 껐다가 켜니, 화면이 깜빡거리면서 Clean, ~~~ 라는 메시지가 떴습니다. 며칠 전에도 용량이 부족하다고 해서 지운적이 있는데 왜 또 오류가 뜨는 건가 싶었습니다. 휴지통을 비우지 않아서 그런것 같았습니다. 컴퓨터는 계속 켜지지 않고 깜빡거리기만 해서 결국 ssh 연결해서 휴지통을 비우는 방법을 찾아야 했습니다. 휴지통 비우기 터미널에 다음과 같이 입력하면 휴지통이 비워집니다. rm -rf ~/.local/share/Trash/files/* 용량 확인하기 터미널에 다음과 같이 입력하.. 2020. 7. 29.
[hands-on-ml-2] 범주형 데이터 다루기 [hands-on-ml-2] 범주형 데이터 다루기 핸즈온 머신러닝2 ch2에서 다룬 내용입니다. ocean_proximity는 범주형 특성을 가지고 있습니다. 대부분의 머신러닝 알고리즘은 숫자를 다루므로 이 카테고리를 텍스트에서 숫자로 변환해야 합니다. housing_cat=housing["ocean_proximity"] housing_cat.head() 텍스트에서 숫자로 변환 (OrdinalEncoder) 1) pandas의 Series.factorize() 매서드 이용 housing_cat_encoded, housing_categories=housing_cat.factorize() print(housing_cat_encoded[:10]) print(housing_categories) 2) 사이킷런의 .. 2020. 7. 25.
[python-ds-handbook] NumPy [python-ds-handbook] NumPy 파이썬 데이터 사이언스 핸드북 Numpy 중 자주 쓰는 것 모음 NumPy 모듈 불러오기 import numpy as np random으로 배열 만들기 # 재현 가능성을 위한 시드 값 np.random.seed(0) # 3*3 배열, 0과 1 사이의 난수로 채움 np.random.random((3,3)) # 정규 분포(평균=0, 표준편차=1)의 난수로 채운 3*3 배열 np.random.normal(0,1,(3,3)) #[0,10] 구간의 임의의 정수로 채운 3*3 배열 np.random.randint(0,10,(3,3)) # 3*3 단위 행렬 만들기 np.eye(3, dtype=int) numpy 속성 x3=np.random.randint(10, size.. 2020. 7. 21.