본문 바로가기

인공지능(AI) 공부/혼자 공부하는 머신러닝+딥러닝

(3)
[혼공머신] 02-2. 데이터 전처리 도미 데이터 15개, 빙어 데이터 14개를 준비하고 도미와 빙어 데이터를 하나의 데이터로 합친다. 넘파이의 column_stack 함수는 전달받은 리스트를 일렬로 세운 다음 차례대로 나란히 연결하는 함수이다. 예를 들어 np.coloum_stack(([1,2,3], [4,5,6]))이라면 결과는 [[1,4], [2,5], [3,6]]이다. 넘파이의 column_stack 함수를 사용하여 생선 데이터 리스트를 일렬로 세운 다음 차례대로 나란히 연결하여 생선의 길이 데이터와 생선의 무게 데이터를 나란히 붙인다. 넘파이의 ones 함수와 zeros 함수는 각각 원하는 개수의 1과 0을 채운 배열을 만들어주는 함수이다. 넘파이의 concatenate 함수는 배열 2개를 나란히 합치는 함수이다. 넘파이의 ones..
[혼공머신] 02-1. 훈련 세트와 테스트 세트 머신러닝 알고리즘은 크게 지도 학습, 비지도 학습으로 나눌 수 있다. 지도 학습은 인간이 컴퓨터에게 데이터(문제)와 답(타깃)을 넘겨주고 관련된 규칙성을 찾아내도록 하는 학습 방법이다. 비지도 학습은 인간이 컴퓨터에게 데이터(문제)만 넘겨주고 컴퓨터가 알아서 데이터의 특성에 따라 분류하는 학습 방법이다. 지도 학습에서는 데이터와 정답을 입력(input), 타깃(target)이라고 하고, 이 둘을 합쳐 훈련 데이터라고 부른다. 머신러닝 알고리즘의 성능을 제대로 평가하려면 훈련 데이터와 평가에 사용할 데이터가 각각 달라야 한다. 평가를 위해서 다른 데이터를 준비하거나 이미 준비된 데이터 중에서 일부를 떼어 내어 활용하는데 후자의 경우를 더 많이 사용한다. 평가에 사용할 데이터를 테스트 세트, 훈련에 사용되는..
[혼공머신] 01-3. 마켓과 머신러닝 생선 이름을 자동으로 알려주는 머신러닝 프로그램 만들기 먼저 도미 데이터(길이, 무게) 15개를 준비한다.matplotlib의 pylot함수를 사용하여 도미 데이터의 산점도를 그려본다. 다음으로 빙어 데이터(길이, 무게) 14개를 준비한다. 전체적인 데이터의 분포를 알기 위해서 도미와 빙어 데이터의 산점도를 그려본다. 도미와 빙어의 길이 데이터를 리스트 length 변수에, 도미와 빙어의 무게 데이터를 리스트 weight 변수에 넣어준다. 여기서 우리가 사용하는 머신러닝 패키지가 사이킷런인데, 사이킷런은 2차원 리스트로 만들어 데이터를 처리한다. 그러므로 zip 함수와 리스트 내포 구문을 사용하여 length와 weight 리스트를 2차원 배열로 만들어 fish_data를 생성한다. fish_data에 ..