교재링크(광고 아님): freelec.co.kr/book/인공지능을-위한-수학/

 

 

데이터 세트(data set)

모델(수식 같은)을 만들기 위해 준비하는 데이터의 묶음. 학습 데이터와 테스트 데이터가 필요하다. 학습 데이터는 모델을 완성하기 위한 데이터이고, 테스트 데이터는 완성된 모델이 적합한지 검증하기 위한 데이터이다.

 

Boston Housing Dataset

보스턴 주택의 각종 정보를 담은 데이터세트. 일종의 DB relation과 tuple인 셈인데, 14개의 칼럼과 506개의 레코드(로, row)로 구성되어 있다고 한다. 1개의 레코드가 주택 한채를 나타내는 것 같지는 않고, 일정 범위의 구역(area 혹은 region)들을 나타내는 것으로 보인다. 즉, 14개의 속성으로 이루어진 506개 구역의 부동산 정보라고 보면 되겠다.

교재에서는 추정(estimate)을 원하는 변수(목적변수, 종속변수)를 MEDV라는 주택 가격의 중앙값(평균이라 생각해도 무방)을 나타내는 속성 컬럼으로 정했다. 여기에는 나머지 변수는 독립변수(설명변수)로 둔다는 의미가 포함된다.

덧붙여, 데이터의 종류(category)도 설명을 하고 있는데, 교재의 내용을 그대로 옮겨적는 것 외의 의미가 없어 생략한다.

 

Posted by JMAN