교재링크(광고 아님): freelec.co.kr/book/인공지능을-위한-수학/

 

※ 교재에 없는 평균절대편차(평균편차, average absolute deviation)에 대해서도 간단히 기술한다.

 

 

편차(deviation)

어떤 값이 다른 값(일반적으로 평균(mean)이나 중앙값(median))과 얼마나 차이가 나는지 보이는 것. 단순히 두 값을 뺄셈한 결과이다.

 

 

절대편차(absolute deviation)

편차에 절댓값을 씌운 것.

 

 

평균절대편차(average/mean absolute deviation, AAD/MAD)

절대편차들을 모두 합한 후 평균을 낸 것. 측정 값들이 평균에서 얼마나 퍼져 있는지를 나타내는 척도 중 하나. AAD나 MAD나 같은 말.

 

 

분산(variance)

(부호 있는)편차를 제곱한 값들을 모두 합하고 평균을 낸 것을 말함. 아래와 같이 소문자 시그마나 영문자 s를 이용하는데,

$$ \sigma^2 ,\ s^2 $$

엄밀히 제곱하고 더한 값을 평균 낸 것이라 전체를 제곱으로 표기하는 건 좀 수학적이진 않아 보이는데, 아무래도 통계학(statistics) 관점의 표기라서 통용되는 것 같다.

 

 

표준편차(standard deviation)

분산에 제곱근을 한 값. 평균절대편차(MAD)와 비슷하면서도 다르다. 둘의 차이는 공부를 좀 더 한 후 따로 포스팅해보련다.

아래 표준편차 기호를 보면 분산이 왜 제곱표기인지 알 것 같기도.

$$ \sigma ,\ s $$

실제로 동일 지표에 대해 표준편차와 평균편차를 구해보면, 뭐... 막 극적으로 양상이 다르거나 하지는 않는 것 같다.

 

 

공분산(covariance)

분산은 분산인데 앞에 co- 가 붙어 공분산이라고 부른다. co- 접두사를 보아 상호작용, 상호연관 뭐 이런 단어가 떠오른다. 실제 공분산이라는 도구는 확률변수(random variable) 두 개를 적당한 조건으로 짝지어서 둘 간의 관계를 알아보고자 할 때 쓰인다. 교재의 공분산 공식은 이산(discrete)적인 데이터에 대한 것인데, 좀 더 일반화하면 기댓값 함수(E(X))로 표현이 가능한 것 같다.

$$ cov(X, Y) = E[ (X - E[X]) \cdot (Y - E[Y]) ] $$

 

만약 이 공분산을 구하는 데이터가 '과거 월별 매출 데이터'와 같은 경우에는 위의 공식에서 E(X)와 E(Y) 및 바깥의 E(...)은 모두 각각의 평균이라고 볼 수 있다. 왜냐하면 월별 데이터 같은 지표는 이미 모든 값이 도출되어 월별로 동일한 확률을 갖게 되기 때문이다. 이런 경우에는 교재의 공식과 저 일반공식이 동일해진다.

어쨌든, 위와 같은 경우라면 이 공식은 X와 Y 각 편차의 곱들에 대한 평균을 구하는 것이 된다.

공분산의 결과가 양수인 경우에는 '양의 상관관계' 즉 두 데이터의 변화 흐름이 비슷한 양상을 띄게 된다고 해석 가능하다. 반대로 음수인 경우에는 '음의 상관관계' 즉 역관계인 경우이며, 흐름이 서로 반대라고 볼 수 있다.

예를 들어 쇼핑몰의 월별매출총액과 특정고객의 월별구매액에 대해 공분산을 구했을 때, 양수가 나왔다면 쇼핑몰이 잘될때 많이 구매한 것이고, 음수가 나왔다면 안팔릴때 오히려 많이 팔아준 경우가 되겠다.

하지만, 공분산 결과만으로는 얼머나 강하게 순관계 혹은 역관계인지를 알 수 없다고 하며, 다음 절에서 강도를 구하는 방법을 알려준다고 한다.

 

 

Posted by JMAN