교재링크(광고 아님): freelec.co.kr/book/인공지능을-위한-수학/

 

2-1 미분의 기초

미분(derivative) : 어떤 함수의 입력의 순간변화량에 대한 출력의 순간변화량의 비율을 도출하는 함수. 다 무시하고 더 간단히 정의하면 함수 내의 임의의 점에 접하는 직선의 기울기를 나타낸다. derivative는 명사다. -ive로 끝나는 형용사처럼 생긴 명사 중 하나.

도함수(derivative) : 특정함수와 관계한 새로운 함수가 만들어지는 것이라 미분에 유도의 의미를 담아 별칭으로 쓰이는 듯.

미분(differentiation) : differentiate의 명사형이다. 즉, 미분(derivative, 도함수)를 구하는 과정을 지칭한다. 아시아권에서는 이 용어도 미분이라고 부르는 것 같다.

※ 할선(secant[line]) : 곡선형 함수(꼭 곡선이어야 한다.)의 임의의 두 지점을 지나는 직선. 이 직선이 곡선을 최소 두조각 이상으로 나누기 때문에 할선이라 부르는 듯.

접선(tangent[line]) : 곡선형 함수(꼭 곡선이어야 한다.)의 특정한 지점을 스치듯 지나가는 직선. 할선이 지나는 두 점을 극한으로 내몰아서 한 점으로 만들면 생기는 선이다. 바로 이 개념이 미분이며 접선은 그 결과물이다.

 

미분과 접선의 관계를 좀 더 정확하게 표현하면, 접선의 기울기(slope)를 나타내는 함수가 미분(도함수)이다. 왜 기울기를 나타내느냐 하면, 저 위에 미분의 정의 때문이다. 예를 들어 y = x2 이라는 2차함수의 입력이 1, 2 그리고, 99, 100이 있다고 하자. 각각의 입력에 대한 출력은 1, 4, 9801, 10000이다. 1에서 2의 변화와 99와 100의 변화는 동일하게 1이다. 하지만, 출력의 변화는 각각 3과 199다. 즉, 99~100의 변화가 1~2의 변화보다 훨씬 급격하다는 걸 뜻한다. 사실, 수학을 모르는 사람이 보더라도 2차 함수의 그래프를 보면 x=1 보다 x=99 때의 접선의 경사도가 훨씬 가파른 것을 쉽게 유추할 수 있다. 미분은 바로 이런 개념을 모든 함수에 대해 일반화 시킨 것이라고 보면 된다.

 

이제 미분(도함수)을 구하는 과정을 살펴보겠다. 미분을 구하기 위해서는 우선 할선을 구해야 한다.

할선은 직선이므로 간단히 표현 가능하다.

$$ f(x) = \alpha x + \beta $$

할선이 지나는 곡선의 두 점을 (a, f(a)), (b, f(b)) 라고 하면 아래와 같이 '알파'와 '베타'가 변수인 연립방정식이 나온다.

$$ f(a) = \alpha a + \beta $$

$$ f(b) = \alpha b + \beta $$

연립방정식의 풀이를 통해 '알파'를 구해보면,

$$ f(b) - f(a) = \alpha b + \beta - (\alpha a + \beta) = \alpha b - \alpha a = \alpha(b - a) $$

$$ \alpha = \frac{f(b) - f(a)}{b-a} $$

가 된다.

 

만약, '알파'에 대한 수식에서 b와 a가 같은 점이라면 어떻게 될까? b - a = 0 이므로 분모가 0이 되면서 불능(undefined) 지옥에 빠진다.

하지만, 지옥에서 '알파'를 구할 무적의 극한(limit)이 있다. 극한을 통해 b를 무한히 a로 보내도록 하면 되는 것이다.

$$ \alpha = \lim_{b \to a} \frac{f(b) - f(a)}{b-a} $$

 

그런데, 모양이 보기 좋지 않기 때문에 차분(differential)의 형태로 바꿔주면 수식이 예뻐진다. 즉, h = b - a 로 놓고 식을 정리하면,

$$ \alpha = \lim_{h \to 0} \frac{f(a + h) - f(a)}{a + h - a} = \lim_{h \to 0} \frac{f(a + h) - f(a)}{h} $$

 

이 되며, 여기서 h는 차분(differential)이므로 변화량을 뜻하는 '델타'로도 표현이 가능해진다.

$$ \alpha = \lim_{h \to 0} \frac{f(a + h) - f(a)}{h} = \lim_{\Delta a \to 0} \frac{\Delta f(a)}{\Delta a} $$

 

수식이 더욱 깔끔해졌지만, 수학은 기호의 학문이므로 더욱 더 간편하게 표현을 하고자 했다. 그래서, 정말 변화가 없는 듯한 변화를 뜻하기 위해 델타 대신 'd'를 쓰고, 극한도 생략해버린다.

$$ \alpha = \lim_{\Delta a \to 0} \frac{\Delta f(a)}{\Delta a} = \frac{d f(a)}{d a} $$

 

하지만, 기호와 씨름을 하는 수학자들은 이마저도 너무 불편했다. 그래서, 프라임(')이라는 기호를 통해 화룡점정을 찍었다.

$$ \alpha = \frac{d f(a)}{d a} = f'(a) $$

 

여기서 상수처럼 보이는 a는 원래의 곡선 함수의 임의의 가로 좌표였으므로 어떤 값도 대입 가능하다. 즉, a를 x로 놓아도 된다는 뜻이다.

$$ \alpha = \frac{d f(x)}{d x} = f'(x) $$

 

또, 보통은 y = f(x) 로 놓고 쓰기 때문에 최종적으로 아래와 같이 간단해 진다.

$$ \frac{d y}{d x} = y' $$

 

이 미분이 잘 작동하는지 알아보기 위해 y = x2 을 한 번 풀어보자.

$$ y' = \frac{d y}{d x} = \frac{d x^2}{ d x} = \lim_{h \to 0} \frac{(x + h)^2 - x^2}{h} = \lim_{h \to 0} \frac{x^2 + 2xh + h^2 - x^2}{h} = \lim_{h \to 0} \frac{2xh + h^2}{h} = \lim_{h \to 0} \frac{h(2x + h)}{h} $$

 

마지막 유도된 수식에서 h를 약분할 수 있을 것 같다. 사실, 극한을 씌우지 않은 상태에서는 0을 0으로 나누는 부정(indeterminate) 상태이므로 약분이 안된다. 하지만, 극한을 씌우면 약분이 된다(오묘하다.). 고로, 약분을 하게 되면 2x + h 만 남게 되며 h는 0으로 무한히 가고 있으므로, 결국 2x만 남으면서 성공적으로 미분이 완성된다.

 

$$ y' = \lim_{h \to 0} \frac{h(2x + h)}{h} = \lim_{h \to 0} (2x + h) = 2x $$

 

 

그런데... 이 중요한 미분이 어디에 쓰이는 걸까? 최소한 내가 경험했던 고교 교과 과정 내에서는 활용 분야를 배운 적이 없었다. 대학교에 들어가서야 어디에 쓰이는지 자세히 알 수가 있게 된다. 그런데, 쓰이는지를 알기 위해서는 많은 노력이 필요하다. (그래서, 나는 포기했었다.)

인공지능 분야에 역시 아주 중요하게 쓰인다지만, 왜 쓰이는지 알려면 공부가 필요한 것 같다. 정도를 걷기로 한 이상 왜 쓰이는지까지 알 수 있도록 열심히 학습할 것이다.

 

Posted by JMAN