Activation Function

작성 2022년 11월 20일수정 2026년 7월 5일

서론

이 장은 AI에서 가장 기본적인 활성화 함수에 대해 소개한다

목차

Sigmoid
하이퍼볼릭 탄젠트(Hyperbolic Tangent Function - Tanh)
소프트맥스(SoftMax Function)
렐루(Relu -Rectified Linear Unit Function)

Sigmoid

\sigma(x) = \frac{1}{1+e^{-x}},\; e=2.718281...

시그모이드 함수 σ(x)의 출력은 (0, 1)의 범위를 갖으며 미분가능한 함수이다.

이 함수는 이진 분류(Binary Classification에서 자주 사용된다.

시그모이드의 단점으로는 0과 1로 강제 출력하는 부분에서는 학습이 잘 이루이지지 않는다.

이는 기울기 소실(Gradient Vanishing)이 일어나기 때문이다.

시그모이드의 미분함수를 보면 기울기가 \(x=0\) 에서 최대값 \(\frac{1}{4}\)을 가지고, \(x\)값이 증가함에 따라 미분값이 0에 수렴하게 된다.

즉, 역전파되는 과정에서 출력값이 현저하게 감소되는 결과를 낳는다.(0에 가까운 값끼리 곱하면 0에 계속 가까워지듯이)

하이퍼볼릭 탄젠트(Hyperbolic Tangent Function - Tanh)

시그모이드 함수를 변형한 쌍곡선 함수이다.

tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}

Tanh 함수와 Tanh미분 함수의 개형이다. 미분값의 최대값은 1로 시그모이드에 비해 4배가 크다.

하지만 여전히 시그모이드 함수의 단점인 Gradient Vanishing 문제를 해결하지 못했다.

소프트맥스(SoftMax Function)

softmax(x_i) = \frac{e^{x_i}}{\sum^n_{j=1}e^{x_j}},\\n=total\;class\;number, \; x_i=i번째\;class

시그모이드 함수를 통해 얻은 확률값은 서로 독립적이다.(출력값의 확률의 총합이 1이 넘을수도 있고 아닐 수도 있다)

소프트맥스 함수는 입력값을 [0, 1]사이의 값으로 모두 정규화하여 출력하며 출력값들의 총합은 항상 1이 되는 특성을 가진 함수이다.

따라서 다중분류(Multi-class classification)문제에서 사용한다.

예를들어 총 3개의 클래스가 있다고한다면 결과는 다음과 같다.

softmax(x) = [\frac{e^{x_1}}{e^{x_1}+e^{x_2}+e^{x_3}},\;\frac{e^{x_2}}{e^{x_1}+e^{x_2}+e^{x_3}},\;\frac{e^{x_3}}{e^{x_1}+e^{x_2}+e^{x_3}}] = [p_1,\;p_2,\;p_3]

https://henrypaik1.github.io/2019/11/09/softmax-func-derivative/

렐루(Relu -Rectified Linear Unit Function)

\[f(x) = max(0, x)\]

Relu는 자주 딥러닝에 많이 사용 되는 활성화 함수이다.

렐루는 출력값의 범위가 넓고 양수인 경우 자기 자신을 그대로 반환하기 때문에 신경망에서 Sigmoid와 tanh가 갖는 Gradient Vanishing 문제를 해결하기 위한 함수이다.

장점으로는 기존 활성화 함수에 비해 학습 속도가 매우 빠르며 단점으로는 입력값이 음수일 경우 가중치 업데이트가 되지 않아 해당 뉴런은 0만 반환하여 죽은 뉴런이 생길 수 있다는 단점이 있다.