[유명 딥러닝 논문] 1. A Logical Calculus of the Ideas Immanent in Nervous Activity

CSE 2025. 9. 23. 22:13

아래 글에서 이 블로그에서 리뷰한 논문들의 흐름과 분야별 분류를 한 눈에 볼 수 있다.

ai관련해 더 자세히 알아보고 싶어 논문을 읽어보기로 했다.
읽을 논문을 어떻게 정할까 고민하다가 famous deep learning papers를 모아놓은 아래의 사이트를 발견했다.
그래서 이 사이트의 논문을 하나씩 읽고 내 스타일대로 블로그에 정리를 해보려고 한다.

내용에는 논문의 전체적인 흐름/내용 요약, 사용된 이론과 기술 등을 포함하게 노력해볼 생각이다.
만약 모르는 개념,이론이 나올경우 최대한 이해를 시도하고 내용이 간단하지 않다면 따로 글을 작성할 계획이다.

https://papers.baulab.info/

Famous Deep Learning Papers

A survey of greatest hits in deep learning research.

papers.baulab.info

<Warren S. McCulloch and Walter Pitts, A Logical Calculus of the Ideas Immanent in Nervous Activity>

먼저 제목을 봤을 때 우리 몸의 신경활동을 논리와 수학을 통해 설명해보는 내용이라고 생각할 수 있다.

이 논문이 유명한 이유를 먼저 당겨서 설명하자면,
이 논문은 뉴런 같은 생물학적인 부분을 처음으로 수리,논리적으로 해석해 ai분야의 가장 큰 기초를 마련했기 때문이다.

1. introduction

서론에서는 실제 신경계의 작동에 대한 여러 설명을 한다.

신경계는 soma와 axon으로 구성되어있는 뉴런들의 집합이고,
이 사이 연결부분인 시냅스는 한쪽 뉴런의 soma와 다른 쪽 뉴런의 axon사이에 존재한다.
고등학생 때 생물시간에 배웠듯이 뉴런은 역치라고 불리는 특정 값을 넘는 자극이 들어와야 활성화가 된다.
0.5만 활성화되거나 0.1만 활성화되는 것처럼 애매한 활성화는 없고 활성화가 되거나/안되거나의 명확한 두 가지 상태만 있다.
이를 논문에서는 all-or-none 이라고 부른다.
신호가 한 뉴런에서 다음 뉴런으로 전달될 때, 0.5ms 정도의 시간지연이 존재한다.
또 어떤 뉴런에 의해 다른 뉴런의 신호가 억제될 수 있다.
introduction의 마지막 부분에서 circular path에 대해 얘기하는데 한 뉴런이 자기자신이나 다른 뉴런에 영향을 주어 자기가 다시 영향을 받는 순환구조를 얘기하는 용어이다.
그래서 2. The Theory: Nets Without Circles 와 3. The Theory: Nets with Circles로 나눠서 논문이 진행된다.

2. The Theory: Nets Without Circles

위에서 얘기한 내용처럼 모델화를 하기위해 먼저 5가지 가정을 하고 시작한다.

<5가지 가정>

1. 뉴런의 활동은 all-or-none 이다.
2. 정해진 수의 시냅스가 잠재적인 addition시간동안 흥분해야 뉴런이 흥분된다.
3. 유일하게 의미있는 지연은 시냅스 지연이다.
4. 억제시냅스의 활동은 완벽히 뉴런의 흥분을 억제한다.
5. 신경망의 구조는 변하지 않는다.

2번의 addition 시간이라는 것은 introduction에 부연설명이 되어있는데,
여러 시냅스로부터 들어오는 input들이 더해지는 시간이라는 뜻이다.

그리고 사용할 기호, 표현, 용어들을 설명한다.

<기호, 표현, 용어>

1. $c_n$ 을 통해 뉴런을 표현한다.
2. $ N_i (t)$ 는 시간 $ t $ 에 뉴런 $c_i$가 활성화(fire)된 것을 의미한다. 이 표현은 명제라서 실제 활성화가 되었으면 True, 아니면 False를 값으로 가진다.
3. 어떤 속성 앞에 $ S $ 가 붙으면 , 이 속성이 1단위시간 전에 참이었음을 얘기한다. $S$를 여러번 사용할 때는 윗첨자로 개수를 표기한다.
4. 다른 뉴런으로부터 입력을 받지않는 말초 뉴런들이 있다.
설명을 위해 n개의 뉴런 중 p개가 이런 말초뉴런이라고 가정한다.
5. solution of $ N $ 은 $ S_i $ 형태의 식들의 집합이다. $ S_i $ 는 아래 같은 논리식이다.
$ S_i : N_{p+1} (z_1) \equiv Pr_i (N_1, N_2, ... N_p, z_1)$
여기서 함수의 인자는 외부 뉴런의 입력 신호와 시간 변수이다.
즉 어떤 신경망이 주어졌을 때, 내부의 동작을 말초뉴런(외부로부터의 신호)들과 시간변수로 설명하는 방법을 찾는 것이 solution을 찾는 것이라고 이해해볼 수 있다.
6. Realizability라는 개념이 나온다. 원하는 신경망을 설계하는 것이 가능하다면 realizable한 것이다. 5번의 solution개념과 반대라고 생각할 수 있다.
6-1. Realizable in the narrow sense
어떤 함수 $ Pr $이 주어졌을 때, 이 함수를 시간지연 없이 구현하는 신경망을 만들 수 있으면 Realizable in the narrow sense 라고한다.
6-2. Realizable in the extended sense
어떤 함수 $ Pr $ 에 시간지연 연산자인 $S$를 n번 적용해 신경망을 만들 수 있으면 Realizable in the extended sense 라고한다.
7. cyclic net, cyclic set, order
순환 신경망 (cyclic net)은 순환구조가 있는 것을 의미하고 cyclic set은 이 순환들을 없애기 위해 제거해야하는 최소한의 뉴런 집합을 의미한다. 차수(order)는 이 집합의 원소의 개수, 즉 뉴런의 수를 의미한다.

5페이지에서 논문이 해결하려는 핵심 문제 2개를 언급한다.
1. 어떤 주어진 신경망의 solution을 효과적으로 찾는 것
2. 실현가능한 논리식의 종류를 효과적으로 알아내는 것
논문 작성자들은 이 것들을 더 쉽게 표현해 놓았는데, 어떤 신경망의 행동을 계산하는 것과 특정 방식으로 행동할 신경망을 찾는 것이다. 즉 분석과 설계이다.

위의 7번 용어에 관련해서, 단순히 생각해봐도 순환신경망의 경우가 더 복잡할 것이라고 예측이 가능하다.
여기서 order가 커질수록 더 복잡해지고 분석하기 어려워지기 때문에 논문은 0차 신경망에서부터 논의가 시작된다.

<TPE>

TPE는 0차 신경망을 설명하기 위해 만든 언어이다.
아래의 법칙을 재귀적으로 따라 정의된다.
1. $p_1 [z_1] $은 TPE이다.
2. $ S1 $ 과 $S2$가 동일한 자유 변수를 갖는 TPE일 때, $ SS1 , S1 \vee S2 , S1 \bullet S2 , S1 \bullet \sim S2$ 또한 TPE이다.
3. 위 규칙들로 만들 수 없으면 TPE가 아니다.

<THEOREM 1>

THEOREM 1 : 모든 order 0 의 신경망은 TPE로 설명가능하다.

<증명>
$ \beta_1 > 0$ 인 역치를 가지는 $ c_i $ 라는 뉴런을 가정하자.
이 뉴런은 여러 흥분성 시냅스 (excitatory synapses)와 여러 억제성 시냅스(inhibitory synapses)로부터 입력이 들어온다.
어떤 뉴런 $ c_i $에 대해 이 뉴런을 발화시키기에 충분한 흥분성 입력들의 성공적인 조합을 모아놓은 것이 $ k_i $이다.

$ N_i (z_1) \equiv S \left\{ \prod_{m=1} ^ {q} \sim N_{jm} (z_1) \bullet \sum_{\alpha \in k_i} \prod_{s \in \alpha} N_{is} (z_1) \right\} $

이 식의 의미를 보면, 한 단위시간 전에 모든 억제성 입력이 잠잠했고, 동시에 역치를 넘길 수 있는 흥분성 입력 조합 중 하나 이상이 활성화되었을 때 뉴런 $c_i$가 발화한다는 것이다.
즉 어떤 뉴런은 직전 단계의 뉴런들의 활동으로 설명이 가능하고 재귀적으로 이 뉴런들도 계속 이전 뉴런들의 활동으로 설명이 가능하다.
이 신경망은 순환신경망이 아니기 때문에 언젠가는 끝이 난다.
따라서 최종적으로는 외부입력(말초뉴런)과 시간지연만으로 신경망이 설명이 가능하다.

이 식은 모두 TPE로 이루어져 있고 논리 연산을 수행해도 TPE의 정의에 의해 TPE가 유지되기 때문에, 증명이 되었다.

<THEOREM 2>

THEOREM 2 : 모든 TPE는 0차 신경망으로 구현 가능하다.

<증명>
가장 간단한 TPE인 $ p_1 (z_1) $은 뉴런 하나로 바로 구현이 가능하다.
또 여러 논리 연산들을 그림으로 나타냈는데
(a)는 시간지연, (b)는 OR연산, (c)는 AND연산, (d)는 AND NOT을 의미한다.

따라서 위 두가지 사실로부터 복잡한 TPE이더라도 순환고리가 없는, 즉 0차 신경망으로 구현이 가능하다는 것을 알 수 있다.

<THEOREM 3>

THEOREM 3 : 기본 명제들을 여러 논리 연산으로 연결하여 만들어진 복잡한 문장 $S_1 $이 TPE일 필요충분조건은 다음과 같다:
$S_1$의 구성요소인 모든 명제들을 false라고 가정했을 때 $S_1$도 false가 되어야 한다.
( $S_1$이 TPE이다. ↔ 모든 명제들이 F일때, $S_1$도 F가 되어야 한다.)

이 문장은 아래의 2가지 문장과 같은 의미라고 얘기한다.

해당 문장의 진리표(truth table)에서 모든 입력이 'F'인 마지막 줄의 결과값이 'F'여야 한다.
해당 문장을 논리식의 한 형태(힐베르트 선언적 표준형)로 변환했을 때, 모든 항이 부정(negation)으로만 이루어진 항이 없어야 한다

<증명>
필요조건과 충분조건으로 나눠 증명한다.

먼저 TPE를 만드는 기본적인 연산들 $ S_1 \vee S_2 , S_1 \bullet S_2 , S_1 \sim S_2 $는 $S_1 , S_2$가 거짓이면 전체 식의 결과도 항상 거짓이므로 성립한다.

또, 여러 논리 연산으로 연결된 식은 여러 AND를 OR로 연결한 형태로 변환이 가능하다.
그리고 조건에 따라, 이 AND 항들 중 적어도 하나는 부정되지 않은(negated) 기본 명제를 포함하게 된다.
다음 부분에서는 위 구조의 식은 TPE가 되므로 결국 전체 식이 TPE가 된다고 증명한다.

<THEOREM 4>

THEOREM 4 : 억제 시냅스의 두 가지 메커니즘인 상대적 억제와 절대적 억제는 등가이다.

이 블로그 글에서는 언급하지 않았지만 논문 초반 억제 시냅스의 두 가지 메커니즘을 설명한다.
절대적억제는 어떤 입력신호가 들어오는지에 상관없이 억제성시냅스가 활성화되면 무조건 뉴런의 활동을 억제한다.
이 논문에서는 위의 두 가지 억제 중 절대적억제를 기본 가정으로 채택했다.
상대적억제는 억제성 작용이 뉴런의 역치를 높이는 것이다.

이 논문에서 임의로 절대적억제를 채택했기때문에 상대적억제의 경우에도 문제가 없다는 것을 증명하기 위해 Theorem 4가 나왔다.

<증명>
1. 상대적 억제 → 절대적 억제
아래 그림이 상대적 억제를 절대적 억제로 바꾸는 방법을 보여준다.
뉴런 c4가 있고, c1은 억제성 입력을, c2와 c3는 흥분성 입력을 제공한다고 가정하자.
이 신경망이 모방하려는 상대적 억제 뉴런은 기본 역치가 1이고,
억제성 입력(c1)이 활성화되면 역치가 2로 상승하는 뉴런이라고 가정할 수 있다.

$ N_4(t) :\equiv: \sim N_1(t-1) \cdot [N_2(t-1) \lor N_3(t-1)] \cdot\lor\cdot N_1(t-1) \cdot N_2(t-1) \cdot N_3(t-1) $
이 그림을 식으로 나타내면 위와 같다. 두가지 경우로 나눠 생각해보자.

1-1) 억제성 입력이 없는 경우($N_1(t-1)$이 거짓):
위 논리식에서 첫 번째 항$ \sim N_1 (t-1) \cdot [N_2(t-1) \vee N_3(t-1)$만 참이 될 수 있다. $N-1(t-1)$이 거짓이므로, 이 항은 $[N-2(t-1) \lor N_3(t-1)$로 단순화된다. 이는 N2 또는 N3 중 하나만 발화해도 N4가 발화함을 의미한다. 이는 역치가 1인 것과 기능적으로 동일하다.

1-2) 억제성 입력이 있는 경우 ($N_1(t-1)$이 참):
논리식에서 첫 번째 항은 거짓이 되고, 두 번째 항$ N_1(t-1) \cdot N_2 (t-1) \cdot N_3(t-1) $ 만 참이 될 수 있다. 이 항이 참이 되려면 $N_1, N_2, N_3$ 가 모두 발화해야 한다. 그런데 이미 억제성 입력이 있다고 가정했기 때문에 $N_1(t-1)$ 은 참이고, $N_2, N_3$ 만 참이면 된다.
발화에 필요한 뉴런이 2개라는 점에서 역치가 2인 뉴런을 정확히 모방했다고 할 수 있다.

2. 절대적 억제 → 상대적 억제
단순히 억제성 뉴런에 엄청나게 큰 가중치를 부여하기만 하면된다.
이 뉴런이 활성화만 된다면 어떤 조합으로도 역치를 넘기지 못할 것이기 때문이다.

따라서 정리4가 증명되었다.

<THEOREM 5>

THEOREM 5 : 소멸과 절대적 억제는 등가이다.

소멸은 신경 활동 이후에 일시적으로 반응성이 변하는 현상을 지칭한다.
이를 뉴런 $c_i$가 발화한 후, 그 역치 $\theta_i$가 시간적으로 변하는 것으로 표현할 수 있다.
구체적으로, 발화 후 $j$ 시간 단위 동안 역치가 $\theta_i + b_j$로 변하는 수열로 표현된다. $ j $가 충분히 크면 $b_j = 0$이 된다.
이는 생물학적 뉴런의 불응기(refractory period)나 활동 후 피로 현상을 의미한는 것으로 볼 수 있다.

<증명>
1. 절대적 억제 → 소멸
뉴런$c_i$에서 시작하여 다시$c_i$로 돌아오는 $M$개의 피드백 회로$F_1, F_2, ... ,F_M$ 를 구성한다. 각 회로 $F_j$ 는 각각 $1,2, ...,M$개의 뉴런을 포함하도록 설계된다. $c_i$ 가 발화하면, 이 신호는 모든 피드백 회로로 전달된다.
회로 $F_j$는 $j$개의 뉴런을 포함하므로, 신호가 이 회로를 한 바퀴 돌아 $c_i$에 다시 도달하기까지는 정확히 $j$단위의 시냅스 지연 시간이 걸린다.
이 회로의 끝은 $c_i$에 $b_j$개의 억제성 시냅스를 통해 연결된다. 따라서 $c_i$가 한 번 발화하면, 그 결과로 1 단위 시간 후에는 $F_1$ 으로부터 $b_1$강도의 억제 신호가, 2 단위 시간 후에는 $F_2$로부터 $b_2$강도의 억제 신호가,..., $M$ 단위 시간 후에는 $F_M$ 으로부터 $b_M$ 강도의 억제 신호가 순차적으로 $c_i$에 도착한다. 이는 정확히 '소멸' 현상, 즉 발화 후 시간에 따라 역치가 $\theta_i + b_j$ 만큼 증가하는 효과를 완벽하게 모방한다.

2. 소멸 → 절대적 억제

위의 그림을 식으로 나타내면 다음과 같다.
$N_3(t) \equiv N_2(t-2) \cdot \sim N_1(t-3)$
이 식은 $t-3$시점에 발화했던 $N_1$뉴런이 다음시점에 발화하는 $N_2$뉴런을 억제한다는 의미이다.
이 회로 자체를 하나의 소멸뉴런으로 볼 수 있다.

<THEOREM 6>

THEOREM 6 : 촉진과 시간적 가중은 공간적 가중으로 대체될 수 있다.

시간적 가중 (Temporal Summation): 서로 다른 시간에 동일한 시냅스(들)에 도착하는 임펄스들을 통합하는 과정이다. 논문은 이 현상이 자신들의 가정하에서는 "단일 뉴런에게는 불가능하며", "경험적으로 망의 구조적 속성에 의존한다"고 명시한다.
공간적 가중 (Spatial Summation): 동일한 시간에 서로 다른 시냅스에 도착하는 임펄스들을 통합하는 과정이다. 이는 매컬러-피츠 뉴런의 기본 작동 방식으로, "잠재적 가중 기간 내에" 충분한 수의 시냅스가 흥분하면 발화한다.
촉진 (Facilitation): 선행 활동이 후속 자극에 대한 뉴런의 반응성을 높이는 관련 현상이다.

<증명>
예를 들어, 어떤 뉴런이 $t-2, t-1, t$시간에 순차적으로 도착하는 세 개의 신호를 시간적으로 통합해야 한다고 가정하자. 이 시간적 문제를 공간적 문제로 변환하기 위해, $t-2$ 시간의 신호는 2개의 뉴런으로 구성된 지연 사슬을 통과시키고, $t-1$시간의 신호는 1개의 뉴런으로 구성된 지연 사슬을 통과시킨다. $t$ 시간의 신호는 직접 전달한다. 이렇게 하면, 원래는 서로 다른 시간에 출발했던 세 신호가 모두 정확히 $t$시간에 목표 뉴런에 '동시에' 도착하게 된다.

아래 그림은 시간적 순서를 공간적으로 바꿀 수 있다는 것을 보여주는 회로이다.
$N_1$이 $t-1, t-2$에 연달아 발화되어야지만 $N_2$가 발화한다.

<THEOREM 7>

THEOREM 7 : 가변 시냅스는 순환 회로로 대체될 수 있다.

가변 시냅스의 설명을 위해 순서대로 연결된 뉴런 A,B를 가정하자.
B는 약한 연결을 가지고 있어 A가 발화하더라도 신호를 받지 못한다.
하지만 어느 순간 A와 B가 같이 발화되면 그 시점 이후로는 A의 발화가 제대로 B로 전달되게 된다.
B가 논문에서 얘기하는 가변 시냅스이고, 학습이 되는 뉴런이다.

theorem 7은 이 가변 시냅스가 순환회로가 있는 정적 뉴런들로 만들 수 있다는 것이다.

<증명>

위 그림을 나타내는 식이다.
$ N_3(t) \equiv N_2(t-1) \vee N_1(t-1) \cdot (Ex) t-1 \cdot N_1(x) \cdot N_2(x) $

1번 뉴런은 처음에는 3번 뉴런을 발화시킬 수 없다.
2번 뉴런이 활성화 되면 학습이 적용된다.
3번 뉴런은 가변 시냅스와 같은 결과를 모방하는 뉴런이다.

식의 (Ex)부분은 $t-1$ 이전의 어떤 시간 $x$에 $N_1,N_2$가 모두 발화한 적이 있다는 것을 의미한다.

2번 뉴런이 발화하면 순환구조 안에 항상 신호가 있게 된다.
이때부터는 1번만 발화되더라도 루프 내의 신호와 합산되어 3번 뉴런의 역치를 넘을 수 있게 되어
1번 뉴런으로 3번 뉴런을 발화시키는 것이 가능해진다.

결국 가변 시냅스의 역할을 성공적으로 모방한 것이다.

3. The Theory: Nets with Circles

이전 섹션의 '순환 회로가 없는 신경망'은 입력이 주어지면 출력이 즉시 결정되는, 마치 간단한 논리 회로와 같았다.
하지만 인간의 두뇌는 기억, 지속적인 활동 등 훨씬 복잡한 일을 수행한다.
'순환 회로가 없는 신경망'은 입력이 사라지면 출력을 유지할 방법이 없으므로 기억을 모델링할 수 없다.
논문은 이 문제를 해결하기 위해 뉴런의 출력이 다시 입력으로 돌아오는 '순환 회로(Circle 또는 re-entrant path)' 라는 개념을 도입했다. 신호가 이 회로 안에서 계속 맴돌 수 있게 되면서, 신경망은 과거의 정보를 '기억'하고 유지하는 능력을 갖게 된다.

순환이 없는 2. The Theory: Nets Without Circles 에서 사용한 TPE보다 더 복잡한 수학 체계를 사용한다.
여태까지 사용했던 $N_1(t)$와 달리 더이상 한 시간시점의 상태에만 의존하지 않는다.
이제는 하나 이상의 시점 상태에 영향을 받는다.

<THEOREM 8>

THEOREM 8 : 신경망 N의 순환 집합에 속한 뉴런들에 대한 공식(9)는 순환 집합 뉴런들의 활동을 이용해 다른 뉴런들의 활동을 표현하는 특정 TPE들과 함께 신경망 N에 대한 해법을 구성한다.

공식(9)의 의미를 먼저 살펴보자.
이 공식은 순환 집합에 속한 특정 뉴런이 현재 시간 $t$에 발화할지 여부를 결정한다. 공식은 "시간 0부터 현재까지 신경망의 상태 전이 규칙을 위반하지 않는 유효한 활동의 '역사(history)'가 존재할 경우에만 해당 뉴런이 발화한다" 는 것을 수학적으로 표현한 것이다.
즉, 이 공식은 순환 루프의 동적인 행동을 시간에 따라 펼쳐서 과거 입력과 초기 상태에 대한 함수로 풀어낸 것이다.

다른 뉴런들이 의미하는 것은 순환집합에 속하지 않는 뉴런들이다.
즉, 피드백 루프의 일부가 아닌 뉴런이다. 위에서도 사용한 TPE를 사용해 기술할 수 있다.
다만 이번에는 순환구조에 공식(9)를 적용시긴 출력값도 변수로 사용하게 된다.

이렇게 함으로서 신경망의 모든 내부 뉴런을 외부 입력과 초기상태의 함수로 기술(solution)할 수 있게 된다.

net with circles부분은 식이 너무 많아 식 자체를 뜯어보기보다는 의미 정도를 설명하고 넘어가려고 한다.

먼저 순환신경망에 있는 뉴런들의 활동은 다른 뉴런들과 구심성 신경(peripheral afferents)의 함수로 표현된다. 식(2)
반복적인 대입으로 인해 $t$에서의 뉴런상태가 시간 $t-n$에서의 순환 집합 상태에 의존하는 재귀 방정식으로 변환된다. 식(3)
이후 이 표현은 논리의 곱의 합(sum-of-products) 형태인 선언적 정규 형식(disjunctive normal form)으로 바뀐다. (식4)

아래 식의 의미는 다음과 같이 해석할 수 있다.
"현재 시간 $t$에 뉴런 $i$가 발화하는 것은, 유효한 초기 조건$N_{\phi(0)}(0)$에서 시작하여 신경망의 전이 규칙$P$에 따라 진화하고 현재 순간에 상태 $i$로 끝나는 유효한 과거 상태들의 순서$\phi$가 존재하는 것과 동치이다."
$N_i(t) \equiv (E \phi) (x)t-1 . \phi(x) \leq 2^p . \phi (t) = i . P \left [ \phi(x+1), \phi(x), N_{\phi(0)}(0) \right] $

$(E\phi)$: 어떤 함수 $\phi$가 존재한다는 의미
$\phi$: 이 함수는 순환 집합의 상태에 대한 전체 역사를 나타낸다. $\phi(x)$는 시간 $x$에서의 시스템 상태이다.
$(x)t-1$: "시간 $t-1$까지의 모든 시간 $x$에 대해" 라는 의미이다.
$\phi(x)\le2^p$: 임의의 시간 $x$에서의 상태는 순환 집합 내 $p$개 뉴런이 가질 수 있는 $2^p$개의 가능한 상태 중 하나여야 한다.
$\phi(t)=i$: 이 역사는 현재 시간 $t$에 특정 상태 $i$로 귀결되어야 한다.
$P[...]$: 상태 전이 규칙이다. 이 술어는 역사의 모든 단계에서 시간 $x+1$에서의 상태($\phi(x+1)$)가 시간 $x$에서의 상태($\phi(x)$)와 그 시점의 외부 입력(술어 $P$에 포함됨)으로부터 도출되는 유효한 결과임을 주장한다. $N_{\phi(0)}(0)$ 항은 $t=0$에서의 신경망 초기 상태에 대한 의존성을 나타낸다.

너무 추상적인 느낌이지만 간단히 정리하면,
순환구조에서 재귀적인 식들을 모두 처리하여 결국 최종 식에서 순환적 의존성을 없애고, 초기상태와 외부입력에만 의존하도록 한 수학적 내용이라고 생각할 수 있다.

<THEOREM 9>

THEOREM 9 : 어떤 클래스들의 집합이 prehensible classes가 되기위한 필요충분조건을 다룬다.

정리9에서 나오는 개념으로 Prehensible classes가 있다.
이 용어에 대한 간단한 설명은 아래와 같다.

클래스: 단순히 뉴런의 활동 이력(history)들의 집합이다. 각 이력은 특정 시간까지의 모든 외부 입력과 모든 뉴런의 발화 여부를 담고 있다.
파악 가능 (Prehensible): 어떤 행동이 '파악 가능하다'는 것은, 그 행동을 정확히 수행하는 물리적인 신경망이 존재한다는 의미다.

정리9에서 얘기하는 필요충분조건은 논문 13페이지의 식(14)로 복잡하게 표현된다.
아주 간단하게 정리하면
'어떤 행동이 신경망으로 구현 가능하려면,
그 행동의 미래 상태가 오직 과거 상태로부터 유한한 논리 연산과 시간 지연만으로 예측 가능해야 한다.'
는 의미이다.

그러나 정리 9는 어떤 행동이 신경망으로 구현 가능한지에 대한 완벽한 이론적 조건을 제시했지만, 그 조건을 실제로 검증하는 것은 거의 불가능에 가깝다고 논문은 얘기한다.
$2^{2^p}$개에 달하는 엄청난 수의 함수 클래스를 모두 탐색해야하기 때문이다.

정리10은 좀 더 간결하고 실용적인 조건을 제공한다.

<THEOREM 10>

THEOREM 10 : 정리 9가 '무엇이 가능한가'를 이론적으로 얘기했다면, 정리 10은 '이런 것들은 확실히 가능하다'고 보장되는 구체적인 기능들과 이 기능들을 어떻게 구현하는지를 얘기한다.

0. 먼저 구현이 보장되는 논리 함수(행동)들의 집합을 K라고 하자.
1. 먼저 '2. The Theory: Nets Without Circles'에서 다뤘던 순환이 없는 신경망으로 만들 수 있는 모든 기능은 K에 포함된다.
2. 만약 어떤 행동이 집합 K에 속한다면 그 행동을 기반으로 만든 아래의 행동들도 집합K에 속한다.
2-1). 과거의 모든 시간동안 항상 참이었는지 확인하는 행동
2-2). 과거에 적어도 한 번 참이었는지 확인하는 행동
2-3). 현재 시간을 n으로 나눈 나머지가 m과 같은지 확인하는 행동
3. 이 규칙들을 통해 만들어지는 것 외에는 K에 속하는 원소는 없다.

<증명>
2-2). 특정 뉴런이 '해당 논리함수(행동)이 참일 때' 또는 '바로 한 시간단위 전에 자기 자신이 이미 발화했을 때' 발화하도록 만든다.
2-1). 해당 논리함수(행동)이 참인 동안에만 자기자신을 활성화 시키도록 만든다.
2-3). n개의 뉴런을 순서대로 연결해 간단한 루프를 만든다.

아래는 전체 theorem에 대한 간단한 정리이다.

순환이 없는 신경망 (Nets Without Circles)

정리 1: 순환(루프)이 없는 모든 신경망의 행동은 TPE(시간 명제 표현식)라는 특정 논리식으로 완벽하게 기술될 수 있다.
정리 2: TPE로 표현 가능한 모든 논리적 행동은 순환이 없는 신경망으로 물리적으로 구현(realizable)될 수 있다.
정리 3: 어떤 논리식이 TPE인지 아닌지를 판별할 수 있는 효과적인 테스트 방법을 제공하여, 신경망으로 구현 가능한지 미리 확인할 수 있게 한다.
정리 4: 억제성 입력이 뉴런을 완전히 막는 '절대적 억제'와 단순히 역치를 높이는 '상대적 억제'가 계산 능력 면에서 동등하다.
정리 5: 뉴런이 발화 후 일시적으로 역치가 변하는 '소멸(extinction)' 현상 역시 고정된 신경망 구조로 모델링할 수 있다.
정리 6: 입력 신호의 타이밍에 의존하는 '시간적 가중' 효과를 시냅스 연결 개수에 의존하는 '공간적 가중'으로 대체할 수 있다.
정리 7: 시냅스 강도가 변하는 '학습'과 같은 동적인 변화를, 고정된 구조를 가진 순환(루프) 회로로 구현할 수 있다.

순환이 있는 신경망 (Nets with Circles)

정리 8: 순환(루프)이 있는 복잡한 신경망의 행동을, 초기 상태와 입력의 전체 역사에 기반한 단일 수학 공식으로 기술한다.
정리 9: 어떤 행동이 신경망으로 구현 가능하기 위한 필요충분조건을 제시한다.
정리 10: 기억(한정사)과 타이밍(모듈러 연산) 같은 기능을 구현하는 방법을 제시하여, 복잡한 행동을 수행하는 신경망을 실제로 설계할 수 있는 실용적인 방법을 설명한다.

4. 의의

이 논문은 뉴런의 물리적 네트워크인 뇌가 어떻게 논리, 기억, 그리고 계산을 구현할 수 있는지에 대해 생각할 수 있는 최초의 아이디어를 제공했다. 이를 통해 이론 신경과학과 인공지능이라는 전체 분야가 탄생하게 되었다.

'AI' 카테고리의 다른 글

miniconda를 사용한 가상환경 관리법 (0)	2026.03.03
딥러닝의 핵심 개념 (0)	2026.01.09
[AI] Vanishing Gradients (1)	2025.12.21

현재글[유명 딥러닝 논문] 1. A Logical Calculus of the Ideas Immanent in Nervous Activity

code the world

한양대학교 컴퓨터소프트웨어학부 일상 블로그 : https://blog.naver.com/april2901

Python, complier, 이미지처리, 3dgs, 가우시안, 3D복원, 알고리즘, softeer, ai, 인공지능, 파이썬, 자연어처리, Computer Vision, 현대자동차, nlp, 백준, 문제풀이, 신경망, 소프티어, 컴퓨터비전,

Today :
Yesterday :

code the world

[유명 딥러닝 논문] 1. A Logical Calculus of the Ideas Immanent in Nervous Activity