<리뷰한 논문들의 흐름 정리 및 분류>
[목차]
지속적으로 업데이트 중, 번호는 모델발전 순서가 아닌 읽은 순서에 따라 정렬.
1. Computer Vision 분야 논문
- Classification 모델들의 발전
- Detection 모델들의 발전
- Segmentation
- 3D 처리
2. Natural Language Processing 분야 논문
3. 유명한 딥러닝 논문들
1. Computer Vision
<Classification 모델들의 발전>
AlexNet → VGGNet → GoogLeNet → ResNet → SENet →ViT → Swin Transformer
1. AlexNet [2012년]
대규모 CNN을 GPU로 학습해 ImageNet 성능을 크게 끌어올리며 딥러닝 기반 컴퓨터 비전 시대를 본격적으로 연 논문
ImageNet Classification with Deep ConvolutionalNeural Networks
2. VGGNet [2015년]
작은 3×3 합성곱을 깊게 쌓는 단순한 구조, 즉 네트워크 깊이가 성능 향상에 중요하다는 것을 보여준 논문
Very Deep Convolutional Networks for Large-Scale Image Recognition
3. GoogLeNet [2015년]
Inception 모듈을 도입해 다양한 크기의 합성곱을 병렬로 사용함으로써 연산량을 줄이면서도 높은 성능을 달성한 네트워크 구조에 대한 논문
Going Deeper with Convolutions
4. ResNet [2016년]
딥러닝의 고질적인 문제였던 '깊어질수록 학습이 안 되는 문제(Degradation)'를 단순한 더하기 하나로 해결하며, 인공지능을 100층 너머의 세계로 들어갈 수 있게 해준 논문
Deep Residual Learning for Image Recognition
5. SENet [2018년]
기존 CNN이 간과했던 채널 간의 관계를 Squeeze와 Excitation이라는 방법을 사용해서, 최소한의 비용으로 모델의 성능을 극대화하며 2017년 이미지 인식 대회를 1등한 구조에 대한 논문
Squeeze-and-Excitation Networks
6. ViT [2021년]
이미지를 격자 형태의 패치로 나누어 '단어'처럼 취급함으로써, CNN의 구조적 도움 없이 순수 Transformer만으로도 세계 최고 수준의 이미지 인식 성능을 달성할 수 있음을 증명하며 컴퓨터 비전의 패러다임을 바꾼 논문
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
7. Swin Transformer [2021년]
이미지를 계층적 구조로 모델링하고 Shifted Window라는 혁신적인 셀프 어텐션 기법을 도입하여, 연산 복잡도를 획기적으로 낮추면서도 여러 비전 작업에서 세계 최고 성능을 달성한 범용 백본 논문
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
<detection 모델들의 발전>
R-CNN → fast R-CNN → faster R-CNN → YOLO → SDD → DETR
1. R-CNN [2014년]
강력한 딥러닝(CNN)을 통한 특징 추출과 정교한 Region Proposal방식을 결합하여, 기존의 한계를 뛰어넘는 압도적인 객체 탐지 성능을 보여준 논문
Rich feature hierarchies for accurate object detection and semantic segmentation
2. fast R-CNN [2015년]
R-CNN의 중복 계산과 파편화된 학습 구조를 'RoI Pooling'과 'Multi-task Loss'로 통합하여, 딥러닝 객체 탐지 모델을 비로소 실전에서 사용 가능한 수준의 속도와 정확도로 끌어올린 기념비적인 논문
3. faster R-CNN [2015년]
영역 제안 알고리즘(Selective Search)을 제거하고, 이를 딥러닝 네트워크 내부의 RPN(Region Proposal Network)으로 통합하여 속도와 정확도를 동시에 잡은 최초의 통합형(Unified) 객체 탐지 모델을 제시한 논문
Faster R-CNN: Towards Real-Time Object Detectionwith Region Proposal Networks
4. SDD [2016년]
별도의 영역 제안(Region Proposal) 단계를 완전히 제거하고, 다양한 스케일의 특징 맵에서 컨볼루션 필터를 통해 위치와 클래스를 동시에 예측함으로써 실시간 속도와 높은 정확도를 동시에 달성한 최초의 고성능 1-Stage 객체 탐지 모델을 제시한 논문
SSD: Single Shot MultiBox Detector
5. YOLO [2016년]
기존 탐지 방법들의 순차적 과정을 없애고 단일신경망으로 박스 추론 및 클래스 분류까지 진행하여 매우 빠른 속도의 실시간 탐지를 하는 YOLO구조에 대한 논문
You Only Look Once:Unified, Real-Time Object Detection
6. DETR [2020년]
기존의 복잡한 수작업 기반 객체 탐지 파이프라인을 제거하고, 트랜스포머와 이분 매칭(Bipartite Matching) 손실을 결합하여 객체 탐지를 단순한 '집합 예측(Set Prediction)' 문제로 재정의한 논문
End-to-End Object Detection with Transformers
7. Mask R-CNN [2017년]
기존의 객체 탐지 모델인 Faster R-CNN을 확장하여, 물체의 박스(Bounding Box)를 찾는 것과 동시에 각 객체의 정교한 외곽선(Mask)을 픽셀 단위로 예측하는 인스턴스 세그멘테이션을 고안한 논문
<Segmentation>
1. FCN [2015년]
당시 모델에 비해 빠르고 정확하게 segmentation을 수행할 수 있도록 만든, 모든 층이 conv layer인 모델을 설명하는 논문
Fully Convolutional Networks for Semantic Segmentation
<3D 처리>
1. NeRF [2019년]
복잡한 3D 장면을 인공신경망(MLP)의 가중치 안에 저장하고, 볼륨 렌더링 기법을 결합하여 추가적인 기하학적 정보 없이도 여러 장의 2D 사진만으로 초실사 3D 복원을 달성한 논문
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
2. 3DGS [2023년]
기존 신경망 기반 렌더링(NeRF)의 느린 속도를 극복하기 위해 미분가능한 3D 가우시안과 타일기반 레스터라이저를 사용해 고화질과 실시간성을 동시에 잡은 논문
3D Gaussian Splatting for Real-Time Radiance Field Rendering
3. SfM [2016년]
여러 각도에서 촬영된 2D 이미지들 사이의 특징점 매칭과 카메라 궤적 계산을 통해, 사물의 3D 구조(Sparse Point Cloud)와 카메라의 위치(Pose)를 복원해내는 전통적 컴퓨터 비전 기술에 대한 논문
Structure-from-Motion Revisited
4. Mip-NeRF [2021년]
기존 NeRF의 고질적인 문제인 앨리어싱(Aliasing)과 디테일 뭉개짐을 해결하기 위해, 광선(Ray) 대신 원뿔(Cone) 형태의 절두체를 사용하여 다양한 스케일에서 일관된 고화질 렌더링을 구현한 논문
Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields
5. SAGA [2025년]
2D 세그멘테이션 최강자인 SAM의 지식을 3D 가우시안으로 이식하여, 32차원의 스케일 가변형 특징(Scale-Gated Features)을 통해 실시간(4ms)으로 계층적인 3D 객체 분할을 가능하게 한 논문
<Generative>
1. VAE [2022년]
데이터를 저차원의 잠재 공간(Latent Space)으로 압축하고 다시 복원하는 과정을 통해, 단순한 압축을 넘어 새로운 데이터를 생성할 수 있는 확률론적 생성 모델의 기초를 닦은 논문
Auto-Encoding Variational Bayes
2. Natural Language Processing
1. word2vec [2013년]
대규모 말뭉치에서 단어 주변 문맥을 예측하는 방식(Skip-gram, CBOW)을 통해 의미적으로 유사한 단어들이 벡터 공간에서 가깝게 위치하도록 학습하는 방법을 제안한 논문
Efficient Estimation of Word Representations in Vector Space
2. Negative Sampling [2013년]
소프트맥스 계산의 비효율성을 해결하기 위해 Negative Sampling을 도입하여 word2vec 모델을 대규모 데이터에서도 빠르고 안정적으로 학습할 수 있도록 개선한 방법에 대한 논문
Distributed Representations of Words and Phrasesand their Compositionality
3. GloVe [2014년]
단어 동시 등장 행렬의 전역적 통계 정보를 활용해 word2vec의 지역 문맥 기반 접근을 보완함으로써 의미 관계가 잘 반영된 단어 임베딩을 학습하는 방법을 제시한 논문
GloVe: Global Vectors for Word Representation
4. Transformer [2017년]
RNN과 CNN의 한계를 넘어 'Attention' 하나만으로 시퀀스 데이터를 처리하며, 현재의 GPT와 BERT, 비전 분야까지 인공지능의 모든 표준을 바꾼 혁명적인 논문
3. 유명한 딥러닝 논문들
1. 뉴런 모델링 [1943년]
인간의 뉴런을 처음으로 수학적으로 모델링했던 논문
A Logical Calculus of the Ideas Immanent in Nervous Activity