카테고리 없음

읽은 논문들 정리

CSE 2025. 12. 30. 01:57

<리뷰한 논문들의 흐름 정리 및 분류>

 

[목차]

지속적으로 업데이트 중, 번호는 모델발전 순서가 아닌 읽은 순서에 따라 정렬.

1. Computer Vision 분야 논문

  • Classification 모델들의 발전
  • Detection 모델들의 발전
  • Segmentation
  • 3D 처리

2. Natural Language Processing 분야 논문

3. 유명한 딥러닝 논문들

 


1. Computer Vision

<Classification 모델들의 발전>

AlexNet → VGGNet → GoogLeNet → ResNet → SENet →ViT → Swin Transformer

 

1. AlexNet [2012년]

대규모 CNN을 GPU로 학습해 ImageNet 성능을 크게 끌어올리며 딥러닝 기반 컴퓨터 비전 시대를 본격적으로 연 논문

ImageNet Classification with Deep ConvolutionalNeural Networks

 

2. VGGNet [2015년]

작은 3×3 합성곱을 깊게 쌓는 단순한 구조, 즉 네트워크 깊이가 성능 향상에 중요하다는 것을 보여준 논문

Very Deep Convolutional Networks for Large-Scale Image Recognition

 

3. GoogLeNet [2015년]

Inception 모듈을 도입해 다양한 크기의 합성곱을 병렬로 사용함으로써 연산량을 줄이면서도 높은 성능을 달성한 네트워크 구조에 대한 논문

Going Deeper with Convolutions

 

4. ResNet [2016년]

딥러닝의 고질적인 문제였던 '깊어질수록 학습이 안 되는 문제(Degradation)'를 단순한 더하기 하나로 해결하며, 인공지능을 100층 너머의 세계로 들어갈 수 있게 해준 논문

Deep Residual Learning for Image Recognition

 

5. SENet [2018년]

기존 CNN이 간과했던 채널 간의 관계를 Squeeze와 Excitation이라는 방법을 사용해서, 최소한의 비용으로 모델의 성능을 극대화하며 2017년 이미지 인식 대회를 1등한 구조에 대한 논문

Squeeze-and-Excitation Networks

 

6. ViT [2021년]

이미지를 격자 형태의 패치로 나누어 '단어'처럼 취급함으로써, CNN의 구조적 도움 없이 순수 Transformer만으로도 세계 최고 수준의 이미지 인식 성능을 달성할 수 있음을 증명하며 컴퓨터 비전의 패러다임을 바꾼 논문

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

 

7. Swin Transformer [2021년]

이미지를 계층적 구조로 모델링하고 Shifted Window라는 혁신적인 셀프 어텐션 기법을 도입하여, 연산 복잡도를 획기적으로 낮추면서도 여러 비전 작업에서 세계 최고 성능을 달성한 범용 백본 논문

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows


<detection 모델들의 발전>

R-CNN → fast R-CNN → faster R-CNN → YOLO → SDD → DETR

 

1. R-CNN [2014년]

강력한 딥러닝(CNN)을 통한 특징 추출과 정교한 Region Proposal방식을 결합하여, 기존의 한계를 뛰어넘는 압도적인 객체 탐지 성능을 보여준 논문

Rich feature hierarchies for accurate object detection and semantic segmentation

 

2. fast R-CNN [2015년]

R-CNN의 중복 계산과 파편화된 학습 구조를 'RoI Pooling'과 'Multi-task Loss'로 통합하여, 딥러닝 객체 탐지 모델을 비로소 실전에서 사용 가능한 수준의 속도와 정확도로 끌어올린 기념비적인 논문

Fast R-CNN

 

3. faster R-CNN [2015년]

영역 제안 알고리즘(Selective Search)을 제거하고, 이를 딥러닝 네트워크 내부의 RPN(Region Proposal Network)으로 통합하여 속도와 정확도를 동시에 잡은 최초의 통합형(Unified) 객체 탐지 모델을 제시한 논문

Faster R-CNN: Towards Real-Time Object Detectionwith Region Proposal Networks

 

4. SDD [2016년]

별도의 영역 제안(Region Proposal) 단계를 완전히 제거하고, 다양한 스케일의 특징 맵에서 컨볼루션 필터를 통해 위치와 클래스를 동시에 예측함으로써 실시간 속도와 높은 정확도를 동시에 달성한 최초의 고성능 1-Stage 객체 탐지 모델을 제시한 논문

SSD: Single Shot MultiBox Detector

 

5. YOLO [2016년]

기존 탐지 방법들의 순차적 과정을 없애고 단일신경망으로 박스 추론 및 클래스 분류까지 진행하여 매우 빠른 속도의 실시간 탐지를 하는 YOLO구조에 대한 논문

You Only Look Once:Unified, Real-Time Object Detection

 

6. DETR [2020년]

기존의 복잡한 수작업 기반 객체 탐지 파이프라인을 제거하고, 트랜스포머와 이분 매칭(Bipartite Matching) 손실을 결합하여 객체 탐지를 단순한 '집합 예측(Set Prediction)' 문제로 재정의한 논문

End-to-End Object Detection with Transformers

 

7. Mask R-CNN [2017년]

기존의 객체 탐지 모델인 Faster R-CNN을 확장하여, 물체의 박스(Bounding Box)를 찾는 것과 동시에 각 객체의 정교한 외곽선(Mask)을 픽셀 단위로 예측하는 인스턴스 세그멘테이션을 고안한 논문

Mask R-CNN

 


 

<Segmentation>

1. FCN [2015년]

당시 모델에 비해 빠르고 정확하게 segmentation을 수행할 수 있도록 만든, 모든 층이 conv layer인 모델을 설명하는 논문

Fully Convolutional Networks for Semantic Segmentation

 

 

 

 


<3D 처리>

1. NeRF [2019년]

복잡한 3D 장면을 인공신경망(MLP)의 가중치 안에 저장하고, 볼륨 렌더링 기법을 결합하여 추가적인 기하학적 정보 없이도 여러 장의 2D 사진만으로 초실사 3D 복원을 달성한 논문

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

 

2. 3DGS [2023년]

기존 신경망 기반 렌더링(NeRF)의 느린 속도를 극복하기 위해 미분가능한 3D 가우시안과 타일기반 레스터라이저를 사용해 고화질과 실시간성을 동시에 잡은 논문

3D Gaussian Splatting for Real-Time Radiance Field Rendering

 

3. SfM [2016년]

여러 각도에서 촬영된 2D 이미지들 사이의 특징점 매칭과 카메라 궤적 계산을 통해, 사물의 3D 구조(Sparse Point Cloud)와 카메라의 위치(Pose)를 복원해내는 전통적 컴퓨터 비전 기술에 대한 논문

Structure-from-Motion Revisited

 

 

4. Mip-NeRF [2021년]

기존 NeRF의 고질적인 문제인 앨리어싱(Aliasing)과 디테일 뭉개짐을 해결하기 위해, 광선(Ray) 대신 원뿔(Cone) 형태의 절두체를 사용하여 다양한 스케일에서 일관된 고화질 렌더링을 구현한 논문
Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields

 

 

5. SAGA [2025년]

2D 세그멘테이션 최강자인 SAM의 지식을 3D 가우시안으로 이식하여, 32차원의 스케일 가변형 특징(Scale-Gated Features)을 통해 실시간(4ms)으로 계층적인 3D 객체 분할을 가능하게 한 논문

Segment Any 3D Gaussians

 

 



<Generative>

1. VAE [2022년]

데이터를 저차원의 잠재 공간(Latent Space)으로 압축하고 다시 복원하는 과정을 통해, 단순한 압축을 넘어 새로운 데이터를 생성할 수 있는 확률론적 생성 모델의 기초를 닦은 논문

Auto-Encoding Variational Bayes

 

 


2. Natural Language Processing

1. word2vec [2013년]

대규모 말뭉치에서 단어 주변 문맥을 예측하는 방식(Skip-gram, CBOW)을 통해 의미적으로 유사한 단어들이 벡터 공간에서 가깝게 위치하도록 학습하는 방법을 제안한 논문

Efficient Estimation of Word Representations in Vector Space

 

2. Negative Sampling [2013년]

소프트맥스 계산의 비효율성을 해결하기 위해 Negative Sampling을 도입하여 word2vec 모델을 대규모 데이터에서도 빠르고 안정적으로 학습할 수 있도록 개선한 방법에 대한 논문

Distributed Representations of Words and Phrasesand their Compositionality

 

3. GloVe [2014년]

단어 동시 등장 행렬의 전역적 통계 정보를 활용해 word2vec의 지역 문맥 기반 접근을 보완함으로써 의미 관계가 잘 반영된 단어 임베딩을 학습하는 방법을 제시한 논문

GloVe: Global Vectors for Word Representation

 

4. Transformer [2017년]

RNN과 CNN의 한계를 넘어 'Attention' 하나만으로 시퀀스 데이터를 처리하며, 현재의 GPT와 BERT, 비전 분야까지 인공지능의 모든 표준을 바꾼 혁명적인 논문

Attention Is All You Need


3. 유명한 딥러닝 논문들

1. 뉴런 모델링 [1943년]

인간의 뉴런을 처음으로 수학적으로 모델링했던 논문
A Logical Calculus of the Ideas Immanent in Nervous Activity