ai 23

[CV 논문] UniSim: A Neural Closed-Loop Sensor Simulator

아래 글에서 이 블로그에서 리뷰한 논문들의 흐름과 분야별 분류를 한 눈에 볼 수 있다. 읽은 논문들 정리[목차]지속적으로 업데이트 중, 번호는 모델발전 순서가 아닌 읽은 순서에 따라 정렬.1. Computer Vision 분야 논문Classification 모델들의 발전Detection 모델들의 발전Segmentation3D 처리2. Natural Language Processapril2901.tistory.com 이번 논문은 UniSim이라고 불리는 모델에 대한 설명이다.자율주행 학습에서 시뮬레이션을 하는데 유용하게 사용될 수 있다.자율주행 모델에게 어떤 주행 영상을 주고 액션을 취하라고 하는 상황을 생각해보자.주어진 영상 속의 어느 지점에서 차가 영상에서 나오는 행동과 다른 행동을 했다면 어떻게 될..

Street-gaussian 학습환경 세팅 & 학습시켜보기

[CV 논문] Street Gaussians: Modeling Dynamic Urban Scenes with Gaussian Splatting아래 글에서 이 블로그에서 리뷰한 논문들의 흐름과 분야별 분류를 한 눈에 볼 수 있다. 읽은 논문들 정리[목차]지속적으로 업데이트 중, 번호는 모델발전 순서가 아닌 읽은 순서에 따라 정렬.1.april2901.tistory.com3DGS환경세팅처럼 이 street-gaussian의 학습환경을 세팅할 때 고통받고 있는 사람이 많을 것이다.나도 역시나 한번에 세팅이 되지 않았다. 성공한 세팅방법을 공유하려한다.추가로, 성공한 세팅에서 학습까지 시키는 과정이 글에 나와있다. OS : Ubuntu 22.04 LTS가상환경 툴 : anaconda 다른 툴들은 모두 다시 깔 ..

[3DGS 구현] 8. Densification 및 기타 util코드

utils.py에 함수 추가학습을 위한 코드를 짜보자.먼저 손실함수를 보면 SSIM이라는 지표가 있다.이를 구하는 식은 아래와 같다.두 이미지의 평균,분산을 골고루 이용해서 유사성을 평가하는 지표이다.따라서 utils.py에 이를 코드로 구현해 추가하자.def ssim(img1, img2, window_size=11, size_average=True): # 0~1 사이의 텐서 channel = img1.size(-3) window = torch.ones((channel, 1, window_size, window_size), device=img1.device) / (window_size**2) mu1 = F.conv2d(img1, window, padding=window_siz..

[딥러닝] 4. Deep Neural Network

일반적으로 layer수가 3이상이면 deep neural network라고 한다.이전 글에서 봤던 Shallow neural network와 거의 비슷하지만 deep neural network에서 사용되는 notation을 한 번 더 확인하고 넘어가자.두 번째 layer와 관련된 항들의 차원을 표시해보면 아래와 같다.$z^{[2]} = W^{[2]} a^{[1]} + b^{[2]}$$(5,1) = (5,3) (3,1) + (5,1)$ 일반화하면 아래와 같이 쓸 수 있다.$W^{[l]} : (n^{[l]}, n^{[n-1]})$$b^{[l]} : (n^{[l]},1)$ 아래 그림은 순전파와 역전파의 과정을 한 눈에 보여주는 다이어그램이다.마지막으로 파이토치를 사용해 deep neural network를 ..

CS/딥러닝 2026.03.30

[3DGS 구현] 7. Renderer 만들기

3DGS논문을 읽었다면 타일을 사용하는 rasterization에 대해 기억날 것이다.리마인드를 위해 3DGS 논문 리뷰 글에서 사진을 하나 가져왔다.이 때 전체적인 계산의 흐름은 다음과 같았다. 1. 각 타일의 범위에 포함되는 가우시안을 찾기2. 가우시안을 앞에서부터 순서대로 정렬하기3. 픽셀별로 알파블렌딩을 통해 최종 픽셀 값 구하기 이를 해주는 것이 rasterizer인데, 이는 torch로 구현을 할 수 없다.왜냐하면 (1600,1200) 크기의 이미지를 고려했을 때 7500개의 타일, 192만개의 픽셀이 나오게 된다.이 각 픽셀마다 알파블렌딩을 통해 픽셀의 값을 구해야하는데 픽셀 독립적인 계산이므로 단순히 torch로 구현이 안된다.이는 계산을 CUDA커널에 직접 커스텀해 코딩을 해야한다.논문의..

[딥러닝] 2. Shallow Neural Network / Activation function

Neural Network 이전 글에서 알아봤던 logistic regression을 아래처럼 표시해보자.이런 작은 층을 여러 개 쌓으면 Neural Network가 된다.대괄호 [ ] 는 층을 얘기한다.computation graph를 그리면 아래와 같다. 보통 입력층은 빼고 네트워크가 몇 층인지를 애기한다.따라서 아래의 그림에서는 깊이 2짜리 네트워크가 된다.아래처럼 3개의 입력(3차원)이 있다고 가정해보자.$a^{[1]}_1$같은 표현에서 지수 위치의 [ ]는 층을, 아래첨자는 각 노드의 값을 얘기한다. input layer에서 hidden layer로 넘어갈 때,각 입력들에게 가중치가 한 세트씩 곱해져 hidden layer의 각각의 노드에 들어간다.이 경우 한 세트는 3개의 가중치 값들로 이루어..

CS/딥러닝 2026.03.19

[CV 논문] Mip-NeRF: A Multiscale Representation for Anti-Aliasing Neural Radiance Fields

아래 글에서 이 블로그에서 리뷰한 논문들의 흐름과 분야별 분류를 한 눈에 볼 수 있다. 읽은 논문들 정리[목차]지속적으로 업데이트 중, 번호는 모델발전 순서가 아닌 읽은 순서에 따라 정렬.1. Computer Vision 분야 논문Classification 모델들의 발전Detection 모델들의 발전Segmentation3D 처리2. Natural Language Processapril2901.tistory.com 이전에 알아봤었던 NeRF의 단점을 보완하기 위해 나온 논문이다.그럼 NeRF의 단점이 뭔지 간략히 알아보자.NeRF는 선(ray)를 쏴서 렌더링을 한다.학습된 거리에서는 좋지만 만약 멀리있는 곳의 이미지를 그려야할 때는 문제가 발생할 수 있다.그 중 하나가 앨리어싱(aliasing)이다.한..

[딥러닝] 1. Logistic Regression

Logistic Regression에 대해 알아보자. Binary CalssificationLogistic Regression이 사용되는 대표적인 문제 중 하나인 Binary Calssification을 알아보자.두 개의 카테고리 중 어느 것에 속하는지를 분류하는 문제를 얘기한다.어떤 이미지가 고양이를 포함하는지 아닌지 파악하는 task가 있다고 하자.이 task는 이미지를 입력으로 받아 출력으로 고양이가 있을 확률을 출력한다.내부적으로는 확률이지만 최종적으로는 특정 임계값을 기준으로 이 값보다 크면 1로, 작으면 0으로 취급해서 결과를 얘기할 때도 있다. 입력인 이미지는 색깔이 있는 이미지일 경우 아래처럼 RGB채널별로 값이 있을 것이다.이 각 픽셀의 값들을 한줄로, 1차원으로 만들어 입력으로 사용한다..

CS/딥러닝 2026.03.11

[CV 논문] Mask R-CNN

아래 글에서 이 블로그에서 리뷰한 논문들의 흐름과 분야별 분류를 한 눈에 볼 수 있다.읽은 논문들 정리 읽은 논문들 정리[목차]지속적으로 업데이트 중, 번호는 모델발전 순서가 아닌 읽은 순서에 따라 정렬.1. Computer Vision 분야 논문Classification 모델들의 발전Detection 모델들의 발전3D 처리2. Natural Language Processing 분야april2901.tistory.com 이번 논문은 Mask R-CNN이다.이 논문을 읽기 전 FCN논문을 먼저 읽는 것을 추천한다.Fully Convolutional Networks for Semantic Segmentation [CV 논문] Fully Convolutional Networks for Semantic Segm..

[CV 논문] Fully Convolutional Networks for Semantic Segmentation

아래 글에서 이 블로그에서 리뷰한 논문들의 흐름과 분야별 분류를 한 눈에 볼 수 있다.읽은 논문들 정리 읽은 논문들 정리[목차]지속적으로 업데이트 중, 번호는 모델발전 순서가 아닌 읽은 순서에 따라 정렬.1. Computer Vision 분야 논문Classification 모델들의 발전Detection 모델들의 발전3D 처리2. Natural Language Processing 분야april2901.tistory.com 이번 논문은 FCN이라고 부르는 모델에 대한 논문이다. FCN은 Segmentation을 하는 모델이다.Segmentation은 픽셀 하나하나를 분류하는 것이다.Segmentation은 두 가지로 나눠지는데, 각각 Semantic Segmentation과 Instance Segmenta..