nlp 12

[NLP 논문] Attention Is All You Need

아래 글에서 이 블로그에서 리뷰한 논문들의 흐름과 분야별 분류를 한 눈에 볼 수 있다.읽은 논문들 정리 읽은 논문들 정리[목차]1. Computer Vision 분야 논문2. Natural Language Processing 분야 논문3. 유명한 딥러닝 논문들 지속적으로 업데이트 중1. Computer Vision1. AlexNet [2012년]대규모 CNN을 GPU로 학습해 ImageNet 성능을 크게 끌어올april2901.tistory.com 이번 논문은 트랜스포머 구조를 처음 제시한 것으로 매우 유명한 논문이다.이 링크를 클릭하면 논문으로 넘어간다. CV 분야 공부를 위해 이 논문을 읽게 되었지만 근본은 NLP분야에서 쓰인 논문이라서 NLP로 카테고리를 설정했다.1. Introduction이 당..

[CV 논문] Deep Residual Learning for Image Recognition

아래 글에서 이 블로그에서 리뷰한 논문들의 흐름과 분야별 분류를 한 눈에 볼 수 있다.읽은 논문들 정리 이 논문은 ResNet에 대한 설명을 담고있다.전체논문1. Introduction이전 논문들에서 깊이를 키우는 것이 복잡한 특징 추출을 더 잘해서 성능을 높이는데 큰 도움이 되었다고 얘기를 했다.깊은 모델의 문제인 vanishing gradient같은 문제는 여러가지 방법을 통해 개선이 되었다.하지만 추가적인 문제가 있었다.Degradation라고 부르는 더 깊은 모델이 에러율이 더 높게 나오는 현상이 발생했다.저자들은 "20층짜리 모델이 풀 수 있는 문제는 55층짜리 모델도 당연히 풀어야 하는 것 아닌가?"라고 생각했지만 실험결과는 그렇지 않았다.여기서 20층 이후의 층들은 단순히 들어오는 입력만 그..

[Stanford 강의] Lecture 5 : Recurrent Neural Networks

과적합과 정규화이전에는 과적합이 좋지 않은 것으로 여겨졌지만, 현대의 거대 모델들은 훈련 데이터에 거의 완벽히 과적합 되도록 학습시킨다.만약 정규화를 잘 수행했다면 모델은 훈련 데이터가 아닌 다른 데이터에도 잘 일반화되기 때문이다. 정규화는 여러가지 방법이 있지만 이 중 Dropout이라는 방식을 알아보자.과제 2에서 이미 한번 나온 개념이지만, 다시 얘기하면 훈련 중에 중간 layer에서 몇몇 입력을 버리는 것이다.이를 위해 0과 1로 이루어진 마스크 행렬을 요소별 곱셈을 하면 된다. 이렇게 하면 모델은 하나의 입력에 강하게 의존할 수 없다.이 입력이 가끔 사라진 상태로 학습도 되기 때문이다. 테스트 시에는 모든 입력을 활성화 시킨다. 이게 좋은 이유에 대한 해석은 몇가지가 있는데,1. Feature ..

[Stanford 강의] Assignment2

Stanford대학교의 nlp강의 cs224n수업의 2주차에 해당하는 과제이다. 과제 문서는 이 링크에서 확인할 수 있다.https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1246/assignments/a2.pdf 이번 과제는 word2vec의 수학적 원리를 알아보고, neural dependency parser를 만들어보는, 총 두 개의 큰 주제로 나눠져 있다.아래의 내 답은 틀릴 수 있다는 것을 감안해야한다. 1. Understanding word2vecskip-gram에 대해 다시 기억을 되짚어 보면,중심단어가 주어졌을 때 주변단어가 올 확률을 높이는 방식으로 학습했다는 것을 기억할 수 있다.다만 실제로는 확률을 최대화 하는 대신 손실함수를 최소화하..

[Stanford 강의] Lecture 4 : Dependency Parsing

이번 강의는 좀 추상적인 느낌이 드는 강의였다. 이번 글은 강의에서 언급된 아래 내용들을 알아보자.Dependency GrammarGreedy Transition-based ParsingNeural Dependency ParsingGraph-Based Dependency ParsingDependency Grammar문장의 단어들 사이에 화살표를 그려 의존성을 표현한다.화살표를 그리는 방향은 중심어에서 의존어 방향이다. 여기서 ROOT는 추가로 삽입된 부분인데, 분석의 시작을 의미하는 역할로 분석을 조금 편하게 하기 위해 존재한다. 이 의존관계는 트리로 표현했을 때 연결이 되어있어야 하고, 순환이 없어야하고, 루트가 하나여야한다. 대부분의 문장에서 화살표를 그리면 서로 교차되는 일은 없다. (proje..

[Stanford 강의] Assignment1

지금 듣고 있는 스탠포드 대학교의 자연어처리 수업은 단순히 유투브로 수업만 볼 수 있는 것이 아니고 과제도 직접 해 볼 수 있다. Natural language processing (NLP) is a crucial part of artificial intelligence (AI), modeling how people share information. In recent years, deep learning appro" data-og-host="web.stanford.edu" data-og-source-url="https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1246/" data-og-url="https://web.stanford.edu/class/arc..

[NLP 논문] GloVe: Global Vectors for Word Representation

아래 글에서 이 블로그에서 리뷰한 논문들의 흐름과 분야별 분류를 한 눈에 볼 수 있다.읽은 논문들 정리 논문 보기 : https://nlp.stanford.edu/pubs/glove.pdf 이전 논문들과 똑같이 Stanford 강의의 1주차 내용과 연관된 논문이다.다만 이전 논문 2개 (word2vec, negative sampling)은 Lecture1, 이번 논문은 Lecture2와 연관된 논문이다.위 논문들을 읽고 정리한 글들은 이 블로그의 논문읽기 카테고리에 들어가면 볼 수 있다. 이 논문은 이름처럼 GloVe 모델에 대한 내용이다. 연관되는 강의인 stanford 강의 Lecture2에 대한 내용정리는 아래 링크에 있다. [Stanford 강의] Lecture 2 : Word Vectors a..

[Stanford 강의] Lecture 3 : Backpropagation, Neural Network

비선형성이전 강의의 강의자료 후반에도 있던 여러개의 층으로 된 신경망 그림이다. 여기서 중간 층들은 스스로 다음 층에 넘겨줄 좋은 값이 무엇인지 학습하게 된다.이 특성이 다른 머신러닝보다 신경망을 더 강력하게 만든 요인이다. 층 사이의 계산이 어떻게 되는지 자세히 알아보자.각각의 주황색 노드는 로지스틱 회귀를 한다고 생각할 수 있다. 옆의 그림에서 $a_1 = f(W_{11} x_1 + W_{12} x_2 + W_{13} x_3 + b_1)$$a_2 = f(W_{21} x_1 + W_{22} x_2 + W_{23} x_3 + b_2)$처럼 계산된다. 위 식의 모든 변수는 스칼라인데 이를 벡터로 바꾸면 식을 간단하게 쓸 수 있다.$ z = Wx +b$$a = f(z)$ $f()$는 비선형 함수인데, 이..

[NLP 논문] Distributed Representations of Words and Phrasesand their Compositionality

아래 글에서 이 블로그에서 리뷰한 논문들의 흐름과 분야별 분류를 한 눈에 볼 수 있다.읽은 논문들 정리이전 논문 리뷰와 마찬가지로 이 논문도 스탠포드 강의 1강에서 읽을거리로 언급되었다.2025.11.19 - [논문읽기] - [NLP 논문] Efficient Estimation of Word Representations inVector Space [NLP 논문] Efficient Estimation of Word Representations inVector Space2025.11.10 - [자연어처리(NLP)] - [NLP 이론] Stanford CS224N - Lecture 1 : Intro and Word Vectors [NLP 이론] Stanford CS224N - Lecture 1 : Intro ..

[NLP 논문] Efficient Estimation of Word Representations in Vector Space

아래 글에서 이 블로그에서 리뷰한 논문들의 흐름과 분야별 분류를 한 눈에 볼 수 있다.읽은 논문들 정리아래 글에서 얘기한 word2vec방법을 처음으로 제시하는 논문이다. 스탠포드 강의 사이트에 같이 읽을 거리로 올라와 있어 읽어보았다.2025.11.10 - [자연어처리(NLP)] - [NLP 이론] Stanford CS224N - Lecture 1 : Intro and Word Vectors [NLP 이론] Stanford CS224N - Lecture 1 : Intro and Word Vectors친구와 같이 스탠포드 대학교의 자연어처리(NLP) 수업을 들어보기로 했다.수업영상은 유튜브에 업로드 되어있다.영상은 아래 링크를 참고하면 된다. https://www.youtube.com/watch?v=Dz..