NLP RL lab

최신 글

파이썬

[pytorch] Batch 연산하면 값이 달라지는 이유

2023.04.23

문제 상황 pytorch에서 텐서 연산 시 빠른 처리를 위해 batch로 연산하는 경우가 많다. 그런데 하나씩 하나씩 연산하는 것과, 배치로 한꺼번에 연산하면 결과값이 미세하게 달라지는 현상을 발견했다. 다음은 전체 코드이다. 코드 import torch from torch.nn import Linear, Module class NN(Module): def __init__(self): super().__init__() self.fc1 = Linear(64, 2) def forward(self, x): x = self.fc1(x) return x def main(): batch_size = 10 x = torch.rand((batch_size, 64)) nn = NN() # one by one l = []..

예서리뷰

[AKG K361 리뷰] 밀폐형 헤드폰이 예쁘기까지

2022.08.31

구매하기까지 써본 헤드폰으로는 크리에이티브 오르바나 라이브 베이어다이나믹 DT770 pro 32옴 Koss KSC75 로 그렇게 많지 않다. 연구실에서 쓸 거라서 패시브 노이즈캔슬링이 필요했고 그래서 밀폐형 중에 열심히 알아봤다. HD569, K371과 고민하다가 K361로 결정했다. HD569는 호불호가 많이 갈리는 소리라는 리뷰가 꽤 많았고, K371보다도 K361이 더 괜찮았다는 리뷰가 있어서,,, 그리고 5만원정도 더 싸서 고르게 되었다. K361은 블루투스 모델과 유선 모델이 있는데 이것도 5만원정도 싸고 유선모델이 가벼우니까 착용감이 더 좋을 거라고 생각해서 유선으로 골랐다. 블루투스 모델이었으면 배터리에 조금이라도 신경을 써야 한다는 점이 거슬릴 것 같아서 유선이 오히려 좋았다. 소리 해상력..

컴퓨터구조

부동소수점 연산이 어떨 때는 맞고 어떨 때는 틀리는 이유

2022.08.15

1.1+0.1과 1.1+0.2의 차이 사진은 파이썬 콘솔에서 실행한 모습이지만, 파이썬이 아닌 대부분의 프로그래밍 언어에서 비슷한 결과를 보인다. 이 문제의 원인은 컴퓨터 프로그래밍을 맨 처음 배울 때 알게 될 정도로 많은 사람들이 알고 있을 것이다. 원인은 컴퓨터가 소수를 저장하는 방식에 있다. 컴퓨터는 이진수의 부동소수점 방식으로 소수를 저장하기 때문에 우리가 쓰는 십진수 소수를 모두 정확히 표시할 수 없고, 어떤 값들은 근삿값으로 저장할 수밖에 없다. 하지만 사진처럼 어떤 연산은 정확히 나오고, 어떤 연산은 기대하지 않은 결과를 출력하는 모습을 보인다. 그래서 1.1+0.1==1.2은 False이고, 1.1+0.2==1.3은 True가 나오는 과정을 컴퓨터처럼 비트 단위로 계산해보면서 원인을 알아보..

파이썬

[Solved] device-side assert triggered, Assertion `t >= 0 && t < n_classes` failed.

2022.08.05

1. 에러 코드 RuntimeError: CUDA error: device-side assert triggered. For debugging consider passing CUDA_LAUNCH_BLOCKING=1. /opt/conda/conda-bld/pytorch_1656352657443/work/aten/src/ATen/native/cuda/Loss.cu:271: nll_loss_forward_reduce_cuda_kernel_2d: block: [0,0,0], thread: [0,0,0] Assertion `t >= 0 && t = 0 && t = 0 && t = 0 && t = 0 && t = 0 && t

백준

[1107] 리모컨

2022.08.04

문제 수빈이는 TV를 보고 있다. 수빈이는 채널을 돌리려고 했지만, 버튼을 너무 세게 누르는 바람에, 일부 숫자 버튼이 고장났다. 리모컨에는 버튼이 0부터 9까지 숫자, +와 -가 있다. +를 누르면 현재 보고있는 채널에서 +1된 채널로 이동하고, -를 누르면 -1된 채널로 이동한다. 채널 0에서 -를 누른 경우에는 채널이 변하지 않고, 채널은 무한대 만큼 있다. 수빈이가 지금 이동하려고 하는 채널은 N이다. 어떤 버튼이 고장났는지 주어졌을 때, 채널 N으로 이동하기 위해서 버튼을 최소 몇 번 눌러야하는지 구하는 프로그램을 작성하시오. 수빈이가 지금 보고 있는 채널은 100번이다. 아이디어 주어진 리모컨 버튼(+, - 제외)으로 목표하는 채널 L과 가장 가까운 숫자 E로 가야 한다. 목표하는 채널의 자릿..

계층적 소프트맥스(Hierarchical Softmax, HS) in word2vec

2022.03.11

계층적 소프트맥스(Hierarchical Softmax, HS)란? 기존 softmax의 계산량을 현격히 줄인, softmax에 근사시키는 방법론이다. Word2Vec에서 skip-gram방법으로 모델을 훈련시킬 때 네거티브 샘플링(negative sampling) 방법과 함께 쓰인다. 어떤 건지 알아보자. 내용은 유튜브 ChrisMcCormicAI 채널의 설명을 참조했다. 기존 소프트맥스를 Word2Vec에 적용할 때의 문제점 우리가 아는 일반적인 softmax 함수를 MNIST와 같은 간단한 데이터셋에 적용할 때는 문제가 없었다. MNIST는 주어진 그림을 0부터 9까지 분류하는 문제였으므로 output이 10개면 충분했다. 하지만 Word2Vec 훈련 시에는 output의 개수가 Vocabulary..

컴퓨터구조

부동소수점 연산이 어떨 때는 맞고 어떨 때는 틀리는 이유

2022.08.15

엔엘피

구구조와 의존 구조 분석

2022.03.01

이번 장에서는 구문 분석의 대략적인 분류와 이론을 다룬다. A. 구구조 구문 분석 - 규칙 기반 - 통계 기반 - 딥러닝 기반 B. 의존 구조 구문 분석 - 구구조 구문 분석과의 차이 - 의존의 종류 - 분석 방법 C. 중의성 구구조 구문 분석 구구조란 문장의 요소들이 서로 짝을 지어 구와 절을 이룸으로써 형성되는 구조이다. 분석 방법으로는 규칙 기반, 통계 기반, 딥러닝 기반 분석이 있다. 규칙 기반 구구조 구문 분석 S → NP VP VP → V NP NP → DT NP S는 Sentence, NP는 Noun Phrase, VP는 Verb Phrase, DT는 Determiner를 의미한다. 이 문법 규칙을 'John hit the ball.'이라는 문장에 적용하면 위의 그림과 같은 분석 트리를 얻을..

엔엘피

Generative model, Discriminative model

2022.04.08

Generative model vs Discriminative model 분류 모델의 방법론은 크게 Generative model과 Discriminative model로 나뉜다. 각각의 방법론에 대해 알아보자. Discriminative model 어떤 입력값(input) $x$가 주어졌을 때, 그 결과값(label)이 $y$일 확률, 즉 조건부확률 $$P(y|x)$$를 알아내는 방법이다. 이 방식의 머신러닝은 아래의 방법으로 이루어진다. 특정 입력값 $x$에 대한 조건부확률분포를 만들어낸다. 조건부확률분포에 근거해서 $x$와 $y$에 대한 벡터를 만들어낸다. $x$값들에 대한 성질을 가장 잘 구분할 수 있는 구분선(decision boundary)를 만든다. 만들어진 선을 기반으로 얼마나 멀리..

코딩

GPU 떼놓고 Colab과 속도 대결, i5-10210U vs Google Colab

2022.03.11

쿨러 없는 M1 맥북에어한테도 성능으로 못 비비는 나의 LG 노트북...ㅠㅠ 구글 코랩한테도 못 비비면 내 노트북은 더이상 컴퓨터로서 의미가 없다..... 그래서 시작된 자존심 대결...! def work(st): li = [i + 1 for i in range(400)] for I, K, S in product(li, li, li): assert math.ceil((I - (K - 1)) / S) == math.floor(((I - K) / S) + 1) return 요 코드 빨리 실행하는 게 오늘의 과제. 먼저 구글 코랩의 성능을 보자. Google Colab 무료버전 약 33.8초...! i5-10210U 코멧레이크(4코어 8스레드, 1.60GHz/4.20GHz, 6M) 힘내 노트북아!!!!!!!!..

엔엘피

GPT-1, GPT-2, GPT-3

2022.04.08

Language Model 이전 글에서 Generative Model과 Discriminative Model 각각의 방법론에 대해 알아봤다. GPT의 G는 Generative Model을 뜻한다. GPT는 Language Model을 사용한다. Language Model의 training 방법은 둘 중에 전자를 택했다. 언어 모델은 단어 시퀀스에 확률을 할당하는 일을 하는 모델을 뜻한다. 가장 보편적으로 사용되는 언어 모델은 이전 단어들이 주어졌을 때 다음 단어를 예측하도록 하는 것이다. GPT1의 핵심은 Language model의 학습 방법으로, 엄청난 데이터를 통해 뛰어난 모델을 만드는 것이 핵심이다. 또한 GPT는 순방향 언어 모델이다. 이는 이전 단어들(컨텍스트)이 주어졌을 때 다음 단어를 맞히..

티스토리툴바