-
Pytorch Randomness Controlํ๊ธฐ
Summary ํต์ฌ ์์ฝ์ ํ๋ฉด ์๋ ์ฝ๋์ ๊ฐ๋ค. torch.manual_seed(random_seed) torch.cuda.manual_seed(random_seed) torch.cuda.manual_seed_all(random_seed) # if use multi-GPU torch.backends.cudnn.deterministic = True torch.backends.cudnn.benchmark = False np.random.seed(random_seed) random.seed(random_seed) Reference Reproducible PyTorch๋ฅผ ์ํ ra... Read More
-
Tokenizer Summary (in progress)
Intro ๋ถ์ ๊ท์น์ update ๊ณผ์ ๊ณต๋ฐฑ ๋ถ์ -> ๊ตฌ๋์ ๋ฐ ์ฌ๋ฌ symbol๋ค์ด ํฌํจ๋จ -> ๊ตฌ๋์ ๋ถ์ -> ex) [Don, โ, t] ์ ๊ฐ์ด ๋ถ์ ์ด ๋จ -> new rule ์ด ํ์ํ๋ค! BERT style tokenizer doesnโt fit to the GPT model input Transformer XL ์ ๊ณต๋ฐฑ/๊ตฌ๋์ ์ ๊ธฐ์ค์ผ๋ก ๋ถ์ ์ํ -> vocab size = 267,735 ๊ฐ large size embedding matrix -> memory ์ด์๊ฐ ๋ฐ์ํ ์๋ ์์ (Adaptive Embedding ... Read More
-
Probability ๊ธฐ์ด ์ ๋ฆฌ
Elements of probability sample space set of outcomes probability measures event ๊ฐ ์ ๋ ฅ์ผ๋ก ๋ค์ด์์ ๋ ๊ฑฐ๊ธฐ์ ๋์๋๋ ํจ์ ๋ช๋ช properites Random Variables Probability Measure for Random Variable CDF culmulative PMF (Mass Function) discrete ํ ๊ฒฝ์ฐ ... Read More
-
DeBERTa, Decoding-enhanced BERT with Disentangled Attention
Summary ๋ณธ ๋ ผ๋ฌธ์์๋ Disentangled Attention ๊ณผ Enhanced Mask Decoder ๋ฅผ ํ์ฉํ์ฌ BERT & RoBERTa ์ ์ฑ๋ฅ ๋์ฝ์ ์๋ํ์๋ค. Disentangled Attention ์ context ์ position ์ ๋ณด๋ฅผ explicit ํ๊ฒ ๋๋์ด์ ์ฐ์ฐ์ ์ํํ๋ค. Enhanced Mask Decoder ๋ pre-training ๊ณผ์ ์์ ๊ฐ ๋จ์ด์ ๋ํ absolute position ์ ๋ณด๋ฅผ ํ์ฉํ๋ค. softmax layer๋ฅผ ๊ฑฐ์น๊ธฐ ์ ์ additional information ์ ๋ํด์ค๋ค. ๋ํ... Read More
-
Python Segment Tree
Segment Tree ์ธ์ ์ฐ๋๊ฐ ํน์ ๊ตฌ๊ฐ์ ์ํ ์ฐ์ฐ (ํฉ, ์ต์๊ฐ, ์ต๋๊ฐ ๋ฑ) ์ ํ ๋, ์ ํํ์ ๋๋น ๋์ฑ ๋น ๋ฅด๊ฒ ๊ฐ๋ฅ. ๋์ ํฉ๊ณผ์ ์ฐจ์ด ๋์ ํฉ์ ํฉ๋ง์ ๋ค๋ฃธ ์ด๋ค ๊ฐ์ด ์ ๋ฐ์ดํธ ๋ ๊ฒฝ์ฐ, O(N) ์ผ๋ก ์ ๋ฐ์ดํธ ํด์ผ ํจ segment tree๋ O(logN) ์ผ๋ก ์ ๋ฐ์ดํธ ๊ฐ๋ฅ Reference https://yiyj1030.tistory.com/491#:~:text=%EC%84%B8%EA%B7%B8%EB%A8%BC%ED%8A%B8%2... Read More
-
Decoding Methods For Language Generation (sampling, top-K sampling, top-p samping)
Sampling sampling ์ ๋์ ๋ฐฐ๊ฒฝ ๊ธฐ์กด์ beam search๋ ์ด์ ๋จ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ ๋์ ํ๋ฅ ์ ๊ฐ์ง๋ ๋ฐฉํฅ์ผ๋ก ๋จ์ด๋ฅผ ์ ํํ๋ค. ๋ฐ๋ฉด, ์ฌ๋์ ๋จ์ด ์ ํ์ predictableํ์ง ์๊ณ boring ํ์ง ์๋ค. ์ด์ ์ข ๋ creative ํ๊ณ boring ํ์ง ์์ ๋จ์ด๋ฅผ ์ ํํ๋ ๋ฐฉ๋ฒ๋ค์ด ๋ฑ์ฅํ๊ธฐ ์์ํ๋ค. sampling ์ด๋ sampling ๋ฐฉ๋ฒ๋ก ์ p(w_t | w_t-1:w_1) ์ ํ๋ฅ ์ด ์ฃผ์ด์ก์ ๋ randomly picking ํ๋ ๋ฐฉ๋ฒ๋ก ์ด๋ค. ์์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด P(w|โTheโ) ์์ (โcarโ) ๊ฐ sampling ๋์๊ณ , P(... Read More
-
Greedy Search & Beam Search
Greedy Search Greedy Decoding์ ํด๋น ์์ ์์ ๊ฐ์ฅ ํ๋ฅ ์ด ๋์ ๋จ์ด๋ฅผ ์ ํํ๋ ๋ฐฉ์ ์๊ฐ๋ณต์ก๋ ๋ฉด์์ ์ฐ์ / ์ต์ข ์ ํ๋ not good 1, 2๋ฑ ์ฌ์ด์ ํ๋ฅ ๋ถํฌ๊ฐ ์ฐจ์ด๊ฐ ๋ฏธ๋ฏธํ๋ค๋ฉด, 2๋ฑ๋ ๊ณ ๋ คํด์ค์ผ ํ๋๋ฐ ๊ทธ๋ฌ์ง ๋ชปํ๊ณ 1๋ฑ๋ง ๊ณ ๋ คํจ. ์์ธก์ด ํ ๋ฒ์ด๋ผ๋ ํ๋ฆฌ๊ฒ ๋ ๊ฒฝ์ฐ ์น๋ช ์ ๋ฌธ์ ๋ฐ์ Beam Search ์์ k=1์ธ ๊ฒฝ์ฐ, Greddy Decoding ์ด ๋๋ค. Beam Search Beam Search ๋ promising beam k๊ฐ๋ฅผ ์ ๋ณํ์ฌ ์งํํ๋ ๋ฐฉ์์ด๋ค. ๊ฐ์ฅ ์ข์ ๋ฐฉ๋ฒ์ ๋์ฌ ์ ์๋ ๋ชจ๋ ๊ฒฝ์ฐ์ ์๋ฅผ ๊ณ ... Read More
-
Sentence-BERT ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
Abstract BERT ๊ฐ sentence-pair regression task (STS์ ๊ฐ์) ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์์ง๋ง, ๋ง์ฝ 10,000๊ฐ์ sentences ์ ๋ํด most similar pair๋ฅผ ์ป๊ธฐ ์ํด์๋ ์ฝ 65์๊ฐ์ด ์์ ๋ณธ ๋ ผ๋ฌธ์์๋ pretrained bert ๋ชจ๋ธ์ modification ์ ํ์ฉํ sentecne-BERT ๋ฅผ ์๊ฐ siamese and triplet network structure๋ฅผ BERT/RoBERTa ๊ธฐ๋ฐ์ผ๋ก ์ทจํจ cosine simliarity ๋ฅผ ํตํด ๋น๊ต๊ฐ๋ฅํ semantically meaningful sente... Read More
-
FP16, FP32, BF16, Mixed Precision
computer์์ ์ค์ ํํํ๊ธฐ ์ค์๋ ์์ ๋ฒ์๊ฐ ๋ฌดํํ๊ธฐ ๋๋ฌธ์, ์ด๋ฅผ bit๋ก ์ ํํ๊ฒ ํํํ๋ ๊ฒ์ ํ๊ณ๊ฐ ์๋ค. ์ด๋ฅผ ํํํ๊ธฐ ์ํด floating point (๋ถ๋์์์ ) ๋ฅผ ํ์ฉ sign(๋ถํธ), exponent(์ง์), fraction(๊ฐ์) sign ๋ถํธ๋ 1bit exponent ๋ ์ค์์ ์ ์๋ฅผ ๋ํ๋ด๋ ๋ถ๋ถ์ผ๋ก, ์ด ๋ถ๋ถ์ bit๊ฐ ํฌ๋ฉด ๋ ํฐ ๋ฒ์์ ์๋ฅผ ํํํ ์ ์์. Mantissa (francion) ์ ์ค์์ ์์๋ฅผ ๋ํ๋ด๋ ๋ถ๋ถ์ผ๋ก, ์ด ๋ถ๋ถ์ bit๊ฐ ํฌ๋ฉด ๋ ์ ํํ๊ฒ ์ค์๋ฅผ ํํํ ์ ์์. ์ด๋ค ์ค์๋ฅผ ์ ๊ทํ์ผ๋ก ํํํ๋ฉด, N = (-... Read More
-
Pytorch Functions (3)
dataclass from dataclass import dataclass @dataclass class GPTConfig: # able to make a class simple block_size : int = 1024 vocab_size : int = 50257 n_layer : int = 12 n_head : int = 12 n_embd : int = 768 dropout : float = 0.1 nn.ModuleDict(), nn.ModuleList() nn.ModuleDict(dict( wte = nn.Embedding(co... Read More
-
GPT-1 ๋ ผ๋ฌธ๋ฆฌ๋ทฐ
GPT1 Abstract unlabeled data ๋ labeled data ๋๋น ์์ด ๋ฐฉ๋ํ๊ฒ ๋ง๊ณ , ์ ์ ์์ labeled data ๋ก task-specific ํ ๋ชจ๋ธ๋ค์ ๊ฐ๊ฐ ๋ง๋๋ ๊ฒ์ ์ด๋ ต๋ค. generative pre-training ํ ๋ฐฉ๋ฒ์ ํ์ฉํด ๋ชจ๋ธ์ ํ์ต์ํค๊ณ , ์ด ํ discriminative fine-tuning ์ approach๋ฅผ ์ ์ํ๋ค. ์ด ๋ฐฉ๋ฒ์ a wide range of benchmarks for natural language understanding ์์ outperformance ๋ฅผ ์ด๋ค๋ค. ... Read More
-
Pytorch Functions (2)
nn.Module.register_buffer optimize ๋ grad update ๊ฐ ์๊ณ , tesnor๋ฅผ ์ ์ฅํด์ ํ์ฉํ๋ ์ฉ๋ torch.tril lower triangular matrix self.register_buffer("bias", torch.tril(torch.ones(config.block_size, config.block_size)) .view(1, 1, config.block_size, config.block_size)) tensor.sp... Read More
-
GPT Pytorch implementation - model.py
Causal Attention class CausalSelfAttention(nn.Module): def __init__(self, config): super().__init__() assert config.n_embd % config.n_head == 0 # key, query, value projections for all heads, but in a batch self.c_attn = nn.Linear(config.n_embd, 3 * config.n_embd) # output projection self.c_pro... Read More
-
Pytorch Functions (1)
gradient freeze ์ํค๊ณ ์์ ํ ๋ with torch.no_grad(): device setting device = "cuda" if torch.cuda.is_available() else "cpu" tensor.norm (torch tensor instance ์ ๋ํด) text_features /= text_features.norm(dim=-1, keepdim=True) # dim = -1 ; ๋ง์ง๋ง ์ฐจ์์ ๋ํด์ ์ฐ์ฐํ๋ ๊ฒ์ norm ์ฐ์ฐ์ ํ๋ ๊ฒ์ ์๋ฏธํจ. # i.e 3x3 matrix ๋ผ๋ฉด, -> ๊ฐ ํ๋ง๋ค ํ๋... Read More
-
BM25 Score
BM25 TF-IDF ๊ณ์ด์ ์๊ณ ๋ฆฌ์ฆ์ด๋ฉฐ, ์ข ๋ advanced version์ผ๋ก SOTA ๋ฌ์ฑ. (Elastic Search ์์๋ ํ์ฉ) ์ฟผ๋ฆฌ์ ํฌํจ๋๋ ๋จ์ด๋ค์ด ํน์ ๋ฌธ์์์๋ง ์ผ๋ง๋ ๋ ์์ฃผ ๋ฑ์ฅํ๋์ง ํ์ , ๋ฌธ์ ๋ณ ์ ์ฌ๋๋ฅผ ํ์ ํ๋ค. (TF-IDF ์ ๋ชฉ์ ์ ๋์ผํ๋ค.) TF IDF ๋จ์ ๋ฌธ์์ ๊ธธ์ด๋ฅผ ๋ฐ์ํ์ฌ ๊ณ์ฐํ์ง ๋ชปํ๋ค. ๊ทธ์ term frequency ์ฆ, ๋ฌธ์์ ์กด์ฌ ์ฌ๋ถ๋ง ๋ด score(D, Q) = sum (IDF(qi) * advanced_term_freduqncy(qi, D)) tfNorm (... Read More
-
TF-IDF (Term Frequency-Inverse Document Frequency)
TF-IDF Term Frequency * Inverse Document Frequency ์ ๊ฐ์ ์๋ฏธํ๋ค. ์ฌ์ฉํ๋ ๊ฒฝ์ฐ 1) ๋ฌธ์์ ์ ์ฌ๋๋ฅผ ๊ตฌํ ๋ 2) ๊ฒ์ ์์คํ ์์ ๊ฒ์ ๊ฒฐ๊ณผ์ ์ค์๋๋ฅผ ๊ตฌํ ๋ 3) ๋ฌธ์ ๋ด์์ ํน์ ๋จ์ด์ ์ค์๋๋ฅผ ๊ตฌํ ๋ ๋ฑ์ ์ฃผ๋ก ์ฌ์ฉ๋๋ค. ํน์ ํ query Q = {q1, q2, โฆ ,qn} ๊ฐ ์ด๋ค ๋ฌธ์์์ ํด๋น ์ ์๊ฐ ์ ์ผ ๋์์ง๋ฅผ ๋ด์ผ๋ก์จ, ๊ฐ์ฅ ์ ์ฌ๋๊ฐ ์๋์ง ๋ฑ์ ํ๋ณํด ๋ณผ ์ ์๋ค. ๋์์๋ก ํด๋น ์ฟผ๋ฆฌ์ ํน์ ๋ฌธ์ ์ฌ์ด์ ์ ์ฌ๋๊ฐ ๋๋ค, ์ค์๋๊ฐ ํฌ๋ค. ๋ผ๊ณ ํ๋จํ ์ ์๋ค. ... Read More
-
Natural Language Generation Metric ์ ๋ฆฌ
Perplexity ๋จ์ด ๊ทธ ์์ฒด๋ก๋ ๋นํน๊ฐ, ๊ณ ๋ ๋ฑ์ ๋ป์ ๊ฐ์ง๊ณ ์๋ค. ๋ชจ๋ธ์ด ๋ฌธ์ฅ์ ์์ฑํ ๋ ์ผ๋ง๋ ํ์ ์ ๊ฐ์ง๊ณ , ํน์ ๊ฐ์ง๊ธฐ ๋ชปํ๊ณ ํด๋น ๋ฌธ์ฅ์ ์์ฑํ๋์ง๋ฅผ ๋งํ๋ค. ๋ชจ๋ธ์ด ํ์ ์ ๊ฐ์ง๊ณ ์์ฑํ์ผ๋ฉด ๊ทธ ํ๋ฅ ๊ฐ์ ํฌ๊ฒ ๋๊ณ , ๊ทธ ๊ฐ์ ์ญ์๋ฅผ ์ทจํ๊ธฐ ๋๋ฌธ์, ๋ฎ์์๋ก ๋ ๋์ performance๋ฅผ ์๋ฏธํ๋ค. ์์ BLEU BLEU score ๋ ํฌ๊ฒ ๋ ๋ถ๋ถ์ผ๋ก ๊ตฌ์ฑ๋๋ค. Brievity Penalty * Precision Brievity Penalty = min (1, output length / r... Read More
-
ranking metric (MRR, MAP, NDCG) ๊ณต๋ถ
MRR (Mean Reciprocal Rank) Reciprocal Rank ์ ํ๊ท ๊ฐ์ ๋ํ๋ธ๋ค. Reciprocal Rank ๋, model ์ด positive ๋ผ๊ณ prediction ํ item์ด ๋ช ๋ฒ ์งธ์ ๋์ค๋์ง๋ฅผ ๋ํ๋ธ๋ค. ์๋ฅผ ๋ค์ด, 3๋ฒ์งธ์ ๋ฑ์ฅํ๋ฉด 1/3 ๊ฐ, ์ฒซ ๋ฒ์งธ์ ๋ฑ์ฅํ๋ฉด 1/1 ๊ฐ์ด๋ค. (์์ ๋ฑ์ฅํ ์๋ก ๋ ํฐ ๊ฐ์ ๊ฐ๋๋ค.) ์ฅ์ ๊ฐ์ฅ ์์ positive item์ด ์ธ์ ๋ฑ์ฅํ๋์ง์ ์ด์ ์ ๋ง์ถ๋ค๋ฉด, ํจ๊ณผ์ ์ธ metric ๋จ์ ๋ค์ ์ผ๋ง๋ ๋ง์ด positive item์ด ๋์ค๋์ง ๋ฑ์ ๊ณ ๋ คํ์ง ์๋๋ค. ... Read More
-
C++ ๋ด๊ฐ ๋ณด๋ ค๊ณ ์ ๋ฆฌํ๋ syntax ์ ๋ฆฌ
strcpy char[11] name void copy_str(char* str){ // char[11] ์ด๋ผ๋ ์ ๋ ฅ์, char์ ์์ ํฌ์ธํฐ strcpy_s(name, str);// name ์ด ๋ณต์ฌ๋ ๊ณณ, str์ด ๋ณ์ // char[] ์ ๋ณต์ฌ๋๋๋ก. } // ๋ณ์๋ช ์ strcpy , ๊ทธ ์ ๋ ฅ์ ๋ชจ๋ char[] ๋ฐฐ์ด int,int pair ํ ๋ณ์ ์ ์ #define pii pair<int, int> set ์ ๋ํ iterator ๋ณ์๋ฅผ ๋ฐ์์ด & set ์ insert auto bg = set_.begin... Read More
-
๋ด๊ฐ ๋ณด๋ ค๊ณ ์ ๋ฆฌํ๋ ์ฝ๋ฉ ํ ์คํธ ํ ํฌ๋
C++ ๊ธฐ์ค 1์ด ์ํ์๊ฐ์ ๋๋ต 1์ต์ ์ฐ์ฐ์ด ๋ ๋ค. ํจ์ ์ํํ์, ๋ฐฐ์ด ์ฌ์ด์ฆ ๋ฑ์ ์ ์ฌํ ๋ณด๊ณ โ variable ์ฌ์ด์ฆ ์ก๊ธฐ lower_boud, upper_bound set์์ ๋ญ๊ฐ ๋ data(๋ ์ง ๋ฑ)๋ฅผ ์ฐพ์๋ผ ๋ ์ ์ฉํ๋ค. ๊ณ์ ์ฆ๊ฐํ๋ ๋ณ์๊ฐ ์๋๋ฐ, ๊ณ ์ ๋ ์ฌ์ด์ฆ๋ฅผ ์ฌ์ฉํด์ผํ ๊ฒฝ์ฐ, two pointer - st, end pointer ์์ ์ธ๋ฑ์ค๋ฅผ ํ์ฉํ flag (400ํ ์ํํ๊ฑฐ๋ ๊ทธ๋ฐ ๊ฒฝ์ฐ?) ์ ์ ํ itemization์ด ๊ฐ๋ฅํ๊ณ , ๊ฐ๊ฐ์ ์์์ ์ ๊ทผํด์ ์ฒ๋ฆฌ๋ฅผ ํด์ผ ํ๋ ๊ฒฝ์ฐ๋ ๊ทธ๋ฅ array๋ก ์ ๊ทผ... Read More
-
Deep Spectral Methods
Abstract Unsupervised localization and segmentation are long-standing computer vision challenges that involve decomposing an image into semantically meaningful segments without any labeled data interesting in an unsupervised setting due to the difficulty and cost of obtaining dense image annotations, but... Read More
-
ML/DL knowledges
Sigmoid VS Softmax Sigmoid probabilities produced by a Sigmoid are independent. (๋ณ์๋ค์ด ๋ ๋ฆฝ์ ์ผ๋ก ๊ณ์ฐ๋จ) they areย notย constrained to sum to one. The reason for this is because the Sigmoid looks at each raw output value separately. Used for Binary Classification in the Logistic Regression model ... Read More
-
HiP(Hirarchical Perceiver) review
Summary ์ด๋ฒ์ ์ดํด๋ณธ ๋ ผ๋ฌธ์ Hierarchical Perceiver(HiP) ๋ผ๋ ๋ ผ๋ฌธ์ ๋๋ค. ๊ธฐ์กด์ Perceiver ๋ชจ๋ธ์ด Transformer ๊ธฐ๋ฐ์ ๋ชจ๋ธ ๊ตฌ์กฐ, cross attention์ ํตํด ๋ค์ํ modality๋ฅผ ๋ค๋ฃฐ ์ ์์์ต๋๋ค. ํํธ, High resolution์ ๊ฐ์ง Image, Video ๋ฑ์ ์ ๋ ฅ์ ๋ํด์๋ ์ฒ๋ฆฌ๊ฐ ์ด๋ ค์ด ๋ฌธ์ ์ ์ ์ง์ ํฉ๋๋ค. ๋ฐ๋ผ์ ๊ทธ์ ๋ํ ํด๊ฒฐ์ฑ ์ผ๋ก Hierarchical Perceiver (์ดํ HiP)๋ฅผ ์ ์ํฉ๋๋ค. HiP์์๋ flatten operation์ ํตํด์ input์ ๊ฐ ๊ทธ๋ฃน์ผ๋ก ๋๋์ด, locality๋ฅผ ๋ณด์กด์ํค๋ฉฐ ์ฐ์ฐ์ ์ํํฉ๋๋ค. ๊ฐ... Read More
-
Perceiver IO review
Summary ์ด๋ฒ์ ํฌ์คํ ํ ๋ ผ๋ฌธ์ Perceiver IO: A General Architecture for Structured Inputs & Outputs ์ ๋๋ค. Perceiver IO๋ Perceiver์ ์ถ๋ ฅ์ด ๋จ์ํ classification๊ณผ ๊ฐ์ ๋จ์ํ task์ ๊ตญํ๋๋ ์ ์ ๋ณด์ํ์ฌ, ๋ค์ํ structure์ Input๊ณผ Output์ ๊ฐ์ง ์ ์๋๋ก ๊ฐ์ ๋ ๋ชจ๋ธ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. (์ด์ ํฌ์คํ ์ ์ฌ๊ธฐ๋ฅผ ์ฐธ๊ณ ํด ์ฃผ์ธ์) ๊ทธ ๋ฐฉ๋ฒ์ ๊ฐ๋จํ๊ฒ ์๊ฐํ์๋ฉด, task๋ณ Input์ ๋ํ Query vector๋ฅผ ๊ตฌ์ฑํ์ฌ Perceiver model ๋ด๋ถ์์ ์ป์ด์ง K,V ๊ฐ๊ณผ ์ฌ์ ์ ... Read More
-
The Transformer Family
Vanila Transformer self-attention is applied in each encoder and decoer. cross-attention is applied between encoder and decoder. dot(Query vector, Key vector) = attention score. and then dot(attention score, Value vector) = attention value. No long term dependency Linformer Reference https://lilianweng.github.io/posts/202... Read More
-
Perceiver review
Summary ์ด๋ฒ์ ์ฝ์ด๋ณธ ๋ ผ๋ฌธ์ Percevier: General Perception with Iterative Attention ์ ๋๋ค. Perceiver๋ ๋ค์ํ data modality๋ฅผ ๋ค๋ฃจ๊ธฐ ์ํ ์๋ก์ด model architecture๋ฅผ ์ ์ํฉ๋๋ค. domain specific assumption ์ ์ค์ด๊ธฐ ์ํด ๋ง์ ๊ณ ๋ฏผ์ ํ ๋ ผ๋ฌธ์ด๋ผ๋ ์๊ฐ์ด ๋ญ๋๋ค. ๊ฐ์ฅ ์ธ์๊น์๋ ๋ถ๋ถ์ image input์ ๋ํด 2D conv ๊ฐ์ preprocess ์์ด ์ฝ 50,000 pixel์ ์ง์ ์ ์ผ๋ก attending ํฉ๋๋ค. (conv๋ฅผ ์ฌ์ฉํ๊ฒ ๋๋ฉด locally inductive bias ๋ฅผ ๊ฐ์ง๊ฒ ๋๋๋ฐ... Read More
-
GraphSAGE review
Summary ๊ธฐ์กด ์ํฉ ๋ฐ ๋ฌธ์ ์ large graph์์์ ๋ ธ๋๋ค์ low-dimensional embeddings ์ ์ ์ฉํ๋, ๋ง์ ๋ฐฉ๋ฒ๋ก ๋ค์ด embedding ์ ํ์ต ์ ๋ชจ๋ node๋ค์ด ์กด์ฌํด์ผ ํ๋ค๋ ๋จ์ ์ ๊ฐ์ง๊ณ ์๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ๋ก ์ transductive ํ๊ณ unseen nodes์ ๋ํด์ ์ผ๋ฐํ๊ฐ ๋์ง ์๋๋ค๋ ๋จ์ ์ ๊ฐ์ง๊ณ ์๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ ์ ์ด์ ๋ณธ ๋ ผ๋ฌธ์์๋ GraphSAGE ๋ผ๋ general inductive framework์ ์ ์ํ๋ค. GraphSAGE ์์๋ ๊ฐ node์ ๋ํ embedding์ ํ์ตํ๊ธฐ๋ณด๋ค๋, embedding... Read More
-
ViLBERT review
Summary ๋ณธ ๋ ผ๋ฌธ์์๋ Image ์ Text modality๋ฅผ ํจ๊ป ํ์ตํ ์ ์๋ multimodal model architecture ์ธ ViLBERT(Vision-and-Language BERT)๋ฅผ ์ ์ํฉ๋๋ค. ์์ด๋์ด๋ฅผ ๊ฐ๋จํ ์๊ฐํ์๋ฉด, visual input๊ณผ textual input ์ด ๊ฐ๊ฐ์ stream์ผ๋ก ์ ๋ ฅ๋๊ณ , co-attentional transformer layer๋ฅผ ํตํด ์๋ก ๋ค๋ฅธ modality ์ฌ์ด์์ interactionํ๋ฉฐ ํ์ตํฉ๋๋ค. ViLBERT๋ Conceptual Captions dataset ๊ธฐ๋ฐ์ 2๊ฐ์ง์ self-supervised learning ์ ํตํด pr... Read More
-
Attention Branch Network review
์ด๋ฒ ํฌ์คํธ๋ ์ง๋ 6๊ฐ์๊ฐ ์ธํด ์ํ์ ํ๋ฉฐ ํฅ๋ฏธ๋กญ๊ฒ ์ฝ์๋ ๋ ผ๋ฌธ๋ค ์ค ํ๋์ธ Attention Branch Network : Learning of Attention Mechanism for Visual Explanation ์ ๋ฆฌ๋ทฐํ๋ ํฌ์คํธ๋ฅผ ํด๋ณด๋ ค ํฉ๋๋ค. ์ง๋ KIST-Europe ์ธํด ์ํ๋์ Attention์ ๊ธฐ์ ์ ๋ํด ๊ด์ฌ์ ๋๊ณ ํ๊ณ ๋ค์๊ณ ์์ฐ์ด์ฒ๋ฆฌ์์ ์ฌ์ฉ๋๋ attention ๊ธฐ๋ฒ๊ณผ ์ปดํจํฐ ๋น์ ์์ ์ฒ๋ฆฌ๋๋ attention ๋ฐฉ๋ฒ๋ก ์ ๋ํด ๋ง์ literature study๋ฅผ ํ์์ต๋๋ค. ์ด๋ฒ ๋ ผ๋ฌธ์ ๊ทธ๋ฐ ๋ ผ๋ฌธ๋ค ์ค ํ๋๋ก ์๊ฐํด ๋ณด๊ณ ์ ํฉ๋๋ค. ๋ค์ด๊ฐ๋ฉฐ ๋ชจ๋ธ์ด ํด๋์ค๋ฅผ ์์ธกํ๋ ๋ฐ์ ... Read More
-
SMILES Convolution Fingerprint(SCFP) review
๋ค์ด๊ฐ๋ฉฐ ์ด๋ฒ์ ์ฝ์ ๋ ผ๋ฌธ์ Convolutional neural network based on SMILES representation of compounds for detecting chemical motif review ์ด๋ค. ํด๋น ๋ ผ๋ฌธ์์๋ CNN์ ํ์ฉํด, ๊ธฐ์กด์ fingerprint๋ณด๋ค ์ฑ๋ฅ์ด ์ข์ ์๋ก์ด fingerprint ๋ฅผ ์ ์ํ๋ค. ๋ ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด, ECFP( known as morgan fingerprint) ๋ณด๋ค๋ ์ฑ๋ฅ์ด ์ข๋ค๊ณ ๋ช ์ํ๊ณ ์๋ค. ๋ชจ๋ธ์ ํ์ต๊ณผ ํ๊ฐ์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ๋ TOX21 dataset ์ด๋ฉฐ, metric์ผ๋ก๋ ROC-AUC score๋ฅผ ํ์ฉํ์๋ค. CNN์๋ DNA ... Read More