지난번에 다룬 Perceiver의 후속 논문으로. Perceiver의 경우 임의의 modality와 길이를 갖는 데이터를 최소한의 inductive bias를 사용해 처리할 수 있었으나, classification과 같이 output space가 단순한 형태를 갖는 task에만 활용될 수 있다는 한계점이 있었다. Perceiver IO는 기존 Perceiver의 구조를 약간 수정하여, output 또한 임의의 modality와 길이를 가질 수 있도록 설계하였다. 이에 따라 Perceiver IO는 natural language, visual understanding, StarCraft II 등의 다양한 task를 수행할 수 있게 되었을 뿐만 아니라 이들 모두에서 높은 성능을 보였고, 특히 Sintel optical flow estimation에서 SOTA를 달성하였다.
최근 AI의 많은 분야에서 공통적인(그리고 당연한) 연구 트렌드가 있는데, 이는 본인이 고안한 방법(아키텍쳐, optimizer, loss design 등)이 특정 데이터셋에서 SOTA를 달성함을 보여주려고 한다는 점이다. 각각의 분야와 데이터셋마다 SOTA를 갱신하기 위한 경쟁은 점점 치열해지고 있으며, 앞으로도 이런 경향은 계속되거나 더욱 심화될 것이라고 생각한다. 하지만, 이러한 경쟁 속에서도 반드시 지켜야 할 것이 있는데, 그것은 바로 데이터의 신뢰성이다. 그런데, 필자는 지금까지 여러 편의 AI 논문을 읽으며, 이 부분에 대해서 의문을 가졌던 경험이 몇 번 있었다. 예를 들어, 어떤 논문에서는 baseline과 자신의 모델을 비교평가할 때 '’해당 분야의 관행에 따라 모델의 top-1 accuracy를 비교한다’‘며 결과를 정리한 표에 confidence interval 표기 없이 top-1 accuracy만을 표기했었다. 이는 심각한 통계적 신뢰성 문제를 안고 있으며, 생명과학 논문을 많이 읽어왔던 필자는 이것이 자연과학 논문이었다면 있을 수 없는 데이터 리포팅이었기 때문에 의아했었다. 이 논문은 이러한 AI 학계의 데이터 신뢰성 문제에 대한 필자의 문제의식을 더욱 확신하게 해준 논문으로, 앞으로의 연구 및 논문 리딩에 대해 많은 생각을 하게 해주었다.
BERT의 발표 이래 최근 연구에서 다뤄지는 대부분의 NLP 모델은, 주로 self-supervised learning을 통해 pre-training된 모델을 가져다 원하는 task에 맞게 fine-tuning하여 사용한다는 공통된 흐름이 있다. Text-to-text의 형태로 모든 입출력을 다루기 때문에 단일 구조로 모든 종류의 NLP task를 수행할 수 있다는 장점을 가진 T5 또한, C4 dataset에 대한 self-supervised span denoising을 통해 pre-training을 한다. 이 논문은 이러한 T5 모델에 대해, pre-training 과정에 다양한 task에 대한 supervised learning을 포함시켜 transfer learning의 성능을 상향시킨 ExT5를 다룬다. 결론부터 이야기하면, ExT5는 pre-training 과정에서 span denoising과 함께 무려 107개의 dataset이 섞인 dataset인 ExMix에 대한(!) supervised learning을 하였고, 그 결과 얻어진 ExT5는 대부분의 NLP task에서 기존의 T5보다 높은 성능을 보였다.
이 논문은 얼마 전 메타에서 발표한 것으로, modality(vision, speech, language)에 관계 없이 적용 가능한 self-supervised learning mechanism인 Data2Vec을 제시한다. 이를 사용해 각각의 modality의 데이터를 학습시킨 결과, 각 분야에서 SOTA에 준하는 높은 성능을 보여주었다. Data2Vec이 self-supervised learning을 하는 구조는 아래와 같다.
DeepMind에서 2021년에 발표한 논문으로, 단일 구조로 다양한 modality의 데이터를 학습하고 다룰 수 있는 transformer 기반 모델인 Perceiver를 소개하였다. 기존의 AI의 각 분야에서 좋은 성과를 거둔 CNN과 transformer 기반 아키텍쳐가 다양한 modality를 학습하기 어려웠던 이유로는 크게 두 가지를 들 수 있다. 먼저, CNN의 경우 convolution이라는 연산 자체가 이미지의 형태로 들어오는 input의 spatial relationships를 가정하고 있기 때문에, 이러한 관계가 성립하지 않는 다른 형태의 데이터에는 잘 적용하기 까다로운 경우가 많다. 다음으로, BERT와 같은 transformer 구조는 input data가 정해진 길이를 가질 것을 요구하며 그 길이의 제곱에 비례해 계산 복잡도가 증가하기 때문에, 오디오 파일이나 이미지와 같이 엄청나게 긴 데이터를 downsampling이나 feature extraction 없이 그대로 받아들이는 것이 어려웠다.
기존에 자주 사용되던 RMSprop, ADAM 등과 달리 loss sharpness를 함께 고려하여 변수를 업데이트하는 방법인 SAM(Sharpness-Aware Minimization) optimizer를 사용해 ImageNet에서 SOTA를 달성한 논문. 기존에 사용되던 optimizer는 결국 loss를 낮추는 것만이 최종 목적이기 때문에 학습이 suboptimal하거나 overfitting에 취약하다는 문제점이 있었는데, SAM은 모델의 성능과 안정성을 더욱 높이기 위해 비교적 평평한 landscape에서 minimum을 찾는다고 이해할 수 있다. 이러한 설계는 기존 연구를 통해 밝혀진 loss shaprness와 모델의 generalization ability에 높은 상관관계가 있다는 사실에 기반한다. 아래의 그림을 보면, SGD를 사용한 경우(왼쪽)보다 SAM을 사용했을 때(오른쪽) 더 스무스한 local minimum으로 수렴하는 것을 확인할 수 있다.
모델의 bias와 variance 사이에 trade-off 관계가 존재한다는 사실은 오래 전부터 ML의 가장 기본적인 원리로 받아들여지고 있다. 모델이 너무 단순하면 underfitting이 일어나 bias가 심해 성능이 떨어지고, 반대로 모델이 너무 복잡하면 overfitting이 일어나면서 variance가 높아져 성능이 떨어지는 상황이 발생한다는 것이다. 그래서 모델 사이즈와 test error의 관계를 그리면 U-shaped curve가 만들어진다. 만약 이러한 경향성이 딥러닝에도 그대로 적용된다고 믿는다면(실제로 많은 이들이 그렇게 믿어왔다), 딥러닝 모델의 규모는 지나치게 크지 않은 것이 좋다. 그런데, 더 많은 데이터셋으로 더 큰 모델을 훈련시킬수록 좋은 성능을 보이는 최근 딥러닝 연구 동향은 이러한 컨셉을 고려했을 때 counter-intuitive하다. 2021년 구글에서 발표한 Gopher라는 SOTA 언어 모델은 기존에 볼 수 없었던 엄청난 규모인 약 2800억개의 변수를 갖는데, 이는 인간 뇌를 구성하는 뉴런 수의 추정치를 상회한다(!). 과연 이 정도 사이즈의 모델이 등장하게 된 이유는 GPT-3와 같은 기존 대규모 모델의 사이즈가 언어를 학습하기에 여전히 부족해 underfitting을 일으키기 때문일까? 그 이전에, 딥러닝 모델이 정말로 bias-variance trade-off를 따를까?
NLP 분야에서 활발하게 사용되고 있는 transformer 모델(특히 BERT)을 큰 변화 없이 그대로 vision 분야에 적용할 수 있으며, 그 image recognition 성능이 기존의 CNN 기반 SOTA 모델들과 비교할 만한 수준임을 보여주어 ViT(vision transformer)의 가능성을 입증한 논문. ViT의 구조는 transformer의 endocer 구조를 사용한 BERT와 거의 차이가 없으며, 심지어 모델의 pretraining에 사용한 여러 세팅도 기존의 BERT에 사용된 것들을 대부분 그대로 가져와 사용했다. 그렇다면, 자연스럽게 아래의 두 가지 질문을 떠올리게 될 것이다. (1) Transformer는 sequence 형태의 데이터를 입력받는 구조인데, ViT에서는 이미지를 어떻게 processing해서 transformer에 넣었을까? (2) Transformer 논문이 나온 것은 2017년이고, 당연히 그동안 vision에 transformer를 적용해보려는 시도가 많이 있었을 텐데, 왜 2020년에 이 논문이 나오기 전까지는 ResNet 기반 모델들이 여전히 우세했을까?
인공지능을 공부하고 논문을 읽다 보면, 분명히 많은 개선의 여지가 남아있는 분야임에도 모델을 학습시키고 평가하기 위한 데이터셋이 양이 충분하지 않거나, 오염도가 심해서 연구 자체가 어려운 경우가 정말 많다. 예를 들어, 인공지능이 처음 보는 악보를 보고도 높은 수준의 피아노 연주를 해내기 위해서는 최소 수만 개 이상의 높은 수준의 피아노 연주 데이터가 필요할 것이다. 또는, 인공지능이 분자생물학 실험을 위한 최적의 조건을 설계해주기 위해서는 적절한 변인통제 속에서 실험 조건과 그에 따른 실험 결과 데이터를 수만 번 이상 쌓아야 한다. 당연하게도 이러한 데이터를 높은 퀄리티로 많이 마련한다는 것은 굉장한 자본과 노동이 필요한 작업이다. 그래서, 누군가가 이러한 데이터셋을 만들어내기 전까지는, AI 피아니스트가 탁월한 연주를 해내거나, AI가 최고의 실험 조건을 설계해주는 것을 기대하기 어렵다.
현재 분야를 막론하고 가장 활발하게 사용되는 아키텍쳐인 Transformer를 처음으로 제시한 유명한 논문. 사실 예전에 이미 두 번 정도 읽은 적이 있는 논문이지만, 다시 복습하기 위해 읽었다. 처음 개념을 이해할 때에는 참 어렵게 보였는데, 이제는 제법 빠른 속도로 읽으면서 내용을 따라갈 수 있게 되었다.
Information retrieval 등 많은 문장을 다루는 task에 비효율적이라는 기존 BERT의 문제점을 개선한 SBERT를 소개한 논문. 이전에 다룬 siamese & triplet network를 사용해 BERT를 fine-tuning하여 문장을 다루는 여러 task의 작업 효율을 비약적으로 상승시킴과 동시에 SOTA를 달성하였다.
Deep metric learning은 데이터 간의 유사도를 표현할 수 있는 metric function을 neural network로 학습하는 것이다. 즉, feature 사이의 decision boundary를 학습시키는 일반적인 classification과 달리, feature space에서 ‘유사한 데이터는 가깝고, 유사하지 않은 데이터는 멀리 떨어진’ embedding을 갖도록 학습하는 방법이다. 이는 학습 시 아주 제한된 양의 예시만이 주어지는 상황인 few-shot learning에서 효과적으로 사용될 수 있다.
이 논문은 어떤 실험이나 검증이 없이, 아직 존재하지 않는 아키텍쳐에 대한 이론적인 방향성을 제시한다는 점에서 일반적인 논문과는 많이 다르다. 논문의 단독 저자 Geoffrey Hinton은 인공지능을 공부했다면 모두가 한 번은 이름을 들어보았을 이 분야의 거장으로, Hinton은 44페이지에 달하는 이 논문을 통해 본인이 구상해온 GLOM이라는 가상의 아키텍쳐를 소개하고 있다. 이를 통해 그는 카메라의 관점 등의 요인에 관계 없이 이미지를 구성하는 요소들의 part-whole hierarchy를 parse tree의 형태로 나타내는 모델을 제시한다.