A Metric Learning Reality Check(2020)

최근 AI의 많은 분야에서 공통적인(그리고 당연한) 연구 트렌드가 있는데, 이는 본인이 고안한 방법(아키텍쳐, optimizer, loss design 등)이 특정 데이터셋에서 SOTA를 달성함을 보여주려고 한다는 점이다. 각각의 분야와 데이터셋마다 SOTA를 갱신하기 위한 경쟁은 점점 치열해지고 있으며, 앞으로도 이런 경향은 계속되거나 더욱 심화될 것이라고 생각한다. 하지만, 이러한 경쟁 속에서도 반드시 지켜야 할 것이 있는데, 그것은 바로 데이터의 신뢰성이다. 그런데, 필자는 지금까지 여러 편의 AI 논문을 읽으며, 이 부분에 대해서 의문을 가졌던 경험이 몇 번 있었다. 예를 들어, 어떤 논문에서는 baseline과 자신의 모델을 비교평가할 때 '’해당 분야의 관행에 따라 모델의 top-1 accuracy를 비교한다’‘며 결과를 정리한 표에 confidence interval 표기 없이 top-1 accuracy만을 표기했었다. 이는 심각한 통계적 신뢰성 문제를 안고 있으며, 생명과학 논문을 많이 읽어왔던 필자는 이것이 자연과학 논문이었다면 있을 수 없는 데이터 리포팅이었기 때문에 의아했었다. 이 논문은 이러한 AI 학계의 데이터 신뢰성 문제에 대한 필자의 문제의식을 더욱 확신하게 해준 논문으로, 앞으로의 연구 및 논문 리딩에 대해 많은 생각을 하게 해주었다.

Continue reading

ExT5: Towards Extreme Multi-Task Scaling for Transfer Learning(2021)

BERT의 발표 이래 최근 연구에서 다뤄지는 대부분의 NLP 모델은, 주로 self-supervised learning을 통해 pre-training된 모델을 가져다 원하는 task에 맞게 fine-tuning하여 사용한다는 공통된 흐름이 있다. Text-to-text의 형태로 모든 입출력을 다루기 때문에 단일 구조로 모든 종류의 NLP task를 수행할 수 있다는 장점을 가진 T5 또한, C4 dataset에 대한 self-supervised span denoising을 통해 pre-training을 한다. 이 논문은 이러한 T5 모델에 대해, pre-training 과정에 다양한 task에 대한 supervised learning을 포함시켜 transfer learning의 성능을 상향시킨 ExT5를 다룬다. 결론부터 이야기하면, ExT5는 pre-training 과정에서 span denoising과 함께 무려 107개의 dataset이 섞인 dataset인 ExMix에 대한(!) supervised learning을 하였고, 그 결과 얻어진 ExT5는 대부분의 NLP task에서 기존의 T5보다 높은 성능을 보였다.

Continue reading

Brad Mehldau - 10 Years Solo Live

21세기 재즈피아노의 거장 브래드 멜다우의 2004-2014년 간의 라이브 솔로 연주가 담긴 앨범. 브래드 멜다우는 이 앨범에서 락, 재즈 스탠다드, 오리지널 튠 등 다양한 곡들에서 완성도 높은 솔로 연주를 선보이며 듣는 이를 자신의 깊은 음악세계로 인도한다.

Continue reading

Data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language(2022)

이 논문은 얼마 전 메타에서 발표한 것으로, modality(vision, speech, language)에 관계 없이 적용 가능한 self-supervised learning mechanism인 Data2Vec을 제시한다. 이를 사용해 각각의 modality의 데이터를 학습시킨 결과, 각 분야에서 SOTA에 준하는 높은 성능을 보여주었다. Data2Vec이 self-supervised learning을 하는 구조는 아래와 같다.

Continue reading

Perceiver: General Perception with Iterative Attention(2021)

DeepMind에서 2021년에 발표한 논문으로, 단일 구조로 다양한 modality의 데이터를 학습하고 다룰 수 있는 transformer 기반 모델인 Perceiver를 소개하였다. 기존의 AI의 각 분야에서 좋은 성과를 거둔 CNN과 transformer 기반 아키텍쳐가 다양한 modality를 학습하기 어려웠던 이유로는 크게 두 가지를 들 수 있다. 먼저, CNN의 경우 convolution이라는 연산 자체가 이미지의 형태로 들어오는 input의 spatial relationships를 가정하고 있기 때문에, 이러한 관계가 성립하지 않는 다른 형태의 데이터에는 잘 적용하기 까다로운 경우가 많다. 다음으로, BERT와 같은 transformer 구조는 input data가 정해진 길이를 가질 것을 요구하며 그 길이의 제곱에 비례해 계산 복잡도가 증가하기 때문에, 오디오 파일이나 이미지와 같이 엄청나게 긴 데이터를 downsampling이나 feature extraction 없이 그대로 받아들이는 것이 어려웠다.

Continue reading

Chick Corea Trio - Trilogy 2

칙 코리아, 크리스쳔 맥브라이드, 브라이언 블레이드로 구성된 어쿠스틱 트리오의 라이브 앨범. 칙코리아가 70대에 접어든 2010년에서 2016년 사이의 라이브 투어 연주가 담겨 있는 이 앨범은 2018년에 발매되어, 2021년 Best Jazz Instrumental Album, Best Improvised Jazz Solo의 두 부문에서 Grammy Award를 수상하였다.

Continue reading

Pagination


© 2021. by Duemoo

Powered by aiden