본문 바로가기

Transformer3

[논문리뷰] BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension Background Key features : NLP(Natural Language Processing), Language modeling objective, Transformer, Pre-training, Fine-tuning, Language Model, BERT, GPT, Sequence-to-Sequence(Seq2Seq), BART, Bidirectional Auto-Regressive Transformer 안녕하세요~ NLP 맨입니다. 이번에 들고온 논문은 BART입니다. 바트.. 어디서 들어본 이름 아닌가요? 바트 심슨이 떠오르시죠? 그러나 오늘 소개할 것은 애니메이션 캐릭터가 아니라 Bidirectional Auto-Regressive Transformer입니다. 각 단어의 앞글자를 따서 .. 2022. 1. 6.
[논문리뷰] On the Stability of Fine-tuning BERT: Misconceptions, Explanations, and Strong Baselines Background Key features : NLP(Natural Language Processing), BERT, Fine-tuning, ADAM Optimizer, Catastrophic Forgetting, Machine learning Engineering, Fine-tuning instability, Bias Correction 자연어 처리를 연구하다보면 BERT 모델과 접할 기회가 많습니다. 많은 논문들이 더 크고 더 많은 데이터로 학습시킨 모델이 더 좋은 성능을 낼 수 있다고 말하고 있고, 이는 자연어 처리 뿐만아니라 이미지 처리, 아니 모든 인공지능 모델에 적용되는 공통 사항입니다. (요새는 일반 사람들의 컴퓨터에 만들어진 모델을 GPU에 로드하지도 못할만큼 큰 모델이 등장하고 있습니다... 2021. 11. 21.
[논문리뷰] BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding Background Key features : NLP(Natural Language Processing), Language modeling objective, Transformer, Transfer learning, Masked Language Modeling(MLM), Next Sentence Prediction(NSP), Fine-tuning BERT는 유명한 논문입니다. LSTM 구조의 모델에서 허덕이던 NLP계에 혜성같이 등장하여 11개의 NLP 벤치마크에서 SOTA를 달성하였습니다. BERT의 영향력은 엄청나 현재까지 BERT의 구조를 이용한 수많은 변형 모델들이 만들어졌습니다. 지금 생각나는 것만 나열해 봐도, RoBERTa, ALBERT, BART, MBERT, ViLBERT, SpanBER.. 2021. 6. 30.
반응형