Masked Language Model1 3번째 글# BERT, MLM Loss BERT는 Bidirectional Encoder Representations from Transformers의 약자로, 2018년에 Google에서 개발한 사전 학습된(pre-trained) 언어 모델입니다. 트랜스포머라는 신경망 아키텍처를 사용하여 문장을 양방향으로(bidirectionally) 처리함으로써 문장에 포함된 단어 간의 관계를 학습할 수 있습니다.지금으로부터 벌써 5년 전 모델이지만, 몇 가지 중요한 점 때문에 BERT 모델은 현재까지도 많이 언급되는 논문입니다. 우선 BERT 모델은 트랜스포머 아키텍처의 인코더(Encoder)만 사용하고 디코더(Decoder)는 사용하지 않습니다.원래 트랜스포머 아키텍처에서 디코더는 모델이 다른 언어로 된 단어 시퀀스를 생성해야 하는 기계 번역과 같은 .. 2023. 3. 8. 이전 1 다음