5번째 글# AI Data, 수집, 데이터 처리(Data processing)
GPT계열 모델(ChatGPT, GPT-4, ...)이나 BERT계열 모델(BERT, RoBERTa, ...)과 유사한 AI 데이터를 수집하려면 상당한 리소스, 시간, 기술 전문 지식이 필요합니다. 이러한 모델들은 웹사이트, 책, 기사 등 다양한 출처의 인터넷 텍스트 데이터를 학습합니다. 이러한 AI Data를 수집하려면 일반적으로 다음과 같은 단계들을 고려해야 합니다.1. 목표를 설정합니다.내가 어떤 모델을 생성할 것인지 목표를 명확하게 정의(Definition)하는 것이 중요합니다. 그 다음 필요한 AI Data를 설계합니다. 즉, 모델을 학습시키는 데 필요한 데이터의 유형과 규모를 산출합니다. 데이터는 소셜 미디어, 블로그, 뉴스 기사, 책, 포럼 등 다양한 소스에서 수집할 수 있습니다.2. 필요한..
2023. 3. 17.