본문 바로가기
IT

5번째 글# AI Data, 수집, 데이터 처리(Data processing)

by Vivleap,내가바로월부 2023. 3. 17.

 

GPT계열 모델(ChatGPT, GPT-4, ...)이나 BERT계열 모델(BERT, RoBERTa, ...)과 유사한 AI 데이터를 수집하려면 상당한 리소스, 시간, 기술 전문 지식이 필요합니다. 이러한 모델들은 웹사이트, 책, 기사 등 다양한 출처의 인터넷 텍스트 데이터를 학습합니다. 이러한 AI Data를 수집하려면 일반적으로 다음과 같은 단계들을 고려해야 합니다.

1. 목표를 설정합니다.

내가 어떤 모델을 생성할 것인지 목표를 명확하게 정의(Definition)하는 것이 중요합니다. 그 다음 필요한 AI Data를 설계합니다. 즉, 모델을 학습시키는 데 필요한 데이터의 유형과 규모를 산출합니다. 데이터는 소셜 미디어, 블로그, 뉴스 기사, 책, 포럼 등 다양한 소스에서 수집할 수 있습니다.

2. 필요한 권한을 확보합니다.

매우 중요하지만 많은 사람들이 간과하는 부분입니다. 선택한 소스 데이터(Source Data)에 액세스하고 수집하는 데 필요한 권한이 있는지 확인합니다. 즉, 데이터에 무단으로 접근하지 않도록 주의합니다. 구체적으로는 API 키를 얻거나 웹사이트 관리자에게 연락하여 액세스 권한을 요청하는 것, 데이터의 라이센스를 확인하는 등의 절차를 말합니다. 그리고 데이터별로 잘 정리하고 유지합니다.

3. 데이터 크롤링(Crawling) 및 스크래핑(Scraping)

웹 크롤러(Crawler)와 스크래퍼(Scraper)를 사용하여 선택한 소스에서 텍스트 데이터를 추출합니다. Scrapy, Beautiful Soup, Selenium과 같은 유명한 수집 도구를 사용하는 것이 보편적인 방법입니다. 물론 좀 더 자신의 상황에 맞는 맞춤형 솔루션을 개발하거나 아웃소싱을 구할 수 있습니다.

4. 데이터 정리 및 전처리

웹에서 수집한 Raw Data에는 모델에 학습하고자 하는 방향과 일치하지 않는 콘텐츠가 많습니다. 중복, 관련 없는 콘텐츠, HTML 태그 및 특수 문자를 제거하는 등 데이터를 정리하고 전처리(Preprocessing)해야 합니다. 이 단계에는 토큰화(Tokenization), 분류(Lemmatization), 기타 자연어 처리 기술들(Named-Entity Recognition, Pattern Matching, Dependency Parsing...)을 사용하여 학습용 데이터를 구조화하는 작업도 포함됩니다.

5. 데이터 저장

정리 및 전처리된 데이터를 일반 텍스트 파일, CSV 파일 또는 데이터베이스와 같은 적절한 형식으로 저장합니다. 대규모 데이터 세트의 경우 클라우드 스토리지 솔루션이나 분산 파일 시스템을 사용하는 것이 좋습니다.

6. 법적 및 윤리적 고려 사항

2번과 더불어 중요한 내용입니다. 개인정보나 저작권이 있는 콘텐츠의 경우 데이터 수집 및 사용에 따른 법적, 윤리적 영향을 숙지해야 합니다. 데이터 보호법을 준수하고 사용자 개인정보를 존중해야 합니다. 개인정보가 포함된 데이터는 삭제하거나, 마스킹(Masking)하여 사용합니다.

7. 지속적인 업데이트

GPT계열 뿐만 아니라 많은 AI 모델은 AI Data의 최신성이 매우 중요합니다. 지속적인 업데이트를 통해 최신성을 유지해야 하는데, 새로운 데이터를 주기적으로 수집하고 정리하여 기존 데이터 세트에 추가할 수 있는 자동화 시스템을 개발하는 것이 좋습니다. 또한 주기적으로 수집 및 가공된(Preprocessing) 데이터를 기존 AI 모델에 추가적으로 학습시킬 수 있는지 여부를 판단해야 합니다. Incremental Learning이라고 하는 이 방법이 적용 가능한지 따져보고, 만약 가능하다면 이를 자동화할 수 있는 Data pipeline을 구축하는 것도 좋습니다.