"합법적 LLM 학습 데이터, AI 사업 리스크 줄인다"
지난달 6일 보도된 뉴욕타임즈(NYT) 기사다. NYT는 특히 “오픈AI 직원들이 위법 행위 가능성을 사전에 인지하고 있었지만 AI 학습은 이용 목적에 부합하다고 믿었던 것처럼 보인다"고 보도했다. 실제 미 실리콘밸리 기업들은 막대한 데이터를 학습, AI 서비스에 활용하고 있는 상황. ‘데이터 헝그리'란 말이 나올 정도. 현존 데이터가 부족해서 데이터를 만들어 내는 ‘합성데이터’까지 나오는 상황이다. AI를 학습하기 위해서는 수백, 수 천 억개의 데이터가 필요하기 때문이다. 이 같은 상황에서 ‘정제된' 뉴스 데이터를 합법적으로 AI 플랫폼 기업이 활용하는 사례가 등장 주목을 받고 있다. 세계적으로 드문 사례다. 뉴스, 미디어, 법률 등 다양한 섹터의 고급 지식 데이터를 수집, 제공하고 있는 한국의 비큐AI(BECUAI, 구 비플라이소프트)가 주인공이다. 비큐AI 임경환 CEO는 “데이터의 질과 양은 인공지능의 효율성과 유효성을 결정하는 핵심 요소다. 데이터의 출처와 사용 방법에 대한 윤리적, 법적 문제가 대두되고 있다”며 “특히 실시간으로 업데이트되는 뉴스 데이터는 AI시스템의 학습 과정에 필수적인 자원"이라며 “다만 이를 사용하기 위해서는 적법한 절차를 따라야 한다"고 말했다. 임 대표는 뉴스 데이터의 가치와 데이터를 합법적으로 사용할 수 있는 방안 등에 대한 인사이트를 공유했다. 임 대표의 비큐AI는 최근 비플라이소프트에서 AI 사업을 강화하기 위해 사명을 바꾸고 해외 신사업 등을 준비하고 있다.