목소리는 어떻게 AI 에이전트가 되나?… 일레븐랩스가 여는 음성AI의 미래
월드컵 시즌, 영화 인터스텔라로 유명한 배우 매튜 맥커너히가 축구공 리프팅을 시작한다. “전 세계가 (월드컵을 위해) 여기 모였네요.” 영어로 시작된 그의 말이 갑자기 일본어, 어느 순간 다시 프랑스어로 바뀐다. 전 세계 축구 팬들이 모이는 축제 기간, 자신의 데킬라 브랜드인 ‘판탈로네스(Pantalones)’를 한잔 마시면 더 쉽게 외국 친구들과 어울릴 수 있을 거라는 영상 광고였다. 끈적한 저음, 편안하고 느긋한 텍사스 사투리 등 맥커너히 특유의 억양과 목소리 톤은 유지된 채 언어만 자연스럽게 바뀐 것이다. 이 영상은 AI 스타트업 일레븐랩스(ElevenLabs)의 ‘더빙 v2(Dubbing v2)’로 제작됐다. AI가 내 목소리와 발화 시점의 감정, 어조, 말의 속도, 음색의 특징 등을 유지한 채 언어만 다른 것으로 바꿔주는 기능이다. 원본 화자가 말한 것처럼 AI 더빙으로 누구나 쉽게 언어 장벽을 허물 수 있는 시대가 열린 것이다. 홍상원 일레븐랩스 한국총괄은 11일 열린 서울 코엑스에서 열린 ‘테크콘 2026(TechCon 2026)’에서 일레븐랩스의 기술과 AI 기반 음성 인터페이스(Interface, 접점)의 미래에 관해 설파했다. AI 기술의 발전으로 사람과 다른 사람, 사람과 에이전트(agent, 대리인)의 상호작용이 바뀌고 있으며 그 과정에서 특히 음성이 더 많은 역할을 하게 될 것이란 전망이다. 그는 특히 음성 AI가 단순한 음성 합성을 넘어 고객과 상호작용하고 실제 업무를 수행하는 자율형 AI 에이전트로 진화하고 있다고 강조했다. 2022년 피오트르 댐코프스키(Piotr Dąbkowski), 마티 스타니셰프스키(Mati Staniszewski)가 설립한 일레븐랩스는 뉴욕 맨해튼에 본사를 둔 첨단 AI 음성 합성 스타트업이다. 북미, 유럽, 아시아, 호주, 중동 등 주요 지역에 사무소를 개설하며 빠르게 사업을 확장 중이다. 올해 2월 투자유치 당시 110억달러(약 16조8000억원)의 기업가치를 인정 받았다. 홍 헤드는 발표에서 일레븐랩스의 음성 복제(Voice Cloning) 기술 사례를 소개하며 “사람과 유사한 발성을 구현하는 것을 넘어 사람의 감정을 전달하고 공감을 끌어낼 수 있는 수준의 자연스러운 음성 합성 기술을 제공하고 있다”고 했다. 음성 품질이 낮은 자동화 서비스는 오히려 고객 이탈을 유발할 수 있으며 더빙 v2 사례처럼 고품질 음성 AI가 고객 경험 개선의 핵심 요소가 되고 있다는 주장이다. 고객 응대 기술이 IVR(음성응답시스템), 챗봇, 보이스 AI로 발전하고 있다는 것. 그는 “이제는 단순히 질문에 답하는 수준을 넘어 고객의 감정을 파악하고, 이에 맞춰 응답하며 실제 업무까지 수행하는 시대가 열리고 있다”고 했다.