AI 칩 역사 다시 쓴다… 구글 ‘TPU 8t·8i’ AI 인프라 판도 바꾸는 이유
[구글 클라우드 넥스트 2026] 아민 바닷 구글 AI 인프라 수석부사장 발표
학습용 TPU 8t·추론용 TPU 8i 최초 이원화... 달러당 성능 80% 향상
신기술 ‘보드플라이’ 아키텍처… 지연시간 혁신의 비밀
엔비디아에 도전장… 외부 고객 확대와 시장 지각변동
더밀크의 시각: 추론 비용이 게임의 법칙 바꾼다… CPU의 귀환
구글이 인공지능(AI) 칩 역사에서 전례 없는 전략 전환을 단행했다. 구글 클라우드는 현지 시간 22일 미국 라스베이거스에서 개막한 연례 기술 컨퍼런스 ‘구글 클라우드 넥스트 2026(Google Cloud Next '26)’에서 자체 AI 반도체인 8세대 TPU(텐서처리장치)를 공개했다.
이번 발표의 핵심은 학습 전용 ‘TPU 8t’와 추론 전용 ‘TPU 8i’ 두 가지 칩을 동시에 선보였다는 점이다. 구글이 한 세대에서 두 종류의 특화 TPU를 출시한 것은 13년 TPU 개발 역사상 처음이다.
“하나의 칩으론 충분하지 않다”…이원화 전략 배경
“우리는 8세대 TPU 한 종류를 발표하는 게 아닙니다. 8세대 TPUs, 즉 두 가지를 발표합니다.”
행사 개막 하루 전날인 21일 저녁 프레스 대상으로 발표에 나선 아민 바닷(Amin Vahdat) 구글 AI 인프라 수석부사장 겸 최고기술책임자는 “8세대 TPU는 처음으로 완전히 다른 목적으로 설계된 두 가지 맞춤형 TPU”라며 이원화 전략의 의미를 강조했다.
학습에 강한 TPU 8t와 추론 특화 칩인 TPU 8i를 나눔으로써 연산 성능과 효율에서 큰 개선을 이룰 수 있었다는 것. 특히 에이전틱 AI 시대 급증하는 추론 수요를 맞추려면 전용 칩이 필요하다고 판단, 내부적으로 준비를 해왔다는 설명이다.
그에 따르면 이 결정이 내려진 것은 약 2년 전이다. 구글 클라우드와 긴밀하게 협업하는 구글 딥마인드 연구진들은 AI 에이전트 시대가 도래할 것을 예상했고, 근본적으로 다른 연산 특성을 요구하는 추론용으로 별도 칩이 필요하다는 결론에 도달했다.
바닷 수석부사장은 “두 칩은 각각 완전히 다른 아키텍처로 설계됐다. 한 칩의 단순한 파생 버전이 아니다”라며 “스펙, 기능, 연결 방식 모두 다르다. 특화된 목적에 맞게 설계됐기 때문”이라고 했다.
프런티어 모델 학습 수개월에서 수주로 단축... 지연 시간 최대 5배 줄여
TPU 8t는 대규모 AI 모델 학습에 특화됐다. 최첨단 프런티어 모델 개발 기간을 수개월에서 수주 단위로 단축하도록 설계됐다.
최고 연산 처리량, 공유 메모리 및 칩 간 대역폭, 최상의 전력 효율성 및 실질적인 연산 시간을 조화시켜 이전 세대 대비 포드당 연산 성능은 약 3배 향상됐다. 단일 TPU 8t 슈퍼포드는 9600개의 칩과 2페타바이트 규모의 고대역폭 메모리로 확장됐으며 121 엑사플롭스의 연산 성능을 제공한다.
TPU 8i는 AI 에이전트가 실시간으로 사용자 요청에 응답해야 하는 에이전틱 AI 시대에 최적화된 칩이다. 저지연(low-latency) 추론 전용으로 설계됐다.
포드당 칩 수는 1152개로 전 세대 아이언우드 대비 4배 이상 확대됐으며 프로세서의 유휴 시간을 줄이기 위해 288GB의 고대역폭 메모리(HBM, 포드 당 전 세대 대비 7배 확대)와 384MB의 온칩 S램(SRAM, 전 세대 대비 3배 증가)를 결합해 사용한다.
온칩 SRAM을 활용하면 모델의 활성 작업 세트 전체를 외부 메모리 접근 없이 칩 내부에서 처리할 수 있어 유휴 시간을 줄일 수 있다. 바닷 부사장은 “새로운 온칩 CAE(Collectives Acceleration Engine)를 사용해 온칩 지연 시간을 최대 5배까지 줄일 수 있다”고 했다.
에이전트에게 질문을 던지거나 업무를 위임했을 때 5초씩 기다릴 필요 없이 즉각적인 응답을 제공하는 에이전틱 AI 경험을 구현한다는 설명이다.
신기술 ‘보드플라이’ 아키텍처… 지연시간 혁신의 비밀
TPU 8i의 또 다른 핵심 혁신은 칩 간 연결 방식에 있다. 구글은 딥마인드와의 긴밀한 협업을 통해 ‘보드플라이(Boardfly)’라는 새로운 네트워크 아키텍처를 개발했다.
바닷 부사장은 그 탄생 배경을 이렇게 설명했다.
“우리가 기존에 칩들을 연결하는 방식은 처리량(throughput)과 대역폭은 뛰어났지만, 에이전틱 AI에서 정말 중요한 지연시간(latency)을 지원하지 못했습니다. 딥마인드와 협력해 완전히 새로운 네트워크 아키텍처를 설계했습니다.”
보드플라이는 최대 네트워크 직경을 50% 이상 줄여 시스템이 하나의 통합된 저지연 단위로 작동하도록 한다. 단순히 ‘지난 세대보다 더 빠른 칩’을 만드는 방식에서 벗어나 실질적 서비스 수요에 맞춰 아키텍처 자체를 바꾼 것이다.
“달러당 성능 80% 향상”… ‘굿풋(Goodput)’ 97% 달성
구글 클라우드는 8세대 TPU의 달러당 성능이 전 세대 대비 80% 향상됐다고 밝혔다. 이는 같은 비용으로 약 두 배에 달하는 AI 워크로드를 처리할 수 있음을 뜻한다.
바닷 부사장은 이와 관련, 성능 지표보다 더 중요한 지표로 ‘굿풋(Goodput)’을 제시했다. 굿풋은 이론적 최대 성능이 아니라 실제로 의미 있는 계산이 얼마나 진행됐는지를 나타내는 지표다. 칩 장애 발생 시 탐지 및 복구 속도가 굿풋을 결정한다.
그는 “97%의 굿풋을 달성하고 있다”고 밝히며 “수만 개의 칩이 나노초 단위로 협력하는 시스템에서는 하루에도 수차례 오작동하는 칩이 나온다. 만약 어떤 칩 하나가 잘못된 계산 결과를 아무 경고 없이 전파하는 ‘사일런트 데이터 커럽션(silent data corruption)’이 발생하면 그 오류가 전체 시스템에 퍼진다. 이 문제를 해결하는 것은 우리 업계 전체의 핵심 과제”라고 설명했다.
엔비디아에 도전장… 외부 고객 확대와 시장 지각변동
이번 8세대 TPU 발표는 구글이 내부 인프라를 넘어 외부 시장에서도 엔비디아와 본격 경쟁에 나설 수 있다는 신호로 해석된다.
실제로 앤트로픽은 구글과의 협약을 통해 2026년 최대 100만 개의 TPU를 확보, 2027년부터 약 3.5기가와트 규모의 차세대 TPU 기반 컴퓨팅 인프라에 접근하는 계획을 진행 중이다. 메타 역시 구글 TPU를 임대하는 협약을 논의 중인 것으로 알려졌다.
업계에서는 구글 TPU의 2026년 출하 예상량을 약 430만 개로 보고 있으며 2028년에는 3500만 개를 상회할 것으로 전망한다. 구글의 칩 공급망도 다원화되고 있다. 브로드컴이 TPU 8t의 설계를 담당하며 미디어텍(MediaTek)이 TPU 8i에 해당하는 저비용 추론 칩 개발을 맡은 것으로 전해진다. 구글 클라우드는 TPU 8t와 TPU 8i 모두 2026년 내 정식 버전(GA·General Availability)을 출시할 예정이라고 밝혔다.
다만 구글은 이번 구글 클라우드 넥스트에서 엔비디아의 GPU 등 타사 제품도 자사 인프라에서 통합 지원한다고 밝혔다. 여전히 GPU를 원하는 고객사가 많기 때문에 GPU와 TPU를 함께 운용하는 ‘멀티 액셀러레이터’ 전략을 유지할 것으로 관측된다.
더밀크의 시각: 추론 비용이 게임의 법칙 바꾼다… CPU의 귀환
구글의 이번 발표는 AI 반도체 시장에서 ‘목적별 특화 칩’ 시대의 가속화를 알리는 신호탄이다. 지금까지 AI 칩 시장은 엔비디아 GPU가 학습과 추론을 동시에 장악하는 구조였다.
구글이 학습과 추론을 칩 수준에서 분리한 것은 각 워크로드의 연산 특성이 근본적으로 다르다는 인식을 하드웨어 설계에 반영한 결과다. 이 흐름은 아마존(AWS 트레이니움·인퍼런시아), 마이크로소프트(Maia), 메타(MTIA) 등 빅테크 전반의 커스텀 실리콘 전략과 맥을 같이한다.
시장 조사기관 트렌드포스 역시 2026년 커스텀 AI 칩 매출이 45% 성장할 것으로 전망했다. 이는 GPU 성장률(16%)을 크게 웃도는 수치다.
TPU 8i가 겨냥하는 핵심 목표는 AI 에이전트의 실시간 추론 비용 절감이다. AI 에이전트가 폭발적으로 보급될수록 기업이 지불해야 하는 추론 연산 비용은 기하급수적으로 늘어난다.
구글이 달러당 성능을 80% 향상시킨 칩을 에이전트 시대에 맞춰 공급한다면 기업들의 AI 도입 경제성은 크게 개선될 수 있다. 미드저니(Midjourney) 등 일부 AI 기업들이 GPU에서 TPU로 인프라를 이전하며 비용을 60% 이상 절감했다는 보도도 나오고 있다.
바닷 부사장은 이날 CPU의 중요성이 커질 것이란 예측도 내놨다. 그는 “에이전틱 컴퓨팅에서 CPU가 귀환할 것”이라며 “에이전트를 오케스트레이션(조율)하고, 코드를 실행하는 샌드박스를 생성하고, 결과를 확인하는 일반 목적 연산이 폭발적으로 늘어날 것”이라고 했다.
에이전틱 워크플로우의 확산으로 이 작업에 필요한 연산을 담당하는 CPU의 역할이 커질 것이라는 전망이다. GPU 중심의 AI 인프라가 향후 CPU·TPU·GPU 등 다양한 칩으로 역할이 분담되는 이종 컴퓨팅 체계로 진화할 것임을 시사한다.
한국의 기회는?
TPU 8i의 HBM 용량이 288GB로 전 세대 대비 7배 확대됐다는 사실은 국내 반도체 기업에 직접적 영향을 줄 전망이다. SK하이닉스와 삼성전자는 HBM 공급망의 핵심 주자다. 구글 TPU의 수요 확대는 엔비디아 GPU에 편중돼 있던 HBM 수요의 다변화를 의미하며 국내 메모리 기업들의 고객 포트폴리오 측면에서 기회 요인이다. TPU 8 양산 계획이 구체화됨에 따라 첨단 패키징 및 테스트 생태계에서 국내 기업들의 역할도 주목된다.
카카오뱅크, CJ올리브영 등 국내 기업들이 구글 클라우드 AI를 도입한 가운데, 8세대 TPU는 이들 기업의 AI 워크로드 비용 효율성을 한층 높이는 계기가 될 수 있다. 특히 TPU 8i는 실시간 에이전트 응답에 특화된 만큼 AI 에이전트 기반 고객 서비스·물류 최적화·금융 추론 등을 추진하는 한국 기업들이 실질적 경쟁력을 높일 수단이 될 전망이다.