
AI 연산 수행 과정과 시스템 동작 상태를 모니터링하는 모습이다. / 사진. 한국전자통신연구원
초대형 AI 모델과 고성능 컴퓨팅(HPC) 수요가 빠르게 확대되면서, GPU 성능 향상만으로는 해결할 수 없는 구조적 병목 현상이 부각되고 있다. AI 학습 과정에서 모델 파라미터와 학습 데이터가 기하급수적으로 늘어나며, 단일 GPU 또는 서버에 탑재된 메모리 용량만으로는 연산을 안정적으로 처리하기 어려운 상황이 반복되고 있다. 이로 인해 연산 유닛이 유휴 상태에 빠지거나, 잦은 데이터 이동으로 성능이 급격히 저하되는 이른바 ‘메모리 장벽(Memory Wall)’ 문제가 AI 인프라 전반의 핵심 과제로 자리 잡았다.
기존에는 GPU 내부 고대역폭 메모리나 PCIe 기반 확장 장치를 활용해 메모리를 증설해 왔으나, 물리적 연결 거리와 장비 간 확장성에 한계가 존재했다. 특히 데이터센터 규모가 커질수록 서버·가속기 간 메모리를 유연하게 확장하기 어려워, AI 모델 크기 증가 속도를 인프라가 따라가지 못하는 구조적 문제가 반복돼 왔다.
한국전자통신연구원(이하 ETRI)이 개발한 ‘옴니익스텐드(OmniXtend)’는 이러한 메모리 병목 문제를 이더넷 기반 네트워크 구조로 근본적으로 해결하는 기술이다. 옴니익스텐드는 표준 이더넷 스위치를 활용해 서버와 GPU, 가속기(Device)에 분산된 메모리를 하나의 대용량 메모리 풀(Memory Pool)처럼 구성한다. 각 장비가 네트워크를 통해 서로의 메모리에 직접 접근할 수 있도록 설계돼, 기존 장비 교체 없이도 메모리 자원을 유연하게 확장할 수 있다.
연구진은 FPGA 기반 메모리 확장 노드와 이더넷 메모리 전송 엔진 등 핵심 요소기술을 자체 개발해, 이더넷 환경에서도 안정적인 메모리 공유 구조를 구현했다. 실제 시연에서는 다수의 장비가 동일한 메모리 풀에 실시간으로 접근하는 환경을 구현했고, 대규모 언어 모델(이하 LLM) 기반 연산 부하 테스트에서도 성능 향상 효과를 검증했다. 메모리가 부족한 환경에서는 LLM 추론 성능이 크게 저하된 반면, 옴니익스텐드를 통해 메모리를 확장한 경우 처리 성능이 2배 이상 회복돼, 충분한 메모리를 확보한 기존 환경과 유사한 성능을 유지하는 것으로 나타났다.
ETRI 김강호 초성능컴퓨팅연구본부장은 “NPU와 GPU 중심의 차세대 시스템 구조에서 메모리 인터커넥트 기술이 핵심 경쟁력이 될 것”이라며 “글로벌 AI·반도체 기업의 시스템에 본 기술이 적용될 수 있도록 기술 고도화와 국제 협력을 지속하겠다”라고 밝혔다.
한편, ETRI는 프랑스 파리 ‘RISC-V 서밋 유럽 2025’와 미국 샌타클라라 ‘RISC-V 서밋 노스 어메리카 2025’에서 옴니익스텐드를 공개해 기술력을 입증했으며, 리눅스 재단 산하 칩스 얼라이언스 인터커넥트 워킹 그룹을 주도하며 오픈소스 기반 표준 확산에도 나서고 있다. 향후 데이터센터 서버, AI 학습·추론 장비, 네트워크 스위치에 본 기술을 적용해 차세대 AI 인프라 시장 진입을 본격화할 방침이다.