익숙한 도구를 사용하여 FPGA에 Edge AI를 배포하는 방법

June 1, 2026
에 대한 최신 회사 뉴스 익숙한 도구를 사용하여 FPGA에 Edge AI를 배포하는 방법

네트워크 엣지의 AI가 추론만 의미하는 경우는 거의 없습니다. 실제 배포에는 일반적으로 고속 입력/출력(I/O), 신호 조절 및 실시간 제어 루프가 포함되며 모두 동시에 실행됩니다. 이러한 다기능 워크로드에는 긴밀한 조정과 높은 확실성이 필요하며 설계자는 주류 AI 하드웨어를 사용하여 이러한 요구 사항을 충족하는 것이 어렵다는 것을 알게 되었습니다.

두 가지 요인이 이 문제를 더욱 복잡하게 만듭니다. 첫째, AI 모델은 놀라운 속도로 발전하고 있어 설계자들은 신속한 알고리즘 업데이트를 지원하는 플랫폼을 채택하게 되었습니다. 한편, 많은 엣지 시스템이 현장에서 최대 10년 이상 사용되어 장기적인 적응성을 보장하기가 어렵습니다. 둘째, 잘 훈련된 모델에서 시스템 배포 및 구현까지의 경로는 여전히 단편적입니다. 데이터 과학자는 PyTorch와 TensorFlow를 사용하는 반면, 임베디드 팀은 완전히 다른 툴체인을 사용하므로 핸드오버 프로세스 중에 마찰이 발생하고 생산 속도가 느려집니다.

이러한 문제를 해결하려면 플랫폼은 높은 처리량의 AI 처리와 결정론적 동작, 유연한 I/O 및 장기 적응성을 결합할 수 있어야 하며, 이 모든 기능은 제한된 엣지 배포의 일반적인 전력 소비 범위 내에서 달성되어야 합니다.

이 문서에서는 디자이너가 새로운 엣지 AI 아키텍처를 탐색하도록 요구하는 애플리케이션 시나리오 및 관련 요구 사항에 중점을 둡니다. 그런 다음 엣지 AI를 지원하는 Altera의 FPGA(필드 프로그래밍 가능 게이트 어레이) 장치와 소프트웨어 도구를 소개하고 이를 활용하여 이러한 애플리케이션의 다양한 성능 및 전력 요구 사항을 충족하는 방법을 시연했습니다.

엣지 AI의 진화에는 아키텍처 혁신이 필요합니다
엣지 시스템은 이상 탐지를 위한 기존 머신러닝(ML), 인식을 위한 컨볼루션 신경망(CNN), 대규모 언어 모델(LLM)을 위한 변환기 등 다양한 AI 기술을 점점 더 많이 채택하고 있습니다. 이러한 계산 집약적인 알고리즘은 신호 처리, 네트워크 통신, 실시간 제어 등 AI가 아닌 까다로운 기능과 공존하는 경우가 많습니다.

자율 시스템이 좋은 예이다. 일반적으로 비디오, 오디오, 레이더, LiDAR 및 모션/위치 피드백과 같은 여러 센서 양식에서 데이터를 캡처하고, 높은 처리량으로 이러한 데이터 스트림을 전처리하고, 복잡한 AI를 사용하여 결과를 분석한 다음, 고정밀 제어 루프를 관리해야 하며, 이 모든 작업에는 안정적인 결정력이 필요합니다.

산업 자동화, 의료 영상, 국방, 통신 애플리케이션에도 유사한 사례가 많이 있습니다. 그들이 직면한 일반적인 과제는 기존 아키텍처가 지속적으로 수렴되는 워크로드에 적응하기 어렵다는 것입니다.

FPGA가 엣지 AI에 특히 적합한 이유
대조적으로, 이러한 요구사항은 FPGA의 기능과 완벽하게 호환됩니다. FPGA의 핵심은 런타임에 변동하는 것이 아니라 디자인 타임에 타이밍 동작이 내장되어 진정한 병렬 방식으로 작업을 수행할 수 있는 구성 가능한 로직을 제공하는 것입니다. 이 아키텍처는 엣지 AI에 중요한 낮은 대기 시간 결정성을 달성할 수 있습니다. 유연한 로직은 강력한 I/O를 활용할 수도 있습니다. FPGA는 일반적으로 다양한 센서 및 액추에이터에 연결하여 AI 처리와 긴밀한 결합을 달성할 수 있는 풍부한 고속 I/O를 제공합니다.

FPGA에는 분산형 내부 메모리도 포함되어 있어 FPGA에서 작동하는 로직을 통해 데이터에 액세스할 수 있습니다. 이는 여러 처리 단계가 공유 메모리 버스에 액세스하기 위해 경쟁해야 할 때 발생하는 병목 현상을 줄여줍니다. 이는 프로세서 기반 아키텍처의 일반적인 제한 사항입니다.

많은 FPGA에는 특수 디지털 신호 처리(DSP) 하드웨어도 통합되어 있습니다. 기존 구조에 비해 이러한 향상된 회로는 신호 처리 작업 부하에 대해 더 높은 성능과 더 나은 에너지 효율성을 제공합니다. 또한 일부 FPGA는 표준 소프트웨어 스택(Linux 포함)을 실행할 수 있는 유선 프로세서 시스템을 통합하여 네트워킹, 장치 관리 및 사용자 인터페이스와 같은 작업을 위한 기존 소프트웨어 개발을 가능하게 합니다.

즉, 단일 FPGA는 별도의 I/O 칩, AI 가속기, DSP 및 제어 평면 프로세서가 필요할 수 있는 기능을 통합할 수 있습니다. 이를 통해 BOM(Bill of Materials)을 줄이고 회로 기판 면적을 축소하며 전력 소비를 낮추는 동시에 엣지 AI 애플리케이션에 필요한 낮은 대기 시간과 확실성을 유지할 수 있습니다.

AI 텐서 블록을 추가하여 새로운 가능성을 여는 방법
기존 FPGA DSP 하드웨어는 이미 많은 에지 워크로드에 매우 적합하지만 AI 추론은 밀도가 높지만 정밀도가 낮은 곱셈 연산에 의존하는 경우가 많습니다. 이 문제를 해결하기 위해 Altera의 Agilex 3 및 Agilex 5 장치는 AI 텐서 블록과 함께 향상된 DSP를 사용합니다. AI 연산 그래프에 반복적으로 등장하는 행렬행렬, 벡터행렬 곱셈에 특화된 하드웨어입니다.

이 방법의 핵심은 스칼라 곱과 가산기/누산기 엔진입니다(그림 1). 텐서 모드에서 하드 와이어드 포인트 엔진은 8비트 입력과 사전 로드된 8비트 가중치를 사용하여 10개 요소 내적을 수행합니다. 동적 범위를 확장하기 위해 데이터 경로는 AI 추론이 일반적으로 높은 동적 범위를 요구하지만 정확도는 낮은 일반적인 시나리오에 대처하기 위해 블록 부동 소수점 스케일링을 위한 공유 "공통 인덱스"를 사용할 수도 있습니다.