이 문서의 번역:

영국 최고속 슈퍼 컴퓨터 「Cambridge-1」




NVIDIA(미국 캘리포니아)는, 영국에 4천만 파운드가 투자되는 최 고속 슈퍼컴퓨터 「Cambridge-1」을 설치한다는 계획을 2020년 가을에 발표했다. 그러나 신종 코로나바이러스(COVID-19)가 아직 전 세계적으로 유행하고 있어 이 회사는 여러 난관에 직면하게 되었다. 영국에 슈퍼컴퓨터 설치는 대서양을 사이에 둔 원격지 미국에서 전대미문의 복잡한 작업을 관리해야 하기 때문이다.

Cambridge-1은 최초 발표 일에서 20주밖에 지나지 않은 3월 초순 시점에, 이미 운용 제1단계에 도달했다. 코로나로 정상이 아닌 일정에도 불구하고 매우 빠른 속도로 진척 되고 있다. 더구나 팬데믹이 한창인 점을 감안하면 놀라울 정도로 빠른 속도로 진행되고 있다. 보통, 현재 슈퍼 컴퓨터 랭킹 「TOP500」에 이름을 올리고 있는 컴퓨터의 대다수는, 컨셉 입안에서 최종 완성하기 까지 평균 수년씩 걸린다.

이 슈퍼컴퓨터는 데이터센터 프로바이더인 Kao Data가 영국 케임브리지에 보유한 데이터센터 중 한 곳에 설치하고 있다. 과학자들이 헬스케어 분야 연구를 목적으로 사용하게 되는데 현재 최종 테스트 중이다.

Cambridge-1은 기계학습(ML) 분야에서의 응용을 염두에 두고, 80기의 NVIDIA DGX A100을 넣어 대규모 인공지능(AI) 소프트웨어를 실행할 수 있도록 설계되어 있다. 20기의 DGX A100은 수 백기 분의 CPU에 상당하는 계산능력을 발휘하기 때문에, Cambridge-1은 AI 처리로 400페타 FLOPS에 이르는 성능을 발휘하게 되는데 실질적으로 영국 최 고속 시스템이 된다.

Kao Data의 세일즈 & 마케팅 담당 바이스 프레지던트인 Spencer Lamb씨는 이런 규모의 설비를 단시간에 설치하는 것은 아주 놀라운 일이라고 한다. Lamb씨는 「 아주 도전인 일이다」, 「NVIDIA의 관리 팀은 미국 서해안을 중심거점으로 하고 있다. 평상시라면 영국 현지 시설을 방문했을 것이다. 그러나 그들은 시설에 발을 들여놓지 않고, 설치 작업을 원격지에서 관리해야 했다」라고 말한다.

Kao Data는 Cambridge-1 구축을 발표하기 반년 전부터 이 데이터센터 내에서 COVID-19의 감염 확대 방지를 목적으로 엄격한 운용규칙을 만들어 시행하고 있다. 꼭 필요한 스탭 외에는 현지방문을 허용하지 않고 있으며, 영국에서 가장 빠른 슈퍼컴퓨터에 관한 작업을 하고 있는 NVIDIA의 팀이라도 건물 내로 입실이 허가되지 않는다고 한다.

고객이 데이터센터의 공간을 구입할 경우 건물 상황을 확인하기 위해 많은 사람들이 직접 찾아와 보는 것이 통례이지만 이런 절차는 모두 비대면으로 미디어(Zoom)를 통해 이루어진다.

꼭 필요하지 않은 사람이 적을수록 작업은 효율화된다는 현실을 발견했다고 Lamb씨는 강조했다. 현장에 있는 사람들과 원격지에 있는 NVIDIA 팀의 연계를 통해 NVIDIA 담당자가 실제로 케임브리지를 방문하지 않고도 원하던 성과가 이뤄진 것이라고 덧붙였다.

캘리포니아주 샌타클라라에 있는 NVIDIA관리팀은 Zoom을 통한 비대면 회의로의사전달이 충분히 이루어지지는 않았다. NVIDIA 엔지니어들은 수치유체역학 기법을 채택, Kao Data 건물 내의 NVIDIA 회사에 할당된 공간을 정확하게 모델화여 슈퍼컴퓨터를 구성하는 서버와 컴퓨터의 랙 배치를 결정했다.

Camridge-1은 NVIDIA가 과거에 구축한 슈퍼컴퓨터 모델을 바탕으로 건물 내 3개의 룸을 사용하도록 디자인되었으며, 각 각의 방에는 독립된 전원설비와 공조시스템이 설치되어 있다. 방마다 냉장고 크기의 선반이 2열로 12대씩 배치되어 있고 컴포넌트 사이를 연결하는 수천 개에 달하는 광섬유 케이블은 사다리꼴 모양으로 랙 위에 배치되어 있다.

또한, 건물 내 상태를 미국에 있는 엔지니어들이 그대로 볼 수 있도록 하기 위해 작은 모바일 로봇도 투입했다. 이 회사 솔루션 아키텍쳐 & 엔지니어링 담당 부사장 Marc Hamilton씨는, 이 로봇을 「막대 위에 태블릿 PC를 달아 놓은 것 같은 2륜 구동의 작은 것」이라고 표현하였다.

이 로봇은 과거 Selene라는 다른 슈퍼컴퓨터를 구축할 때도 사용한 적이 있다. Selene은 Cambridge-1과 유사한 Configuration을 가지고 있으며, 여러 룸에 걸쳐 설치되어 있다. 단지, 그 설치 장소는 캘리포니아주의 NVIDIA 본사에서 1 블록 밖에 떨어져 있지 않다. 마침 거기서 일하고 있는 직원 즉, 로봇으로 상황을 확인하고 싶다고 생각한 원격지의 엔지니어가, 때마침 문을 열 수 있었다. 또한, 슈퍼컴퓨터가 설치된 데이터센터에 슬라이드식 유리 자동문이 채용된 것은 처음이라고 한다.

Cambridge-1의 컴포넌트 작업은 물리적으로 멀리 떨어져 있는 원격지의 지시를 받아 현지 팀이 조립에 성공한 것이다. 아무리 기술력이 있어도 슈퍼컴퓨터의 장비가 복잡하기 때문에 실수가 발생할 수도 있는 함정도 많이 도사리고 있다. NVIDIA는 이런 종류의 기기 개발 경험이 많아 성공할 수 있었다. 이전에는 슈퍼컴퓨터 한 대분 케이블 작업을 한 후, 다음 컴퓨터 설치작업으로 넘어갈 경우 같은 작업을 반복해 케이블 수천 개를 다시 결선하곤 했다. 슈퍼 컴퓨터를 구성하는 냉장고 크기의 모든 랙에는 소형 컴퓨터가 들어가 있고 거기로부터 각 각 10개의 광케이블이 나와 있다. 데이터 센터 내에서 수천 개의 케이블을 접속할 경우 수 많은 수작업이 발생한다. LEGO 블록을 조립하는 것만큼 쉽게 슈퍼컴퓨터를 연결하고 싶다는 생각을 하게 되었고, 그 후 모듈화된 슈퍼컴퓨터를 설계해 공장 내에서 가능한 한 조립해 놓도록 하였다.

NVIDIA는 2018년 제3세대 슈퍼컴퓨터에 이 새로운 접근방식을 채택하였고, Cambridge-1에서도 같은 개념으로 설계를 하였다. 광섬유가 수백 개 묶인 케이블을 미리 연결, 패키지화된 상태로 각 컴포넌트를 영국의 데이터센터로 발송했다. 현지 엔지니어들의 작업은 그 한 끝을 서버에, 다른 한 끝은 네트워크 스위치에 플러그인 하면 된다.

NVIDIA는 연례 컨퍼런스 「NVIDIA GPU Technology Conference (GTC) 2021」을 4 월 중순까지 개최한다. 여기서 Cambridge-1에서 실행한 초기 프로젝트의 첫 연구 성과를 발표할 것이라 한다. 캘리포니아주 산타클라라에 거점을 둔 이 회사는 의료 연구를 목적으로 이 슈퍼컴퓨터에 액세스가 허용되는 되는 4개의 헬스케어 기관과 파트너십을 발표했다. 제약회사 Astra Zeneca와 GlaxoSmithKline(GSK) 외에 King`s College London과 Guy's and St Thomas' NHS Foundation Trust 이다. Cambridge-1의 잉여계산능력을 이용하여 과학자들은 환자의 진단 정도 향상, 적절한 치료방법의 검출 등 이전에는 취급하기 어려웠던 것들을 데이터 기반으로 문제를 해결할 수 있게 된다. 더욱이, 과학자들은 이 컴퓨터가, 약품개발로 연결되는 의료 분야의 연구에서 큰 성과를 낼 것으로 보고 있다.


출처 : zdnet

작성일 : 2021-04-06

이 문서의 번역:
영국_최고속_슈퍼_컴퓨터_cambridge-1.txt · 마지막으로 수정됨: 2021/04/06 11:16 저자 wikiadmin
CC Attribution-Share Alike 3.0 Unported
Powered by PHP Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0 Valid HTML5