DGIST, 초대규모 그래프 데이터 합성 기술 개발
그래프 빅데이터 분석·처리 기술 표준 벤치마크 활용 기대
유제민
yjm@dhnews.co.kr | 2017-05-31 17:52:22
[대학저널 유제민 기자] DGIST(총장 손상혁) 정보통신융합공학전공 김민수 교수 연구팀이 1조 간선*으로 구성된 초대규모의 그래프 데이터를 일반 가정에서 사용하는 컴퓨터* 10대를 사용해 2시간 만에 합성할 수 있는 트릴리온지(TrillionG) 기술을 개발했다.
*간선(edge): 신경망 형태의 데이터는 여러 개의 정점(node)들과 그 정점들을 연결하는 간선들로 이뤄져 있음.
*일반 가정에서 사용하는 컴퓨터: 헥사코어 CPU, 32GB 메모리, 4TB 하드디스크를 탑재한 가정용 사장의 컴퓨터.
뇌과학, 인공지능(AI), 사물인터넷(IoT), 웹, 소셜네트워크, 생명과학 등의 분야가 발달하며 사람, 신경, 사물들 간의 관계를 표현하는데 활용하는 그래프 데이터를 처리하는 기술들이 널리 사용되고 있다. 이러한 그래프 데이터 처리 기술들의 성능을 정확하게 측정하고 향상된 시스템으로 개발하기 위해서는 대규모 그래프 데이터 합성 기술이 벤치마크로 필요하다.
무척도(scale-free) 특성을 가지는 그래프 데이터를 정확하게 합성하기 위한 현재 기술들은 메모리 기반 합성법으로 많은 양의 네트워크 통신을 사용해 합성 데이터의 규모가 제한적이고 합성 속도가 느리다는 점이 문제로 지적돼왔다.
*무척도(scale-free) 특성을 가지는 그래프 데이터: 그래프의 크기에 상관없이 각 정점이 가진 연결선수(degree) 분포가 멱함수에 따르는 그래프 데이터. 생체 내 단백질 간의 상호작용 그래프, SNS와 같은 소셜네트워크 그래프, 인간의 뇌신경망 그래프 등의 데이터는 무척도 특성을 가진 경우가 대부분이어서 이러한 그래프 데이터를 합성해 분석 및 처리가 필요.
김민수 교수 연구팀이 개발한 트릴리온지 기술은 훨씬 더 큰 규모의 그래프 데이터를 네트워크 통신 없이도 더욱 빠른 속도로 합성할 수 있는 디스크 기반 기술이다. 이 기술은 재귀 벡터 모델*이라는 독창적인 이론을 정립해 실제 시스템으로 구현함으로써 기존 기술의 문제점들을 해결했다.
*재귀 벡터 모델: 한 정점에 대한 간선들을 생성할 때 정점들의 개수만큼의 메모리 용량이 필요하던 종래의 방식을 대신해 로그(log) 배수만큼 더 적은 용량의 메모리 벡터 공간에 대한 재귀 연산을 통해 동일한 데이터를 합성할 수 있다는 이론.
연구팀이 개발한 기술은 10대의 컴퓨터를 활용해 80억 개의 간선으로 구성된 그래프 데이터를 72초 만에 합성했다. 규모 면에서는 최대 4조 개의 간선들로 구성된 그래프 데이터를 합성할 수 있다. 이는 기존의 최고 기술로 알려진 Graph500 기술보다 합성 속도 면에서는 140배, 합성 규모 측면에서 500배 향상된 세계 최고 속도와 최대 규모의 성능을 나타낸다.
지금까지 합성된 세계 최대 규모의 그래프 데이터는 미국 IBM 슈퍼컴퓨터 세콰이어(CPU 코어 160만 개, 메모리 1.5페타바이트)를 활용해 Grapg500 기술로 합성한 32조 간선 규모의 그래프 데이터다. 트릴리온지 기술을 활용하면 80대의 컴퓨터로 동일한 규모의 데이터를 합성할 수 있으며, 강확장성 특성으로 인해 100조 간선 규모로 알려진 인간 뇌 신경망 데이터도 약 240대의 컴퓨터만으로 합성할 수 있을 것으로 전망된다.
*강확장성(strong scalability): 분산병렬 처리 기술 특성 중 하나로서 데이터의 크기가 n배로 증가할 때 컴퓨터의 대수를 n배 증가시킴으로써 동일한 시간 내에 처리할 수 있는 특성을 의미.
DGIST 정보통신융합공학전공 김민수 교수는 "AI 및 뇌과학 분야에서 점점 중요해지고 있는 그래프 데이터를 초대규모, 초고속으로 합성할 수 있는 원천 기술을 확보했다"며 "특히 산업적인 측면에서 그래프 빅데이터를 분석 및 처리하는 기술들에서 표준 벤치마크로 활용될 수 있을 것"이라고 말했다.
한편 이번 연구 결과는 지난 17일 미국 시카고에서 열린 데이터베이스 최고 권위의 학술대회인 '2017 ACM SIGMOD'에서 발표됐으며 삼성미래기술육성사업 과제의 지원으로 수행됐다. 정보통신융합공학전공 박힘찬 박사과정 학생이 제1저자로, 김민수 교수가 교신저자로 참여했다.
[ⓒ 대학저널. 무단전재-재배포 금지]