ICT/융합

복잡 및 이질성을 갖는 거대용량 빅데이터 분석의 핵심기술

발행일 : 2017 / 03 / 17

최근, 둥베이(東北)대학교 왕궈런(王國仁) 연구팀은 “거대용량 이질 데이터 통합 관리·분석 기술 및 응용” 프로젝트를 개발하여 빅데이터 통합품질, 관리효율 및 분석확장성 등 핵심 기술을 파악하였고 이질 빅데이터의 통합, 관리, 분석을 구현함으로써 향후 “디지털 물자원”, “디지털 의료” 및 “디지털 국토자원” 등 분야의 거대용량 이질 데이터 통합관리 및 분석에 중요한 역할을 할 전망이다.

빅데이터 처리 과정에서 거대용량 데이터는 인간이 데이터를 파악하고 이해할 수 있는 능력을 훨씬 초월하였다. 특히 이질 데이터는 일관적인 격식 및 규범의 부족으로 다양한 분야 및 다양한 소프트웨어 시스템에서의 전송 및 공유가 아주 어렵다. 이러한 문제점에 대비해 연구팀은 모드 매칭, 데이터 클리닝(data cleaning), 데이터 관리 및 데이터 분석 등 핵심 기술을 토대로 인간-컴퓨터 상호작용 기반 데이터통합시스템을 개발하였다. 해당 시스템은 현재 세계에서 가장 선진적인 데이터 클리닝 시스템에 비하여 데이터 통합 품질이 10 %이상 향상되었고 통합방법의 가용성(Availability)은 세계 선진 수준에 도달하였으며 범용적으로 사용하고 있는 시스템에 비하여 데이터 관리 효율이 50% 이상 향상되었다. 또한 세계에서 가장 먼저 빅데이터 기반 분산식 한계 러닝 머신(extreme learning machine, ELM) 데이터 분석 기술을 제안하였다. 해당 시스템의 플랫폼 확장성, 데이터 확장성, 은닉 노드 확장성, 데이터 마커 확장성은 약 20배 향상되었다.