사 물인터넷(IoT)의 성장과 함께 다양한 디바이스에서 생성된 데이터가 급증하면서 이러한 데이터의 가치도 새롭게 주목 받고 있다. 이를 통해 혁신적인 마케팅 서비스부터 획기적인 환자 치료까지 새로운 서비스를 창출할 수 있는 비즈니스 기회가 되고 있기 때문이다. 데이터의 가치의 발굴을 위해서는 무엇보다 수많은 디바이스에서 쏟아내는 대량의 데이터를 담아 분석하는 작업이 우선돼야 한다. <딜라이트닷넷>은 창간 5주년 특별기획으로 사물인터넷 시대의 빅데이터 분석 전략에 대해 살펴본다.

<글 싣는순>
①IoT와 만난 빅데이터, 비즈니스 가치 극대화
②센서데이터 분석에 적합한 아키텍처는?…주도권 누가 쥘까
③자동차부터 도시생활까지…우리의 삶을 바꾸는 IoT·빅데이터

사용자 삽입 이미지
디바이스 내 여러 센서로부터 발생한 센서데이터는 그 양이 매우 방대할 뿐 아니라 데이터의 포맷이 다양하고 스트림 형태로 데이터가 출력된다.

또한 바이너리 형태로 출력이 되는 경우가 많아 원하는 데이터를 색출하고 변환하는 과정을 거쳐야 비로소 분석이 가능하다.

빅데이터 특성을 포함한 센서데이터를 분석하기 위해 서버에서는 하둡 기반으로 데이터를 저장, 파싱, 변환, 가공 및 분석을 하는 아키텍처를 도입하기도 한다.

그러나 하둡의 맵리듀스 처리가 일괄 배치 처리하는 특성을 가지고 있어 실시간 분석 요건에는 적합하지 않을 수 있다. 센서데이터의 특성상 약 1% 정도만이 의미 있는 데이터라고 가정했을 경우에도 이러한 데이터 전체를 서버에서 분석하기에는 불필요한 데이터 처리비용이 많이 소요된다.

때문에 서버에서 이러한 데이터를 전부 수용하기 보다는 어느 정도 의미 있다고 판단되는 데이터만 필터링해 서버로 전송하는 것이 비용이나 네트워크 입출력(IO)을 줄일 수 있다는 관점에서 좀 더 효율적으로 여겨진다.

때문에 현재 많은 글로벌 IT업체들이 IoT를 통해 생성되는 수많은 센서데이터 등을 비용 효율적으로 분석하기 위한 다양한 솔루션을 출시하고 있다. EMC나 테라데이타, IBM, 오라클 등이 이 시장에서 경쟁하는 대표적인 업체들이다.
사용자 삽입 이미지

EMC의 경우, 대용량 데이터 저장이 가능한 스케일아웃 네트워크 스토리지(NAS) 아이실론을 포함해 하둡 배포판인 피보탈 HD, 하둡 기반 실시간 분산형 인메모리 통합 분석 플랫폼 피보탈 젬파이어 XD 등을 내세우고 있다.

테라데이타는 애스터 솔루션의 고급 디스커버리 기능을 통해 단순한 SQL에서는 쉽지 않는 센서 데이터 분석은 물론 테라데이타 통합 데이터 아키텍처(UDA)를 통해 저렴한 비용으로 센서데이터를 하둡파일시스템에 저장할 수 있다는 설명이다.

오라클 역시 다양한 솔루션을 통해 적극적인 시장 대응에 나서고 있다. 자사의 하드웨어 및 소프트웨어(SW)를 최적화시킨 엔지니어드 시스템이 빅데이터 분석에서도 중요한 역할을 담당한다.

엑사데이타, 엑사리틱스 등 대표적인 엔지니어드 시스템과 함께 정형 및 비정형 데이터의 모델링 없이 예상치 못한 요청에도 빠른 분석 결과를 보여주는 기업용 검색 SW 플랫폼인 오라클 엔데카 인포메이션 디스커버리, 대량의 비정형 데이터 처리를 우한 오라클빅데이터어플라이언스 등이 대표적이다.

IBM은 센서를 통해 적은 전력으로도 빠른 데이터 송출이 가능한 ‘MQTT(Message Queuing Telemetry Transport)’ 기술을 탑재하고 있는 메시지사이트라는 솔루션을 통해 실시간으로 대량 이벤트들을 처리하고 있다.

또한 IoT 관련 개발자들을 위한 IoT 클라우드 서비스를 무료로 제공하고 있다. 이는 개발자들이 사물인터넷 환경을 간단하게 구성하고 테스트할 수 있다.

이밖에 사물인터넷 시대의 효율적인 데이터 처리를 위해 최적화된 통신 프로토콜을 무료로 공개하고, 전용 서버 솔루션도 준비하고 있다는 설명이다.

한 업계 관계자는 “향후에는 콘텐츠와 플랫폼이 더욱 다양한 방법으로 만들어지기 때문에 혼자서는 서비스를 제공할 수 없으므로 결국 모든 콘텐츠는 서로 같이 사용할 수 있는 방향으로 고민해야 한다”며 “많은 기업들이 플랫폼을 통해 어떤 데이터를 활용하고 관리할지 역할을 나눠야 하며, 결국 적절한 역할 분배로 융합을 이뤄내야 한다”고 강조했다.

2014/10/02 03:49 2014/10/02 03:49
사용자 삽입 이미지
“하둡은 Ad-Hoc 쿼리 구현이 어렵고 실시간 분석에 적합하지 못했고, NoSQL은 복잡한 형태의 데이터 분석이 어렵다는 단점이 있었습니다. 이 때문에 그린플럼 DB에 주목하게 됐고, 이들을 효율적으로 함께 사용할 수 있는 방안을 고려하게 됐죠.”

국내 대표적인 인터넷 서비스 기업인 다음커뮤니케이션은 다양한 오픈소스를 활용하기로 유명합니다. 최근 화두가 되고 있는 빅데이터 분석에 있어서도 마찬가지입니다.

다음은 이미 지난 2009년 대용량의 데이터를 활용해 검색 품질을 높이기 위해 하둡과 NoSQL을 도입했으며, 지난해부터는 EMC의 그린플럼을 도입해 다차원, 심층적 분석을 가능하게 했다고 합니다.

다음커뮤니케이션 데이터기술팀 엄준식 팀장은 최근 한 컨퍼런스에서 그런플럼을 활용한 자사의 빅데이터 적용 사례에 대해 발표했는데요.(공교롭게도 같은날 검색품질팀에서는 또 다른 개발자 컨퍼런스에서 하둡을 활용한 사례에 대해서 발표했군요)

그에 따르면 다음은 지난해부터 정형데이터와 비정형데이터가 혼재된 웹 로그의 빠른 통계 분석을 위해 대용량 데이터 병렬처리 플랫폼인 ‘하둡’과 비관계형 데이터베이스(DB) ‘NoSQL’을 분석 플랫폼인 ‘그린플럼’과 연동하는 프로젝트를 시작했는데요.

처음에는 하둡과 NoSQL 만으로 이를 모두 구현하려고 했으나 하둡의 경우 Ad-Hoc 쿼리 구현이 어려워 개발자들의 역량이 많이 필요했고, 데이터 처리에 초점이 맞춰져 있다보니(배치지향 프러임워크) 실시간 데이터 분석에는 적합하지 못했다는 것이 그의 설명입니다

또한 NoSQL은 복잡한 형태의 데이터 분석이 어렵고, 특정 조건에 부합하는 솔루션 선택이 중요하는 등 지속적인 리뷰 필요가 필요한 솔루션이라고 판단했다고 밝혔습니다.

그러던 와중에 그린플럼 데이터베이스에 주목하게 됐는데, 이는 우선 포스트그레SQL와 대규모병렬처리(MPP) DBMS이 통합된 우선 오픈소스 DB이고 데이터웨어하우징(DW)과 비즈니스인텔리전스(BI) 기능이 포함됐다는 것이 장점으로 꼽혔다는 설명입니다.

그는 “웹 서버의 모든 로그 데이터를 하둡과 NoSQL로 1차 집계, 처리하고 이를 다시 그린플럼으로 저장, 분석해 심층적이고 다차원적인 분석이 가능하도록 구성했다”고 설명했습니다.

우선 정형데이터(RDB)와의 및 NoSQL 솔루션인 스톰과 카산드라, 하둡과의 연동을 통해 1차 집계된 결과를 그린플럼으로 보내 다차원 심층 분석을 가능하게 했는데 이를 통해 실시간 콘텐츠 검색 결과에 대한 집계에 가능하게 됐다는 분석입니다. 이렇게 가공된 데이터는 현재 다양한 서비스의 고객 성향 분석과 마케팅에 활용하고 있습니다.

그는 “그린플럼의 병렬처리 기능을 통해 빅데이터를 빠른 시간에 로딩 및 통계처리가 가능하게 됐고, 무엇보다 그동안 사용했던 SQL을 그대로 사용하면서 데이터 분석이 가능해졌다”고 강조했습니다.

특히 그린플럼의 경우 x86 서버만으로 구성이 가능한데, 다음은 기존에 사용하던 x86 서버를 활용해 상대적으로 저렴한 비용 및 고확장성의 분석 시스템 구축이 가능했다고 밝혔습니다. 추후 데이터양이 늘어나더라도 x86서버만 추가하면 되기 때문에 손쉽게 용량 확장이 가능하기 때문입니다.

한편 그는 이를 위해선 무엇보다 인력 확보가 중요하다고 강조했습니다.

엄 팀장은 “최근 많은 기업이 빅데이터 이슈를 놓고 고민하고 있는데, 우리과 같이 데이터 사이즈가 많은 기업이라면 하둡과 NoSQL의 연동을 생각할 수 밖에 없을 것”이라며 “다만 이때 놓쳐서는 안되는 것이 이러한 기술들은 계속해서 변하기 때문에 이를 지속적으로 리뷰할 수 있는 인력 확보가 중요하다”고 말했습니다.

이어 그는 “확보한 인력에 대해서도 잘 보존, 유지하는 것이 필요하며 만약 이것이 쉽지 않고 데이터양이 많지 않다면 차라리 어플라이언스 형태로 도입하는 것도 고려하라”고 덧붙였습니다.

이밖에도 그는 “빅데이터 분석을 위해선 부서 간, 구성원 간 협업이 중요한데, 이를 위해 협업 솔루션을 도입하는 것도 검토하라”고 조언했습니다. 현재 다음의 경우, EMC의 협업솔루션인 코러스를 리뷰하고 있다고 밝혔습니다.
2012/11/19 15:45 2012/11/19 15:45
사용자 삽입 이미지
‘뜬 구름’ 취급받던 클라우드 컴퓨팅(Cloud computing)이 내년부터 국내에서도 본격적으로 활성화될 것으로 보입니다. 이름만큼이나 아리송하던 클라우드 컴퓨팅은 단순히 특정 제품이나 기술로 구현되는 것이 아닙니다.

클라우드 컴퓨팅은 업체들의 기술 종속성에서 벗어난 서비스 개념으로, 공유된(Shared) 인프라에서 필요할 때마다 자원을 제공받을 수 있는 온디맨드(On demand) 형태로 구성되며, 쉽게 구현할 수 있어야 하고(Configurable) 필요한 시점에 빠르게 자원을 가져오는(Rapidly provisioned) 것은 물론 최소한의 관리(Minimal management)가 가능한 것이 핵심입니다.

그렇다면 이러한 클라우드 아키텍처는 어떻게 구성하는 것이 효율적일까요.

정답이 있는 것은 아니지만 클라우드 인프라는 비용 효율적이어야 한다는 특성 때문에 일반적으로 오픈소스 소프트웨어로 구축해 최대한 도입 비용을 낮추는 것이 핵심입니다.

우리가 흔히 접하는 아마존이나 페이스북, 구글 등의 아키텍처 역시 이러한 오픈소스 소프트웨어 기반으로 구성돼 있지요.

최근 국내에서도 많이 거론되고 있는 것이 아파치의 오픈소스 프로젝트(http://hadoop.apac
he.org) 중 하나인 대용량 데이터 처리 분석 프로젝트 ‘하둡(Hadoop)’입니다. 이는 구글 플랫폼의 오픈소스 버전이라고 할 수 있겠습니다.

국내에서는 지난해 삼성SDS가 하둡 전문 업체인 미국 ‘클라우데라’라는 업체와 협력한다는 내용의 양해각서(MOU)를 체결하면서 잘 알려지게 됐습니다.

대용량의 데이터를 빠르게 분석, 처리할 수 있기 때문에 국내에선 인간의 유전자 염기서열 분석 등 많은 양의 데이터를 분석하는 곳에 사용되고 있습니다.

여태까지 ‘하둡’에 대해 얘기하기 위해 장황한 설명을 했는데요(앞이 너무 길었네요). 사실 블로그에서 얘기하고 싶은 것은 하둡 프로젝트들의 ‘이름’과 관련해서입니다.

관련 계통에 종사하시는 IT개발자분들은 많이 아시겠지만, ‘하둡’은 오픈소스 자바검색 엔진의 대명사라고도 할 수 있는 루씬(Lucene)을 만든 더그 커팅이라는 사람이 개발
한 오픈소스 기반의 분산 컴퓨팅 플랫폼입니다.(야후에서 근무하던 더그 커팅은 지난해 클라우데라로 자리를 옮긴 바 있습니다.)
사용자 삽입 이미지

‘하둡’이라는 이름이 어디서 왔는고 하니, 바로 이 더그 커팅의 아들이 갖고 놀던 노란 코끼리 봉제 인형에서 유래했다고 합니다.

더그 커팅은 아들이 이 노란 코끼리를 발음하는 것을 듣고 이름을 ‘하둡’으로 지었다고 하는데, 아마도 ‘엘리펀트(elephant)’라고 발음하는 것이 아직 어린아이다 보니 ‘하둡’이라고 발음하는 것처럼 들렸을 것이라는 추측이 있지요(보통 엘리펀트
에서 강세가 앞쪽에 있다고 생각하면, 왜 하둡이 됐는지 얼핏 이해가 되기도 합니다.)

그래서 위 그림에서처럼 하둡의 로고도 ‘노란 코끼리’입니다. 노란 코끼리 인형을 갖고 노는 아들의
모습을 사랑스럽게 지켜봤을 더그 커팅의 모습도 떠오르는군요.

더 재미있는 것은 ‘하둡’과 연동해서 사용할 수 있는 서브 프로젝트 역시 마찬가지로 동물 이름을 딴 것들이 많다는 것입니다.

사용자 삽입 이미지
Pig(돼지)와 Hive(벌떼), Zookeeper(동물 사육사) 등의 프로젝트가 대표적입니다.

Pig(돼지) 프로젝트는 대규모 데이터셋을 탐색하기 위한 프레임워크로, 스크립트를 통해서 맵리듀스 기능을 수행하는 환경을 제공하는 것입니다.

Hive(벌떼)는 HDFS(컴퓨터들로 구성된 클러스터에서 수행되는 분산파일 시스템)에 저장된 데이터를 관리할 수 있도록 쿼리를 제공하는 데이터 웨어하우스 프로젝트라고 할 수 있습니다.

Chukwa(힌두어로 코끼리
위에 앉아있는 거북이를 뜻함)는 분산 환경에서의 로그 수집 및 저장을 위한 오픈소스 프로젝트입니다.

마지막으로 Zookeeper(동물사육사)는 분산 응용 프로그램들을 구축하기 위한 고성능을 보장하기 위한 서비스로, 분산 환경에서 노드들 간의 정보 공유, 락, 이벤트 등 보조 기능을 수행하는 것입니다.

동물 사육사라는 이름처럼 이는 동물 프로젝트들을 관리하는 차원의 기능을 한다고 할 수 있겠습니다.
사용자 삽입 이미지

아파치 재단의 오픈소스 프로젝트를 보니 최근엔 하마(Hama)도 보이더군요. 정말 외국 개발자들 작명 센스 하나는 끝내주는 것 같습니다.

국내에서도 이러한 참신한 프로젝트명들이 나왔으면 좋겠습니다. 코딩에 지쳐있는 그들에게 이러한 기대는 무리일까요.
2010/12/29 14:28 2010/12/29 14:28

최근 삼성SDS의 클라우드 컴퓨팅 서비스 전략을 발표하는 기자간담회에서는 ‘삼성’이라는 브랜드 파워를 새삼 느낄 수 있었습니다.

마침 이날은 수원 소프트웨어연구소에 별도로 마련한 클라우드 컴퓨팅 센터 오픈식도 있었던터라, 삼성SDS와 제휴관계에 있는 클라우데라와 VM웨어의 CEO 및 임원들도 배석했었지요.

‘클라우데라’라는 회사는 불과 2008년에 설립된 작은 회사입니다. 물론 구성원들은 매우 휼륭합니다. 공동 설립자 4명 모두가 오라클, 야후, 구글, 페이스북 출신입니다. 다들 각 회사에서 한가닥씩 했던 인물이라고 하더군요.

이 회사가 지난 4월 28일 삼성SDS와 자사의 대용량 데이터 처리 기술인 ‘하둡(Hadoop)’ 관련 제휴를 맺으면서 미국 내에서의 위상이 쭉~ 올라갔다고 하네요.(위 사진은 지난 4월 28일 MOU 맺었을 당시 사진입니다. 왼쪽이 크리스토퍼 비시글리아 클라우데라 CSO, 오른쪽이 삼성SDS 박승안 전무입니다.)

생부터 예사롭진 않았지만, 그 작은 회사가 무려 ‘삼성’과 제휴를 맺었다는 사실이 미국에선 큰 관심을 끌었던 모양입니다.

클라우데라의 공동창업자들을 살펴보니 나이도 다들 굉장히 어리시군요. 하버드대를 졸업하고 페이스북에서 건너온 제프 해머바처라는 분은 26세에 불과하구요, 구글 출신 크리스토퍼 비시글리아는 28세입니다.

이 구글 출신 양반은 ‘클라우드 컴퓨팅’이라는 단어를 만들어낸 것으로도 국내에서도 꽤 이름이 알려져 있지요. (사실 여기에 대해선 확실친 않습니다. 최근 다른 미디어의 인터뷰를 보니, 자기가 그 용어를 만든 건 아니라고 했더군요. 어쨌든 현재의 직책은 최고전략책임자(CSO)입니다.)

삼성SDS와 MOU를 체결했을 당시에도 비시글리아 CSO가 왔었지요.

야후 출신의 이집트인 아므르 아와달라씨는 38세, 오라클 출신인 마이크 올슨 CEO가 46세로 최고령자군요.(이 포스팅을 참고하시면, 좀 더 구체적인 내용과 구성원들의 사진도 볼 수 있습니다. 여기를 클릭)

최근엔 클라우드 컴퓨팅 구현을 위한 핵심기술 기술 중 하나인 ‘하둡(Hadoop)’ 프로젝트의 창시자인 더그 커팅(Doug Cutting)씨까지 영입했다고 합니다.

현재 클라우데라의 주요사업이 하둡을 통한 수십 페타바이트급의 대용량 데이터 분석 및 처리서비스를 기업고객에게 제공하고 일이니만큼, 더그 커팅씨의 합류는 더욱 힘이 되겠지요.

그런데 얼
핏 들은 얘기로는, 최근 클라우데라 내에서도 비시글리아 크리스토퍼 CSO와 마이클 올슨 CEO 사이에 약간의 알력다툼이 있다고 하더군요.

비시글리아 CSO의 명성(?)이 워낙 국내에서 자자하다보니, 위기의식을 느낀 올슨 CEO가 이번엔 직접 왔다고 얘기도 있구요.

또 이날엔 VM웨어의 피터 제글리스 아태서비스 담당 부사장도 참석했습니다.

VM웨어 입장에서도 역시 삼성SDS는 매우 중요한 고객입니다.

3~4년 전부터 자사의 데이터센터에 가상화 기술을 적용해온 삼성SDS는 당시만 해도 VM웨어 외에는 선택의 여지가 없었지만, 현재로선 시트릭스도 있고 마이크로소프트(MS)도 있다 보니 선택의 폭이 늘어난 셈이지요. 특히 이들 업체는 최근 엄청난 마케팅 공세를 펼치고 있잖습니까.(관련기사들 보시죠)

현재 삼성SDS의 국내 데이터센터(수원, 과천, 구미)의 전체 서버 가운데  약 40%에 해당하는 3800대의 x86 서버 중 약 1100여대 정도는 VM웨어의 솔루션으로 가상환경이 구축돼 있는 것으로 알려져 있습니다. 하지만 나머지 60%도 과연 VM웨어의 솔루션으로 구축될지에 대해선 미지수지요.

당연히 VM웨어도 조마조마하겠지요?

이건 후문이지만, 보통 외국에서 연사들을 초청할 때 비행기티켓이면 호텔 숙박비며 초청업체에서 지원해주는 것이 일반적이지만, 이번에 오신 두 분은 모두 자비로 오셨다고 하더군요.

이 역시 ‘삼성’의 힘이 아닐까 싶네요.

2009/10/09 18:36 2009/10/09 18:36