사용자 삽입 이미지
“하둡은 Ad-Hoc 쿼리 구현이 어렵고 실시간 분석에 적합하지 못했고, NoSQL은 복잡한 형태의 데이터 분석이 어렵다는 단점이 있었습니다. 이 때문에 그린플럼 DB에 주목하게 됐고, 이들을 효율적으로 함께 사용할 수 있는 방안을 고려하게 됐죠.”

국내 대표적인 인터넷 서비스 기업인 다음커뮤니케이션은 다양한 오픈소스를 활용하기로 유명합니다. 최근 화두가 되고 있는 빅데이터 분석에 있어서도 마찬가지입니다.

다음은 이미 지난 2009년 대용량의 데이터를 활용해 검색 품질을 높이기 위해 하둡과 NoSQL을 도입했으며, 지난해부터는 EMC의 그린플럼을 도입해 다차원, 심층적 분석을 가능하게 했다고 합니다.

다음커뮤니케이션 데이터기술팀 엄준식 팀장은 최근 한 컨퍼런스에서 그런플럼을 활용한 자사의 빅데이터 적용 사례에 대해 발표했는데요.(공교롭게도 같은날 검색품질팀에서는 또 다른 개발자 컨퍼런스에서 하둡을 활용한 사례에 대해서 발표했군요)

그에 따르면 다음은 지난해부터 정형데이터와 비정형데이터가 혼재된 웹 로그의 빠른 통계 분석을 위해 대용량 데이터 병렬처리 플랫폼인 ‘하둡’과 비관계형 데이터베이스(DB) ‘NoSQL’을 분석 플랫폼인 ‘그린플럼’과 연동하는 프로젝트를 시작했는데요.

처음에는 하둡과 NoSQL 만으로 이를 모두 구현하려고 했으나 하둡의 경우 Ad-Hoc 쿼리 구현이 어려워 개발자들의 역량이 많이 필요했고, 데이터 처리에 초점이 맞춰져 있다보니(배치지향 프러임워크) 실시간 데이터 분석에는 적합하지 못했다는 것이 그의 설명입니다

또한 NoSQL은 복잡한 형태의 데이터 분석이 어렵고, 특정 조건에 부합하는 솔루션 선택이 중요하는 등 지속적인 리뷰 필요가 필요한 솔루션이라고 판단했다고 밝혔습니다.

그러던 와중에 그린플럼 데이터베이스에 주목하게 됐는데, 이는 우선 포스트그레SQL와 대규모병렬처리(MPP) DBMS이 통합된 우선 오픈소스 DB이고 데이터웨어하우징(DW)과 비즈니스인텔리전스(BI) 기능이 포함됐다는 것이 장점으로 꼽혔다는 설명입니다.

그는 “웹 서버의 모든 로그 데이터를 하둡과 NoSQL로 1차 집계, 처리하고 이를 다시 그린플럼으로 저장, 분석해 심층적이고 다차원적인 분석이 가능하도록 구성했다”고 설명했습니다.

우선 정형데이터(RDB)와의 및 NoSQL 솔루션인 스톰과 카산드라, 하둡과의 연동을 통해 1차 집계된 결과를 그린플럼으로 보내 다차원 심층 분석을 가능하게 했는데 이를 통해 실시간 콘텐츠 검색 결과에 대한 집계에 가능하게 됐다는 분석입니다. 이렇게 가공된 데이터는 현재 다양한 서비스의 고객 성향 분석과 마케팅에 활용하고 있습니다.

그는 “그린플럼의 병렬처리 기능을 통해 빅데이터를 빠른 시간에 로딩 및 통계처리가 가능하게 됐고, 무엇보다 그동안 사용했던 SQL을 그대로 사용하면서 데이터 분석이 가능해졌다”고 강조했습니다.

특히 그린플럼의 경우 x86 서버만으로 구성이 가능한데, 다음은 기존에 사용하던 x86 서버를 활용해 상대적으로 저렴한 비용 및 고확장성의 분석 시스템 구축이 가능했다고 밝혔습니다. 추후 데이터양이 늘어나더라도 x86서버만 추가하면 되기 때문에 손쉽게 용량 확장이 가능하기 때문입니다.

한편 그는 이를 위해선 무엇보다 인력 확보가 중요하다고 강조했습니다.

엄 팀장은 “최근 많은 기업이 빅데이터 이슈를 놓고 고민하고 있는데, 우리과 같이 데이터 사이즈가 많은 기업이라면 하둡과 NoSQL의 연동을 생각할 수 밖에 없을 것”이라며 “다만 이때 놓쳐서는 안되는 것이 이러한 기술들은 계속해서 변하기 때문에 이를 지속적으로 리뷰할 수 있는 인력 확보가 중요하다”고 말했습니다.

이어 그는 “확보한 인력에 대해서도 잘 보존, 유지하는 것이 필요하며 만약 이것이 쉽지 않고 데이터양이 많지 않다면 차라리 어플라이언스 형태로 도입하는 것도 고려하라”고 덧붙였습니다.

이밖에도 그는 “빅데이터 분석을 위해선 부서 간, 구성원 간 협업이 중요한데, 이를 위해 협업 솔루션을 도입하는 것도 검토하라”고 조언했습니다. 현재 다음의 경우, EMC의 협업솔루션인 코러스를 리뷰하고 있다고 밝혔습니다.
2012/11/19 15:45 2012/11/19 15:45
사용자 삽입 이미지
최근 포털과 통신, 제조업체들은 개인 사용자를 대상으로 대부분 무료로 ‘클라우드 스토리지’ 서비스를 제공하고 있습니다. 물론 이러한 서비스들은 현재까지는 클라우드 서비스라기보다는 공짜 웹하드에 가까운 것들입니다.

이들은 대략 50기가바이트(GB)에 달하는 무료 저장 공간을 제공하며, 매출 증대 및 이용자 락인(Lock-in)의 목적을 갖고 있습니다.

KT와 SK텔레콤, LG U+와 같은 통신 업체들과 애플, 삼성전자 등의 제조업체, 구글과 네이버, 다음, 나우콤 등의 인터넷 서비스 업체들은 저마다의 목적을 갖고 이러한 서비스들을 제공합니다.

그런데 이러한 서비스들은 현재까지는 이들 업체에게는 ‘미운 오리새끼’가 되고 있습니다. 당초 생각했던 것만큼 매출도 되지 않을 뿐더러 사용자들을 붙잡아둘 수 있는 미끼(?)가 되고 있지도 않습니다.

게다가 기업들은 경쟁적으로 용량을 늘려 제공하거나 새로운 기능을 추가하는 등 서비스를 계속해서 업그레이드하고 있는 판에 치킨게임으로 변질되고 있습니다.

그렇다보니 현재 이러한 클라우드 스토리지 서비스들은 기업 입장에서는 돈은 되지 않으면서 스토리지 용량만 잡아먹는 그야말로 계륵(鷄肋)이 되고 있는 것이죠.

그럼에도 불구하고 이들은 계속해서 클라우드 스토리지 서비스에 대한 투자를 늘리고 이를 발전시켜가고 있습니다.

도대체 이들은 왜 이러한 서비스들을 제공하는 것일까요.

다음커뮤니케이션 전략부문 김지현 이사는 15일 개최된 한국IDG의 ‘클라우드 월드’ 컨퍼런스에서 이같은 궁금증을 해결해 주었습니다.

그는 “클라우드 컴퓨팅에 대한 인식은 확대되었다고 하지만, 실제 이러한 클라우드 스토리지를 이용하는 사용자는 우리나라 전체 인구의 약 1/10에 불과하다”고 말했습니
다.

그에 따르면 약 500만명의 이용자가 이러한 클라우드 스토리지 서비스를 사용하고 있는데, 일반적으로 한명의 사용자가 여러 회사의 서비스를 중복적으로 사용하는 경우가 많다고 합니다.

또한 여전히 PC를 중심으로 한 데이터의 저장과 공유가 이러한 서비스들의 주요 목적이 되고 있습니다. 물론 최근에는 스마트폰과 태블릿의 사용이 늘어나면서 모바일에서의 이용도 늘고 있지요.

물론 현재 국내에서 제공되는 서비스들은 여전히 1.0버전에 머물러 있기 때문에, 기능 자체가 단순하다는 점이 이용자들의 신규 유입을 막는 이유이기도 합니다.

그는 “이처럼 현재 제공되는 서비스들은 저작권 문제나 프라이버시의 문제 때문에 광고연계가 어려운 등 수익모델에 한계가 있다”며 “그럼에도 대부분의 업체들이 클라우드 스토리지 서비스에 투자를 하는 이유는 바로 N스크린 때문”이라고 강조했습니다.

클라우드 스토리지 서비스의 궁극적인 지향점은 바로 ‘N스크린’ 때문입니다.

현재 대부분의 서비스들은 현재까지 N스크린으로 진화하지 못한 상황입니다. PC와 스마트폰 등의 2스크린에 불과한 경우가 대부분입니다.

그러나 최근 태블릿과 같은 제3의 디바이스 사용이 늘어나고 여기에 스마트TV가 등장하면서 궁극적으로 이러한 디바이스를 관통하는 킬러 앱이 바로 N스크린이 되고 있습니다. 이러한 N스크린을 제공하기 위해 반드시 밑단에 깔려있는 것이 바로 클라우드 스토리지 서비스입니다.(다음커뮤니케이션도 최근 스마트TV 시장에 진출한다고 밝히 바 있습니다)

그는 “현재처럼 단순히 사용자들이 인지한 파일만 저장하는 것이 아니라, 사용자의 모든 데이터와 히즈토리를 저장해야 한다”며 “사용자의 행위(behavior)를 모두 저장, 기록하는 순간 클라우드 서비스는 또 한 차례 점프하게 될 것”이라고 했습니다.

예를 들어 다음커뮤니케이션이 13년 전 창립된 이래, 현재 국내 포털 시장에서 2위를 지킬 수 있게 해 준 것은 바로 한메일입니다. 이용자들은 한메일을 쓰기 위해 다음을 매일 방문합니다. 한메일의 핵심은 ID입니다. ID를 통해 사용자들은 아이덴티티를 형성하고 있는 것이죠.

이처럼 앞으로 클라우드 스토리지에는 맹목적인 파일들이 저장이 되는 것이 아니라 다양한 디바이스를 통한 개인의 모든 경험(Digital Life Log)이 기록되면서 진정한 클라우드 서비스로 자리매김할 수 있다는 것이 김 이사의 설명입니다.

그가 생각하는 클라우드 서비스의 진화는 생산과 유통, 소비가 선순환돼야 가능한 것입니다. 즉, 잘 저장하고 여러 단말기에서 잘 소비할 수 있도록 하는 것이 궁극적으로 클라우드 스토리지가 지향하는 궁극적인 목적입니다.

현재의 1.0 버전의 클라우드 스토리지 서비스들은 단순히 데이터를 축적하는 데에만 초점이 맞춰져 있지만, 이러한 데이터들은 향후 오픈API를 통해 잘 유통돼야 하고 또한 이를 N스크린에서 잘 소비되도록 지원하는 삼박자가 맞아 떨어지면서 진정한 클라우드 서비스의 비전이 실현될 것입니다.

이를 통해 더욱 다양한 부가가치 서비스가 생겨나고 진정한 데이터 에코 시스템이 만들어질 수 있겠지요.
2012/03/16 08:21 2012/03/16 08:21