본문 바로가기

책 이야기

거침없이 배우는 하둡

 

 

  거침없이 배우는 하둡

 

 

 저자 Chuck Lam

 역자 이현남, 강택현

  김병곤, 장회수, 원종석, 김완철

 

 

 

    400 페이지

   978-89-93827-47-7

 

 

 

 

             목차&서문

 

 

 

 

 

 

 

2007년 뉴욕 타임즈는 자유롭게 1851~1922년 사이에 있는 모든 종류의 기사를 웹 사이트에서 볼 수 있는 시스템을 구축하기로 결정합니다. 하지만 절대 만만한 작업이 아니였죠!

변환할 기사가 무려 총 천백만 개나 되었고, 데이터의 양은 4TB나 되었습니다.

얼핏 생각해도 상당한 시간소요와 인력이 투입될 것 같았던 이 프로젝트를 단 한명의 엔지니어가 24시간 만에 데이터 변환 처리를 했다면 믿으시겠습니까? 그것도 240달러만 지출하고 말입니다. 이후 수많은 사람들은 손쉽게 역사적인 사건들을 무료로 인터넷에서 찾아 볼 수 있게 되었죠.

 

이처럼 저렴하고, 빠르고, 저인력으로 방대한 데이터를 처리할 수 있었던 그 중심에는 하둡이 있었습니다.

방대한 데이터의 분석처리가 기존의 관계형 데이터 베이스 방식으로는 기술적 한계, 막대한 비용소모 등 여러 문제들이 발생했습니다. 이를 해결하고자 비정형 데이터속에서 의미있는 정보를 뽑아내서 활용하자는 생각들이 지금의 하둡 탄생의 계기가 되었답니다.

 

잘 알고계시겠지만, 하둡은 대용량의 정보를 분산처리하는 오픈소스 프레임워크 입니다.

하둡의 핵심은 분산과 그에 따른 분석 처리라고 할 수 있는만큼 클라우드 컴퓨팅 기술과 접목되면서 그 효과가 증대되고 있답니다. 우리 삶속의 일부가 되어버린 페이스북, 트위터도 하둡을 활용하고 있답니다.

 

이처럼 오늘 날 여러 기관과 기업 등에서 빅 데이터와 관련한 프로젝트 들이 큰 이슈가 되고 있는데요, 

하둡은 빅 데이터 프로젝트의 핵심입니다. 이처럼 하둡의 필요성은 증대되는데, 국내에 하둡에 관련하여 소개된 도서가 매우 부족한 상황에서, 매우 시의적절한 타이틀이 등장했습니다!

 

지앤선의 7월신간 '거침없이 배우는 하둡'

 

'거침없이 배우는 하둡'하둡의 설치에서부터 활용까지 이해하기 쉽게 단계적으로 구성되어 있으며 특히 아마존 클라우드에서 하둡을 직접 구성할 수 있도록 하여 그 활용성을 높였습니다. 그뿐만 아니라 대용량의 데이터를 병렬적으로 처리하기 위한 MapReduce 프로그램의 상세한 설명과 고급수준의 언어로 대용량 데이터를 처리할 수 있는 Pig에 대해서도 다루고 있고 위에서 언급했던 뉴욕 타임즈의 예처럼 하둡의 실제 비즈니스 적용 사례연구를 담고 있습니다.

 

이 책의 감수를 맡아주신 JBoss User Group 의 리더분들의 기술적 검토를 통해 많은 도움을 주셨고, 아래와 같은 평을 해주셨답니다!

 

하둡의 시작은 설치라고 할 정도로 인프라와 밀접하게 관련 있는 하둡은 초보자에게 있어서 설치부터 그 외 모든 것이 거대한 산과 같아 보입니다. 빅 데이터 기술의 근간인 하둡이 A에서 Z까지 초심자를 위해서 잘 구성된 이 책을 통해 많은 하둡 개발자들이 활동할 수 있는 계기가 되었으면 하며 또한 빅 데이터가 IT 산업 전반에 걸쳐 많이 도입되었으면 하는 바람입니다.

 

김병곤  한국자바개발자협의회(JCO) 회장/클라우다인 대표이사 

            지식경제부 SWMaestro 멘토/JBoss User Group 대표 운영자

 

 

지금까지 나온 하둡 및 분산처리 관련 서적 중에서 가장 practical한 서적이라고 생각합니다. 이전에 나온 하둡 책들이 이론과 API에 대해서 주로 다룬 책이었다면 본 서적은 하둡을 처음 접근하는 사람이 차근차근 다뤄가면서 익히기 좋은 책입니다. 실습 환경을 갖추기 어려운 초심자를 위해서 AWS, S3를 통한 적용을 다루는 등 초심자에 대한 세심한 배려가 인상적입니다.

 

장회수 JBoss User Group


 

원서 자체가 실용적으로 잘 정리된 훌륭한 책으로서 그 번역서가 나왔다는 점은 매우 고무적인 것 같습니다. 하둡 설치 시 어려웠던 점을 본 서적에서 매우 쉽게 다루고 있어서 초심자에게 있어서 큰 도움이 될 것으로 생각하며 최근 Hadoop 1.0.x를 현장에서 적용 중임에도 활용하는 데 전혀 무리가 없을 만큼 훌륭한 내용을 담고 있습니다. 특히 초심자에게 추천합니다. 

 

원종석  KTH 데이터 지능팀/JBoss User Group 운영자


 

하둡은 병렬처리를 통한 빠른 데이터 처리능력뿐만 아니라 하둡을 기반으로 한 여러 가지 오픈 소스를 통해 원하는 데이터를 빠르고, 쉽게 만들어 낼 수 있어, 빅 데이터 처리 분야에서 주목을 받고 있으며, 비용 때문에 구축을 어려워하던 기업들에 최상의 서비스를 제공해줄 수 있는 멋진 오픈소스 플랫폼이라 할 수 있습니다. 또한, 대량의 데이터를 처리하는 기업들이 적극 도입한다면, 데이터 분석을 통해 새로운 비즈니스 창출과 기업 운영에 많은 도움이 될 수 있을 것입니다.

 

김완철  네오위즈/JBoss User Group

 

 

진정 '거침없이 배우는 하둡'은 하둡을 처음 접하는 사람들에게 좋은 가이드 역할을 할 도서입니다.

 

오늘부터 7월18일까지 예약판매가 진행 중이오니 많은 관심 부탁드립니다. :)