내 머릿속 데이터베이스

하둡 관련 공부할 것 본문

Programming/Bigdata / DataMining

하둡 관련 공부할 것

파도소리 2015. 8. 17. 15:40

하둡 배포 업체


하둡은 오픈소스 아파치 프로젝트라서 이를 이용하여 여러가지 개선된 버전의 하둡이 등장.

대표적인 플랫폼은 다음과 같다.

참고 : '하둡'이라면 알아야 할 업체 9곳의 장단점(http://cafe.daum.net/kosena21/SkmT/37)


  • 아마존 웹 서비스(AWS)
  • 호튼웍스(Hortonworks) - HDP(Hortonworks Data Platform)
  • 클라우데라(Cloudera)
  • IBM
  • Intel
  • 맵R 테크놀로지(MapR Technologies)
  • 피보탈 소프트웨어(Pivotal Software)
  • 테라데이타(Teradata)


클라우데라는 하둡을 기반하지만 순수 오픈소스 제품이 아님.


클라우데라는 자체 제품에 클라우데라 매니저(claudera manager)라는 관리와 모니터링 툴부터 임팔라(Impala)라는 관계형 데이터 실행을 위한 SQL 엔진까지 여러 가지 기능을 개발해왔다.


클라우데라는 자체 배포판의 기본에 오픈소스 하둡을 활용하지만 순수 오픈소스 제품은 아니다. 클라우데라의 고객들이 오픈소스 하둡이 가지지 못한 무언가를 필요로 할 때, 클라우데라는 자체적으로 이를 구축하거가 그 부족 기능을 갖고 있는 협력업체를 찾았다.


포레스터는 "클라우데라의 하둡 접근방식은 핵심 하둡을 고수하면서도 고객 수요를 충족시키기 위해 빠르고 공격적으로 혁신을 감행하며 자체 솔루션을 다른 개발업체와 차별화하는 것"이라고 평가했다.


반면 호튼웍스는 오픈소스 하둡 코드를 고수한다.

참고 : 호튼웍스 “우린 클라우데라와 철학이 다르다”(http://www.ddaily.co.kr/news/news_view.php?uid=109304)


호튼웍스 고객이 이 플랫폼을 떠나고자 할 때면 언제라도 손쉽게 애플리케이션을 플랫폼에서 다른 오픈소스 코드로 이전할 수 있다.


이는 호튼웍스가 오픈소스 코드 위에 다른 가치를 제공하지 않는다는 의미가 아니다. 호튼웍스는 오픈소스 커뮤니티에 플랫폼 개발 작업에 관한 모든 것을 되돌려준다. 바로 그 예가 호튼웍스에서 개발한 툴인 앰바리(Ambari)로, 클러스터 관리와 연관된 프로젝트의 구멍을 막는 역할을 한다.


호튼웍스의 접근방식은 테라데이터, 마이크로소프트, 레드햇(Red Hat), SAP 등의 개발업체로부터 강력한 협력관계를 이끌어냈다.


테라데이타는 국내 기업에서 개발하는 하둡, SQL온하둡 '하답트'도 인수함





피그(Pig) : 데이터를 적재,변환하고 결과를 정렬하는 과정을 쉽게 처리하기 위해 만든 프로그램 언어, 야후에서 개발, 현재는 하둡에 통합

하이브(Hive) : 하둡을 데이터웨어하우스(DW)로 운영할 수 있게 해주는 솔루션. 페이스북에서 개발, RDBMS에서 사용하는 SQL과 유사한 질의 언어의 특징을 가짐. SQL문을 해석해서 MapReduce로 변환해서 실행 하는 기술.

임팔라(Impala) : 클라우데라의 SQL엔진, 하이브를 대체하는 쿼리엔진

타조(Tajo) : 그루터, 고려대학교에서 참여 개발. 하이브를 대체하는 빠른 쿼리엔진. 허나 아직 버그가 많은 듯.

스팅어(Stinger) : 호튼웍스의 SQL엔진 개발 프로젝트. 하지만 임팔라, 타조와는 다르게 하이브가 SQL-온-하둡(SQL on Hadoop)을 위한 최고의 선택이라고 생각하여, 하이브의 최적화와 포맷 변경으로 속도 개선에 초점을 맞추고 있음. Hive와 Apache TEZ를 결합 시킨 것






스파크(Spark) : 맵리듀스와 같은 클러스터 컴퓨팅 시스템. 코드가 스칼라(Scala)로 작성됨, 퍼포먼스 향상을 위해 인메모리 데이터 유지. 하지만 맵리듀스와 목적은 다르다. 반복적 알고리즘에 더 중점을 뒀음.

얀(YARN : Yet Another Resource Negotiator) : 하둡 2.0부터 도입된 클러스터 관리 시스템

TEZ : 이전의 결과값에 의해서 다음 결과가 변하는 기본 알고리즘을 구현한 엔진으로 SQL문의 결과를 얻어내는 단계를 단축하여 빨리 결과를 얻어낼 수 있다고 함.

스톰(Stome)

프레스토(Presto)


SQL온하둡
SQL을 하둡에서 쓰자
- Hive : 대표적, 맵리듀스로 변환만 하기때문에, 맵 리듀스의 성능 한계를 공유함. 맵 리듀스보다 배우기 쉽다는 피그는 성능이 더 좋지 않다.
- 임팔라 : 클라우데라에서 나옴
- 프레스토(Presto) : 페이스북에서 공개.
- TEZ : 스팅거 프로젝트의 맵 리듀스를 대신함. 엔진
- 샤크(Shark) : 아파치 스파크(Spark)프로젝트의 일환으로 스파크 엔진에서 hive와 같이 사용하는 SQL엔진(하이브 라이브러리 이용). 스파크 엔진위에 하이브를 올리면 더 빠른 속도를 낼수 있다는 점도 주목받음. 

http://jobcoding.net/feed/view?feedIdx=2492


http://blog.naver.com/PostView.nhn?blogId=otthry&logNo=220437122317

Comments