- Today
- Total
목록Programming/Bigdata / DataMining (11)
내 머릿속 데이터베이스
다수의 테이블을 합쳐서 통계를 산출 시에 UNION을 많이 사용하게 된다. UNION과 UNION ALL의 차이는 다들 알고 있으리라 언급하자면 중복 데이터를 제거하는 과정이 UNION에 포함되어있다. 테이블을 합칠 때 UNION으로 합치게 되면 각 테이블마다 정렬이 들어가는 것을 실행계획을 통계 알 수 있다.(그래서 느리다.) UNION ALL 을 사용하게 되면 중복 상관없이 그냥 합쳐주기만 해서 빠르다.다수의 테이블인 경우엔 각 테이블마다 중복데이터를 제거해가면서 합치는 것보다 일단 다 합쳐놓고 중복데이터를 제거하는게 빠르다. 실제로 UNION을 이용한 쿼리에선 HIVE의 CBO(Cost-based Optimizer)가 동작하지 않는다. UNION ALL을 이용하여 테이블을 합치려다가 HIVE는 CT..
팀 블로그에 내가 쓴 글을 옮겨옴http://wp.me/p7MUY6-q
http://cafe.naver.com/cloudbigdata/181 http://skccblog.tistory.com/1883
http://blog.treasuredata.com/blog/2015/03/20/presto-versus-hive/ 다음 한장의 이미지로 정리 할 수 있다.
http://getindata.com/blog/tutorials/tutorial-using-presto-to-combine-data-from-hive-and-mysql-in-one-sql-like-query/
출처 : http://ddiri01.tistory.com/234너무 쉽게 정리 요약된 글이 있어 퍼옴. 말도 많고 탈도 많은 베이지안. 머신러닝 이니 인공지능이니 이런것들이 뜰수록 덩달아 자주 사람들입에 오르 내리는게 베이지안(bayesian) 이다. 수식을 가지고 어렵게 이야기하지만, 기초적인 개념을 소홀히 하고 있는 것 같아, 정리차 포스팅 한다. 1. 베이지안 확률 (Bayesian Probability)베이지안 확률이란 무엇인가? 기존에 우리가 알고 있는 확률과는 다른것인가? 동전을 1000회 던졌을 때, 앞면이 나오는 횟수는 대략 500회 로 기대할수있다. 전통적인 확률 계산은 이렇게 표현한다. 일어난 횟수 전체 시도 횟수 이런 확률론을 frequentist probability, 경험 확률 라..
출처 : 조대협의 블로그(http://bcho.tistory.com/969) 행렬 A=[1 2 3 4 5] 가 있고, 행렬 B가 = [6 7 8 9 10] 이 있을 때 Sum(A(i) * B(i))의 값 1*6+2*7+…. 는 일반적으로 for(i=1;i
출처 : 사이람 블로그 (http://cyram.tistory.com/161) 최근 롯데그룹을 둘러싼 논란이 뜨거워지면서 ‘반도체 회로보다 복잡한’ 롯데그룹의 지분구조도가 재조명 되고 있습니다. 아래 [그림1]에서 알 수 있듯이 롯데그룹은 계열사간 복잡한 지분구조도를 가지고 있습니다. 이는 롯데그룹이 수백 개의 순환출자고리를 가지고 있기 때문입니다. [그림1] 롯데그룹의 지분구조도(2015년 4월 1일 기준) 출처: 공정거래위원회 순환출자란 한 그룹 안에서 A기업이 B기업에, B기업이 C기업에, C기업은 A기업에 다시 출자하는 식(‘A기업→B기업→C기업→A기업’와 같이 원 모양으로 순환하는 구조)으로 그룹 계열사들끼리 돌려가며 자본을 늘리는 것을 말합니다. (출처: 네이버 지식백과) 롯데그룹의 이러한 복..
하둡 배포 업체 하둡은 오픈소스 아파치 프로젝트라서 이를 이용하여 여러가지 개선된 버전의 하둡이 등장. 대표적인 플랫폼은 다음과 같다. 참고 : '하둡'이라면 알아야 할 업체 9곳의 장단점(http://cafe.daum.net/kosena21/SkmT/37) 아마존 웹 서비스(AWS)호튼웍스(Hortonworks) - HDP(Hortonworks Data Platform)클라우데라(Cloudera)IBMIntel맵R 테크놀로지(MapR Technologies)피보탈 소프트웨어(Pivotal Software)테라데이타(Teradata) 클라우데라는 하둡을 기반하지만 순수 오픈소스 제품이 아님. 클라우데라는 자체 제품에 클라우데라 매니저(claudera manager)라는 관리와 모니터링 툴부터 임팔라(Im..
출처 : http://ji-ggu.tistory.com/entry/Amazon-Elastic-Compute-Cloud-Amazon-EC2Amazon Elastic Compute Cloud (EC2)는 클라우드에서 컴퓨팅의 파워에 따라 규모를 자유자재로 변경할 수 있는 웹 서비스입니다. Amazon EC2는 사용자가 필요한 만큼의 용량을 얻어 구성할 수 있는 간단한 웹 서비스 인터페이스를 제공하며, 컴퓨팅 리소스에 대한 완전한 제어권을 제공하며, 새로운 인스턴스를 획득하여 부팅하는 시간을 단축시켜 컴퓨팅 요구 사항 변화에 따라 신속하게 용량의 축소와 확장이 가능합니다. 또한 사용한 용량만큼의 비용만 지불하기 때문에 컴퓨팅의 비용을 절약할 수 있습니다. 1. 컴퓨팅 용량 조절 Amazon EC2는 여러개의 ..