Notice
Recent Posts
- Atom Runner 한글 지원 방법
- [HIVE] UNION, SubQuery, With 테이블⋯
- git 관련 자료 모음
- Kaggle(캐글) – 데이터 과학자들의 링
- [Python 3.4] 멀티쓰레딩과 멀티프로세싱
- [Node.js] forever 로그 찍지 않기
- [Anaconda] 스타트.
- [Javascript] 패커로 괜찮은 사이트들.
- [WEB] 부트스트랩3에서 input password⋯
- [MySQL] OSX에서 mysql.server stop로⋯
- [MYSQL] 로그 설정으로 보다 다양하게 찍기
- 폐쇄망에 Python 설치 및 외부 모듈 설치기
Recent Comments
- Today
- 8
- Total
- 634,098
목록2017/01 (1)
내 머릿속 데이터베이스
[HIVE] UNION, SubQuery, With 테이블 합치기 팁.
다수의 테이블을 합쳐서 통계를 산출 시에 UNION을 많이 사용하게 된다. UNION과 UNION ALL의 차이는 다들 알고 있으리라 언급하자면 중복 데이터를 제거하는 과정이 UNION에 포함되어있다. 테이블을 합칠 때 UNION으로 합치게 되면 각 테이블마다 정렬이 들어가는 것을 실행계획을 통계 알 수 있다.(그래서 느리다.) UNION ALL 을 사용하게 되면 중복 상관없이 그냥 합쳐주기만 해서 빠르다.다수의 테이블인 경우엔 각 테이블마다 중복데이터를 제거해가면서 합치는 것보다 일단 다 합쳐놓고 중복데이터를 제거하는게 빠르다. 실제로 UNION을 이용한 쿼리에선 HIVE의 CBO(Cost-based Optimizer)가 동작하지 않는다. UNION ALL을 이용하여 테이블을 합치려다가 HIVE는 CT..
Programming/Bigdata / DataMining
2017. 1. 9. 11:22