- Today
- Total
목록Python (4)
내 머릿속 데이터베이스
날려먹고 이 글이 3번째 쓰는 글이다. 이번이 마지막이길. 파이썬 쓰레드는 GIL(Global Interpreter Lock) 때문에 오히려 싱글쓰레드보다 속도저하가 일어난다는 사실은 파이썬 개발자라면 다 알 것이다. 모른다면 관련 글인 아래를 참고... 하용호 - 파이썬으로 클라우드 하고 싶어요 : http://www.slideshare.net/kthcorp/h32011c6pythonandcloud-111205023210phpapp02파이썬의 멀티쓰레딩과 멀티프로세스 : http://qkqhxla1.tistory.com/m/post/270 위 글에선 싱글스레드로 3.34초가 나오는 연산이 듀얼스레드로 4.65초가 나온다고 했다. 위 내용은 오래된 내용으로 파이썬 2.x 버전에선 계속 나타날 것이라 생각..
https://www.acmicpc.net/blog/view/16위 예제의 다음 코드를 실행하니 CP949 관련 에러가 났다. 인코딩 에러가 나는 라인은 웹페이지의 일본어 텍스트를 파싱할 때 발생했다. 이 문제를 해결하려고 UTF-8 부터 CP949부터 모든 인코딩 관련 처리를 스택오버플로우에서 검색해서 다 사용해봤지만 결국 찾아낸 원인은 단순했다. 웹페이지도 UTF-8 캐릭터셋이 맞고, 파이썬도 utf-8 캐릭터셋을 사용하는데 출력하는 콘솔(도스창)이 CP949 캐릭터셋을 쓴다.일본어는 한글 윈도우에서 사용하는 CP949 캐릭터셋을 지원하지 않아서, 내부 값들은 잘 저장되더라도 출력하지 못하는 것이었다. 어쨋거나 출력 결과를 콘솔에 띄워보기 위해서 cp949 캐릭터셋을 지원하지 않는 캐릭터들은 걍 날려..
Python + BeautifulSoup을 이용해서 랭킹 JSON으로 만들기(https://www.acmicpc.net/blog/view/16) 블로그를 따라하다, 예제안의 다음의 코드를 실행헀더니 에러가 발생한다. 데이터를 가져오는 사이트의 프로톨이 HTTP가 아닌 HTTPS라서 UserAgent 값을 같이 넣어줘야 이 문제는 해결 된다.
파이썬에서 Mysql을 접속하는 방법은 PyMysql 라이브러리를 이용하는 편이다. 그래서 Hive를 접속하려고 pyHive를 받아보았으나 에러가 펑펑 난다. 알아보니 개발이 늦다. hive를 접속할 수 있는 라이브러리들을 뒤지기 시작했고, pyhs2 요놈을 또 많이들 쓴다고는 하는데 깃헙을 보면 알겠지만 개발자도 포기했다. 따라서 마지막 방법은 ODBC를 활용하는 것이었고, 나는 hortonworks 하둡을 사용하니, 호튼웍스에서 odbc를 다운받아 설치하였다. 도큐멘트 항목을 읽어보니 driver항목의 명시를 조금 특이하게 하는 것 같아서 접속이 안되고, 직접 ODBC 설정으로 dsn을 생성해서 DNS명으로 접속해야 했다. import pyodbc cnxn = pyodbc.connect('DSN=HI..