본문 바로가기

Data&Processing

(52)
[talend] talend 에서 google analytics연동 talend (혹은 다른 프로그램에서도 마찬가지)에서 google analytics 데이터를 연동하고자 하면 다음과 같은 프로세스를 따르면 된다.글은 그냥 순서대로 쓰지만, 실제 작업하는데에는 수많은 시행착오가 있었고 이게 최적화된 길은 아니니 다른 좋은 방법찾으시면 그대로 하셔도 좋을것 같다. 관련site https://code.google.com/apis/consolehttp://ga-dev-tools.appspot.com/explorer/ : Google Analytics Query Explorer로써 ids나 metrics를 query해봄으로써 필요한 정보를 확인 할 수 있다. 분석화면 대신써도 가능은 할듯.https://code.google.com/apis/console 에 Service tab..
[talend] talend 에서 암호화/복호화 완전자바로는 찾아봤는데 구현하기 좀 까다롭고jasypt package를 이용해서 다른사람이 구현해 놓은게 있어서 링크남깁니다. http://thinkinginsoftware.blogspot.kr/2012/02/etl-encrypt-and-decrypt-from-talend.html
[talend] talend에서 google analytics 데이터 연동 talend에서 기본적으로는 google analytics 연동하는 component가 없지만, 개인적으로 java 프로그래밍을 통해 가져올 수도 있을것 같다. 하지만 어느 고마운분이 google analytics 연동하는 component를 만들어 놓았다.아래 경로에서 다운받을 수 있고http://www.talendforge.org/exchange/index.php?eid=537&product=tos&action=view&nav=1,1,1 받은 파일을 원하는 폴더에 넣은 후 "preferences > talend > components" 에서 "User component folder" 에 해당 폴더를 지정해 놓으면 talend가 재설정되면서 "Business > Google" 위치에 해당 compone..
[talend] hbase 연동 (hadoop 2.0 관련) 이전 연동은 hadoop 0.2/hbase 0.90 이었고 hadoop 2.0/hbase 0.92 연동할때는 필요한 library가 다르게 됨list는 다음과 같다. •commons-configuration-1.9.jar •hbase-0.92.1-cdh4.1.0.jar •log4j-1.2.16.jar •hadoop-hdfs-2.0.0-cdh4.1.1.jar •hadoop-common-2.0.0-cdh4.1.1.jar •commons-logging-1.1.1.jar •com.google.common_1.0.0.201004262004.jar •commons-lang-2.3.jar •zookeeper-3.4.3-cdh4.1.1.jar •hadoop-auth-2.0.0-cdh4.1.1.jar •slf4j-api..
[talend] hbase 관련 library TOS for BigData 를 이용해서 hbase연동을 테스트했는데, TOS for BigData 는 메타도 안되고 라이브러리가 안되는게 많아서 실제 프로젝트에 적용하기에는 좀 문제가 있어서 TOS for DataIntegration을 이용해서 개발을 하고자 한다. 아래 방식은 Hbase Component를 사용하지 않기 때문에 Component가 없는건 상관이 없는데 hadoop관련 library가 없어서 에러가 난다. 이거저거 추가해보다가 Custom Code >> tLibraryLoad를 이용해서 library를 추가한다.필요한 library는 zookeeper-3.3.3-cdh3u0.jarzookeeper-3.4.2.jarhbase-0.92.0.jarhbase-0.90.1-cdh3u0.jarha..
[talend] Hbase에서 연동 (rowkey 적용) Talend Open Studio for Big Data 는 hbase를 source로 사용가능하다.그런데, HBaseInput에 보면 로 되어있는데 Hbase 를 잘 아는건 아니지만 table별로 family 정보는 관련담당자에게 받어야한다. 입력할때 "이름" 이런식으로 입력해야한다. 그치만, 문제가 있는데 전체테이블만 가져올수 있다. Hbase구조가 각 row마다 rowkey가 있고 key구조를 사용자가 설계를 할 수 있는데 batch로 데이터를 가져오려면 해당table 전체를 가져올게 아니고 rowkey를 이용해서 특정구간/기간만을 가져오려고 할때는 사용을 할 수가 없다. 5.1.2 version에서 Hbase지원에서 가능한 옵션은 다 찾아보았지만 못찾았고, 어떻게 해결해야하나 찾아보았고 Custo..
[talend] 외부명령 실행 사용자가 만든 job meta 테이블에 job에 대한 실행정보를 넣어두고 해당 row를 읽어서 명령을 실행시키고자할때 command를 실행시킬 필요가 있습니다. 사용할 component는 System에 있는 tSystem 이고, 입력항목들은 다음과 같습니다. 항목은ㅇUse Home Directory : 실행하는 home directory 지정ㅇUse Single Command : 실행명령ㅇUse Array Command : 실행명령을 여러개 입력하고자할때 지금까지가 기초이고 meta테이블에서 실행명령어를 받아와서 실행하고자 할때 어떻게 구성하는지 설명하도록 하겠습니다. tb_job이라는 테이블에 job에 대한 실행위치, 실행명령어를 넣어두었다고 하고,간단히 생각하면 다음과 같이 구성할수 있다. Input..
[talend] lookup 만들기 + non equi join 여타 ETL 툴과 같이 talend에서도 lookup 사용이 가능하다component는 Processing폴더에 Map 을 이용.사용법은 처음연결하는 flow가 master가 되고 이후 연결되는 flow는 lookup이 됨기본적인 연결이나 사용은 우선 패스하고 lookup 부분에 대해서 설명하면 1) Match Model: Unique match, First match : 하나만 선택하는데 Unique match는 last match, first match는 이름그래도 first match. : All matches : lookup 되는 테이블과 매핑되는 row가 여러 row일때 모두 join. 2) Join Model: Left outer Join: Innter Join --> DB에서의 left ou..