본문 바로가기

전체 글

(55)
Spark(java) 에서 Date 다루기. Date Loop Spark자체 Date함수는 못찾겟고 Java Lib를 사용 import java.util.Calendarval c = Calendar.getInstance() // Date조작을 위해 Calendar 이용 val format = new java.text.SimpleDateFormat("yyyyMMdd") //String to Dateformat.parse("20160201") //Date Type Return c.setTime(format.parse("20160201")) // 변수 c 에 날짜 입력c.add(Calendar.DATE, -1 ) //조작 날짜Loop종료일 추가val d = Calendar.getInstance()d.setTime(format.parse("20160210")) while(..
Sbt(Scala) 에서 다른 Version으로 compile sbt사용시 build.sbt 에서javacOptions ++= Seq("-source", "1.7","-target","1.7") Option추가해서 Build하면 1.7로 Compile
Hive UDF functionality check by scala program Hive UDF개발 후 Function 이 잘 도는지 확인하기 위해서 test 개발시,UDF가 GenericUDF를 상속받았을 경우에는 Initialize와 evalute에서 type이 정해져 있어서 맞춰주어야함 initialize 의 경우는 ObjectInspectorevalute 의 경우는 DeferredObject Hive내부에서 위와 같은 type으로 UDF에 넘기는듯함Java로 개발하면 예제가 많기는 한데 scala는 예제가 별로 없어서 변환해봄Test한 UDF는 Array[String]을 받아서 결과를 Return해주는 함수임(Return Type은 별로 신경안써도 괜찮은듯) import org.apache.hadoop.hive.ql.udf.generic.GenericUDF.{DeferredJ..
node.js 개발 node.jsexpress 3.0 - 인터넷에 나온건 2.0 많은데 접속방법이 좀 바뀜oracle 설치 - npm 메뉴얼대로 하면됨오라클 한글문제 - KOREA_KOREAN.UTF8sublime text 에서 sftp 모듈깔아서 접근/수정할 환경 설정jquery ui 사용db조회 nodejs query multi - 조회한번에 여러쿼리 조회 - http://stackoverflow.com/questions/6597493/synchronous-database-queries-with-node-js
spark 에서 join하기 spark 활용 다음 단계로 join 에 대해 설명하겠습니다 우선 Join을 하려면 당연히 두개의 RDD를 만들어야 하며다음은 ORDER라는 주문테이블과 GOODS 라는 상품테이블 JOIN하는 예입니다. val conf0 = new SparkConf() .setMaster("local") .setAppName("My App") .set("spark.executor.memory","1g") .setSparkHome("/home/cloudera/Downloads/spark-0.9.0-incubating") val sc = new SparkContext(conf0) val conf_order = HBaseConfiguration.create() val conf_goods = HBaseConfiguration...
Spark 에서 Hbase 데이터 읽어오기 Spark 에서 HBase 데이터를 읽기는 github에 Sample이 나와있기는 하지만 Connect 하는 부분만 나오고 값을 읽는 부분이 나오지 않아서 여기저기 찾다가 올려봄 아래 Source import org.apache.spark._import org.apache.spark.rdd.NewHadoopRDDimport org.apache.hadoop.hbase.{HBaseConfiguration, HTableDescriptor}import org.apache.hadoop.hbase.client.HBaseAdminimport org.apache.hadoop.hbase.mapreduce.TableInputFormatimport org.apache.hadoop.hbase.client.Appendimpor..
talend로 google analytics 가져오기 Talend에서 Google Analytics 가려오려면 다음에서처럼Client Id, Client Secret, Project Id, Authorization Code 그리고 token파일이 필요하다 1) https://console.developers.google.com/project 에서 Project 생성 - Project ID확인2) Project를 클릭하고 API에서 Bigquery 활성화3) Credential 에서 "CREATE NEW CLIENT ID" 누르고 Installed Application 에 "Other"선택한데Service Account 선택해서 만들면 오류:redirect_uri_mismatchThe redirect URI in the request: urn:ietf:wg:..
32bit Oracle 를 64bit Linux 에 설치시 에러 32bit Oracle 를 64bit Linux 설치시 Net Assistant 쪽에서 INS-20802 번호의 에러나는 경우가 있는데 실제로그를 보면 libaio 를 open 할 수 없다고 확인되었을때 걍32bit libaio 강제설치! 했더니 하루종일 안깔리던 오라클이 설치되었음! yum install libaio.i686 (linux6라서. 아니면 i386)yum install libaio-devel.i686 아래 참고는 별로 도움은 안되었음http://www.thisisahmed.com/tia/database/32bit64bit.html