2018년 6월 23일 토요일

오라클 SQL문법

group by 
특정 컬럼을 기준으로 그룹화하는 것
ex)
1
2
3
  SELECT department_id, SUM(salary)
      FROM employees
     GROUP BY department_id
cs
>>department_id을 기준으로 empolyees 테이블에서의 부서id 별 급여 합계 구하기

**select 와 group by에 기준으로 삼고자하는 컬럼넣으면 됨 


having
having절은 group by 절에 다음에 위치하여 group by한  결과를 대상으로 다시 필터를 거는 역할 
ex)
1
2
3
4
5
SELECT dept.deptname, COUNT(emp.empno) "사원수"
  FROM employees emp, department dept
 WHERE emp.deptno = dept.deptno
 GROUP BY dept.deptname
HAVING COUNT(emp.empno) > 5;
cs
>>부서테이블의 부서 이름을 기준으로하여 사원테이블의 사원번호를 카운트하여 
사원수가 5명이 넘는 부서별 사원수 보여주기 


case when ~ then ~ (else ~) 
조건에 따라 여러 경우 중 하나를 선택
case 컬럼 when 조건1 then 값1 when 조건2 then 값2 .... end) 
1
2
3
4
5
6
7
8
SELECT deptno, 
       CASE deptno
         WHEN 10 THEN 'ACCOUNTING'
         WHEN 20 THEN 'RESEARCH'
         WHEN 30 THEN 'SALES'
         ELSE 'OPERATIONS'
       END as "Dept Name"
  FROM dept;
cs
>>dept테이블에서 deptno가 10이면 'ACCOUNTING' , 20이면 'RESEARCH' ,30이면 'SALES' 나머지는 'OPERATIONS' 출력 

**when 뒤에 sal > 100 와 같이 비교하는 연산 넣어도 됨 



decode
값 비교 연산 (오라클에서만 지원하는듯?)
DECODE(비교 값 , 조건1, 조건1일때 값, 조건2, 조건2일때 값, ...)
1
2
3
4
SELECT deptno, DECODE(deptno, 10 , 'ACCOUNTING' ,
                              20 , 'RESEARCH' ,
                              30 , 'SALES''OPERATIONS') name
  FROM dept;
cs
>>dept테이블에서 deptno가 10이면 'ACCOUNTING' , 20이면 'RESEARCH' ,30이면 'SALES' 나머지는 'OPERATIONS' 출력 

**GREATEST, LEAST 함수를 사용해서 비교처리도 가능한듯(제한적??)


바인드 변수      
bind 변수란?
Bind변수는 실행계획이 세워진 후 그 값이 결정되는 변수이며 값이 바뀌더라도 실행계획에는 영향을 주지 않는다. 콜론 :  을 사용

1
SELECT * FROM emp WHERE empno = :var ;
cs
>>쿼리가 실행될 때 마다 원하는 사원번호를 입력해서 emp에서 사원 검색

**효율문제 좀 더 찾아보기 


concat
두 문자열을 결합 할 때 사용하는 함수
|| 연산자와 같은 역할
1
SELECT CONCAT('December 25, ''2008');
cs
>>두 문자열 합치기

 두 문자열의 타입이 동일할 경우에는 문제가 없지만, 두 문자열의 타입이 다를경우에는 데이터 손실이 생길 수 있기때문에 두 문자열 타입 중 문자 결합 후 손실이 없는 쪽으로 리턴됩니다.


substr
원하는 길이 만큰 문자(String)를 자를 때 사용하는 함수
1
SELECT SUBSTR('abcdefg' , 15) res FROM DUAL; 
cs

>>'' 문자를 1번부터 5번까지출력 ==> abcde
>> 숫자가 하나만 있으면 => 숫자 부터 끝까지
>> -숫자 => 뒤에서부터 


WITH 구문
with 구문이란?
서브쿼리 블럭에 이름을 지정할 수있게 해주고, with구문내의 쿼리의 결과가(서브쿼리)가 여러번 사용될 때 유용하다. 오라클 9이상에서 지원한다. 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
WITH AA AS
 (SELECT ROWNUM AS SEQ, 'TEST1' AS NAME, SYSDATE
    FROM DUAL
  UNION ALL
  SELECT ROWNUM AS SEQ, 'TEST2' AS NAME, SYSDATE
    FROM DUAL
  UNION ALL
  SELECT ROWNUM AS SEQ, 'TEST3' AS NAME, SYSDATE FROM DUAL),
 
 BB AS
 (SELECT ROWNUM AS SEQ, 'TEST1' AS NAME, SYSDATE
    FROM DUAL
  UNION ALL
  SELECT ROWNUM AS SEQ, 'TEST2' AS NAME, SYSDATE
    FROM DUAL
  UNION ALL
  SELECT ROWNUM AS SEQ, 'TEST3' AS NAME, SYSDATE FROM DUAL)
  
SELECT * FROM AA, BB WHERE AA.NAME=BB.NAME
 
 
cs
출처:


NVL 함수
NVL(컬럼, 치환할 값) 으로 쓰며 
컬럼값이 null 이면 치환할 값으로 바꾸어주는 함수이다. 

NVL2(컬럼, e1, e2) 
컬럼값이 null 이 아니면 e1 값,  null 이면  e2 값으로 바꿔주는 함수이다. 
1
2
SELECT empno, NVL2(deptid, 10) dept
  FROM emp;
cs
>>테이블에서 deptid가 null값이아니면 1, null이면 0으로 변환




TRUNC 함수
trunc함수는 원하는 소숫점 자리수 만큼만 자를 수 있다.
1
select trunc( 1.234562 ) from dual;
cs
>> 1.23 만 나옴

이를 날짜에도 사용할 수 있다.

2018년 6월 13일 수요일

mahout 알고리즘

아파치 머하웃(Apache Mahout)은 아파치 소프트웨어 재단의 한 프로젝트로서 분산처리가 가능하고 확장성을 가진 기계학습용 라이브러리이다. 맵리듀스를 이용하는 아파치 하둡위에 적용되며[1][2] 비슷한 특성을 가진 데이터들을 분류하고 정의하는 작업 및 협업 필터링 분야에 집중한다.
머하웃(Mahout)의 사전적 의미는 코끼리를 부리는 사람을 말한다.



스터디프로젝트에 구독한 강좌를 기반으로 추천해주는 시스템을 구현하고 싶어서 추천 알고리즘을 찾는도중 아파치의 머하웃 알고리즘을 찾았다.

3번 예제를 실행해보았지만 아직 감이 잡히지 않으므로 공부 더 더ㅓ더더더
**사용자/아이템이름/선호값 데이터를 바탕으로 추천을 해주는 것 같음...,.,.


++++++++++++++++
6/30
3번 예제에서 아이템 기반 추천을 해보았다. 실행 결과 모든 아이템들의 유사성?선호도? 값이 출력된다. 데이터가 누적이 될 수록 1번 아이템을 선택했을 때 추천해주는 아이템이 달라지겠지만
결국 1번 아이템을 선택했을 때 추천해주는 아이템은 모든 사용자에게 똑같이 나타나는 것 같음.  >>사용자 개별의 추천은 아닌 것 같지만 사용자 기반 추천 알고리즘은 이해하지 못했으므로 일단 이것을 프로젝트에 적용해보고 추후에 생각해 볼 것


7/8
ItemRecommend를 실행하면 리스트(recommendations)에 값들이 저장됨
우리 프로젝트에서는 코스를 클릭하였을 때 밑에 추천 코스들을 표시할 계획이므로 코스번호를 받아서 ItemRecommend를 실행해서 특정 코스번호와 연관된 코스 5개정도 뽑아서 코스 정보 보여주게 하면 될 듯?



7/29
프로젝트에 적용하여 코스를 클릭하였을 때 밑에 추천 코스들을 뜨게하였다.
기본적으로 5개를 보여주도록 하였고, 현재는 데이터를 예제로 썼기 때문에 프로젝트에 적용하였을 때 추천해주는 번호가 실제 강좌에 없는 것도 있기 때문에 5개가 전부 뜨지않는다.

todo
- 추천방식 이대로할 것인지?
- 코스이름을 가져오는 방식 너무 코드가 더러움 (개선해야함)
- 엑셀의 기록된 데이터를 기준으로 추천이 진행되므로 
디비의 데이터를 엑셀로 정리 or u.data 파일에 저장하고 엑셀로 변환
(데이터 갱신 주기 설정 - 스케쥴러도 좋은듯... ) 



예)
사용자들의 101~ 106번 아이템에 대한 관계 >>>이 데이터를 통해 추천값 계산
아이템 번호 / 아이템 번호 / 아이템에 따른 대상 아이템에 대한 선호값 


1.0에 높을 수록 선호도가 높은 것 같음
>>익명의 사용자가 101번을 선택하면 제일 1.0에 가까운 102번을 추천
(데이터가 적어서 1.0가 표시됨. 예제의 큰 데이터에서는 제일 높은 값이 0.5였다!!)


8/15
현재 csv를 기준으로 추천을 해주므로,
데이터베이스의 한 테이블을 기준으로 그 테이블 내용을 .data나 .csv 파일로 뽑아서
그 파일을 읽어 추천을 적용하면 될듯..
기준 테이블 고민하기: 구독 or 수강평
구독으로 설정하면 선호도를 무조건 5로 놔야함
수강평으로 설정하면... 수강평 등록할 때 한사람당 한번씩만 해야하고, 각 회원 번호를  새 테이블에 넣어야할듯..??


*데이터베이스 테이블의 데이터를 csv 형태로 내보내기
https://gist.github.com/gaerae/6219678

8/19
사용자가 수강평을 남길때 마다 새 테이블에 사용자번호 / 코스번호 / 점수
를 입력하게 하였고, 이 테이블을 특정 폴더에 .csv 파일로 뽑았다.
이 파일을 통해 추천을 해주도록 하였고, 파일의 갱신은 관리자계정이 버튼을 통해
갱신을 하도록 하였다.



사용자 기반 알고리즘과 선호도계산 로직에 대해 좀 더 알아보면 좋을 것같다..



<예제>
1. 어려운 예제
https://github.com/jensfischerhh/spring-boot-starter-recommender
2. 스프링에 적용시킨 추천 알고리즘
https://github.com/hoho0443/recommend_mahout_postgresql_spring
3. 간단한 실습
http://over153cm.tistory.com/entry/%EB%A8%B8%ED%95%98%EC%9B%83-recommender-%EC%8B%A4%EC%8A%B5%ED%95%98%EA%B8%B0?category=459417


<머하웃 기본개념>
http://blog.naver.com/PostView.nhn?blogId=koys007&logNo=220754318580&parentCategoryNo=&categoryNo=&viewDate=&isShowPopularPosts=false&from=postView