"태블로를 이용한 쉽고 빠른 데이터 시각화는 디포커스의 전문가(https://www.dataqrator.com)가 도와드립니다."

안녕하세요 여러분~^^ 디포커스 태블로 둥이입니다!

태블로 차트를 알아보는 여섯 번째 시간입니다.

오늘은 'TabPy 분석 확장 프로그램'을 알아보겠습니다.

1.Python 설치

하기의 링크로 접속하여 Linux Mac 또는 Windows용 최신 버전의 Python을 다운로드하여 설치합니다

Download Python | Python.org

Python Script를 사용하는 이유?

Python은 범용 프로그래밍에 널리 사용되는 고급 프로그래밍 언어입니다. Python 명령을 분석 확장 프로그램에 전송하는 방식으로, 고객 변동 예측이나 정서 분석 실행과 같은 작업을 수행할 수 있습니다.

2.TabPy 설치

Tableau Python 서버 = TabPy

하기의 링크로 접속하여 TabPy를 다운로드하여 설치합니다.

GitHub - tableau/TabPy: Execute Python code on the fly and display results in Tableau visualizations:

우측의 Code 버튼을 클릭해 Download Zip을 눌러 설치를 진행합니다

다운로드 된 Zip 파일을 압축을 풀어 저장합니다.

3.Anaconda 설치

하기의 링크로 접속하여 Anaconda를 설치합니다.

Anaconda | Individual Edition

설치 후 프로그램의 Anaconda Prompt를 관리자 권한으로 실행합니다.

4.Python pip 명령어를 이용한 패키지 설치

Prompt에 pip 명령어를 사용하셔서 해당 명령어에 대한 옵션을 확인 후

python -m pip install --upgrade pip를 입력하여 패키지 매니저를 최신버전으로 업그레이드합니다.

pip install tabpy 명령어를 사용해 tabPy설치를 진행합니다.

이후 pip install sklearn 명령어로 scikit_learn 패키지를 설치합니다.

설치 완료 후 ​tabpy 명령어를 사용해 해당 패키지가 이용하는 port등의 상세내역을 확인할 수 있습니다.

* pip : Package Manager로 Python에서 작성된 패키지 소프트웨어 설치 시 사용

** port 9904 : TabPy 기본 port 번호

*** pip install sklearn : 머신러닝을 위한 scikit_learn 패키지 설치

5.분석 확장 프로그램 구성

Tableau에서는 SCRIPT 함수 집합을 통해 분석 확장 프로그램에 연결할 수 있습니다.

SCRIPT 함수를 외부 서비스에 전달하기 전에 서비스에 대한 연결을 구성해야 합니다.

Tableau Desktop에서 상단의 도움말 > 설정 및 성능 > Analytics 확장 프로그램 연결관리를 선택합니다.

연결하려는 외부 서비스를 선택 (TabPy) 합니다.

도메인 또는 IP 주소를 사용하여 서버 이름을 입력하거나 선택합니다.

드롭다운 목록에 가장 최근에 연결된 서버 및 localhost가 포함되며 초기 설정 시 변경하지 않았다면 localhost 9004를 입력합니다.

이후 연결 테스트를 클릭하여 진행 후 저장하면 tableau python script를 사용할 수 있습니다.

* 서버가 SSL 암호화를 사용하는 경우 SSL 필요 옵션을 선택합니다.

Tableau Server는 운영 체제 키 저장소에 설치되어 있는 인증서를 읽고 보안 연결을 설정합니다.

6.Tabpy 활용 데이터 셋 설명

다음으로는 GermanCreditData.csv 를 사용하여 tabpy를 통해 고객의 대출 상환 여부 예측치를 나타내는 시각화를 진행해보겠습니다.

해당 데이터 셋은 대출을 요청한 은행 고객의 다양한 특징(예: 나이, 고용 상태, 개인 상태, 성별 등), 대출 상환 여부 등으로 구성되어 있습니다.

해당 데이터셋을 통해 시각화를 진행하기 위해 predictions.csv 파일을 이용합니다.

해당 데이터 셋은 GermanCreditData.csv을 학습시켜 어떤 고객들이 대출 상환을 기한 내에 할 수 있는지 여부를 시각화로 표현하게 됩니다.

머신 러닝 알고리즘의 경우 파이썬의 scikit-learn 라이브러리에서 찾을 수 있는 의사 결정 트리 분류를 사용할 것입니다.

추가적인 라이브러리는 링크를 참조하시어 사용하시길 바랍니다.

7.Tabpy 활용

새 워크북을 열어 Analytics 확장 프로그램 연결 관리의 TabPY와 연결해 줍니다.

Predictions.csv 파일을 tableau와 연결해 줍니다.

계산된 필드를 named Prediction 을 이름으로 하여 스크립트를 작성합니다.

※결정트리 알고리즘 스크립트 설명

*데이터의 기준을 세워 이를 사용하여 규칙을 작성해 효율적인 분류를 하는 알고리즘

SCRIPT_INT(" 스크립트의 결과를 정수로 반환

import numpy as np numpy 라이브러리 import

import pandas as pd pandas 라이브러리 import

from sklearn.tree import DecisionTreeClassifier sklearn.tree 라이브러리의 결정 트리 실습 모듈 import

data=pd.read_csv(r'C:\Users\SAMSUNG\Desktop\tabpy\GermanCreditData.csv') 학습시킬 .csv 파일 불러오기

X=data.drop(['ID','Class'],axis=1) X에 해당 csv.의 ID와 Class 칼럼을 제외한 나머지를 할당

y=data['Class'] Y에 해당 csv.의 Class 칼럼만을 할당

clf = DecisionTreeClassifier(random_state=2) 결정트리 알고리즘을 생성하고 학습의 결과과 변경되지 않도록 number 지정

clf.fit(X,y) 결정트리 알고리즘 학습

X_pred=np.transpose(np.array([_arg1,_arg2,_arg3,_arg4,_arg5,_arg6,

_arg7,_arg8,_arg9,_arg10,_arg11,_arg12,_arg13, _arg14, _arg15,

_arg16, _arg17, _arg18, _arg19, _arg20])) 컬럼 값들 (답을 얻고 싶은 데이터들)을 numpy 행렬로 변환해 X_pred에 할당

 

pred = clf.predict(X_pred) X_pred 의 데이터들을 학습하여 예측한 결과를 pred에 할당

return pred.tolist( ) pred에 할당된 행렬을 list로 변환해 결과로 도출

",

SUM([Status of account]),SUM([Duration(months)]),SUM([Credit History]),

SUM([Purpose]),SUM([Credit amount]), SUM([Savings account/bonds]),

SUM([Employment]), SUM([Installment rate]), SUM([Personal status/sex]),

SUM([Debtors/Guarantors]), SUM([Residence since]), SUM([Property]),

SUM([Age]), SUM([Other installment plans]), SUM([Housing]),

SUM([Existing credits at bank]), SUM([Job]),

SUM([People liable to provide maintenance for]),

SUM([Telephone]), SUM([Foreign worker])) csv.의 칼럼 값들을 계산해 위의 배열에 할당

과는 다음과 같이 1 좋음, 2 나쁨 2가지로 나누어집니다.

고객별로 대출 상환여부를 보기 위해 Customer Id와 Customer Name을 행에 올리고 만든 계산된 필드를 마크의 모양에 올립니다.

해당 마크의 모양을 1은 초록색 체크 모양으로 2는 빨간 엑스 모양으로 편집하여 다음과 같은 화면을 만듭니다.

위의 화면처럼 체크 표시된 고객들은 대출 상환을 할 수 있는 고객으로 차후 대출 시 대출 허가 승인이 되는 고객들이며, 엑스표인 고객들은 대출 상환을 제때 할 수 없어 대출시 승인이 나지 않거나 주의해야 될 고객임을 알 수 있습니다.

지금까지 TABLEAU에서 확장기능을 통해 PYTHON을 이용한 딥러닝 사례에 대해 살펴보았습니다~!

그럼 다음 시간에 만나요!

"태블로를 이용한 쉽고 빠른 데이터 시각화는 디포커스의 전문가(https://www.dataqrator.com)가 도와드립니다."

 

"태블로를 이용한 쉽고 빠른 데이터 시각화는 디포커스의 전문가(https://www.dataqrator.com)가 도와드립니다."

안녕하세요^^ 디포커스 태블로 둥이입니다~!!

태블로 차트를 알아보는 다섯 번째 시간입니다.

오늘은 '블렌딩&와플차트'를 알아보겠습니다~!

블렌딩은 태블로에만 있는 데이터를 가공하는 방법이라고 이해하시면 됩니다.

기본적인 데이터 형태 가공은 ‘Join’ 형태가 있는데,

이 경우에는 데이터에서 이미 가공을 하고 데이터를 갖고 오게 됩니다.

▶JOIN(데이터 편집)

블렌딩은 각각의 데이터를 갖고 와서 주 데이터 기준으로 공통의 데이터를 집계하는 형태를 말합니다.

▶블렌딩 (워크시트 화면)

각각의 데이터를 갖고 와서 주 테이블의 특정필드(지역)에 집계의 단위를 맞추고 결합시키는 것입니다.

블렌딩은 물리적으로 데이터를 붙이지 않고, 하나의 화면에 두 테이블이 붙어 있는 듯하게 보여지는 것입니다.

본 실습에 데이터는 Tableau에서 기본적으로 제공하는 Sample 슈퍼스토어 - 주문 시트와플 차트를 만들기 위해서 가공된 데이터 SET를 갖고 와서 만들도록 하겠습니다.

*Tableau Desktop 버전에 따라 슈퍼스토어에 데이터 값이 상이할 수 있습니다.

Waffle dataset은 1%를 칸으로 표현하기 때문에 각 항목을 5줄로 표현하고 칸을 100개를 만든 데이터가 필요합니다.

Sample 슈퍼스토어에 주문 시트 추가 후 위에서 만든 가공된 Data Set도 갖고 와줍니다.

블랜딩을 이용하여 와플차트를 만들기 위해 데이터에 혼합관계 편집(블랜딩)을 해줍니다.

*Tableau 버전마다 Blending을 의미하는 한글 표현은 상이할 수 있음, 편집 위치는 동일함.

혼합 관계 편집을 이용하여 슈퍼스토어 Data와 가공한 와플 차트 Data 의 대분류로 맵핑 시켜줍니다.

대분류 별 수익율을 와플 차트로 만들기 위해 수익율 계산식을 만들어 줍니다.

상단의 데이터에서 슈퍼스토어-샘플 클릭 후 계산식을 이미지와 같이 작성 후 확인을 누릅니다.

수익율 계산식을 만든 후 데이터에 SHEET1을 클릭하여 수익률이 Percentage보다 큰 부분만 표시할 수 있도록 계산식을 만들어둡니다.

혼합 관계 편집을 이용하여 슈퍼스토어 Data와 가공한 와플 차트 Data 의 대분류로 맵핑 시켜줍니다.

측정값 집계가 되어있는 것을 선택 해제 하게 되면, 칸으로 쪼개지면서 각 항목에 맞게 막대처럼 생기게 됩니다.

대분류의 색상 마크를 넣게 되면 대분류 별로 색상이 달라지는 것이 보이게 됩니다.

위에 만들었던 값 범위에 대한 항목을 색상에 넣게 되면 ‘참,거짓’으로 값이 나뉘게 되고 거짓인 부분은 하얀색으로 표시가 되지 않도록 만들어줍니다.

위에 색상에 값을 넣은 것을 확인하게 되면 아래와 같이 각각 자기의 %만 표시가 되는 것을 확인할 수 있습니다.

차트 위에 항목 이름과 수익률(%)를 표시하기 위해서 레이블에 넣고 표시하면 되는데, 자동으로 하게 되면 모든 항목에 값이 표시되므로 값 표시 계산식을 만들고 필드에서 값 표시를 선택해주시면 됩니다.

그럼 아래와 항목과 수익률%가 하나만 값이 표시 되는 것을 볼 수 있습니다.

마크의 크기를 중간 사이즈로 하게 되면 공간이 있던 부분이 꽉 채워져서 표현되게 됩니다.

마크의 색상에서 테두리 색상을 선택하게 되면 칸 별로 나눠서 표현되게 됩니다.

오늘은 순서대로 와플 차트를 만드는 방법을 소개해봤습니다.

그럼 다음 시간에 만나요~!

"태블로를 이용한 쉽고 빠른 데이터 시각화는 디포커스의 전문가(https://www.dataqrator.com)가 도와드립니다."

 

"태블로를 이용한 쉽고 빠른 데이터 시각화는 디포커스의 전문가(https://www.dataqrator.com)가 도와드립니다."

안녕하세요! 디포커스 태블로 둥이입니다~~! ^^

태블로 차트를 알아보는 네 번째 시간입니다.

이번엔 태블로에 '사용자 지정색상'을 만들어 보겠습니다.

자주 사용하는 색상이나 기업을 상징하는 색상을 미리 등록하여 편하게 사용할 수 있습니다.

먼저 “C:\Users\USER\Documents\내 Tableau 리포지토리”

위의 경로에 “Preferences.tps" 파일을 메모장과 같은 편집프로그램을 이용하여 실행시켜 주세요.

“Preferences.tps“ 파일을 처음 열어 보신다면 아래처럼 텍스트가 되어있을 거에요.

저희는 이 파일에 나만의 색상으로 수정해보겠습니다.

작성에 앞서 3가지 유형의 사용자 지정 색상표를 만들 수 있습니다.

1. 범주형 색상표 (regular)

2. 단일 색상표 (ordered-sequential)

3. 다중 색상표 (ordered-diverging)

1.범주형 색상표

2.단일 색상표

3.다중 색상표

범주형 색상표는 차원과같은 불연속 필드에 자주 쓰이고

단일, 다중 색상표는 연속형 측정값을 그라데이션으로 색상 표현에 자주 쓰입니다.

이어서 모양을 등록하는방법을 알려드리도록 하겠습니다.

마크에 모양차트를 선택하면 모양표 선택을 하실 수 있습니다.

아래의 이미지를 보시면 “화살표”라는 모양표 안에 다양한 화살표 들이 담겨있는 것을 알 수 있는데 “화살표”라는 폴더에 다양한 이미지 파일들이 들어있다 라고 생각하시면 될 것 같습니다.

이러한 모양표를 만들기 위해서 준비해야 할 것은 이미지인데요..

https://newsis.com/view/?id=NISX20210302_0001355432

저는 위의 기사를 보고 1월의 스마트폰 시장점유율을 시각화 해봐야겠다고 생각하여

삼성전자, 애플, 샤오미, 오포 기업의 로고를 다운로드 받았습니다.

저장 위치는 “C:\Users\USER\Documents\내 Tableau 리포지토리\모양”에 들어가서

Logo라는 폴더를 만들어 이미지를 저장하였습니다.

저장이 되었다면 태블로로 돌아와서

모양을 보시면 Logo라고 생겼으며 제가 저장한 이미지들이 나타납니다.

만약 없다고 한다면 “모양 다시 로드” 버튼을 눌러주시면 나타납니다.

이상으로 사용자 색상과 모양표를 만들어 보았으며 앞으로 자주 쓰이는 색상과 분석에 많이 쓰이는 이미지를 사용하여 가시성있는 대시보드를 구현하는것도 좋은 방법이라 생각됩니다.

다음에 또 만나요~!

"태블로를 이용한 쉽고 빠른 데이터 시각화는 디포커스의 전문가(https://www.dataqrator.com)가 도와드립니다."

 

"태블로를 이용한 쉽고 빠른 데이터 시각화는 디포커스의 전문가(https://www.dataqrator.com)가 도와드립니다."

 

안녕하세요! 디포커스 태블로 둥이입니다~~! ^^

 

태블로 차트를 알아보는 세 번째 시간입니다.

오늘은 라인 매트릭스를 알아보겠습니다~!

라인매트릭스는 매개변수 및 인덱스를 이용하여 행, 열 개수에 맞게 그래프를 만들 수 있는 것을 말합니다.

Tableau에서 만들어지는 막대 차트는 행 이나 열을 선택하여 하나의 기준으로만 나타내는 것을 기본으로 합니다.

하지만 이러한 차트는 단순하며 차원이 많을 시 복잡하게 보이는 단점이 있습니다.

이러한 경우 라인매트릭스를 이용한 차트 구성은 디자인적으로 세련된 느낌을 줄 수 있습니다!

▶라인매트릭스 작동 설명1)가로 라는 매개변수를 활용하여 선택한 값을 기준으로 가로에 차원 수를 나타냅니다. (총 17개에 [Sub-category]를 기준으로 3칸을 선택 시 3*6 형태로 그래프를 나타냅니다.) 2) 또한 왼쪽부터 [Sub-Category], [Sales], [Profit]를 나타냅니다.

본 실습에 데이터는 Tableau에서 기본적으로 제공하는 Sample 슈퍼스토어 - Orders 시트를 이용합니다.

*Tableau Desktop 버전에 따라 슈퍼스토어에 데이터 값이 상의할 수 있습니다.

1. 칸 수를 지정할 수 있는 매개변수를 만들어 줍니다.

1) 역삼각형을 클릭하여 ‘매개 변수 만들기’ 를 선택하여 줍니다.

2) 매개변수 만들기 창에서 아래와 같이 지정하여 만들어 줍니다.

2. 행과 열에 기준이 되는 계산식을 만들어 줍니다.

1) 역삼각형을 클릭하여 ‘매개 변수 만들기’ 를 선택하여 줍니다.

2)아래와 같이 [행번호], [열번호] 라는 이름으로 계산식을 만들어 줍니다.

* 계산식이 이해 안되도 우선 만들어 주세요.

3. 계산식으로 만든 [행번호], [열번호] 및 [Sales], [Profit]을 아래와 같이 올려주세요.

1)측정값 (연두색) 으로 되어 있는 필드를 오른쪽 클릭하여 불연속형 (파랑색) 으로 변환하여 줍니다.

2)이후 기준이 되는 [Sales], [Profit]을 측정값 그룹 형태로 지정하여 올려주세요.

* [열번호], [행번호] 동일하게 지정

 

4. [Sub-Category]를 텍스트로 올리기 위해 [레코드 수]를 같이 올려줍니다.

1)[레코드 수]를 올려준 다음 default로 지정되는 합계를 최대값으로 변경하여 줍니다.

2)이후 측정값과 최대(레코드 수)를 이중축으로 지정하여 줍니다.

5. 마크에 그룹이 되는 측정값 및 최대(레코드 수) 쪽을 설정하여 줍니다.

1) 마크에 측정값 기준에서 세부정보에 [Sub-Category] 추가

2) 최대(레코드 수) 쪽에 텍스트에 [Sub-Category] 추가

* Sub-category에 텍스트가 겹쳐집니다.

6. [행번호], [열번호]에 테이블 계산 편집을 해줍니다.

1)올라가 있는 [열번호] 오른쪽 클릭 후 테이블 계산 편집에서 아래와 같이 적용

2)[행번호]도 [열번호]와 동일한 기준으로 적용시켜 줍니다.

* 설정 후 바로 적용되는 걸 확인 가능

7. 설정 후 아래와 같이 라인매트릭스가 만들어지며 [기준] 매개변수를 활용하여 조절이 가능합니다.

* 4칸 설정 시 4*5 로 변경

 

8. 완성 후 다시 돌아와 [행번호], [열번호] 계산식을 확인해보면 원리는 아래와 같습니다.

Index는 테이블 계산 에서 지정한 기준에 따라 달리 지는데 특정 차원에 [Sub-Categoey]를 기준으로 하였으므로 Index는 [Sub-Category]에 총 개수인 17로 인식됩니다.

*[기준] 값을 4로 설정 시 4*5 개로 라인매트릭스가 형성 됩니다.

*Index가 17이므로 (17-1) % 4 가 되므로 [열번호] 에 리스트는 0, 1, 2, 3 인 4개가 됩니다.

*Index가 17이므로 (17-1) / 4 의 정수 값이므로 [행번호] 에 리스트는 0, 1, 2, 3, 4인 5개가 됩니다.

오늘은 Tableau 차트 중 '라인매트릭스'에 대해 알아보았습니다.

기본적으로 제공하지 않는 차트라 만드시는데 어려우실수도 있는데요~

특히 index라는 개념은 라인매트릭스 외에도 다방면으로 사용하는 함수라 알아두시면 작업하는데 있어 큰 도움이 되시리라 생각됩니다.

그 외에도 다양한 함수 사용법은 아래 왼쪽처럼 검색이 가능하니 직접 찾아보고 실습해보시면 좋을 거 같습니다~

그럼 다음시간에 만나요~

"태블로를 이용한 쉽고 빠른 데이터 시각화는 디포커스의 전문가(https://www.dataqrator.com)가 도와드립니다."

 

 

태블로를 이용한 쉽고 빠른 데이터 시각화는 디포커스의 전문가(http://www.dataqrator.com)가 도와드립니다.

 

안녕하세요~! 디포커스 태블로 둥이입니다.

지난 시간에 이어서 맵으로 대시보드에 가치를 추가하는 마저 설명 드리겠습니다.

 

6. 디자인과 데이터에서 색상이 중요합니다.

맵을 대시보드에 완벽하게 맞춤화하려면 색상 선택 도구를 사용하십시오. 맵의 마크에 대한 색상 조정뿐만 아니라 기본 맵의 배경(그리고 텍스트 상자 또는 대시보드 상의 다른 워크시트) 배색에도 사용할 수 있습니다.

양피지 같이 보이는 배경을 사용한 Joshua Milligan의 대시보드, '미국의 역사'에서 좋은 예시를 볼 수 있습니다.

네바다 주 라스베이거스 지역에서 발행된 상업 및 주거 건축 허가의 수를 비교하는 예를 살펴 보겠습니다. 두 맵에 모두 기본값 색상 인코딩을 사용한다면, 상업 건축 허가가 훨씬 더 적으므로 녹색 음영이 각각 의미하는 바가 완전히 달라집니다.

보는 사람이 두 범례에 특별히 주의를 기울이지 않으면, 실제로는 가장 색상이 진한 지역에 주거 허가가 1000개 이상 많은데도 불구하고, 원 안의 두 지역에 발행된 허가의 수가 같다고 짐작할 수도 있습니다. 색상 인코딩에 같은 범위의 값을 사용하는 두 맵이 있는 대시보드와 비교해보면, 패턴이 아주 다른 것을 볼 수 있습니다.

 

7. 데이터 스토리에 가장 적합한 방법으로 지리 사용하기

Josh TapleyJake Riley의 대시보드는 미국 내 사망 원인을 보여줍니다. 이들은 알래스카와 하와이를 새로운 위치에 배치해 미국 전체 뷰가 더 작은 이미지 안에 들어갈 수 있도록 했습니다.

Tableau'삽입' 맵 기능으로 사용자가 미국 본토, 알래스카, 하와이 각각에 대해 따로 워크시트를 사용하지 않고 단일 워크시트에서 작업할 수 있습니다. 직접 시도해 보려면 Tableau의 대체 투영에 관한 커뮤니티 토론을 살펴보세요. 더 많은 영감을 원하시면, 육각형 그리드를 사용한 미국의 에너지원, 또는 정사각형 그리드를 사용한 미국의 범죄에 대한 대시보드를 살표보세요.

 

8. 모양에 창의력 발휘하기

Anthony Gould'알래스카로의 경주'는 맵을 사용자 지정 모양으로 표현한 훌륭한 사례입니다.

 

9. 때로는 통계 그래프를 활용하는 것도 좋습니다

전체 데이터 스토리를 이야기하는 데 있어 통계 그래프가 핵심일 수 있습니다. 맵은 그저 참고용일뿐, 상호 작용이 필요 없는 간단한 사안에는 워크시트 대신 그래프를 사용해 보십시오.

Becca Cabral 검은발족제비(BFF) 대시보드는 검은발족제비의 역사적 자취를 보여주는 맵 이미지를 활용합니다.

 

10. 이동 및 확대/축소 잠금 사용하기

보는 사람이 세부 장소로 확대하여 보는 것이 중요하지 않은 맵을 사용할 때는 이동 및 확대/축소 기능을 잠글 수도 있습니다. 이렇게 하면 사용자가 뜻하지 않게 표시 화면을 바꾸는 것을 방지할 수 있는데, 특히 휴대기기나 작은 화면에서 데이터를 탐색하는 사용자에게 유용합니다. 맵 확장은 손쉽게 잠글 수 있습니다. > 맵 옵션을 선택하고 '이동 및 확대/축소 허용' 옵션을 선택 해제하면 됩니다.

 

이상 10가지 방법을 모두 알아보았습니다.

다음 시간에는 새로운 컨텐츠를 소개하여 드리겠습니다 ^^ 감사합니다~!

 

태블로를 이용한 쉽고 빠른 데이터 시각화는 디포커스의 전문가(http://www.dataqrator.com)가 도와드립니다.

태블로를 이용한 쉽고 빠른 데이터 시각화는 디포커스의 전문가(http://www.dataqrator.com)가 도와드립니다.

 

안녕하세요~! 디포커스 태블로 둥이입니다.

기능과 디자인이 균형을 이룰 때 가장 효율적인 데이터 시각화가 실현됩니다~!

많은 분석 프로젝트에 공간 데이터가 연관되므로 공간 데이터와 맵 사이의 균형을 유지하는 법을 이해하는 것은

매우 중요합니다. 이 백서에서, 지도학자인 Sarah Battersby는 맵을 사용하여 대시보드의 분석 및 미적 가치를

향상하는 10가지 도움말을 공유합니다.

 

1. 컨텍스트가 핵심

Tableau에서 기본 제공하는 스타일과 보는 사람이 데이터에 집중할 수 있도록 적합한 양의 컨텍스트를 제공하는 사용자 지정 Mapbox 맵의 예를 몇 가지 살표보겠습니다. Tableau에서는 밝게, 어둡게, 일반의 세 가지 기본 맵 스타일을 기본으로 제공합니다.

Ahn Jackson의 대시보드는 뉴욕 시의 도시림을 보여줍니다. 정갈하고 깔끔한 느낌으로, 밝은 기본 맵을 사용하여 지표와 거리만을 표시하도록 조정되어 꼭 필요한 만큼의 컨텍스트를 제공하고 있습니다.

반면, 대시보드의 가장 중요한 비쥬얼리제이션이 맵일 경우에는 연관성 있는 색상, 레이어 및 텍스트를 맵에 추가하거나 Mapbox를 사용하여 사용자 지정 기본 맵을 디자인해 보세요~!

Andre Oliveira'전 세계의 그래피티'라는 이 대시보드는 단순한 기본 맵에 사용자 지정 레이블을 사용합니다. 레이어는 확대/축소 수준에 따라 작동하며, 두 번째 워크시트에서 대시보드가 도시 단위 데이터로 확대되면 지역 세부 정보가 약간 추가된 깔끔하고 단순한 맵이 표시됩니다.예를 들어, '뉴욕 시'를 클릭하면 엠파이어 스테이트 빌딩처럼 지역을 대표하는 주요 명소를 표시하는 점들을 확인할 수 있습니다.

 

2. 맵이 아니라 데이터 강조하기

좋은 비주얼리제이션은 보는 사람의 주의를 배경이 아니라 데이터로 집중시킵니다. 한 나라의 모든 주, 또는 한 대륙의 모든 나라와 같이 익숙한 위치나 모양으로 작업할 때는 기본 맵을 제거해도 충분히 공간 지각이 가능합니다.

예를 들어, Pablo Saenz de Tejada의 이 대시보드는 기본 맵 없이 스페인 마드리드의 인구 통계를 보여줍니다. 맵의 세부 사항을 제거함으로써 맵을 대시보드에 통합할 때 산만하지 않고 한층 깔끔한 디자인을 완성했습니다.

 

3. 맵에서 범례 없애기

The Data Duo의 글로벌 샤크네이도 위협에 대한 이 비주얼리제이션은 두 마리의 상어가 프로필 이미지에 있는 '상어 범례' 워크시트를 활용하고 있습니다. 상어 두 마리는 각각 색상 인코딩되어 있으므로 지도에서 범례 및 필터로 기능할 수 있습니다.

별도의 워크시트를 사용하여 해당 '범례'를 대시보드상의 다른 워크시트로 연결하는 동작을 설정해야 합니다.

샤크네이도 비주얼리제이션의 범례는 실제로는 XY 값에 대한 계산된 필드에 기반하여 두 종류의 상어의 분포를 보여주는 분산형 차트입니다. 그런 다음 상어 모양의 마커를 맵상의 데이터가 비주얼리제이션에 추가될 때와 같은 배색으로 사용자 지정합니다. 범례를 대화형으로 만들려면, 대시보드 하이라이트 작업을 추가하면 됩니다. 범례 상어 중 한 마리 위에 마우스오버하면 해당 상어의 서식 데이터를 지도 위에 하이라이트합니다.

 

4. 맵을 필터로 사용하기

맵을 필터로 활용하는 방법도 생각해 볼 수 있습니다. 지리적 모양은 텍스트로 된 드롭다운 목록보다 더 용이한 필터가 될 수 있습니다.

Decisive Data'번영을 향한 여정' 대시보드는 온두라스와 니카라과의 일곱 개의 다른 마을에서 기부가 사람들의 생활에 어떤 영향을 주는지 보여줍니다. 이 대시보드에서는 작은 맵이 두 나라 간에 필터로 훌륭하게 사용되고 있습니다.

 

5. 하이라이트 작업 사용하기

워크시트에 걸친 하이라이트 작업 설정에 관한 한 Tableau의 기술은 마법과 같습니다.

Ken Flerlage의 대시보드에서 미국의 게리맨더링 기술에 대해 살펴봅시다.

구역 번호에 따라 하이라이트 작업을 설정함으로써 한 구역씩 살펴볼 수 있습니다.

 

그럼 다음 시간에 만나요~ 감사합니다.

 

태블로를 이용한 쉽고 빠른 데이터 시각화는 디포커스 전문가(http://www.dataqrator.com)가 도와드립니다.

태블로를 이용한 쉽고 빠른 데이터 시각화는 디포커스의 전문가(http://www.dataqrator.com)가 도와드립니다.

안녕하세요 , 태블로 둥이입니다.

오늘은 정규사용사례의 LOD 표현식에 대한 몇 가지 유용한 시나리오가 이 백서의 이전 섹션에서

소개되었지만 이것은 비즈니스 관련 질문에 대한 답변을 구하기 위해 LOD표현식을 사용하는

시작에 불과합니다. 기타 대표적인 예는 다음과 같습니다.

 

주문 수에 대한 히스토그램 : 세그먼트별 주문 수가 1개 , 2개 , 3개 등인 고객이 몇 명입니까?

 

실제 및 목표 비교 : 주별 수익 목표를 달성하는 제품 비율은 얼마입니까?

 

고객 유치 : 시장별로 유치된 누적 고객 수는 몇 명입니까?

 

일일 수익 KPI : 월별로 수익이 아주 많거나, 수익이 많거나 수익이 낮은 날은 각각 며칠입니까?

 

LOD 표현식의 우수한 사용 사례에 대한 자세한 내용은 단계별 안내가 있는 온라인 샘플 통합 문서가 포함된

'상위 15개 LOD 표현식' 이라는 Tableau의 게시물을 참조하시기 바랍니다.

 

감사합니다.

 

태블로를 이용한 쉽고 빠른 데이터 시각화는 디포커스의 전문가(http://www.dataqrator.com)가 도와드립니다.

태블로를 이용한 쉽고 빠른 데이터 시각화는 디포커스의 전문가(http://www.dataqrator.com)가 도와드립니다.

안녕하세요 , 디포커스 태블로 둥이입니다.

오늘은 'Fixed: 정확한 세부 수준 지정하기'에 대하여 설명 드리겠습니다.

LOD 표현식을 사용하면 비쥬얼라이제이션 LOD와 완전하게 독립적으로 집계 수준을 만들 수 있습니다.

이전에는 맞춤 SQL을 통해서만 이러한 작업을 수행할 수 있었습니다.

YELP 데이터를 분석하여 비즈니스의 첫 리뷰가 작성된 연도별 집단을 찾으려 한다고 가정해 보겠습니다.

각 집단의 리뷰 트렌드가 동일합니까?

LOD 표현식을 사용하면 정확한 세부 수준에서 집단을 지정할 수 있습니다.

 

{FIXED [Business - Id] : MIN(YEAR([Review Date]))}

LOD 표현식은 Business ID별로 세부 수준을 고정합니다.

그런 다음 Business ID별 모든 리뷰에서 Review Date(리뷰 날짜)의 최소 Year(연도)를 찾고

해당 값을 Business ID와 연결합니다. First Review Year(첫 리뷰 연도)를 데이터베이스의 새 열로 간주할 수 있습니다.

 

비주얼라이제이션에서 이 필드를 사용할 때 계산 범위가 표현식에 암시적으로 정의됩니다.

아래에 표시된 것과 같이 각 Business ID(비즈니스 ID)First Review Year(첫 리뷰 연도)가 기록되면

집단을 탐색하여 정보를 얻을 수 있습니다.

 

 

 

 

FIXED 키워드를 사용하면 계산의 집계 수준을 구체적으로 정의할 수 있습니다.

INCLUDE EXCLUDE와 달리 비주얼라이제이션에서 사용되는 차원과 독립적으로 수행됩니다.

FIXED 표현식의 결과는 FIXED 차원과 비주얼라이제이션 LOD의 관계에 따라 비주얼라이제이션 LOD보다

광범위하거나 세부적일 수 있습니다.

 

 

First Review Year(첫 리뷰 연도)를 필터로 사용해 보겠습니다.

 

각 연도별 집단에는 차원형구간차원이 지정되었습니다.

, First Review Year (첫 리뷰 연도)가 뷰에서 차원으로 사용되습니다.

FIXED 표현식은 차원 또는 측정값으로 사용할 수 있습니다.

Tableau는 데이터 유형에 따라 계산 결과를 차원 또는 측정값으로 지정합니다.

INCLUDE/EXCLUDE FIXED의 주요 차이점은 아래 표시된 것과 같이 필터링 계층 상의 각 위치입니다.

FIXED LOD 표현식은 차원 필터 전 및 컨텍스트 필터 후에 계산됩니다. 여러 사용 사례에서 이를 활용할 수 있습니다.

 

다음 시간에는 사례에 대해서 배워보도록 하겠습니다.

다음에 뵙겠습니다~!

 

태블로를 이용한 쉽고 빠른 데이터 시각화는 디포커스의 전문가(http://www.dataqrator.com)가 도와드립니다.

태블로를 이용한 쉽고 빠른 데이터 시각화는 디포커스의 전문가(http://www.dataqrator.com)가 도와드립니다.

 

안녕하세요, 디포커스 태블로 둥이입니다~!

'Exclude: 더 높은 세부 수준에서 계산하기' 에 대해서 배워보도록 하겠습니다.

 

다음 시나리오를 가정해 보십시오.

월별 총 Sales(매출) 및 Region(지역)별 총 매출을 확인하려고 합니다. 그러면 다음을 수행해야 합니다.

1. 월별 Total Sales(총 매출) 계산에서 Region(지역)을 제외해야 합니다.

2. 그런 다음 지역별 Sales(매출) 세부 정보를 계산할 때 Region(지역)을 포함해야 합니다.

 

앞서 설명한 영업 데이터베이스를 사용하여 또 다른 예제를 살펴보겠습니다.

 

 

{EXCLUDE [Region] : SUM([Sales])}

Total Sales(총 매출)라는 이 LOD 표현식을 사용하면 모든 지역의 월별 총 매출을 계산할 수 있습니다.

 

위 비주얼라이제이션에서는 Region(지역)이 열 선반에 배치되어 Region(지역), Month()(Order Date(주문일))

비주얼라이제이션 LOD에 영향을 미칩니다.

EXCLUDE 표현식을 사용하면 총 매출을 계산(모든 지역)하면서 지역별 매출 세부 정보를 표시할 수 있습니다.

이에 따라 다음과 같이 비주얼라이제이션 LOD에 비해 상위수준에 있는(, 덜 세부적인) LOD 표현식을 만들었습니다.

 

EXCLUDE 키워드의 핵심은 다음과 같습니다.

Tableau에서는 먼저 비주얼라이제이션 LOD에서 제외된 차원을 삭제하고 해당 차원이 없는 것으로 간주하고

계산을 수행합니다. 그런 다음 그 결과가 시각적으로 표시됩니다.

 

다음 흐름 도표는 Tableau에서 EXCLUDE LOD 표현식이 수행되는 방법에 대한 시각적인 설명입니다.

 

{EXCLUDE [Region] : SUM([Sales])}이라는 표현식을 사용하면 TableauRegion(지역)차원을 제외하고

비주얼라이제이션에서 사용된 모든 차원을 사용하여 매출 합계를 계산합니다.

따라서 모든 지역의 총 매출을 나타내는 월별 단일 값이 산출됩니다.

 

이제 SUM 집계를 사용하는 Total Sales(총 매출) Region(지역)Sales(매출)모두 보여주는 강력한 뷰가 있습니다.

집계를 조합할 수도 있습니다.

예를 들어, LOD 표현식을 변경하여 지역별 합계를 표시하면서 월별 평균 Sales(매출)을 표시하도록 해보겠습니다.

 

 

INCLUDE 표현식과 유사하게 모든 EXCLUDE 표현식은 뷰에 배치될 때 측정값 또는 집계된 측정값으로 사용됩니다.

이러한 유형의 표현식은 '구성 비율' 또는 '전체 평균 차이' 계산 등에 유용합니다.

 

이렇게 Exclude 표현식도 배워보았는데요, 도움이 되셨나요?

다음 시간에는 Fixed 에 대해서 설명해 드리겠습니다.

그럼 또 만나요~!

 

태블로를 이용한 쉽고 빠른 데이터 시각화는 디포커스의 전문가(http://www.dataqrator.com)가 도와드립니다.

태블로를 이용한 쉽고 빠른 데이터 시각화는 디포커스의 전문가(http://www.dataqrator.com)가 도와드립니다.

안녕하세요~! 디포커스 태블로 둥이입니다 ^^

 

오늘은 'Include: 낮은 세부 수준에서 계산하기' 에 대해서 배워볼까 합니다~!

 

이 예에서는 표준 영업 데이터베이스(Tableau에서 제공되는 Superstore 데이터베이스)를 살펴보겠습니다.

여기서 각 행은 특정 항목의 매출을 나타냅니다.

Order(주문)에는 여러 항목이 포함될 수 있으며 주문은 여러 행에 나누어져 입력될 수 있습니다.

즉, 이 데이터베이스의 가장 깊은 수준의 세부 수준은 고유한 항목입니다.

 

데이터베이스 스냅샷의 첫 번째 행은 Bush Somerset Bookcase(부시 서머셋 책장) 2개에 대한 구매입니다.

두 번째 행은 Hon Stacking Chairs(혼 스태킹 의자) 3개에 대한 구매입니다.

이 두개의 행이 단일 주문인 주문 CA-2013-152156을 구성합니다.

지역별 영업 실적을 분석하고 있는 경우 평균 주문 규모가 가장 큰(또는 작은) 지역을 파악하려면 어떻게 해야할까요?

 

이 정보를 파악하려면 주문별 규모를 계산(각 Order ID에 해당하는 매출 합계를 산출)한 다음 해당 값에 대한

지역별 평균을 산출해야 합니다.

이 비즈니스 질문은 충분히 물어볼 가능성이 있는 질문이며 새로운 LOD 표현식 구문을 사용하면 Tableau에서

이에 대한 답변을 쉽게 구할 수 있습니다.

 

다음은 새로운 구문에 대한 좀 세부적인 설명입니다.

 

{INCLUDE [Order ID] : SUM([Sales])}

LOD 표현식은 여기서 볼 수 있는 것처럼 계산 에디터에서 작성할 수 있습니다. 이 LOD 표현식은 각 Order ID별 구매

합계를 구하기 위해 사용되었습니다. 그 결과는 Order Size(주문 규모)라는 새로운 필드입니다.

 

왼쪽의 막대는 LOD 표현식으로 계산된 Region(지역)별 평균 주문 규모를 보여주는 반면 ,

오른쪽의 막대는 Region(지역)별 평균 Sales(매출)을 보여줍니다.

예를 들어 주문관 상관없이 모든 주문라인 항목의 평균). 이제 다음 질문에 대한 답변을 구할 수 있습니다.

평균 주문 규모가 가장 큰 Region(지역)은 어디입니까?

 

북부 아시아와 중부 아시아가 각각 $737 및 $733로 평균 Order Size(주문 규모)가 가장 크다는 것을 볼 수 있습니다.

비쥬얼라이제이션에 Order ID(주문 ID)가 표시되지 않음에도 불구하고 이 정보를 파악할 수 있습니다.

(Tableau버전9 이전에는 뷰에 Order ID(주문 ID)를 추가하지 않고 해당 값을 계산할 수 없었습니다.)

그림의 오른쪽 막대에서 볼 수 있듯이 Region(지역) 및 AVG(Sales)를 표시했다면 원하는 결과가 아닌 Region(지역)별

모든 라인 항목의 평균이 표시되었을 것입니다.

반면에 Order Size(주문 규모)에 대한 LOD 표현식의 경우 주문별 규모를 먼저 구한 다음 (즉, 주문 내 모든 라인 항목의

매출합계) 해당 주문 결과에 대한 Region(지역)별 평균을 구해 Region(지역)별 Order Size(주문규모)를 구할 수 있습니다.

 

이제 평균 주문 규모가 가장 큰 지역을 파악했으니 조금 더 복잡한 질문을 해보겠습니다.

 

영업 데이터베이스에 있는 국가 중 평균적으로 '규모가 가장 큰 거래'를 성사시키는 영업 담당자들이 속한 국가가

어느 곳입니까? 수행하려는 작업은 다음과 같습니다.

1. 영업 담당자별 성사시킨 가장 규모가 큰 거래(최대값 거래)를 찾은 다음

2. 해당 '최대 규모 거래'에 대한 국가별 평균을 구합니다.

이 질문에는 여러 측면이 있지만 LOD 표현식을 사용하면 답변을 쉽게 구할 수 있습니다.

 

AVG({INCLUDE [Sales Rep] : MAX([Sales])})

Avg Largest Sales Deal by Rep(담당자별 평균 최대 규모 영업 거래)라는 LOD 표현식이 영업 담당자별 평균 최대값

거래를 계산하기 위해 사용되었습니다. 이 경우 LOD 표현식의 평균이 계산 에디터 창에 직접 입력됩니다.

 

 

이 질문에 대한 답변은 복잡한 수식 없이 하나의 표현식인 AVG({INCLUDE [Sales Rep] : MAX([Sales])})로 구할 수

있었습니다. 실제로 뷰에 차원을 추가하여 데이터에 대한 추가 질문을 할 수도 있으며 이 경우 계산이 업데이트됩니다.

예를 들어, 분석에 Year(연도)를 추가해 보겠습니다.

 

 

계산에서 INCLUDE 키워드를 사용하면 Sales Rep(영업 담당자) 필드가 계산에 명시적으로 포함되지만

비쥬얼라이제이션에 배치된 모든 다른 차원도 포함됩니다. (이 경우 Country(국가) 및 Year(연도)).

뷰에 Year(연도)를 추가하면 분석을 더욱 깊이 있게 수행하여 다음과 같은 정보를 얻을 수 있습니다.

2012년에는 바레인의 평균 '최대 규모 거래'가 $4,069로 가장 높았습니다.

 

다음 흐름 도표는 Tableau에서 INCLUDE LOD 표현식이 수행되는 방법을 시각적으로 설명합니다.

 

INCLUDE 키워드는 비쥬얼라이제이션 LOD에 비해 집계 수준이 낮은 (즉, 더 세부적인) 표현식을 만듭니다.

지정된 차원은 계산이 수행되기 전에 비쥬얼라이제이션 LOD에 먼저 추가됩니다.

INCLUDE 표현식은 뷰에서 집계된 측정값으로 사용되었습니다.

실제로 모든 INCLUDE 표현식은 뷰에 배치될 때 측정값 또는 집계된 측정값으로 사용됩니다.

 

다음 시간에는 Exclude 를 배워보도록 하겠습니다.

오늘도 수고하셨습니다 ^^ 다음에 또 만나요~!

 

태블로를 이용한 쉽고 빠른 데이터 시각화는 디포커스의 전문가(http://www.dataqrator.com)가 도와드립니다.

+ Recent posts