[안보면 손해보는] 엑셀을 활용한 데이터분석 실무과정

SMALL

날짜 : 23.04.08~23.04.09

시간 : 09:30~18:30

장소 : 안동대학교 정보통신원

작성자 : 경제학과 3학년 18학번 윤재성

요약문

한글, 파워포인트보다 엑셀을 잘하는 사람을 원한다.

활용이 힘든 데이터 예시(쓰레기 데이터)

생산현장의 문제점 중 하나를 말하자면, Matrix Thinking이라 할 수 있다.

숫자열, 문자열을 수직화 하는 이유는 1) 계산이 가능하고 2) 필터링이 가능하기 때문인데, 위의 예시자료는 이 2가지 기능을 어렵게 만든다.

수직화 자료 예시

이렇게 수직화된 데이터는 분석을 통한 현상분석을 수월하게 진행할 수 있도록 도와주고, 이후 머신러닝을 수행할 수 있다.

데이터 구조화

데이터 구조화는 x, y축의 개념이 아니라 테이블 덩어리 채의 개념이다.

KPI (핵심성능지표, 목표비교달성여부)
데이터베이스 (데이터 Set)

이름있는 표를 집어넣을 수 있는 공간이 데이터 베이스이고, 따라서 엑셀또한 데이터베이스가 될 수 있다.

표 이름 설정

표의 이름 생성
표의 자동 확장
머리글 활용 가능

데이터의 종류

데이터는 숫자와 문자로 구분이 되며

숫자는 정량값, 문자는 정성값으로 분류되며 숫자는 정수(계수값, 이산값)와 소수(계량값, 연속값)로 구분이 된다.

파워쿼리에서 가장 중요한 3가지

열 피벗 해제
2개 쿼리 테이블간 병합
2개 혹은 2개 이상의 쿼리 테이블 추가

(시험에 출제되진 않았지만 실무에서 용이하게 쓰이니 알아두자.)

일반 함수

IF, SUMIFS, VLOOKUP 함수

(DAX에서 측정값을 구할 때 쓰이는 함수이며, 불필요한 코딩과정을 대폭 감소시켜주는 효자같은 함수이다. 컴활 함수가 그냥 일반개념만을 익히는 자격증이라면, 엑셀데이터분석함수는 어떤 결과값을 얻기 위해 내가 왜 이 함수를 사용해야하는지 KPI에서 말하는 '효율'과 ‘효과’의 정수라고 생각한다.)

문제란 무엇인가?

내가 바라는 것과 나의 현상에 사이의 갭(차이)이 있다면 문제가 있다고 정의한다.

Ex) 매출이라는 KPI가 있다. 목표는 100억이고, 현 매출액은 50억이라면 매출에 문제가 있다고 인식한다. 이를 해결하기 위해선 위에서 말한 데이터 구조화를 활용한 거래처별, 담당자별로 분석 후, 전개해 나가야 한다. 회사의 목적은 생존이며, 이익은 생존을 위한 수단에 불과하다.

연구, 영업, 생산 3종류의 현장에서 연구와 영업은 R&D로 분류되며, 이들의 KPI는 신사업이다. 영업과 생산의 KPI는 수율, 불량률 등이며, 우리는 목표와 현 상태의 차이를 통해 문제를 인식하고, 데이터 구조화를 이용해 그 차이를 줄여나가야 생존할 수 있다.

시각화 도구 종류

시각화는 현상파악(원인분석)단계와 사후관리로 말할 수 있는데, 가장 먼저 기본적인 원인 분석 단계는 데이터베이스의 ‘층별’이다.
층별의 목적은 결과에 영향을 끼치는 원인을 찾거나, 그 원인 품질에 대한 영향 정도를 파악하는데 있다. 데이터베이스에서 층별이란 ‘머리글’을 생성하는 것을 의미한다.
현상파악단계에서는 파레토 분석과 히스토그램 분석으로 나눌 수 있는데, x축에 문자가 들어가면 파레토 분석, 숫자가 들어가면 히스토그램 분석을 사용한다.
- 파레토 분석은 크기순으로 나열이 가능하지만 히스토그램 분석은 크기순으로 나열이 불가능한데 이는 위에서 말한 소수의 데이터이기 때문이다.
파레토도에서 가장 중요한 내용은 20:80의 법칙이다. 이 키워드는 자소서 항목에 넣을 수 있을만큼 중요하니 외워두자.

20:80의 법칙은 중요한 20%의 원인(x축)이 전체 문제 중 80%(y축)를 발생시킨다는 법칙이다.

히스토도는 x축에 숫자, y축에 계수만이 들어가는 분포도이며, 도수분포도라고도 부른다.
히스토그램의 작성 목적

계산기가 없던 시절, 평균과 산포를 측정하기 위해 활용하였다.
분포의 형태를 파악하여 특이 사항 추정에 활용
추정합격확률을 구할 때 활용된다.

히스토그램의 작성법칙

: E(x)+-3D(x) → 구간을 나누는 공식이다.

확률분포도

4M이란 Man(작업자), Machin(설비), Method(작업방법), Meterial(재료)를 말하는데, 이 4M이 일정하다면 비율분포도는 확률분포도가 될 수 있으며, 미래의 평균, 분산값 등을 예측할 수 있다.
확률이란 합리적인 가정하에 퍼센트비율이 일정하다면 미래예측이 가능한 것을 의미한다.
해를 찾는 추가기능으로는 분산분석, 상관분석, 회귀분석, 로지스틱 회귀가 있으며, 머신러닝의 기능이니 알아두자.

자소서 핵심 키워드

통계적 공정관리

CTQ(사후관리), CTP(사전관리)를 묶어서 품질관리라 하며 이를 통계적 공정관리라고 한다.

MTBF

Mean Time Between Failure의 약자로, 설비평균수명을 의미한다. 자소서 핵심 키워드이니 외워두자.

공식 : 실가동시간/고장횟수

MTTR

Mean Time To Repair의 약자로, 수리평균시간을 의미한다. 자소서 핵심 키워드이니 외워두자.

공식 : 수리시간/고장횟수

가용성

설비 가용성을 의미하며 자소서 키워드이니 외워두자.

공식 : MTBF/(MTBF+MTTR)

Cycle time : Unit per hour

계획된 시간안에 생산량이 저조한 경우, 실무에선 일을 안한것이나 마찬가지다. 이럴 때 우리는 OEE를 알 필요가 있는데,

OEE(설비종합효율)

공식 : 시간가동율성능가동율양품율

시간가동율 : 실가동시간/계획시간

성능가동율 : 실Capa/이론Capa = (총 생산량/실 가동시간) / (1/이론 CT) = (총 생산량/실 가동시간)*이론CT

양품율 : 양품수량/총생산량

#이 수업의 최종결과물은 자기소개서를 작성하는 것에 있다.

총평 : 누군가는 10년이 걸려 얻은 지식을 작성자는 단 이틀만이 배울 수 있다는 점에서 엄청 놀랐다. 강의는 이론위주의 수업보단 왜, 어떻게에 초점을 맞추어 그래프사고방식의 중요성과 실무에서 응용능력에 비중이 컸었다.

그래서인지 자격시험은 정말 쉬웠고, 난이도가 낮은 프로그램임에도 이 수업에서 얻은 역량과 향후실무에서의 전망은 대단히 높았다.

이틀간 얻은 내용은 단순히 실무에서 문제해결능력을 기르는 것이 아니라 더 나아가 다른 문제 [Ex) 20:80법칙은 자재관리에 적용하면 자재 A,B,C 분석이고, 생산관리에 적용하면 PQ분석이며, 영업관리에 적용하면 영업분석이 된다.]

에 쓰일 수 있도록 모든 내용이 독립적으로 암기되는 것이 아닌 유기적으로 상호작용할 수 있는 사고방식을 기를 수 있었던 수업이라고 생각한다.

Chat GPT-4가 작성해준 후기

결론적으로, 엑셀을 활용한 데이터 분석 실무는 데이터 처리 및 시각화를 위한 기본적인 기술과 지식이 필요합니다. 엑셀을 이용하여 간단한 데이터 분석 작업을 수행하는 데는 적합한 도구이지만, 대규모 데이터 집합을 처리하거나 복잡한 분석 작업을 수행해야 하는 경우 다른 도구를 고려해야 합니다.

하지만 엑셀은 대규모 데이터 집합을 처리하는 데는 적합하지 않을 수 있습니다. 엑셀은 대량의 데이터를 처리하거나 데이터를 실시간으로 처리하는 데 적합하지 않으며, 매우 복잡한 분석 작업을 수행하기에는 한계가 있습니다. 따라서 대량의 데이터를 처리하거나 고급 분석 작업을 수행해야 하는 경우, 다른 도구를 사용해야 할 수도 있습니다.

엑셀을 사용하여 데이터 분석을 수행하면 몇 가지 장점이 있습니다. 먼저, 엑셀은 대부분의 조직에서 사용하는 표준 소프트웨어이기 때문에 데이터 분석에 대한 기본 지식만 있으면 쉽게 사용할 수 있습니다. 또한, 엑셀은 강력한 기능을 갖추고 있어 다양한 분석 작업을 수행할 수 있습니다. 또한, 엑셀은 데이터 시각화 작업을 쉽게 수행할 수 있도록 차트 및 그래프 작성 기능을 제공합니다.

엑셀을 활용한 데이터 분석 실무에서는 먼저 데이터를 수집하고 정리합니다. 그런 다음 데이터를 분석하기 위해 필요한 함수와 기능을 사용하여 데이터를 처리하고, 원하는 결과를 도출합니다. 엑셀을 사용하여 수행할 수 있는 분석 작업에는 데이터 요약, 피벗 테이블 작성, 차트 및 그래프 작성 등이 있습니다.

LIST

Life is Moment

[안보면 손해보는] 엑셀을 활용한 데이터분석 실무과정

티스토리툴바