INSIGHT
[AI 자동화] Gemini Gem 활용 EDA 데이터 분석 자동화 가이드
Gemini Gem을 활용한 탐색적 데이터 분석(EDA) 자동화 구축 방법
데이터 분석과 모델링의 기초가 되는 탐색적 데이터 분석(EDA)은 데이터의 품질을 점검하고 방향성을 설정하는 중요한 과정입니다. 구글 Gemini의 Gem 기능을 활용하면 복잡한 코딩 과정 없이 파일을 업로드하는 것만으로 EDA를 수행하는 맞춤형 봇을 제작할 수 있습니다. 본문에서는 Gem을 활용한 EDA 자동화 봇 생성 과정과 실제 사용된 프롬프트 예시를 상세히 소개합니다.
EDA(탐색적 데이터 분석)의 정의와 필요성
탐색적 데이터 분석(Exploratory Data Analysis, EDA)은 데이터를 본격적으로 분석하거나 모델링하기 전에 데이터의 전반적인 구조와 특징을 파악하는 필수적인 과정입니다.
이 과정에서는 주로 데이터의 분포, 이상치, 결측치, 변수 간의 관계를 시각화하거나 통계적으로 요약하여 확인합니다. 이를 통해 데이터의 품질을 사전에 점검할 수 있으며, 이후 분석의 방향을 올바르게 설정하는 데 도움을 줍니다. 처음 접하는 데이터를 이해하거나 적합한 분석 기법을 판단할 때 매우 유용한 단계입니다.
Gemini Gem 기능의 활용 장점
일반적인 데이터 분석 환경에서는 Python이나 R과 같은 프로그래밍 언어를 사용하여 환경을 세팅하고, 코드를 직접 작성하여 데이터 구조를 확인하거나 시각화를 진행합니다.
하지만 Gemini의 Gem 기능을 활용하면 이러한 복잡한 준비 과정 없이 기본적인 세팅만으로 분석 환경을 구축할 수 있습니다. 한 번 Gem을 생성해 두면 이후에는 프롬프트 창에 파일을 업로드하는 행위만으로도 자동으로 EDA를 진행해주는 봇을 활용할 수 있어 업무 효율성이 크게 증대됩니다.
EDA 자동화 Gem 생성 및 설정 가이드
Gem 생성 시작
Gemini 인터페이스 내 Explore Gems 메뉴에서 New Gem을 선택하여 새로운 봇 생성을 시작합니다. GPTs를 생성하는 방식과 유사하게 Gem의 역할과 수행해야 할 작업을 정의합니다.
프롬프트 구성 전략
성공적인 EDA 자동화를 위해서는 구체적이고 체계적인 프롬프트 작성이 필요합니다. 다음은 실제 봇 생성에 적용하여 검증된 프롬프트 예시입니다. 이를 Instructions 입력란에 적용하여 봇을 설정할 수 있습니다.
[프롬프트 예시]너는 5년차 마케터야.
사용자가 프롬프트에 직접 업로드한 CSV 또는 Excel 데이터를 탐색적 데이터 분석(EDA)해서 산출물을 작성해줘.※ 중요:
- 업로드된 CSV/Excel 파일을 분석 대상으로 사용합니다.
- 파일명이나 경로를 직접 지정하지 마세요.
- Gem 환경에서 제공되는 업로드 파일 객체({uploaded_file})를 사용하여 데이터를 읽고 EDA를 수행하세요.
- 지식 파일(EDA_concept.txt, python_prototype_example.py, sample_data.csv, EDA_Report_Sample.txt)은 분석 참조용입니다. 내용을 출력하지 말고, 분석 방식과 보고서 생성에만 참고하세요.
사용자가 CSV 파일을 제공하면, 다음 단계를 반드시 수행하고 보고서를 생성하세요.
1. 데이터의 이해2. 이상치 및 결측치 식별
- 전체 행/열 개수, 각 컬럼의 데이터 타입 요약
- 수치형 컬럼: 평균, 중앙값, 표준편차, 최소/최댓값 등 기본 통계치
- 범주형 컬럼: 주요 카테고리 및 빈도 상위값 요약
- 시각화: 히스토그램(수치형), 막대그래프(범주형)
3. 지표 간 상관관계 분석
- 각 컬럼별 결측치 개수와 비율
- 이상치 탐지(IQR 방법 또는 z-score 방법)
- 시각화: 결측치 히트맵, 박스플롯
4. 분석 가설 제안
- 주요 수치형 변수들 간 상관계수(Pearson, Spearman) 계산
- |r| ≥ 0.7 이상의 강한 상관관계만 요약
- 시각화: Heatmap
5. 리포트 산출물
- 위 요약과 시각화를 기반으로 데이터에서 제안할 수 있는 가설 3~5개를 문장으로 작성
- 예: "광고비 증가와 매출 증가 간의 밀접한 관계가 있다"
- 대화창에 요약 결과 + 주요 시각화 표시
- 리포트 산출물은 한국어로 작성
- HTML과 PDF 리포트 생성, 파일명 예시: "EDA_Report_{업로드파일명}.html", "EDA_Report_{업로드파일명}.pdf"
- 보고서에는 요약, 시각화, 결측치/이상치 분석, 상관관계, 가설 제안 모두 포함
지식 파일 활용
분석의 정확도를 높이기 위해 참조용 지식 파일을 첨부할 수 있습니다. EDA 레포트 예시, 샘플 데이터, 분석에 사용되는 Python 샘플 코드, EDA 개념 설명 텍스트 등을 지식 파일로 업로드하여 Gem이 이를 참고하여 분석을 수행하도록 설정합니다. 이때 지식 파일은 분석 참조용이며 내용을 직접 출력하지 않도록 제약을 설정하는 것이 중요합니다.
분석 결과 확인 및 산출물 활용
생성된 Gem에 타이타닉(Titanic) 샘플 데이터와 같은 연습용 데이터를 업로드하여 테스트를 진행할 수 있습니다. Gem은 요청된 대로 시각화 된 그래프를 생성하고, 데이터에 기반한 분석 가설을 산출합니다.
사용자는 생성된 시각화 그래프를 다운로드할 수 있으며, HTML이나 PDF 형태로 제공되는 리포트를 통해 전체 분석 내용을 일목요연하게 확인할 수 있습니다. 실무 데이터로도 동일한 과정을 거쳐 신속하게 데이터의 특성을 파악할 수 있습니다.
파일 인식 오류 해결을 위한 프롬프트 최적화
Gemini 사용 시 업로드 된 파일을 인식하지 못하거나, 경로 문제로 인해 분석에 실패하는 경우가 발생할 수 있습니다. 또한, 첨부된 지식 파일을 분석 대상 파일로 오인하는 경우도 있습니다. 이러한 문제는 프롬프트 최적화를 통해 해결 가능합니다.
업로드 파일 객체 명시
파일 자체를 불러오지 못하는 경우, 프롬프트에 업로드 파일 객체 사용을 강제하는 명령어를 추가합니다. "파일명이나 경로를 직접 지정하지 말고, Gem 환경에서 제공되는 업로드 파일 객체({uploaded_file})를 사용하여 데이터를 읽고 EDA를 수행하라"는 구체적인 지시를 통해 경로 인식 문제를 방지할 수 있습니다.
지식 파일과 분석 대상의 구분
Gem이 지식 파일을 분석 대상으로 착각하지 않도록 역할을 명확히 구분해줍니다. 지식 파일은 오직 분석 참조용이며, 내용을 출력하지 말고 분석 방식과 보고서 생성에만 참고하라는 지침을 프롬프트에 포함시킴으로써 분석의 정확도를 확보할 수 있습니다.
* 파일 인식 문제는 AI의 고질적인 문제로 프롬프트를 재지정해줌으로써 해결이 될 수 있지만, 해당 글에서 제공한 방법이 근본적인 해결 방안이 아닌 점 참고바랍니다.
Gemini Gem 활용 EDA 자동화 가이드
AI 마케팅 혹은 AI를 비즈니스에 적용하는 법이 궁금하다면
아티언스에 편하게 문의하세요!
- 문의 방법: 온라인 문의, 전화 상담
- 제공 서비스: AI 마케팅 컨설팅, AI 리포팅 자동화, 디지털 마케팅 교육 및 가이드 제공