기록하는 공부

[AICE Basic] #3 [이론편] AI 구현 프로세스 본문

Study/AICE

[AICE Basic] #3 [이론편] AI 구현 프로세스

SS_StudySteadily 2023. 5. 20. 01:28
728x90
반응형

 

 

※ 본 포스팅은 AICE Basic 종합 패키지를 수강하고 복습하기 위해 필자가 임의로 작성한 글입니다.

 

 

문제정의

 

문제정의는 목적과 목표를 명확히 하는 단계이다.

이때, "AI를 적용하여 해결하기에 적절한 문제인가?"라는 생각을 해야 한다.

 

어떤 경우에 AI를 적용하면 효과적인지 알아보자.

 

 


 

 

1. AI가 적용될 수 있는 상황

 

 

01. 데이터나 규칙이 복잡한 경우

- 시간 지연, 오류 발생 등 문제 발생

>> AI를 활용한다면 데이터 기반으로 스스로 학습하고 자동으로 규칙을 생성하기 때문에

데이터나 규칙이 복잡한 경우에 효율적이라고 할 수 있다.

 

02. 다양한 형태의 데이터를 활용하는 경우

 

과거와 달리 데이터 저장방식의 발전으로 알고리즘 및 학습 방식이 연구되면서

반정형 데이터와 비정형 데이터의 비약적인 발전이 이루어졌다.

 

텍스트 데이터의 경우 형태소 기반 특성 학습을 진행, 

이미 데이터의 경우 사이즈 필터 특성 학습을 진행한다.

 

구조 관점의 데이터 구분

유형 설명 종류
정형 데이터 행과 열의 정형화된 구조 기반으로 고정된 필드에 저장되며 값과 형식이 일관됨 관계형 데이터베이스(RDBMS), 엑셀 등
반정형 데이터 구조와 형태를 가지나, 값과 형식에 일관성을 갖고 있지 않음 로그, 스크립트 등
비정형 데이터 구조와 형태가 정해지지 않으며 고정된 필드에 저장되지 않음 텍스트, 이미지, 오디오, 비디오 등

 

 

03. 미지의 영역에 대한 연구와 해결이 필요한 경우

 

지도학습을 통해 과거 데이터를 기반으로 미래 상황을 예측

비지도 학습을 통해 수집된 데이터 사이에서 숨겨진 특성을 발견

강화 학습을 통해 사람이 예상하지 못하는 방식으로 해법을 발견한다.

 

 


 

2. AI의 5가지 주요 기능

 

예측, 생성, 소통, 자동화, 인식

 

예측(Prediction)

- 용도 : 데이터 학습, 패턴 파악으로 결과를 예측

- 종류 : 귀추 예측, 선호 예측, 맥락 예측

 

생성(Generation)

- 용도 : 텍스트, 음성, 사진, 동영상 등을 생성

- 종류 : 심미적 생성, 실용적 생성

 

소통(Conversation)

- 용도 : 기계에 대화 기능을 부여하여, 답변과 질문을 다양하게 연출

- 종류 : 응대, 대화

 

자동화(Automation)

- 용도 : 사람에 의지하지 않고 더 효율적인 방법을 찾아 최적화

- 종류 : 자동 처리, 자동 최적화, 의사결정 자동화

 

인식(Recognition)

- 용도 : 대상의 다양한 특성을 인지하고 상황을 판단

- 종류 : 이미지 인식, 음성 인식, 감정 인식, 맥락 인식

 

 


 

 

만약 비즈니스 문제를 정의할 수 없다면 AI가 적합한 해결책인지 고민이 필요하다.

 

Q. 비정형 데이터의 종류에는 어떤 것이 있나요?

더보기

텍스트, 오디오, 비디오, 이미지

 

Q. 기계에 대화 기능을 부여하여, 답변과 질문을 다양하게 연출하는 AI의 주요 기능은 무엇인가요?

더보기

소통(Conversation)

 

 

 

 

데이터 수집

데이터 수집은 문제 정의 이후 수행하는 단계이다.

 

1. 수집할 데이터의 종류

 

"내가 어떤 데이터를 필요로 하는가?"를 생각해야 한다.

필요 데이터를 정의하고 구체적 데이터 획득 방안을 수립해야

AI 구현 프로세스 전반의 반복과 지연을 방지할 수 있다.

 

내부 데이터 : 내 업무 영역 안에서 쉽게 구할 수 있는 데이터

외부 데이터 : 내 업무 영역 밖으로 연계되는 데이터

 

데이터 위치 관점의 유형 구분

유형 설명 종류
내부 데이터 · 동일한 시스템계 및 업무 영역 내부에 위치한 데이터
· 데이터 수명주기 관리가 용이
· 민감 정보가 포함되어 있을 수 있음
· 서비스(인증, 거래 등)
· 네트워크(방화벽, 시스템 등)
· 마케팅(VOC, 판매정보 등)
외부 데이터 · 외부 시스템 및 업무 영역에 위치한 데이터
· 데이터 구매 혹은 수집 절차 고려 필요
· 공개된 데이터
· 소셜(SNS, 커뮤니티 등)
· 공공(의료, 지역, 기상정보 등)

 

 


 

 

2. 데이터 수집 방식

 

크롤링(Crawling), RSS(Rich Site Summary), Open API, 스트리밍(Streaming)

 

크롤링(Crawling) : 다양한 웹 문서 및 콘텐츠를 수집하는 방식

RSS(Rich Site Summary) : 웹 사이트에 게시된 새로운 글을 공유하는 프로토콜 활용 수집

Open API : 응용 프로그램을 통한 실시간 데이터 수신 -> 공개 API를 이용하여 데이터 수집

스트리밍(Streaming) : 네트워크를 통한 미디어 데이터의 실시간 수집

 

 


 

 

3. 편향과 결측치에 대한 이해

 

AI가 학습 가능한 데이터 활용하려면

①분석 목적에 부합,

②대표성을 가진 데이터,

③충분히 많고 깨끗한 데이터(편향되지 않고, 결측치가 없는 데이터) 수집 조건

을 만족하면 좋다.

 

데이터 편향이란 수집된 데이터의 불균형이 일어나 특정 값으로 치우친 것을 말하고

데이터 결측치란 손실되고 비어있는 값을 말한다.

 

만약 데이터가 편향되거나 손실되었다면 AI는 정확하지 않은 학습을 하게 된다.

 

 


 

 

Q. 데이터를 수집할 경우, 어떠한 데이터를 고려할 수 있나요?

더보기

내부 데이터, 외부 데이터

 

Q. 인터넷상에서 제공되는 다양한 웹 사이트로부터 웹 문서 및 콘텐츠를 수집하는 방식을 무엇이라고 하나요?

더보기

크롤링(Crawling)

 

Q. 데이터의 손실이 있어도 AI가 학습하는 데에는 지장이 있을까요?

더보기

지장이 있다.

 

 

 

 

데이터 분석 및 전처리(1)

 

데이터 분석은 어떤 데이터가 중요한 특성을 가지는지 찾는 과정이다.

 

데이터 전처리는 데이터를 어떻게 AI 학습에 활용할지 준비하는 단계이다.

이는 탐색적 데이터 분석이라고도 하며 EDA(Exploratory Data Analysis)라고도 한다.

 

 


 

 

1. 데이터 타입 구분하기

 

수치형, 문자형, 범주형, 불리언형이 있다.

 

수치형(Numerical) : 숫자로만 이루어진 데이터

- 연속형 : 틈새가 없이 연속되는 값 (ex. 키, 몸무게, 시간)

- 이산형 : 셀 수 있는 값 (ex. 사람 수, 판매수량)

 

문자형(Object) : 문자로만 이루어진 타입, '문자+숫자'로 구성된 타입

 

범주형(Categorical) : 범주를 나눌 수 있는 데이터, 사칙연산 불가능

 

불리언형(Boolean) : 참과 거짓 둘 중 하나만 가질 수 있는 데이터 타입

 

 


 

 

2. 기술 통계(Descriptive Statistics) 확인

 

기술 통계는 통계적인 방법을 활용하여 수집된 데이터를 요약하고 데이터를 묘사하거나 설명하는 것을 말한다.

 

데이터가 어떻게 모여있는지를 표현하는 통계량에는 개수(Counts), 평균값(Mean), 중앙값(Median), 최빈값(Mode)이 있다.

 

개수 : 데이터의 개수

평균값 : 산술평균, 각 데이터를 모두 더한 후 데이터의 개수로 나눈 값

중앙값 : 데이터를 크기 순서대로 배열했을 때 중앙에 위치하는 값

최빈값 : 데이터 중에서 빈도수가 가장 높은 값

 

 

데이터가 어떻게 흩어져있는지를 표현하는 통계량에는 최솟값(Minimum), 최댓값(Maximum), 분산(Variance), 표준편차(Standard Deviation), 사분위수(Quartile), 첨도(Kurtosis), 왜도(Skewness)가 있다.

 

최솟값 : 데이터 중에서 가장 작은 값

최댓값 : 데이터 중에서 가장 큰 값

분산 : 데이터가 평균으로부터 떨어진 정도, 차이값의 제곱의 평균

표준편차 : 데이터가 평균으로부터 떨어진 정도, 분산의 제곱근

사분위수 : 모든 데이터를 순서대로 배열 시, 4 등분한 지점에 있는 값

첨도 : 데이터의 분포가 정규분포 대비 뾰족한 정도를 나타내는 값

왜도 : 데이터의 분포가 정규분포 대비 비대칭한 정도를 나타내는 값

 

 


 

 

Q. 등급 데이터는 어떤 유형의 데이터라고 할 수 있나요?

더보기

범주형 > 순서형

 

 


 

 

데이터 분석 및 전처리(2)

 

 

1. 데이터 시각화

 

데이터 시각화란 데이터 분석 결과를 시각적으로 표현하거나 전달하는 과정을 말한다.

 

시각화 기법은 여러 종류가 있다.

예를 들어, 히스토그램(Histogram), 분포차트(Density Plot), 박스차트(Boxplot), 카운트플롯(Countplot), 산점도(Scatterplot), 히트맵(Heatmap)이 있다.

 

히스토그램 : 수치형 데이터의 구간별 빈도수를 나타내는 시각화 기법

가로축에는 해당하는 수치형 데이터가 표현되고 세로축에는 그 구간에 해당하는 빈도수가 표현된다.

히스토그램은 데이터 집합의 중심이나 값의 분포 및 형태를 알 수 있어 가장 기본적으로 활용되는 시각화 기법이다.

https://kr.mathworks.com/help/matlab/ref/matlab.graphics.chart.primitive.histogram.html

 

 

분포차트 : 수치형 데이터의 구간별 빈도수를 나타내는 시각화 기법

가로축에는 해당하는 수치형 데이터의 구간이 표시되고 세로형은 그 구간에 해당하는 빈도수가 표현된다.

추가로 색상으로 범주형 데이터 속성을 반영하여 해당 구간 내에서의 빈도를 보여준다.

 

https://blog.naver.com/pmw9440/221458704535

 

 

박스차트 : 수치형 데이터 통계정보를 기반으로 그 분포를 박스 모양으로 나타낸 시각화 기법

데이터 분포나 이상치 등 통계적 특성을 한눈에 파악할 수 있다.

가로축에는 각 범주형의 클래스가 위치하고 세로축에는 각 데이터에 대한 수치 분포가 표현된다.

 

https://en.wikipedia.org/wiki/Box_plot

 

 

카운트플롯 : 범주형 데이터에 대한 값의 개수를 보여주는 시각화 기법

 

여기서 히스토그램과 카운트플롯의 차이점이 궁금할 수 있다.

그 차이는 카운트플롯은 수치형 데이터가 아닌, 범주형 데이터를 활용한다는 점이 있다.

https://python-charts.com/ranking/countplot-seaborn/

 

 

산점도 : 두 수치형 데이터 사이의 관계를 보여주는 시각화 기법

수치를 좌표평면 상의 점으로 표시하며 회귀선을 그어 상관관계를 확인하기도 한다.

https://ko.wikipedia.org/wiki/%EC%82%B0%EC%A0%90%EB%8F%84

 

 

히트맵 : 두 수치형 데이터 사이의 관계를 표현하며 색상을 활용해 데이터 간의 상관관계를 표현

 

상관관계(Correlation)는 상관계수로 표현을 하는데 -1에서 1 사이 범위 내로 나타낸다.

1에 가까울수록 양의 상관관계이며 두 데이터는 상관도는 비례하고 음의 상관관계일수록 반비례한다.

0인 경우에는 상관관계가 없다.

 

히트맵의 색상은 구현 환경에 따라 변화하고 색인을 참고하여 히트맵을 해석한다.

히트맵의 우하향한 화살표는 자기 자신과의 상관관계를 나타내므로 1에 해당하는 색으로 칠해져 있다.

https://steemit.com/python/@savior1985/heatmap

 

 

상관계수는 피어슨(Pearson) 상관계수를 사용한다.

절댓값이 0.7 이상은 강한 상관관계를 나타내고

절대적 해거 기준이 없기 때문에 주관적 판단이 가능하다.

 

 


 

 

데이터 시각화 정리

구분 시각화 도구 설명
데이터 자체 분석 히스토그램 수치형 데이터의 구간별 빈도수를 나타냄 연령 구간별 참석자 수
분포차트 수치형 데이터의 구간별 빈도수와 함께, 범주형 데이터의 클래스별 분포를 색상으로 나타냄 연령 구간별 참석자 수와 성별에 따른 분포
박스차트 수치형 데이터의 통계정보
(최솟값, 제 1사분위, 제 2사분위, 제 3사분위, 최댓값)를 박스모양으로 나타냄
서울지역 편의점들의 연간 매출 통계 분포
카운트플롯 범주형 데이터의 클래스별 개수를 나타냄 한 학급 내 학생들의 키와 몸무게
데이터 간 관계 분석 산점도 수치형 데이터 간의 관계를 점으로 표현함 한 학급 내 학생들의 키와 몸무게
히트맵 수치형 데이터 간의 상관관계를 색상으로 표현함 미세먼지 수치와 기온과의 상관관계

 

 

 

 

데이터 분석 및 전처리(3)

 

 

1. 결측치 처리

 

데이터에 결측치가 포함된 경우에는 후속 데이터 분석 및 AI 모델링을 진행할 수 없다.

따라서 추가적인 조사 또는 정확한 예측을 통한 처리가 필요하다.

 

결측치를 처리하는 방법에는 크게 두 가지가 있다.

첫 번째로 제거(Drop)하는 방법과 두 번째로 대체(Fill)하는 방법이 있다.

 

제거하는 방법을 사용할 때는 데이터가 충분히 많은 경우, 결측치가 영향을 미치지 않은 경우에 사용한다.

주의할 점은 정보가 반드시 손실되기 때문에 비즈니스 관점 영향도를 신중하게 고려 후 결정해야 한다.

 

대체하는 방법을 사용할 때는 데이터가 충분하지 않는 경우에 사용한다.

결측치를 채워 모든 데이터를 AI가 학습하도록 도움을 준다.

이때, 결측치를 대체하는 방법에는 평균값/중앙값, 예측값, 최빈값, 유사벡터값으로 대체한다.

 

대체하는 방법을 사용하면

정보 손실이 없이 빠르게 채울 수 있는 장점이 있고

유의해야 할 점은 채워진 값에 의해 전체 데이터의 통계량 및 상관관계에 영향을 줄 수 있다.

 

 


 

 

2. 이상치 처리

 

이상치(Outlier)란 전체 데이터의 추세/패턴 등에서 벗어난 값을 가진 데이터를 말한다.

 

이상치를 찾고 처리하는 방법

--> IQR(InterQuartile Range) 값 활용하기

 

통계적으로 이상치의 범위를 IQR을 활용해서 계산

박스차트를 통해 이상치를 시각적으로 쉽게 확인할 수 있다.

 

이상치 처리 시 주의해야 할 점이 있다.

바로 타겟 변수가 분류 모델인 경우이다.

이 경우에는 카테고리 별로 박스 차트를 그려야 하고 타겟 변수의 카테고리에 이상치 분포를 확인해야 한다.

분포에 따라 의미가 있는 이상치가 될 수도 있기 때문에 함부로 제거하면 안 된다.

 

 


 

 

이상치 처리 방법

 

- 이상치가 경계 근처에 몰린 경우에는 적당한 스케일링 기법을 적용하여 그대로 사용

- 이상치를 포함한 행의 개수가 적다면 이상치 포함 행 삭제

- 이상치를 포함한 행의 개수가 많다면 이상치 경곗값 치환 (Q3+IQR*1.5, Q1-IQR*1.5)

 

 


 

 

Q. 0은 결측치인가?

더보기

0은 결측치가 아니다.

결측치는 NaN(Not a Number)로 표현한다.

 

Q. 이상치를 판단하는 기준은 IQR을 사용한다. 빈칸에 들어갈 수식은 각각 무엇인가?

- 상단 이상치 : 데이터 값 > [   ]

- 하단 이상치 : 데이터 값 < [   ]

더보기

Q3+IQR*1.5

Q1-IQR*1.5

 

 

 

 

데이터 분석 및 전처리(4)

 

 

1. 인코딩

 

문자 데이터를 숫자 데이터로 바꾸는 것을 인코딩한다라고 표현한다.

데이터 간 순서 여부에 따른 분류로 Ordinal EncodingOne-Hot Encoding으로 구분한다.

 

Ordinal Encoding은 데이터 간에 순서가 있는 카테고리 데이터에 대해 적용한다.

One-Hot Encoding은 카테고리 수만큼 0과 1로만 구성된 새로운 컬럼을 만들어 맵핑한다.

 

 


 

 

2. 스케일링

 

스케일링은 수치형 데이터에 사용한다.

변수 간 비교를 위해 수치 단위를 맞추려고 수치의 크기를 변경하는 것이다.

스케일링 과정이 필요한 이유는 AI가 학습을 할 때 모든 정보를 숫자로 판단하기 때문이다.

 

AIDU ez에서 사용 가능한 대표적인 스케일링 기법에는 Min-Max ScalingStandard Scaling 기법이 있다.

 

Min-Max Scaling은 해당 컬럼의 최솟값(Min)과 최댓값(Max)를 이용한다.

모든 데이터를 0-1 사이로 맞춘다.

 

 

Standard Scaling은 해당 컬럼의 평균(Mean)과 표준편차(std)를 이용한다.

평균은 0, 표준편차는 1로 맞춘다.

 

 

이상치가 없거나, 박스 차트 상/하단 경계 근처에 있는 경우에는

Min-Max Scaling과 Standard Scaling 기법 둘 다 사용 가능하다.

 

 

경계를 벗어난 이상치가 있다면 주의가 필요하다.

Min-Max Scaling보다 Standard Scaling 기법이 상대적으로 이상치에 덜 영향을 받는다는 것을 참고하면 좋다.

Min-Max Scaling은 최솟값과 최댓값을 이용하여 이상치에 직접적인 영향을 주지만

Standard Scaling은 평균값에 의해 이상치에 간접적인 영향을 주기 때문이다.

 

 

 

 

AI 모델링(1)

 

 

AI 모델링이란 데이터에 적합한 AI 알고리즘을 선택하고 준비된 데이터로 모델을 학습, 평가 및 개선하는 것을 말한다.

 

1. 모델 선택 및 학습 - 알고리즘의 선택

 

지도 학습인 경우 타겟 변수가 분류를 위한 데이터인지 아니면 수치 예측(회귀)을 위한 데이터인지 확인해봐야 한다.

만약, 데이터가 수치 예측을 위한 데이터라면 Linear Regression 알고리즘을 선택하면 된다.

 

두 번째로, 과제의 목적에 따라 선택한다.

과제가 설명을 위한 것인지 아니면 예측을 위한 것인지에 따라 알고리즘을 선택할 수 있다.

만약, 결과의 원인 분석이나 결과에 영향을 주는 변수(컬럼) 분석이라면 설명이 목적이라고 할 수 있다.

반대로 결과 자체가 중요하거나 미래 상황에 대비하고 , 정확히 알아야 하는 경우에는 예측이 목적이라고 할 수 있다.

 

 


 

 

2. 모델 선택 및 학습 - 모델 학습

 

모델 학습은 손실함수를 최소화하여 가중치를 업데이트하는 과정이라고 할 수 있다.

여기서 손실함수(Loss function)이란 신경망 학습의 목적함수로 출력값(예측값)과 정답(실제값)의 차이를 계산하는 것을 말한다.

예측값과 실제값의 차이를 나타내는 지표이기 때문에 손실함수의 값이 작은 것은 미래를 더 잘 예측하는 것이라고 할 수 있다.

 

목적함수는 값을 최소화시킨 함수나 값을 최대화시킨 함수를 말한다.

값을 최소화시킨 함수에는 비용함수나 손실함수가 있다.

 

가중치(Weight)는 출력값과 정답값을 비교하여 오차를 최소화하기 위해 임의의 값을 조금씩 조정하는 파라미터이다.

 

데이터는 크게 훈련(Train), 평가(Test), 검증(Valid) 세 개로 나눈다.

그 이유는 범용적 데이터를 잘 예측할 수 있도록 하기 위해서이다.

데이터를 공유한다면 모델에 대한 객관적 평가가 불가하다.

 

 

 

 

AI 모델링(2)

 

 

1. 모델 선택 및 학습 - 과대 적합

 

모델을 학습하고 나면 Under Fitting, Ideal Fitting, Over Fitting 이 세 가지 상태 중 하나로 나타난다.

https://www.geeksforgeeks.org/underfitting-and-overfitting-in-machine-learning/

 

 

먼저, 과소 적합(Under Fitting)은 학습을 너무 적게 진행한 상태일 때 나타난다.

이는 학습 반복 횟수를 더 많이 늘려주면 해결이 가능하다.

 

과대 적합(Over Fitting)은 훈련 데이터에 대해서는 성능이 잘 나오지만

검증이나 평가 데이터에서는 성능이 잘 나오지 않을 때 나타난다.

즉, 훈련 데이터에 너무 편향된 상태를 말한다.

학습용 훈련 데이터가 대표성을 띄지 않는 경우나 훈련 데이터로 지나치게 많은 학습을 한 경우에 발생한다.

 

과대 적합을 해결하는 방법에는 Early Stop과 딥러닝 알고리즘에 경우라면 Drop Out 기법이 있다.

Early Stop은 과대 적합을 막기 위해 Epoch 횟수 전에 학습을 조기 종료하기 위한 파라미터를 말한다.

Drop Out은 과대적합을 줄이기 위해 임의로 노드를 제거해 주는 확률 수준을 말한다.

 

 


 

 

2. 모델 선택 및 학습 -하이퍼 파라미터

 

Epochs는 훈련 데이터 전체를 몇 번 반복해서 학습을 할지 정하는 파라미터를 말한다.

만약, Epochs이 100이라면 훈련 데이터를 100번 반복 학습하는 것을 말한다.

 

Batch Size는 데이터를 미니 배치로 나누어 효율적인 학습을 하기 위한 파라미터를 말한다.

학습 데이터 전체로 한 번에 학습을 진행하면 매우 느리고 정말 많은 계산량이 필요하고 현재 가지고 있는 리소스를 넘어설 수도 있다. 따라서 Batch Size 조절을 통해 조절해야 한다.

 

Q. 1 Epochs에서 모델 가중치 업데이트 횟수는?

더보기

데이터의 크기를 배치 사이즈로 나눈 횟수 = 이터레이션(Iteration)

 

 

 

 

AI 모델링(3)

 

 

1. 결과 평가 - 평가 지표 선택

 

모델 학습의 결과를 평가하기 위해서는 종류나 과제에 맞는 평가지표를 선택하거나 비교 대상을 선정해야 한다.

 

평가 지표 선택

지도 학습에서의 모델

 

* 회귀 모델(Regression Model) 평가지표

- MAE(Mean Absolute Error)

- MSE(Mean Squared Error)

- RMSE(Root Mean Squared Error)

- R2 Score(Coefficient of Determination)

 

MAE, MSE, RMSE는 실제값과 예측값 차이인 오차 표현 방식을 말한다.

값이 작을수록 좋은 모델이다.

에러가 크면 클수록 그에 따른 가중치가 높아진다.

http://theprofessionalspoint.blogspot.com/2019/02/loss-functions-in-machine-learning-mae.html

 

 

R2 Score는 값이 1에 가까울수록 좋은 모델 성능이다.

이는 '회귀 모델이 얼마나 설명력이 있냐'의 지표로 예측값과 실제값의 강한 상관관계 여부로 요약한다.

https://www.analyticsvidhya.com/blog/2021/05/the-game-of-increasing-r-squared-in-a-regression-model/

 

 


 

 

* 분류 모델(Classification Model) 평가지표

- 정확도(Accuracy)

- 정밀도(Precision)

- 재현율(Recall)

- F1스코어(F1-Score)

 

정확도는 전체 데이터 중에 몇 개나 정확하게 예측을 했는가를 말한다.

만약, 양성/음성 중 하나를 예측하는 모델이거나 특정 상황이 중요한 경우에는 정밀도와 재현율을 사용해야 한다.

정밀도는 양성이라고 예측한 개수 중에 실제로 양성인 개수의 비율을 구하는 것이라고 할 수 있다.

재현율은 실제로 양성인 개수 중에 양성이라고 잘 맞춘 개수의 비율을 구하는 것이라고 할 수 있다.

F1스코어는 TRADE-OFF 관계에 있는 정밀도와 재현율을 조화평균하여 포괄적으로 보기 위한 지표를 말한다.

 

 

 

혼동 행렬(Confusion Matrix)

https://namu.wiki/w/%ED%98%BC%EB%8F%99%ED%96%89%EB%A0%AC

 

TP : 실제 양성인데 양성으로 잘 예측

FN : 실제 양성인데 음성으로 잘못 예측

 

 

 

 

AI 모델링(4)

 

 

1. 결과 평가 - 평가 기준 세우기

 

평가의 비교 대상이 있어야 평가가 가능하다.

유사한 과제의 AI 모델의 성능이나 기존 방식의 성능을 비교해 본다.

 

 

2. 더 나은 모델 만들기

 

모델을 개선하기 위해서는 더 많은 수의 학습 데이터를 사용하거나

AI 알고리즘 변경, AI 알고리즘의 하이퍼파라미터 변경, 피처엔지니어링을 통한 파생 변수 생성의 방법이 있다.

 

 

 

 

AI 적용

 

 

AI 적용은 엔지니어링 영역에 가까운 분야로

지속적인 활용 목적을 가지고 이를 시스템화하여 유지보수를 하는 것까지 이르는 과정이다.

 

AI 모델을 지속 가능하게 활용하려면 데이터를 지속적으로 수집하고 AI 모델을 업데이트해야 한다.즉, 현행화하려는 노력이 필요하다.

728x90
반응형