기계 학습에서 회귀란 무엇입니까?

KOHb - 게티 이미지

회귀 기술은 데이터 내 관계를 파악하고 판매 예측부터 위험 분석까지 광범위한 기업 사용 사례에 대한 예측 모델을 구축하는 데 필수적입니다. 이 강력한 기계 학습 기술에 대해 자세히 알아보세요.

기계 학습의 회귀는 결과 예측을 주요 목적으로 독립 변수와 종속 변수 간의 관계를 포착하는 데 사용되는 기술입니다. 여기에는 각 데이터 포인트의 분포를 특성화하는 패턴을 밝히기 위해 일련의 알고리즘을 훈련시키는 것이 포함됩니다. 패턴이 식별되면 모델은 새로운 데이터 포인트나 입력 값에 대해 정확한 예측을 할 수 있습니다.

회귀에는 다양한 유형이 있습니다. 가장 일반적인 두 가지는 선형 회귀와 로지스틱 회귀입니다. 선형 회귀의 목표는 모든 데이터 포인트를 명확한 선에 맞추는 것입니다. 로지스틱 회귀는 각 데이터 포인트가 선 아래에 있어야 하는지 아니면 위에 있어야 하는지 결정하는 데 중점을 둡니다. 이는 관찰 내용을 사기/사기 아님, 스팸/스팸 아님 또는 고양이/고양이 아님과 같은 고유한 버킷으로 정렬하는 데 유용합니다.

회귀는 대부분의 통계에서 기본 개념입니다. TCS Research의 선임 과학자이자 IIT Bombay의 객원 부교수인 Harshad Khadilkar는 기계 학습이 알고리즘을 사용하여 자동화된 프로세스를 통해 이러한 기본 관계를 추출함으로써 작업을 한 단계 더 발전시킨다고 말했습니다.

"회귀는 과학자와 기업이 특히 '얼마나', '얼마나', '언제' 등의 양적 질문에 답할 때 사용하는 것입니다. 기계 학습에서는 현재 사용할 수 없는 모든 측정값을 발견합니다. 데이터입니다." Khadilkar가 설명했습니다.

기계 학습의 회귀에 사용되는 두 가지 일반적인 기술은 보간과 외삽입니다. 보간법의 목표는 사용 가능한 데이터 포인트 내에서 값을 추정하는 것입니다. 외삽법은 기존 회귀 관계를 기반으로 기존 데이터의 경계를 넘어서는 값을 예측하는 것을 목표로 합니다.

회귀는 예측 분석의 기본 기술이기 때문에 기계 학습 전문가뿐만 아니라 모든 비즈니스 리더에게 필수적인 개념이라고 글로벌 컨설팅 회사 SSA & Company의 응용 솔루션 담당 부사장인 Nick Kramer는 말했습니다. 회귀는 일반적으로 다양한 유형의 예측에 사용됩니다. 회귀 기법은 변수 간 관계의 성격을 밝혀 기업에 고객 이탈, 가격 탄력성 등과 같은 주요 문제에 대한 통찰력을 제공합니다.

글로벌 자산 관리업체인 Legal & General의 데이터 과학 책임자인 David Stewart는 회귀 모델이 우리가 이미 알고 있는 정보를 기반으로 예측을 수행하는 데 사용되므로 이러한 정보가 다양한 산업 전반에 걸쳐 널리 관련될 수 있다고 언급했습니다. 예를 들어 수치적 결과를 예측하는 선형 회귀를 사용하면 연령, 성별 등의 요소를 기준으로 사람의 키를 측정할 수 있습니다. 대조적으로, 로지스틱 회귀는 과거 제품 구매를 지표로 사용하여 개인이 신제품을 구매할 가능성을 예측하는 데 도움이 될 수 있습니다.

선형 회귀는 주가 예측, 내일 날씨 예측, 소매 수요 예측 등 의존하는 변수에 대해 고정되거나 일정한 민감도를 갖습니다. 예를 들어, 하나의 변수가 2배로 변경되면 출력에 특정 편차가 발생한다고 Khadilkar는 말했습니다. 많은 업계 표준 알고리즘은 시계열 수요 예측과 같은 선형 회귀를 사용합니다.

이와 대조적으로 로지스틱 회귀는 사건의 확률을 0~1 또는 0~100% 범위로 측정하는 데 중점을 둡니다. 이 접근 방식의 핵심 아이디어는 이벤트 발생 확률을 보여주는 S자형 곡선을 만드는 것입니다. 이벤트(예: 시스템 오류 또는 보안 침해)는 곡선의 한쪽 측면과 그 근처에서 발생할 가능성이 매우 낮습니다. 다른 한편으로는 확실합니다.

언급한 바와 같이 선형 회귀 기술은 새로운 데이터 포인트를 선에 맞추는 데 중점을 둡니다. 이는 예측 분석에 유용합니다.

대조적으로, 로지스틱 회귀는 새로운 데이터 포인트가 선 위 또는 아래, 즉 특정 클래스에 속할 확률을 결정하는 것을 목표로 합니다. 로지스틱 회귀 기술은 위에서 언급한 것과 같은 분류 작업, 즉 거래가 사기인지, 이메일이 스팸인지, 이미지가 고양이인지 여부를 판단하는 데 유용합니다.

블로그