개발바닥

데이터 마이닝 정의 본문

데이터 마이닝

데이터 마이닝 정의

라이언 2018. 10. 6. 16:15
반응형

데이터 마이닝(Data Mining)이란?

컴퓨터 학습 기법들을 사용하여 데이터들로부터 지식(Knowledge)을 자동으로 분석하거나 추출하는 과정이라고 정의할 수 있다.

대용량의 데이터 내에 존재하는 관계,패턴,규칙 등을 찾아내 모형화 함으로써 유용한 지식을 추출하는 일련의 과정이다.

여러 가지 데이터 마이닝 기법들이 있지만 대부분 방법들은 귀납적 학습(induction-based learning)을 사용한다.

(귀납적 학습이란? 학습되어질 개념의 세부 사례들을 관찰하여 그 것으로 일반화된 개념 정의를 만들어 가는 과정을 말한다.)

즉 데이터 마이닝을 간단하게 정의하자면 이미 알려지지 않은 것을 발굴한다고 생각하면 된다.

 

 

데이터 마이닝은 네 가지 프로세스로 정의할 수 있다.

1. 분석할 데이터를 수집하고 정리한다.

2. 데이터 마이닝 소프트웨어 프로그램에 이 데이터를 집어 넣는다.

3. 나온 결과를 해석한다.

4. 결과를 새로운 문제나 상황에 적용한다.

 

 

 

데이터 마이닝 용어들

용어 

정의 

 데이터 웨어하우스(Data warehouse)

데이터 처리보다는 의사 결정을 지원하기 위해서 설계된 과거 데이터의 데이터베이스 

 개념(concept) 

 객체들, 기호들, 사건들의 집합으로 그들이 어떤 특성들을 공유하기 때문에 함께 그룹화된다.

 결정 트리(Decision tree)

 트리 구조인데, 거기서 터미널 노드는 의사결정 결과를 나타내어 주고, 그 외의 노드는 어트리뷰트에 대한 테스트를 나타낸다.

 트레이닝 데이타 (Training data)

 Supervised 학습 모델들을 생성하는데 사용되는 데이터

 지도 학습 (Supervised learning)

 알려진 데이터를 사용하여 분류 모델들을 만드는 과정

 비지도 학습(Unsupervised learning)

 이미 정의된 클래스가 없는 데이터로부터 모델들 만드는 데이터 마이닝 방법 

 

반응형

'데이터 마이닝' 카테고리의 다른 글

Unsupervised learning [ Association Rules ]  (0) 2018.10.06
Comments