• 제목/요약/키워드: 속성분류

검색결과 857건 처리시간 0.023초

유전자 알고리즘과 정보이론을 이용한 속성선택 (Feature Selection by Genetic Algorithm and Information Theory)

  • 조재훈;이대종;송창규;전명근
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2007년도 추계학술대회 학술발표 논문집
    • /
    • pp.108-111
    • /
    • 2007
  • 속성선택(Feature Selection)은 패턴분류 문제에서 분류기들의 성능을 향상시킬 수 있는 중요한 부분으로 다양한 기법들이 연구되어지고 있다. 특히, 많은 변수와 속성들을 가지는 데이터를 패턴분류 하는 과정에서 주요 속성부분집합을 추출하여 이용함으로써 분류기의 연산속도 및 정확도를 향상시킬 수 있다. 본 논문에서는 유전자 알고리즘과 정보이론의 상호정보량을 이용하여 속성선택을 하는 기법을 제안하였다. 제안된 기법의 성능을 평가하기 위하여 패턴분류 문제에 적용하고 그 성능이 우수함을 확인하였다.

  • PDF

규칙기반 단어 클러스터링에 의한 문서 분류의 성능 향상 (Performance Improvement of Document Classification by Rule-based Word Clustering)

  • 현우석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.196-198
    • /
    • 2006
  • 분류되지 않은 문서의 문서 분류는 현재까지 아주 중요한 문제로 대두되고 있다. 컴퓨터를 이용한 문서 검색 엔진인 Citeseer에서는 문서 인덱싱을 하기 위해서 자동문서 분류 방법을 사용하고 있다. 문서 분류는 원본 문서의 단어들을 제1의 속성 표현으로 사용한다. 그러나 이와 같은 표현은 고차원과 속성 부족을 초래하게 된다. 단어 클러스터링은 속성 차원과 속성 부족을 감소시키기 위한 효율적인 방법이며 문서 분류 성능을 향상시켜 준다. 본 연구에서는 클러스터 속성 표현을 위한 도메인 규칙기반 단어 클러스터링 방법을 사용한다. 클러스터는 다양한 도메인 데이터베이스들과 단어 철자 속성들로부터 생성되는데, 이와 같은 클러스터 속성 표현은 중요한 차원 감소뿐만 아니라 문서 헤더 라인의 평균 분류 성능에서 향상을 보여 주었고, 원본 문서 단어 기반 속성 표현과 비교해 보았을 때 도서목록 항목 추출의 정확도를 향상시켰다.

  • PDF

양상 뮤 논리를 위한 속성 명세 패턴 (Property Specification Patterns for Modal $\mu$-Calculus)

  • 전승수;권기현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.598-600
    • /
    • 2001
  • 본 논문에서는 양상 뮤 논리를 위한 속성 명세 패턴 연구를 통해 시제 논리에 대한 패턴 기반의 단일한 프레임워크를 제시한다. 본 연구에서는 Dwyer의 속성 명세 패턴 분류를 상태(S)와 행동(A)으로 세분화하고 이를 다시 강함(A)와 약함(E)으로 다시 세분했다. 이러한 의미 기반의 계층적 패턴 분류 체계를 통해 양상 뮤 논리의 속성 명세 패턴을 분석했으며 실제 모형 검사기에서 사용된 예제들의 패턴 분류에 적용했다. 그 결과 기존의 분류 체계보다 더 정확한 분류가 가능했을 뿐만 아니라, 속성 명세의 작성 및 이해가 용이하였다.

  • PDF

BIM 속성분류체계 구축을 위한 속성입력 자동화 프로그램 구현 (Implementation of Property Input Automation Program for Building Information Modeling (BIM) Property Set)

  • 남정용;주재하;김태형
    • 한국전산구조공학회논문집
    • /
    • 제33권2호
    • /
    • pp.73-79
    • /
    • 2020
  • BIM 도구는 설계프로세스에서 기술의 사용이 증가하면서 그에 따른 정보표준체계가 필요하게 되었다. 건설이 완료된 결과(Result) 분류는 25종 단위시설에 327종의 유형, 결과를 구성하는 객체는 174종의 Part와 207종의 Component로 분류하고 있다. 선행연구에서는 도로와 하천 분야 대상으로 속성분류체계를 대분류 4종, 중분류 13종, 소분류 58종, 속성정보 333종으로 분류하였고, 객체분류에 따른 대량의 속성정보를 입력하는 것의 소요 시간을 줄이는 것이 관건이었다. 따라서, Revit 플러그인과 같은 외부 응용 프로그램 개발을 통해 구체적이고 반복적인 작업에 자동화가 필요하다. BIM 속성분류체계를 따르면서 사용자의 생산성과 편의성을 강화할 수 있는 BIM 속성입력 프로그램을 구현하였다.

한글 텍스트 문서 분류시스템을 위한 속성선택 (Feature Selection for a Hangul Text Document Classification System)

  • Lee, Jae-Sik;Cho, You-Jung
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2003년도 춘계학술대회
    • /
    • pp.435-442
    • /
    • 2003
  • 정보 추출(Information Retrieval) 시스템은 거대한 양의 정보들 가운데 필요한 정보의 적절한 탐색을 도와주기 위한 도구이다. 이는 사용자가 요구하는 정보를 보다 정확하고 보다 효과적이면서 보다 효율적으로 전달해주어야만 한다. 그러기 위해서는 문서내의 무수히 많은 속성들 가운데 해당 문서의 특성을 잘 반영하는 속성만을 선별해서 적절히 활용하는 것이 절실히 요구된다. 이에 본 연구는 기존의 한글 문서 분류시스템(CB_TFIDF)[1]의 정확도와 신속성 두 가지 측면의 성능향상에 초점을 두고 있다. 기존의 영문 텍스트 문서 분류시스템에 적용되었던 다양한 속성선택 기법들 가운데 잘 알려진 세가지 즉, Information Gain, Odds Ratio, Document Frequency Thresholding을 통해 선별적인 사례베이스를 구성한 다음에 한글 텍스트 문서 분류시스템에 적용시켜서 성능을 비교 평가한 후, 한글 문서 분류시스템에 가장 적절한 속성선택 기법과 속성 선택에 대한 가이드라인을 제시하고자 한다.

  • PDF

속성분할이 없는 향상된 협력학습 방법 (An Improved Co-training Method without Feature Split)

  • 이창환;이소민
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권10호
    • /
    • pp.1259-1265
    • /
    • 2004
  • 분류학습에서 높은 정확도를 유지하기 위해서는 충분한 분류 데이타가 필요하게 되는데 분류 데이타는 미 분류 데이타보다 생성하기가 어려운 경우가 많다. 따라서 미 분류 데이타를 활용하여 분류의 정확도를 향상시키는 것은 큰 효용성을 가지며 이러한 미 분류 데이타를 활용하는 대표적인 학습방법 중의 하나는 협력학습(co-training) 알고리즘이다. 이는 데이타를 두 개의 독립적인 속성그룹으로 나누어 두개의 분류자로 학습한 후 미 분류 데이타를 분류하고 그중 가장 신뢰성이 높은 데이타를 분류 데이터에 포함하고 이를 반복하는 학습모델이다. 하지만 이 방법은 전체 데이타의 속성을 독립적인 두개의 집합으로 분할하여야하는 제약이 있다. 따라서 본 연구에서는 이와 같은 문제점을 개선하여 보통의 데이터베이스에 적용시킬 수 있는 새로운 협력학습방법을 제시 하고자한다. 즉. 두 개의 독립적인 속성 그룹으로 나누는 가정을 따르지 않고 전체 속성을 사용할 수 있으며 두 개 이상의 분류자를 사용하는 새로운 협력학습방법을 제안하였다.

바이오 문헌에서의 단백질, 유전자 객체 인식을 위한 특징 추출 (Feature Selection for Bio Named Entity Recognition from Biological Literature)

  • 김태욱;이미정;;류근호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.166-168
    • /
    • 2012
  • 바이오 문헌으로부터의 의미 있는 객체 추출 및 상호작용 관계 추출은 수 많은 바이오 문헌으로부터 유용한 정보를 얻기 위한 필수적인 과정이다. 특히 문헌으로부터 유전자 또는 단백질 이름과 같은 바이오 객체를 정확하게 인지하는 것은 새로운 객체인식의 어려움과 객체를 찾기 위한 특징 패턴의 다양성으로 인해 도전적인 과제로 남아있다. 본 논문에서는 전처리 과정을 거친 문헌 데이터로부터 12개의 의미 있는 속성들을 선택하였다. 선택된 속성에 데이터마이닝 기법중 하나인 속성 추출 기법을 적용하여 객체를 분류하는데 있어 의미 있는 속성들을 추출하였다. 특징 추출 방법과 분류 알고리즘이 분류 성능에 미치는 영향을 평가하기 위해 각 방법의 정확도를 사용하여 분류 성능을 비교였으며, Gain Ratio Attribute Evaluation과 Symmetrical Uncertainty Attribute Evaluation 기법에 의해 추출된 속성이 가장 정확한 분류 성능을 보여주었다.

데이터마이닝을 위한 혼합 데이터베이스에서의 속성선택

  • 차운옥;허문열
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 춘계 학술발표회 논문집
    • /
    • pp.103-108
    • /
    • 2003
  • 데이터마이닝을 위한 대용량 데이터베이스를 축소시키는 방법 중에 속성선택 방법이 많이 사용되고 있다. 본 논문에서는 세 가지 속성선택 방법을 사용하여 조건속성 수를 60%이상 축소시켜 결정나무와 로지스틱 회귀모형에 적용시켜보고 이들의 효율을 비교해 본다. 세 가지 속성선택 방법은 MDI, 정보획득, ReliefF 방법이다. 결정나무 방법은 QUEST, CART, C4.5를 사용하였다. 속성선택 방법들의 분류 정확성은 UCI 데이터베이스에 주어진 Credit 승인 데이터베이스와 German Credit 데이터베이스를 사용하여 10층-교차확인 방법으로 평가하였다.

  • PDF

패션 이미지 데이터를 활용한 딥러닝 기반의 의류속성 분류 (Deep learning-based clothing attribute classification using fashion image data)

  • 정혜선;이소영;이충권
    • 스마트미디어저널
    • /
    • 제13권4호
    • /
    • pp.57-64
    • /
    • 2024
  • 패션 이미지에 포함된 소재, 색상, 핏 등의 속성은 소비자가 의류를 구매하는 데 있어서 중요한 요인이다. 그러나 의류 속성을 분류하는 과정은 많은 인력을 필요로 하고, 작업자의 주관적인 판단에 의존하기 때문에 일관성이 떨어진다. 이러한 문제를 완화하기 위해 인공지능을 활용하여 패션 이미지의 의류 속성을 분류하는 연구가 필요하다. 기존 연구에서는 주로 상의 또는 하의 중 하나의 항목에 대한 의류 속성을 분류하는 것에 초점을 두고 있기 때문에 전신 패션 이미지의 경우에는 상의와 하의의 속성을 동시에 파악할 수 없다는 한계가 있었다. 본 연구는 패션 이미지의 상의와 하의를 구분하여 각 항목의 카테고리와 의류 소재의 속성을 분류할 수 있는 딥러닝 모델을 제안한다. 본 연구에서 딥러닝 모델 ResNet과 EfficientNet를 이용하였고, 학습에 활용한 데이터셋은 패션 이미지 1,002,718장과 의류 카테고리와 소재 속성을 포함한 라벨 총 125개를 사용하였다. Weighted F1-Score를 기준으로 ResNet은 0.800, EfficientNet는 0.781로 ResNet이 더 우수한 성능을 보였다.

희귀 목적값 분류를 위한 학습 알고리즘 (A New Learning Algorithm for Rare Class Classification)

  • 이광호;이창환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.39-42
    • /
    • 2006
  • 본 논문에서는 데이터 마이닝에서 발생되는 희귀 데이터를 분석하기 위한 희귀 목적값 분석의 새로운 알고리즘을 제시한다. 이를 위하여 속성들이 가지는 속성의 가중치 값과 속성값이 목적 속성에 미치는 가중치값을 정보이론에 입각하여 가중치 계산을 하고, 계산된 가중치값을 사용하여 스코어링 함으로써 희귀 목적값에 속한 데이터 예측/분류에 사용하는 방법을 제시하였다. 실험을 통해 본 알고리즘의 성능을 입증함은 물론 제안된 알고리즘이 희귀 데이터의 분류/학습에 좀 더 효과적이다는 것을 보였다.

  • PDF