• 제목/요약/키워드: 속성기반분류

검색결과 345건 처리시간 0.032초

규칙기반 단어 클러스터링에 의한 문서 분류의 성능 향상 (Performance Improvement of Document Classification by Rule-based Word Clustering)

  • 현우석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.196-198
    • /
    • 2006
  • 분류되지 않은 문서의 문서 분류는 현재까지 아주 중요한 문제로 대두되고 있다. 컴퓨터를 이용한 문서 검색 엔진인 Citeseer에서는 문서 인덱싱을 하기 위해서 자동문서 분류 방법을 사용하고 있다. 문서 분류는 원본 문서의 단어들을 제1의 속성 표현으로 사용한다. 그러나 이와 같은 표현은 고차원과 속성 부족을 초래하게 된다. 단어 클러스터링은 속성 차원과 속성 부족을 감소시키기 위한 효율적인 방법이며 문서 분류 성능을 향상시켜 준다. 본 연구에서는 클러스터 속성 표현을 위한 도메인 규칙기반 단어 클러스터링 방법을 사용한다. 클러스터는 다양한 도메인 데이터베이스들과 단어 철자 속성들로부터 생성되는데, 이와 같은 클러스터 속성 표현은 중요한 차원 감소뿐만 아니라 문서 헤더 라인의 평균 분류 성능에서 향상을 보여 주었고, 원본 문서 단어 기반 속성 표현과 비교해 보았을 때 도서목록 항목 추출의 정확도를 향상시켰다.

  • PDF

양상 뮤 논리를 위한 속성 명세 패턴 (Property Specification Patterns for Modal $\mu$-Calculus)

  • 전승수;권기현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.598-600
    • /
    • 2001
  • 본 논문에서는 양상 뮤 논리를 위한 속성 명세 패턴 연구를 통해 시제 논리에 대한 패턴 기반의 단일한 프레임워크를 제시한다. 본 연구에서는 Dwyer의 속성 명세 패턴 분류를 상태(S)와 행동(A)으로 세분화하고 이를 다시 강함(A)와 약함(E)으로 다시 세분했다. 이러한 의미 기반의 계층적 패턴 분류 체계를 통해 양상 뮤 논리의 속성 명세 패턴을 분석했으며 실제 모형 검사기에서 사용된 예제들의 패턴 분류에 적용했다. 그 결과 기존의 분류 체계보다 더 정확한 분류가 가능했을 뿐만 아니라, 속성 명세의 작성 및 이해가 용이하였다.

  • PDF

정답문서집합 자동 구축을 위한 속성 기반 분류 방법 (Attribute-Based Classification Method for Automatic Construction of Answer Set)

  • 오효정;장문수;장명길
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권7_8호
    • /
    • pp.764-772
    • /
    • 2003
  • 본 논문에서는 사용자에게 보다 유용한 정보를 제공하기 위하여 개념의 활용분야에 따른 속성 분류 기법이라는 새로운 분류 기법을 제안하고, 이를 활용해 정답문서집합 지식베이스를 자동으로 구축하는 방안을 제시한다. 제안된 방법은 범주간의 구분이 유동적인 속성의 특성을 반영하기 위하여 속성 특징(clue)을 활용함으로써 분류 정확도를 높이고, 개념망에 정의된 개념들 사이의 관계를 참조함으로써 지식베이스를 구축하기 위한 노력과 비용을 최소화하여 점진적인 분류기 생성을 가능하게 한다. 실험을 통해 제안된 방법의 정확도와 효율성을 입증하였으며, 정답문서기반 정보검색 시스템을 위한 정답문서집합 구축과정에 적용시킨 결과를 제시함으로써 방법의 실제 효용성을 보였다.

스트림 데이터의 윈도우 기반 분류 (A Window-Based Classification of Stream Data)

  • 김성현;이용미;김룡;서성보;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.47-50
    • /
    • 2005
  • 센서와 모바일 기술의 발달로 인해 다양한 센서에서 수집된 스트림 데이터를 처리하는 연구들이 많이 수행되고 있다. 다차원 속성의 스트림 데이터는 센서에서 주기적으로 수집되어 버퍼링 후 처리되기 때문에 기존의 투플 기반의 데이터 분류 기법에 적합하지 않다. 따라서 이 논문에서는 윈도우 기반의 스트림 데이터 분류를 위해 각 속성의 평균과 표준편차 값을 이용하여 투플 기반으로 변환하는 기법을 제안한다. 제안된 기법의 타당성은 투플 기반 데이터 분류 기법(의사결정트리, 단순 베이지안 분류기, 베이지안 신뢰 네트워크)에 의한 정확도 측정에 기반 한다. 로봇에서 수집된 센서 데이터를 이용한 실험 결과, 높은 정확도로 제안된 기법이 타당함을 증명하였으며 베이지안 신뢰 네트워크 기법이 다른 기법에 비해 우수함을 발견하였다.

  • PDF

가상예제를 이용한 수치 및 범주 속성 데이터의 분류 성능 향상 (Improving Classification Accuracy for Numerical and Nominal Data using Virtual Examples)

  • 이유정;강재호;강병호;류광렬
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.183-188
    • /
    • 2006
  • 본 논문에서는 베이지안 네트워크를 기반으로 생성하고 평가한 가상예제를 활용하여 범주속성 및 수치속성 데이터에 대한 분류 성능을 향상시키는 방안을 제안한다. 가상예제를 활용하는 종래의 연구들은 주로 수치 속성 데이터를 대상으로 한 반면 본 연구에서는 범주속성 데이터에 대해서도 가상예제를 적용하여 효과를 확인하였다. 그리고 대상 도메인에 특화된 지식을 활용하여 특정 학습 알고리즘의 성능을 향상시키는 것을 목표로 한 기존 연구들과는 달리 본 연구에서는 도메인에 특화된 지식을 활용하는 대신 주어진 훈련 집합을 기반으로 만든 베이지안 네트워크로부터 가상예제를 생성하고, 그 예제가 네트워크의 조건부 우도를 증가시키는데 기여할 경우 유용한 것으로 선별한다. 이러한 생성 및 선별과정을 반복하여 적절한 크기의 가상예제 집합을 수집하여 사용한다. 범주 속성 데이터와 수치 속성을 포함한 데이터를 대상으로 한 실험 결과, 여러 가지 학습 모델의 성능이 향상됨을 확인하였다.

  • PDF

특정 속성과 Co-training을 이용한 전자메일 분류 (E-Mail Filtering with Co-training Based on Specific Features)

  • 류제;윤성희;한광록
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.549-551
    • /
    • 2003
  • 본 논문은 점점 증가되고 있는 SPAM 메일 문제를 해결하기 위한 방법으로써, 특정 속성에 기반을 둔 학습 알고리즘의 co-training을 통한 전자메일 분류 기법을 제안한다. 전자메일 분류는 결국 문서 분류 기술과 다르지 않다. 이미 많은 연구에서 학습 알고리즘을 이용한 문서 분류 기법은 많이 제안되고 검증되었다. 본 논문에서는 이러한 학습 알고리즘들을 co-training을 통하여 해당 메일이 SPAM인지 아닌지 구분하며, 학습의 효율성을 높이기 위하여 전자메일의 특정한 속성들, 예를 들면, 핵심문구나 기타 특정한 문구 및 전자메일의 헤더 정보 등을 학습 기반으로 이용하였다.

  • PDF

사례기반 추론을 위한 동적 속성 가중치 부여 방법 (A Dynamic feature Weighting Method for Case-based Reasoning)

  • 이재식;전용준
    • 지능정보연구
    • /
    • 제7권1호
    • /
    • pp.47-61
    • /
    • 2001
  • 사례기반 추론과 같은 사후학습 기법은 인공신경망이나 의사결정나무와 같은 사전학습 기법에 비해서 여러 장점을 가지고 있다. 하지만, 사후학습 기법은 사례 표현에 관련성이 적은 속성이 포함된 경우에는 성능이 저하되는 단점을 가지고 있다. 이러한 단점을 극복하기 위해서, 속성 가중치 부여 방법들이 연구되었다. 기존의 속성 가중치 부여 방법들은 대부분 전역적으로 속성 가중치를 부여하는 것이었다. 본 연구에서는 새로운 지역적 속성 가중치 부여 방법인 CBDFW를 제안한다. CBDFW 기법은 무작위로 생성된 속성 가중치들의 분류 성공 여부를 저장하고 있다가, 새로운 사례가 주어졌을 때에 성공적인 분류 결과를 보인 가중치들을 검색하여 동적으로 새로운 가중치들을 생성해낸다. 신용평가 데이터로 CBDFW의 성능을 실험한 결과, 기존의 연구들에서 제시된 분류 적중률보다 우수한 성능을 보였다.

  • PDF

프롬프트 튜닝기법을 적용한 한국어 속성기반 감정분석 (Prompt Tuning For Korean Aspect-Based Sentiment Analysis)

  • 김봉수;전현규;최승호;김지윤;장정훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.50-55
    • /
    • 2023
  • 속성 기반 감정 분석은 텍스트 내에서 감정과 해당 감정이 특정 속성, 예를 들어 제품의 특성이나 서비스의 특징에 어떻게 연결되는지를 분석하는 태스크이다. 본 논문에서는 속성 기반 감정 분석 데이터를 사용한 다중 작업-토큰 레이블링 문제에 프롬프트 튜닝 기법을 적용하기 위한 포괄적인 방법론을 소개한다. 이러한 방법론에는 토큰 레이블링 문제를 시퀀스 레이블링 문제로 일반화하기 위한 감정 표현 영역 검출 파이프라인이 포함된다. 또한 분리된 시퀀스들을 속성과 감정에 대해 분류 하기 위한 템플릿을 선정하고, 데이터셋 특성에 맞는 레이블 워드를 확장하는 방법을 제안함으써 모델의 성능을 최적화한다. 최종적으로, 퓨샷 세팅에서의 속성 기반 감정 분석 태스크에 대한 몇 가지 실험 결과와 분석을 제공한다. 구축된 데이터와 베이스라인 모델은 AIHUB(www.aihub.or.kr)에 공개되어 있다.

  • PDF

생성형 AI에 대한 아동들의 인식 연구 : 유형과 속성 분류를 중심으로 (Children's Perception of Generative AI : Focusing on Type and Attribute Classification)

  • 장수용;한지수;신효림;오창훈
    • 문화기술의 융합
    • /
    • 제10권1호
    • /
    • pp.591-601
    • /
    • 2024
  • 아동 사용자를 대상으로 한 생성형 AI 기반 교육 콘텐츠와 서비스가 급증함에 따라 생성형 AI에 대한 아동의 인식과 관련된 연구의 필요성이 증가하고 있다. 이에 본 연구는 아동이 인식하는 생성형 AI의 유형 분류, 인지적, 행동적, 감정적 속성 부여 여부를 파악하고자 하였다. 이를 파악하기 위해 아동들과 함께 생성형 AI를 이용해 동화책을 생성해보는 워크샵을 진행하고, 반구조화 인터뷰와 그림 그리기를 통한 응답을 수집하였다. 그 결과 아동들은 생성형 AI를 인지적 수준이 높은 인공물로 여겼지만, 생성형 AI를 통해 창작되는 결과물에 의존한 유형 분류의 모습을 보였다.

유전자 선택을 위해 속성 삭제에 기반을 둔 최적화된 분류기 설계 (A Design of an Optimized Classifier based on Feature Elimination for Gene Selection)

  • 이병관;박석규;유슬리나 티파니
    • 한국정보전자통신기술학회논문지
    • /
    • 제8권5호
    • /
    • pp.384-393
    • /
    • 2015
  • 본 논문은 두 가지 속성 삭제 방법인 ReliefF와 SVM-REF를 조합하여 유전자 선택을 위한 속성 삭제에 기반을 둔 최적화된 분류법(OCFE)을 제안한다. ReliefF 알고리즘은 데이터의 중요도에 따라 데이터 순위를 매기고 필터(filter) 속성 선택 알고리즘이다. SVM-RFE 알고리즘은 속성의 가중치 기반으로 데이터 순위를 매기고 데이터를 감싸는 래퍼(wrapper) 속성 선택 알고리즘이다. 이러한 두 가지 기법을 조합함으로써, 우리는 SVM-RFE는 0.3096779이고 OCFE는 0.3016138으로 에러율 평균이 좀 더 낮게 나타났다. 또한, 제안된 기법은 SVM-RFE가 69%이고 OCFE는 70%으로 좀 더 정확한 것으로 나타났다.