• 제목/요약/키워드: 분류화

검색결과 4,781건 처리시간 0.027초

문서의 주제어별 가중치 부여와 단어 군집을 이용한 한국어 문서 자동 분류 시스템 (An Automatic Classification System of Korean Documents Using Weight for Keywords of Document and Word Cluster)

  • 허준희;최준혁;이정현;김중배;임기욱
    • 정보처리학회논문지B
    • /
    • 제8B권5호
    • /
    • pp.447-454
    • /
    • 2001
  • 새로운 문서를 기존에 존재하는 클래스들에 할당하는 방법을 문서의 자동 분류라고 한다. 문서의 자동 분류는 뉴스 그룹의 기사분류, 웹 문서의 범주화, 전자 메일의 순서화, 사용자의 관심을 학습하여 보다 정확한 정보 검색을 제시하는데 사용될수 있다. 본 논문에서는 한국어 문서분류의 정확도를 높이기 위하여 문서내의 모든 단어들에 대한 확률값을 사용하여, 문서를 분류하는 기존의 방법과 달리 문서의 주제어를 선정하여 주제어로 선정된 단어들에 가중치를 부여하고 그렇지 않은 단어들에 대해서는 제거하너가 낮은 가중치를 부여하는 베이지안 분류자를 사용한다. 문서에는 특징으로 추출된 단어가 적어 문서를 분류하기 위한 만족할 만한 정보를 제공하지 못할 경우에 부족한 문서의 특징을 보충하기 위하여 말뭉치로부터 자동 단어 군집화를 통해 형성된 연관 단어 군집을 사용한다. 이러한 방법을 한국어 문서에 적용한 결과 기존의 베이지안 확률을 사용한 분류법보다 향상된 분류 정확도를 얻을 수 있었다.

  • PDF

상황 인식 모바일 컴퓨팅을 위한 사운드 분류 시스템 설계 (Design of a Sound Classification System for Context-Aware Mobile Computing)

  • 김주희;이석준;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1305-1308
    • /
    • 2013
  • 본 논문에서는 스마트폰 사용자의 실시간 상황 인식을 위한 효과적인 사운드 분류 시스템을 제안한다. 이 시스템에서는 PCM 형태의 사운드 입력 데이터에 대한 전처리를 통해 고요한 사운드와 화이트 노이즈를 학습 및 분류 단계 이전에 미리 여과함으로써, 계산 자원의 불필요한 소모를 막을 수 있다. 또한 에너지 레벨이 낮아 신호의 패턴을 파악하기 어려운 사운드 데이터는 증폭함으로써, 이들에 대한 분류 성능을 향상시킬 수 있다. 또, 제안하는 사운드 분류 시스템에서는 HMM 분류 모델의 효율적인 학습과 적용을 위해 k-평균 군집화를 이용하여 특징 벡터들에 대한 차원 축소와 이산화를 수행하고, 그 결과를 모아 일정한 길이의 시계열 데이터를 구성하였다. 대학 연구동내 다양한 일상생활 상황들에서 수집한 8가지 유형의 사운드 데이터 집합을 이용하여 성능 분석 실험을 수행하였고, 이를 통해 본 논문에서 제안하는 사운드 분류 시스템의 높은 성능을 확인할 수 있었다.

대학 BI 분석을 위한 주제분류기의 구현 (Implementation of Topic Classifier for University News-based BI Analysis)

  • 장서윤;장현영;차채원
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제63차 동계학술대회논문집 29권1호
    • /
    • pp.23-25
    • /
    • 2021
  • 본 논문에서는 대학별 홍보 전략, 발전에 기여하기 위한 서비스를 제안한다. 이 서비스는 데이터 수집에는 크롤링을 사용하고 사이킷 런을 사용하여 정확도를 최대화하고, 각 분류된 카테고리의 오류을 최소화한다. 이 서비스는 각 카테고리별로 특성이 높은 키워드를 사용하여 카테고리 별 학습 데이터셋을 생성한 후 이러한 학습 데이터셋을 바탕으로 각 기사들을 최적의 카테고리로 분류해주는 분류기를 구현한다. 이러한 분류기를 사용하여 분류된 기사들을 분석하여 막대 그래프 등의 시각화된 자료들로 볼 수 있도록 하여 기존의 대학 홍보 자료에 비해 누구든 쉽고 간단하게 접근이 가능하도록 한다.

  • PDF

의류 생산설계 업무의 디지털화에 과한 연구 - 여성 자켓 디자인 및 패턴 데이터베이스 구축 방법 - (A study on the digitalization of apparel design process)

  • 송지영;천종숙
    • 한국감성과학회:학술대회논문집
    • /
    • 한국감성과학회 2001년도 추계학술대회 논문집
    • /
    • pp.158-163
    • /
    • 2001
  • 본 논문의 국내 패션 업체에서 상품기획 과정 중 많은 시간과 노력을 투자해야 했던 디자인 및 패턴 자료를 데이터베이스화하여 key word를 통해 효율적으로 찾아 사용할 수 있도록 한 디지털 여성 자켓 분류 데이터베이스 시스템을 개발하고자 실시되었다. 이를 위해 의류업체 종사자 48명과 의류학 전공 대학원생 54명, 패턴 전문가 11명을 대상으로 설문조사 및 인터뷰를 실시하여 디자인 및 패턴의 분류 기준과 의류 생산기획 업무의 디지털화 가능성을 검토하였다. 본 연구의 결과는 다음과 같다. 국내 의류업체에서는 상품기획시 국외패션잡지와 collection지를 가장 많이 활용하고 있었으며, 디자인 및 패턴 DB 프로그램에 대한 효용성 기대와 수용도 기대에는 집단간 유의한 차이가 있는 것으로 나타났다. 여성 자켓 디자인 DB를 위한 구성요소 분류 기준은 7가지고 선정되었고, 이미지 형용사 분류 기준은 6가지로 선정되었다. 또한 자켓 제작을 위한 block pattern 분류 기준은 4가지로 선정되었다. 본 연구를 통해 개발된 자켓 디자인 선택 프로그램의 모델을 제시한 후 실험 참가자들에게 효용성 및 사용가능성을 다시 검증한 결과, 프로그램 제시 전 조사결과보다 유의하게 긍정적으로 평가되었으며, 데이터베이스 자료 활용시 이미지 형용사를 통한 검색보다는 구성요소를 통한 검색에 더 만족하는 것으로 나타났다.

  • PDF

개선된 FCM 알고리즘을 이용한 한방의 질병 분류 시스템 (Disease Classification System of Oriental Medicine using Enhanced FCM Algorithm)

  • 장수재;최경열;김광백
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2011년도 춘계학술대회
    • /
    • pp.93-96
    • /
    • 2011
  • 본 논문에서는 개선된 FCM 알고리즘을 적용하여 통계청에서 제공하는 한국 표준 질병 사인 분류표(K.C.D)를 기초로 질병을 분류한 후, 질병을 도출하고 애매한 증상의 차이의 정도를 퍼지 추론기법을 사용하여 정확한 질병 상세를 도출할 수 있는 한방 질병 분류 시스템을 제시한다. 기존의 FCM 알고리즘은 입력 벡터들과 각 군집 중심과의 거리를 이용하여 측정된 유사도에 기초한 목적 함수의 최적화 방식을 사용한다. 하지만 측정된 패턴과 군집 공간상의 패턴들의 분포에 따라 바람직하지 못한 군집화 결과를 보일 수 있다. 따라서 본 논문에서는 군집들의 대칭성 측도에 퍼지 이론을 적용하여 기존의 FCM 알고리즘으로 군집화 한 결과를 재 군집화 하여 군집화의 정확성을 개선시킨 후, 증상의 차이를 구분하기 위해서 애매한 증상의 정도를 퍼지 추론 방법을 적용하여 정확한 질병 상세를 도출할 수 있는 방법을 제시한다. 본 논문에서는 개선된 FCM 알고리즘을 적용하여 질병을 분류한 후, 퍼지 제어 기법으로 질병을 추출함으로써 기존의 한방 자가진단 시스템 보다 정확하게 질병을 도출한 것을 확인하였다.

  • PDF

개인화 큐레이션을 위한 감성 분류 및 평가 (Emotional Tag and Evaluation Method for Personalized Curation)

  • 임지희;성주원;구형근;옥철영;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.122-126
    • /
    • 2014
  • 감성은 콘텐츠 구매과정에서 결정적인 요소로 작용하며, 영화 콘텐츠의 탐색/소비 과정에서도 콘텐츠 소비의 새로운 기준이다. 그러므로 본 연구에서는 콘텐츠의 내용과 감성을 반영하기 위한 감성분류체계를 제안하였다. 제안한 감성분류체계를 기반으로 사용자의 취향과 감성에 기반하여 콘텐츠를 분류/추천하여 개인화된 편성을 제공하는 것을 "감성 큐레이션"이라 정의하고, 이를 위한 감성기반 큐레이션 방법론을 기술하고 실험을 통해 추천 효과를 입증하였다. 큐레이션은 기존의 개인화 추천과 달리 고객 취향뿐만이 아닌, 신선함, 다양성을 제공할 수 있어야 하며, 상용 큐레이션 서비스에서는 실제 시청으로 연결되는 비율이 중요하다. 본 연구에서는 큐레이션 성능 평가를 위해 성향인지도, 신선도, 다양성에 기반한 만족도 설문조사 방법과 함께, 콘텐츠의 전체 시청률 대비 큐레이션을 통해 추천되어 증가된 시청률의 확대 비율인 Lift score 라는 새로운 평가 방법을 제안하여 그 효용성을 증명하였다.

  • PDF

규칙-기반 분류화 기법을 이용한 도로 네트워크 상에서의 주행 시간 예측 알고리즘 (Travel Time Prediction Algorithm using Rule-based Classification on Road Networks)

  • 이현조;니하드카림초우더리;장재우
    • 한국콘텐츠학회논문지
    • /
    • 제8권10호
    • /
    • pp.76-87
    • /
    • 2008
  • 동적 경로 안내 시스템과 같은 첨단 여행 정보 시스템(ATIS)의 발전에 따라 도로 네트워크 상에서 보다 정확한 주행 시간 예측 기법에 대한 연구가 활발히 진행되고 있다. 그러나 기존 대부분의 연구들은 주어진 경로 상의 평균 주행 속도만을 기반으로 주행 시간을 예측한다. 이는 러시아워 시간대의 혼잡한 도로, 주말에 교외로 나가는 대규모의 차량 등과 같은 일별 혹은 주별 도로 교통 상황을 반영하지 못하기 때문에, 주행 시간 예측의 정확도가 저하된다. 이를 해결하기 위해 본 연구에서는 규칙-기반 분류화 기법을 이용한 주행 시간 예측 알고리즘을 제안한다. 제안된 알고리즘은 데이터마이닝 기법인 규칙-기반 분류화 기법을 사용하여, 과거 차량의 궤적 데이터로부터 하루의 시간대별 교통량과 주별 차량의 운행 양식 등 도로 교통 상황을 추출하고, 이를 통해 차량의 주행 시간을 보다 정확하게 예측한다. 제안된 알고리즘 기존의 링크-기반 예측(link-based prediction) 알고리즘, Micro T* 알고리즘[3], 그리고 스위칭 (switching) 알고리즘[10]과 예측 정확도 측면에서 성능 비교를 수행한다. 예측 정확도 성능 비교 결과, 제안된 기법이 타 예측 기법에 비해 MARE (mean absolute relative error) 가 크게 감소하여 성능이 향상됨을 보인다. 그 밖에 다른 기법들과 장단점을 비교하여, 제안된 기법의 유용성을 나타낸다.

오류 데이타에 강한 자질 투영법 기반의 문서 범주화 기법 (Text Classification based on a Feature Projection Technique with Robustness from Noisy Data)

  • 고영중;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권4호
    • /
    • pp.498-504
    • /
    • 2004
  • 본 논문은 자질 투영법을 사용한 새로운 문서 분류기를 제안한다. 제안된 문서 분류기는 학습 문서를 각 자질로의 투영으로써 표현한다. 문서를 위한 분류 작업은 투영된 각 자질로부터의 투표(voting)에 기인한다. 실험을 통해서 본 제안된 문서 분류기는 단순한 구조에도 불구하고 높은 성능을 보이고 있으며, 특히 기존의 문서 범주화 기법에서 높은 성능을 보여왔던 최근린법(k-NN)과 지지백터기계(SVM)와 비교했을 때 빠른 수행 속도와 오류 데이타가 많을 환경에서 높은 성능을 보인다는 장점이 있다. 또한 제안된 문서 분류기의 알고리즘이 매우 단순하기 때문에 분류기의 구현과 학습 과정이 쉽게 수행될 수 있다. 이러한 이유로 제안된 문서 분류기는 빠른 수행 속도와 견고성(robustness), 그리고 높은 성능을 요구하는 은서 범주화 응용 영역에 유용하게 사용될 수 있을 것이다.

분류와 사용자 질의어 정보에 기반한 개인화 검색 시스템 (A Personalized Retrieval System Based on Classification and User Query)

  • 김광영;심강섭;곽승진
    • 한국문헌정보학회지
    • /
    • 제43권3호
    • /
    • pp.163-180
    • /
    • 2009
  • 본 논문은 사용자가 검색에 사용한 질의어를 기반으로 개인의 성향정보를 분석하고자 한다. 이를 위하여 사용자가 검색을 하기 위해서 입력한 질의어를 문서분류기를 이용하여 범주를 부여한다. 본 연구에서는 각 레코드에 미리 부여된 DDC 분류코드를 분류정보로 활용하였다. 이러한 방식을 사용하여 사용자의 질의어를 기반으로 개인의 특징을 분석한다. 분석된 개인의 성향정보를 검색 결과에 반영하고 개인의 의도에 맞는 문서를 재순위화시키는 개인화 검색시스템을 개발하였다. 또한 개인의 성향정보를 이용하여 단어의 중의성 문제를 해결할 수 있었다. 본 논문에서는 한국과학기술정보연구원이 운영 중인 과학기술학회마을 데이터베이스를 이용하여 개인화와 단어중의성 해소에 관한 실험을 수행하였다. 실험과 사용자 평가를 통해서 개인화 검색 및 단어중의성 해소 성능을 제시하였다.