• 제목/요약/키워드: 자동범주화

검색결과 59건 처리시간 0.027초

자동분류 알고리즘을 이용한 지능형 정보검색시스템 구축에 관한 연구 (A Study of Designing the Intelligent Information Retrieval System by Automatic Classification Algorithm)

  • 서휘
    • 한국도서관정보학회지
    • /
    • 제39권4호
    • /
    • pp.283-304
    • /
    • 2008
  • 본 연구의 목적은 이용자의 탐색 행태, 시스템의 정보 구축 행태를 기반으로 초기 질의어의 범주에 해당하는 연관 용어들(해당 용어의 지식구조와 관련된 연관 용어들)을 학습기능을 통해 자동으로 제시해 줄 수 있는 지능형 검색 시스템을 구현하는 것이다. 이를 위해 학습을 통해 전문가 수준의 색인어를 추출할 수 있는 지능형자동색인 알고리즘, 자동분류에 관련한 클러스터링 알고리즘과 문서 범주화 알고리즘 그리고 범주 표현 알고리즘에 대한 이론적 연구를 수행하였으며, 이들 이론적 연구를 근거로 비용과 시간적인 측면에서 그리고 재현율과 정도율이란 측면에서 우수한 성능을 발휘할 수 있는 지능형검색시스템을 구현하였다.

  • PDF

NewsML 기반의 뉴스 자동 분류 시스템에 관한 연구 (Study on Automatic Classification System of News based on NewsML)

  • 이탁희;홍금원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.619-622
    • /
    • 2008
  • 뉴스 분류 체계는 각각의 기사에 정치, 경제, 사회 등 가장 적합한 주제별로 분류하는 것으로 언론사별 분류 체계는 통일성이 없이 전혀 다르게 구성되어 사용하고 있다. 이로 인해 방대한 콘텐트를 통합하는데 많은 어려움이 있으며, 그만큼 시스템과 인력에 대해 중복 투자가 되고 있다. 이런 문제점을 개선하기 위해 국제 표준인 NewsML에 기반한 뉴스 분류에 대해 제안한다. NewsML은 XML 기반의 유연성과 확장성이 있는 구조적인 표준 형식으로 다양한 데이터 표현이 가능하여 자동 문서 범주화에 필요한 중요한 자질 선택이 가능하다. 본 논문에서는 NewsML 형식으로 되어 있는 뉴스와 그렇지 않은 뉴스를 구분하여 자동 분류에 대한 비교 실험을 한다. NewsML의 구조화된 정보를 활용한 실험이 뉴스의 제목과 본문만으로 실험한 결과보다 좋은 성능을 보여 주었으며, 그 중에서 자질 공간이 아주 큰 경우에 유용하고 문서 분류에 효과가 뛰어난 지지 벡터 기계 모델이 가장 좋은 성능을 보였다.

SHIFT-REDUCE 알고리즘을 이용한 한국어 자동 분석 기법 (A Parsing Technique for Korean Using Shift-Reduce Algorithm)

  • 김지은
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.439-442
    • /
    • 1994
  • 본 논문은 PC 환경에서 한국어 문장구조를 분석할 수 있는 분석 기법을 제시한다. 상대적으로 어순이 자유로운 언어인 한국어의 특성에 중점을 두어, 이를 효과적으로 처리할 수 있는 분식 기법으로 shift-reduce 알고리즘을 제시한다. shift-reduce 분석 기법은 구문론 및 의미론적 하위 범주화어 의한 분석을 효율적으로 실행할 수 있도록 해주며. bottom-up과 left-right에 의한 분석 과정을 보완하여 준다.

  • PDF

디스크립터 자동 할당을 위한 저자키워드의 재분류에 관한 실험적 연구 (A Study on the Reclassification of Author Keywords for Automatic Assignment of Descriptors)

  • 김판준;이재윤
    • 정보관리학회지
    • /
    • 제29권2호
    • /
    • pp.225-246
    • /
    • 2012
  • 본 연구는 국내 주요 학술 DB의 검색서비스에서 제공되고 있는 저자키워드(비통제키워드)의 재분류를 통하여 디스크립터(통제키워드)를 자동 할당할 수 있는 가능성을 모색하였다. 먼저 기계학습에 기반한 주요 분류기들의 특성을 비교하는 실험을 수행하여 재분류를 위한 최적 분류기와 파라미터를 선정하였다. 다음으로, 국내 독서 분야 학술지 논문들에 부여된 저자키워드를 학습한 결과에 따라 해당 논문들을 재분류함으로써 키워드를 추가로 할당하는 실험을 수행하였다. 또한 이러한 재분류 결과에 따라 새롭게 추가된 문헌들에 대하여 통제키워드인 디스크립터와 마찬가지로 동일 주제의 논문들을 모아주는 어휘통제 효과가 있는지를 살펴보았다. 그 결과, 저자키워드의 재분류를 통하여 디스크립터를 자동 할당하는 효과를 얻을 수 있음을 확인하였다.

요구 사항 문장 범주화를 이용한 웹 기반의 요구 사항 추출 지원 시스템 (Web-based Requirements Elicitation Supporting System using Requirements Sentences Categorization)

  • 고영중;강기선;김재선;박수용;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권4호
    • /
    • pp.384-392
    • /
    • 2000
  • 시스템이 사용되는 분야가 점점 복잡해지고 대형화됨에 따라 시스템 개발에 있어 사용자 요구 사항의 올바른 분석과 서술이 중요하게 인식되고 있으며, 인터넷(internet)의 발전으로 분산 환경에서의 요구 사항 추출 및 분석의 필요성이 대두되고 있다. 본 논문에서는 자연어로 표현되는 요구 사항 문장을 유사도 측정 기법을 이용하여 주제별로 범주화(categorization)함으로써 분산 환경에서 수집된 요구 사항 문장을 분석하기 위한 기초를 제공할 수 있는 요구 사항 추출 지원 시스템을 제안한다. 제안된 시스템은 단어간, 문장간의 유사도 측정 기법을 이용하여 수집된 요구 사항 문장들을 주제별로 자동으로 분류함으로써 요구 사항 분석 시 초기 작업의 어려움을 줄이고 신속하고 정확하게 분석 작업을 수행하도록 지원할 것이다. 본 논문에서는 단어간, 문장간 유사도 측정 기법을 이용한 범주화 기법의 효율성을 실험을 통해 검증하였으며 구현된 시스템을 통해 추출, 처리되는 과정을 보여주고 있다.

  • PDF

기계학습을 기반으로 한 인터넷 학술문서의 효과적 자동분류에 관한 연구 (The Study on the Effective Automatic Classification of Internet Document Using the Machine Learning)

  • 노영희
    • 한국도서관정보학회지
    • /
    • 제32권3호
    • /
    • pp.307-330
    • /
    • 2001
  • 본 연구에서는 kNN분류기를 이용한 범주화 방법에 대한 성능 실험을 하였다. kNN분류기와 같은 대부분의 예제기반 자동 분류기법은 학습문서집단의 자질을 축소하게 되는데 자질을 몇 퍼센트 축소함으로써 높은 성능을 얻을 수 있는지를 알아보고자 하였다. 또한, kNN분류기는 학습문서집단에서 검증문서와 가장 유사한 k개의 학습문서를 찾아야 하는데, 이때 가장 적합한 k값은 얼마인지를 실험을 통하여 검증하여 보고자 하였다.

  • PDF

3차원 물체의 자세정보 추출을 위한 측면 측정방향군의 범주화 (Categorization of Aspect view direction for 3D object′s Pose Estimation)

  • 이재영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.508-510
    • /
    • 2001
  • 3차원 물체의 인식과 공간 정보를 추출해 내는 것이 물체인식의 주요 목적이다. 본 논문에서는 평면의 표면을 갖는 기하학적 물체들을 인식하는데 인공신경망이 적용 가능함이 조사되었다. 물체인식을 위한 모델들은 CAD모델들로부터 자동적으로 추출되며, 획득된 물체의 영상과 일치하는 물체의 국면(aspect)과의 매칭은 조건만족 인경신경망을 이용하여 매칭-오차를 최소화시키는 방법을 처리되었다. 인식된 물체의 국면이 어느 방향에서 획득되었는지에 대한 정보(Aspect's view direction)는 검색된 가시 평면들의 분포로부터 추출됨을 ART와 같은 인공신경망을 이용하여 실시간으로 복원할 수 있음을 보였다. 대표적이 측정방향과 이 측정방향으로부터의 편차들을 한 범주에 넣고 학습을 통해 정확한 측정방향 정보들을 구하며, 획득된 3차원 물체의 영상들에 따라 자동적으로 측정방향범주 들이 추가되도록 한다.

  • PDF

녹색기술문헌 자동 범주화를 위한 문서 분류기 개발 (Document Classification of Green Technology Literature based on Support Vector Machines)

  • 주원균;박민우;최기석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.1762-1763
    • /
    • 2012
  • 최근에 이슈화되고 있는 녹색기술문헌의 중요성에 부합하여 녹색기술 문헌을 자동으로 분류해주는 문서 분류시스템 개발하였다. 분류체계로는 14개의 관심 녹색기술 분류 체계를 선택하였고, 다양한 문서 분류 기법 중 SVM(Support Vector Machine)에 기초를 둔 방법을 이용하였다. 문서 벡터를 생성할 때 제목과 본문에 동일한 가중치를 적용하는 방법을 벗어나서 제목의 키워드에 좀 더 높은 가중치를 부여하는 방식을 적용하여 성능평가를 수행하였다.

기계학습을 통한 디스크립터 자동부여에 관한 연구 (A Study on automatic assignment of descriptors using machine learning)

  • 김판준
    • 정보관리학회지
    • /
    • 제23권1호
    • /
    • pp.279-299
    • /
    • 2006
  • 학술지 논문에 디스크립터를 자동부여하기 위하여 기계학습 기반의 접근법을 적용하였다. 정보학 분야의 핵심 학술지를 선정하여 지난 11년간 수록된 논문들을 대상으로 문헌집단을 구성하였고, 자질 선정과 학습집합의 크기에 따른 성능을 살펴보았다. 그 결과, 자질 선정에서는 카이제곱 통계량(CHI)과 고빈도 선호 자질 선정 기준들(COS, GSS, JAC)을 사용하여 자질을 축소한 다음, 지지벡터기계(SVM)로 학습한 결과가 가장 좋은 성능을 보였다. 학습집합의 크기에서는 지지벡터기계(SVM)와 투표형 퍼셉트론(VPT)의 경우에는 상당한 영향을 받지만 나이브 베이즈(NB)의 경우에는 거의 영향을 받지 않는 것으로 나타났다.

복수의 신문기사 자동요약에 관한 실험적 연구 (An Experimental Study on Automatic Summarization of Multiple News Articles)

  • 김용광;정영미
    • 정보관리학회지
    • /
    • 제23권1호
    • /
    • pp.83-98
    • /
    • 2006
  • 이 연구에서는 복수의 신문기사를 자동으로 요약하기 위해 문장의 의미범주를 활용한 템플리트 기반 요약 기법을 제시하였다. 먼저 학습과정에서 사건/사고 관련 신문기사의 요약문에 포함할 핵심 정보의 의미범주를 식별한 다음 템플리트를 구성하는 각 슬롯의 단서어를 선정한다. 자동요약 과정에서는 입력되는 복수의 뉴스기사들을 사건/사고 별로 범주화한 후 각 기사로부터 주요 문장을 추출하여 템플리트의 각 슬롯을 채운다. 마지막으로 문장을 단문으로 분리하여 템플리트의 내용을 수정한 후 이로부터 요약문을 작성한다. 자동 생성된 요약문을 평가한 결과 요약 정확률과 요약 재현율은 각각 0.541과 0.581로 나타났고, 요약문장 중복률은 0.116으로 나타났다.