• Title/Summary/Keyword: 색인추출

Search Result 369, Processing Time 0.024 seconds

Automatic Production of Book Indices (서적에서의 자동색인)

  • 조성래;황도삼;최기선
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.169-171
    • /
    • 1999
  • 현재의 자동색인 시스템들은 주로 정보검색을 하기 위한 목적으로 개발되고 있으며 단일 서적(저술 분야)색인에 관한 연구는 아직 미진한 상태이다. 또한 워드프로세서의 발달로 인해 단일서적에서 다양한 문서 특징이 나타나게 되었다. 본 논문에서는 관련 서적들의 색인어를 이용한 유사도 기반의 방법과 단일 서적의 문서 특징을 이용한 자동색인 기법을 제안한다. 제안한 기법의 평가를 위해 이미 출판된 서적을 대상으로 한 자동색인 시스템을 개발하고 자동추출 색인어와 수작업 색인어를 비교하였다. 관련 서적내의 색인어와 새로운 대상 문서간의 유사도 비교를 통해 색인어를 추출함으로써 통계적 빈도에 의존하는 색인 기법에서 발생하는 색인어 오추출과 과다한 추출을 줄일 수 있었다.

  • PDF

Index Extraction Using Syntactic Morpheme (구문형태소를 이용한 색인어 추출)

  • 황이규;이근용;김남수;이용석
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.26-30
    • /
    • 2000
  • 문서를 대표하는 단어를 추출하는 색인어 추출은 정보검색 시스템의 질을 좌우한다. 대부분의 색인어 추출 시스템은 명사를 추출하고 있으며, 가능한 모든 명사를 추출하고 있다. 이러한 방법은 불필요한 단어가 그 문장을 대표하는 색인어로 추출될 가능성이 높으며, 이는 정보 검색 시스템의 효율을 저하시킨다. 이를 해결하기 위해 품사 태깅이나 구문 해석 단계 등을 통해 불필요한 후보를 제거할 수 있지만, 태거를 구축하거나 구문 해석을 위해서는 많은 비용과 시간이 필요하다. 본 논문에서는 구문 형태소 단위의 형태소 해석에 기반한 색인어 추출 방법을 제안한다. 구문 형태소는 통사적/의미적으로 강한 공기 관계를 가지면서 문장에서 하나의 통사적 단위나 자질의 단위로 표현되기 때문에 구문 형태소내에 포함된 단어열들은 대부분 색인어가 될 수 없다. 이러한 방법을 이용하여, 형태소 해석 결과를 이용한 색인어 추출에서 발생하는 색인 오류를 제거함으로써 색인기의 성능을 높이는 방법을 제안한다.

  • PDF

Index Extraction Using Syntactic Morpheme (구문형태소를 이용한 색인어 추출)

  • Hwang, Y.G.;Lee, K.Y.;Kim, N.S.;Lee, Y.S.
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.26-30
    • /
    • 2000
  • 문서를 대표하는 단어를 추출하는 색인어 추출은 정보검색 시스템의 질을 좌우한다. 대부분의 색인어 추출 시스템은 명사를 추출하고 있으며, 가능한 모든 명사를 추출하고 있다. 이러한 방법은 불필요한 단어가 그 문장을 대표하는 색인어로 추출될 가능성이 높으며, 이는 정보 검색 시스템의 효율을 저하시킨다. 이를 해결하기 위해 품사 태깅이나 구문 해석 단계 등을 통해 불필요한 후보를 제거할 수 있지만, 태거를 구축하거나 구문 해석을 위해서는 많은 비용과 시간이 필요하다. 본 논문에서는 구문 형태소 단위의 형태소 해석에 기반한 색인어 추출 방법을 제안한다. 구문 형태소는 통사적/의미적으로 강한 공기 관계를 가지면서 문장에서 하나의 통사적 단위나 자질의 단위로 표현되기 때문에 구문 형태소내에 포함된 단어열들은 대부분 색인어가 될 수 없다. 이러한 방법을 이용하여, 형태소 해석 결과를 이용한 색인어 추출에서 발생하는 색인 오류를 제거함으로써 색인기의 성능을 높이는 방법을 제안한다.

  • PDF

A Study on the Feature Selection for Automatic Document Categorization (자동문헌분류를 위한 대표색인어 추출에 관한 연구)

  • 황재영;이응봉
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2003.08a
    • /
    • pp.55-64
    • /
    • 2003
  • 인터넷 학술정보자원이 급증하고 있는 가운데 자동문헌분류에 대한 관심과 필요성도 늘어가고 있다. 자동문헌분류에 관한 실험은 전처리 단계인 대표색인어 추출과 추출된 대표색인어의 분류성능 평가 실험으로 구분 할 수 있는데, 본 연구에서는 우선 대표색인어 추출을 위해 다양한 대표색인어(자질) 추출 방법에 따른 색인어 성능평가 실험 및 최적의 대표색인어 개수 선정 실험을 수행하였다.

  • PDF

Automatic Classification of Web Documents Using Concept-Based Keyword Information (개념 기반 키워드 정보를 이용한 웹 문서의 자동 분류)

  • 박사준;김기태
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.151-153
    • /
    • 2003
  • 본 연구에서는 웹 문서를 분류하기 위해서 분류하고자 하는 영역(category)에 대한 개념 지식을 이용한다. 먼저, 영역별 개념 지식을 기구축된 웹 문서의 집합으로부터 제목과 하이퍼링크에 기반한 앵커 텍스트를 이용하여 개념을 보유한 키워드를 추출한다. 추출된 키워드를 형태소 분석을 통해 색인어로 추출한다. 추출된 색인어에 대해 TFIDF를 확장한 영역 적용 색인 가중치 TFIDFc를 적용하여 영역별 개념 기반 색인어와 색인를 구축한다. 색인은 TFIDF를 영역별로 확장하여 구축한다. 구축된 영역별 개념 기반 색인을 이용하여 새로운 웹 문서에 대해서 어떤 영역에 해당하는 가를 결정하는 자동 분류 알고리즘을 수행한다. 자동 분류 알고리즘에 의해 수행된 문서는 영역별로 정리되며, 또한, 분류된 웹 문서의 색인어는 새로운 개념 기반 키워드로 추출되어 개념 기반 영역 지식을 구축한다.

  • PDF

Korean Automatic Indexing System Using the PDA (PDA를 이용한 한국어 자동 색인 시스템)

  • Park, Pyeung-Koo;Chung, In-Jeong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.10a
    • /
    • pp.375-378
    • /
    • 2000
  • 인터넷의 급속한 발달로 사용자는 자신의 질의에 적합한 검색결과를 빠르고 정확하게 보장하는 검색도구를 요구하게 되었다. 이러한 사용자의 요구는 검색도구의 성능향상에 필수적인 문서의 내용을 대표하는 색인어를 추출하는 색인 시스템에 대한 관심을 가지게 되었다. 기존의 한국어에서의 자동 색인 방법에는 어절 중심 색인법, 형태소 중심 색인법과 최근에 n-gram 중심 색인법 등이 주류를 이루어 왔다. 그러나 한국어에서 색인어를 추출하는 기존의 방법은 복합명사의 색인과 복잡한 문법적 지식이 필요하고 잘못된 색인어를 추출하는 등의 검색효율에 문제점을 가지고 있다. 본 논문에서는 PDA를 이용한 정형화된 한국어와 영어문장의 자동 색인 방법을 제안한다. 제안하는 방법은 별도의 사전지식이 필요하지 않고 단일 명사와 복합명사의 색인이 가능하며 인터넷으로의 확장과 다양한 언어로 확장성이 좋은 장점 등을 갖는다. 성능 평가로써 한국통신의 KTSET으로 MS사의 IIS를 웹 서버로 ASP를 이용하여 인터넷 환경에서 테스트를 통하여 한국어 뿐 아니라 영어문장의 정형화되고 이용이 간편한 자동색인 결과를 보여준다.

  • PDF

Indexability and Information Quantity Analysis in Title and Abstract (표제(標題)와 초록(抄錄)의 색인성(索引性)과 정보량(情報量) 분석(分析))

  • Kim, Jae-Soo;Nam, Young-Joon
    • Journal of Information Management
    • /
    • v.23 no.2
    • /
    • pp.1-13
    • /
    • 1992
  • This study intends to measure the indexibility and the information quantity in title and abstract. The result of analysis was that when the source was title or abstract, result was not good. But when it was the title and abstract, the result was better.

  • PDF

A Design of Efficient Automatic Indexing based on Dictionary Information (사전 정보에 기반한 효율적인 자동색인기 설계)

  • Jin, Joung-Hwan;Kim, Tae-Wan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.547-550
    • /
    • 2001
  • 웹상에 공유되어진 문서의 내용을 대표하는 색인어 추출은 정보 검색 시스템의 질을 좌우한다. 한국어의 자유로운 복합명사나 띄어쓰기 규약, 사전 미등록 어휘 등으로 색인어 추출시 질의어와 색인어 사이의 형태상의 불일치(Syntactic Term Mismatch)가 발생하여 검색성능을 저하시키는 경우가 많다. 따라서 본 논문에서는 사전을 통한 형태소 해석을 통해 단위명사(Unit Noun)로 색인어를 추출하고 사전 미등륵어는 N-gram 기반 색인 방법을 이용하여 질의어와 색인어 사이의 부분 일치된 문서도 추출될 수 있는 방법을 제안하였으며, 색인어와 질의어 사이의 유사도 계산을 통해 문서의 우선순위를 정함으로써 색인기의 성능을 높이는 방법을 제안한다.

  • PDF

A Study on the Indexing Editorial Cartoons (신문만화 색인에 관한 연구)

  • 이지영;이나니
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1998.08a
    • /
    • pp.215-218
    • /
    • 1998
  • 신문만화는 신문에 실린 기사중 가장 핵심적인 내용을 간략한 그림으로 함축하여 정보를 전달한다. 그러나 만화의 함축성과 비유, 짤막한 텍스트 때문에 객관적인 색인어의 추출이 어려운 것이 사실이다. 본 연구에서는 신문만화에서 키워드를 추출하기 위하여 만화의 내용과 관련이 있는 신문기사에서 색인어를 추출하는 방안에 대해 논하였다. 연구에서는 조선일보에 게재된 한컷만화과 네컷만화를 각 1점씩 예로 들어 비주제색인어와 주제색인어를 부여하였다. 특히 주제색인어는 내용상의 연관성이 있는 신문기사를 선정하여 추출하였다.

  • PDF

Indexing System comparison and analysis (색인어 추출기 비교 및 분석)

  • Choi, Lim Cheon;Park, Soon Cheol
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.429-432
    • /
    • 2007
  • 정보화 시대에 범람하는 정보들 중 원하는 정보를 빠르고 정확하게 검색할 수 있도록 도와주는 정보검색 시스템의 중요성이 대두 되고 있다. 정보 검색 시스템의 한 축을 담당하는 색인어 추출기는 보통 형태소 분석을 통하여 작성이 되지만 색인어 추출만을 위하여선 불필요한 작업들이 있는 것이 사실이다. 그래서 이 논문에서는 미리 정의된 색인어 리스트를 가진 사전을 이용한 색인어 추출 시스템을 제안하고 그에 맞는 데이터 구조들을 분석하여 성능 비교를 하였다.