• 제목/요약/키워드: 색인어 추출

검색결과 132건 처리시간 0.025초

Construction of the Authority Files Using Automatically Indexed Terms (자동색인어를 이용한 전거파일의 구축)

  • 한영균
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 한국정보관리학회 1994년도 제1회 학술대회 논문집
    • /
    • pp.93-96
    • /
    • 1994
  • 본 연구는 자동색인시스템의 색인기능을 통해서 추출된 색인어를 이용해서 검색시스템에서 요구되는 전거파일을 구축하는 작업의 효용성을 확인하기 위한 시험적 연구의 결과를 정리한 것이다. 언론연구원의 KINDS 서비스 시스템의 신문기사 데이터베이스에서 색인시스템을 통해 추출된 약 80만개의 색인어를 기본자료로 삼아 색인어를 하위분류하고, 그것을 이용한 전거파일 구축의 가능성을 타진해 본 것이다.

  • PDF

A Study of Indexing Methods with weight-value of Web document (가중치를 가지는 웹문서 색인기법에 관한 연구)

  • Kim, Jong-Young;Kim, Cheol-Su
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.2459-2462
    • /
    • 2002
  • 검색된 문헌들에 대한 항해 시간을 줄이기 위해서 검색된 문헌들의 문헌 순위화가 필수적이다. 문헌 순위화를 위해서는 문헌 순위화를 위한 순위화 정보가 필요하다. 본 논문에서는 검색된 문헌들에 대한 순위화를 보다 효율적으로 수행하기 위한 정보를 제공하기 위하여 HTML 문서에 대한 색인 과정에서 다양한 가중치를 가지는 색이어 추출 방법에 관하여 연구하였다. 웹문서들은 태그로 이루어지며 중요한 색인어들은 특정 태그 속에 포함되어 있다는 것에 착안하여 색인어의 중요도에 영향을 줄 수 있는 태그를 선별하고, 선별된 태그들에 대해 휴리스틱 정보를 이용하여 중요도를 부여한 후 선별된 태그에 영향을 받는 문장들에서 추출된 색인어에 대하여 가중치를 부여하는 방법을 이용하였다. 색인어 추출을 형태소 분석기를 이용하였다. 색인어들이 다양한 가중치를 가지므로 검색 과정에서 검색된 문헌들에 대하여 효율적인 순위화가 가능하여 관련 문헌을 보다 빠르게 찾을 수 있는 환경을 제공할 수 있다.

  • PDF

A Feature Selection Technique for an Efficient Document Automatic Classification (효율적인 문서 자동 분류를 위한 대표 색인어 추출 기법)

  • 김지숙;문현정;김영지;우용태
    • Proceedings of the Korea Database Society Conference
    • /
    • 한국데이타베이스학회 2001년도 춘계 Conference: CRM과 DB응용 기술을 통한 e-Business혁신
    • /
    • pp.295-302
    • /
    • 2001
  • 최근 대량의 텍스트 문서로부터 의미 있는 패턴이나 연관 규칙을 발견하기 위한 텍스트마이닝 기법에 대한 연구가 활발히 전개되고 있다. 하지만 비정형 텍스트 문서로부터 추출된 용어의 수는 불규칙적이고 일반적인 용어가 많이 추출되는 관계로 기존의 연관 규칙 탐사 방법을 사용하게 되면 무의미한 연관 규칙이 대량으로 생성되어 지식 정보를 효과적으로 검색하기 어렵다. 본 논문에서는 연관 규칙 탐사 기법을 이용하여 비감독학습 기법에 의해 대량의 문서를 효율적으로 분류하기 위한 대표 색인어 추출 기법을 제안하였다. 컴퓨터 분야의 논문을 대상으로 각 분야별 대표 색인어를 추출하여 유사한 문서끼리 분류하는 실험을 통해 제안된 방법의 효율성을 보였다.

  • PDF

Indexability and Information Quantity Analysis in Title and Abstract (표제(標題)와 초록(抄錄)의 색인성(索引性)과 정보량(情報量) 분석(分析))

  • Kim, Jae-Soo;Nam, Young-Joon
    • Journal of Information Management
    • /
    • 제23권2호
    • /
    • pp.1-13
    • /
    • 1992
  • This study intends to measure the indexibility and the information quantity in title and abstract. The result of analysis was that when the source was title or abstract, result was not good. But when it was the title and abstract, the result was better.

  • PDF

구문해석을 이용한 색인어 자동 주출 시스템

  • Han, Seong-Hyeon;Park, Hyeok-Ro;Choe, Gi-Seon;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 1990년도 제2회 한글 및 한국어정보처리 학술대회
    • /
    • pp.16-23
    • /
    • 1990
  • 본 논문에서는 자동 색인 시스템 구현에 있어서 형태소 해석뿐만 아니라 구문해석을 응용하면 통계적 방법이나, 간단한 단서에 의한 색인어 추출보다 훨씬 나은 색인어 추출이 가능하다는 것을 보이고 한국어 필수적이 색인어로써 충분한 자질이 있다는 제안을 한다. 또 시스템의 전체적인 흐름과 필수격 처리 과정, 예외적인 자유격의 처리 등에 대한 부분을 설명하고, 결론에서는 사람이 추출한 색인어와 본 시스템의 결과를 비교, 분석한다.

  • PDF

A Korean Morphological Analyzer CBKMA and A Index Word Extractor CBKMA/IX (한국어 형태소 분석기 CBKMA와 색인어 추출기 CBKMA/IX)

  • Kim, Nam-Churl;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.50-59
    • /
    • 1999
  • 본 논문은 한국어 형태소 분석기 CBKMA와 이 CBKMA를 이용한 색인어 추출기 CBKMA/IX를 소개하고, 각각의 특징들에 대해서 설명한다. CBKMA는 음절 정보를 이용하는 분석 알고리즘과, 효율적인 사전구성을 이용한 형태소 분석기로서, 과다한 분석 후보의 생성을 줄임으로써 처리 속도를 향상시켰다. 수행시 필요로 하는 컴퓨터 자원은 Main Memory 약 4Mb정도로, 작은 규모의 시스템에서도 수행이 가능한 특징을 갖는다. CBKMA/IX는 CBKMA의 형태소 분석 기능을 이용하는 색인어 자동 추출기로서, 처리 속도 향상을 위하여 대분류 수준의 품사 태그만을 이용한다. 또한 CBKMA의 분석 기능에 색인어 추출을 위해 불용어 사전, 사용자 키워드 사전 처리 부분과, 복합명사와 미등록어 분석 부분 및 한자어, 일본어 등에 대한 처리를 강화시켰다. 특히 비소설류 자료의 분석시 좋은 성능을 발휘한다.

  • PDF

Study on the Vocabulary Synthesis for Index Term Selection (색인어 선정을 위한 어휘결집력에 관한 연구)

  • Kim, Chul;Jeong, Jun-Min
    • Journal of the Korean Society for information Management
    • /
    • 제13권1호
    • /
    • pp.205-226
    • /
    • 1996
  • Under the hypothesis that any pair of terms in the sentence is meaningful to present the context of the paper, the Brillouin measure of term relatedness in automatic indexing is proposed. For the experiment, the pair of terms simul-taneously appeared in two or more sentences of the paper are extracted from the title and abstract of the paper. Com-pared with the list of index terms or subject headings suggested by the author, the terms in term relatedness graph are highly matched with the terms in the list. Especially, it is revealed that the rank of terms by synthetic strength is use-ful in the selection of index terms.

  • PDF

The eight decision which it follows in XML tag classification (XML 태그 분류에 따른 가중치 결정)

  • Jeong, Hye-Jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.703-706
    • /
    • 2007
  • 보다 효과적인 색인어 추출 및 색인어 가중치 결정을 위하여 문서의 내용뿐 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있는데, 대부분의 연구들이 XML 태그의 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하는게 일반적이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 상식적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 태그 정보를 이용한 자동색인을 위하여, 논문을 구성하는 주요 태그를 중요도에 따라 분류하고, 낮은 태그에서 추출된 용어 가중치를 계산하고, 그 가중치로 높은 가중치의 태그에서 추출된 용어의 가중치를 갱신해 가면서 최종 가중치를 계산하는 방법을 제안한다. 보다 객관적인 가중치 결정을 위하여 사용자가 중요하게 생각하는 태그를 실험해 보고 그에 따라 중요도를 분류하여 가중치 계산에 반영한다. 그리고 기존 태그 중요도 결정 방법을 적용하여 계산된 색인어 가중치를 이용한 검색성능과 비교함으로써 본 논문에서 제안한 방법을 적용하여 계산된 색인어 가중치의 효과를 검증한다.

A Study on the Extraction and Utilization of Index from Bibliographic MARC Database (서지마크 데이터베이스로부터의 색인어 추출과 색인어의 검색 활용에 관한 연구 - 경북대학교 도서관 학술정보시스템 사례를 중심으로 -)

  • Park Mi-Sung
    • Journal of Korean Library and Information Science Society
    • /
    • 제36권2호
    • /
    • pp.327-348
    • /
    • 2005
  • The purpose of this study is to emphasize the importance of index definition and to prepare the basis of optimal index in bibliographic retrieval system. For the purpose, this research studied a index extraction theory on index tag definition and index normalization from the bibliographic marc database and analyzed a retrieval utilization rate of extracted index. In this experiment, we divided index between text-type and code-type about the generated 29,219,853 indexes from 2,200,488 bibliographic records and analyzed utilization rate by the comparison of index-type and index term of web logs. According to the result, the text-type indexes such as title, author, publication, subject are showed high utilization rate while the code-type indexes were showed low utilization rate. So this study suggests that the unused index is removed from index definition to optimize index.

  • PDF

An Experimental Approach of Keyword Extraction in Korean-Chinese Text (국한문 혼용 텍스트 색인어 추출기법 연구 『시사총보』를 중심으로)

  • Jeong, Yoo Kyung;Ban, Jae-yu
    • Journal of the Korean Society for information Management
    • /
    • 제36권4호
    • /
    • pp.7-19
    • /
    • 2019
  • The aim of this study is to develop a technique for keyword extraction in Korean-Chinese text in the modern period. We considered a Korean morphological analyzer and a particle in classical Chinese as a possible method for this study. We applied our method to the journal "Sisachongbo," employing proper-noun dictionaries and a list of stop words to extract index terms. The results show that our system achieved better performance than a Chinese morphological analyzer in terms of recall and precision. This study is the first research to develop an automatic indexing system in the traditional Korean-Chinese mixed text.