• Title/Summary/Keyword: 한글 검색

Search Result 504, Processing Time 0.031 seconds

Implementation of Hangul MG System for Fast Hangul Information Retrieval (고속 한글 정보 검색을 위한 한글 MG 시스템 구현)

  • 박미란;나연묵
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.330-332
    • /
    • 1998
  • 정보의 양의 기하급수적인 증가에 따라 저장 용량과 검색 공간의 크기로 인한 문제를 효율적인 압축기법을 사용함으로써 해결하려는 노력이 계속되고 있다. 국내의 경우 한글 처리가 가능한 정보 검색 엔진에 대한 요구가 크게 증가하고 있다. 본 논문에서는 정보 검색 엔진에 고압축 기법을 적용한 MG(Managing Gigabytes) 1.2 시스템과 한글 형태소 분석기 HAM 4.0을 사용하여 고속 한글 정보 검색이 가능한 한글 MG 시스템을 구현하였다. 또한 인터프리터 방식의 질의 처리기를 수정하여 웹에서 한글 문서를 검색하는 한글 MG 테스트베드를 구축하였다.

The development of a document retrieval system using thesaurus and signature file (시소러스 및 요약화일을 이용한 문서 검색시스템)

  • Jeong, Sang-Cheol;Shin, Dong-Wook
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.400-408
    • /
    • 1994
  • 본 논문에서는 요약화일을 이용하여 복합명사를 효율적으로 처리하며 시소러스를 이용하여 검색하는 한글문서 검색시스템을 제안한다. 본 한글문서 검색 시스템은 한글문서를 대상으로 색인하는 자동색인기와 사용자의 질의를 받아 관련된 문서를 검색하는 검색기로 구성된다. 자동색인기는 우선 한글문서를 대상으로 최장일치 방법으로 명사들을 출출한 후 복합명사의 패턴을 분석하여 복합명사의 가능성이 높은 것들을 복합명사화한다. 두번째로 이들 복합명사들을 1+2SP 방식으로 코딩한 후 요약화일 방법을 이용하여 요약화일을 작성한다. 검색기는 사용자 질의어를 받아 명사들을 추출한 후 시소러스를 이용하여 질의어를 확장한다. 다음 확장된 질의어를 1+2SP 방식으로 코딩한 후 관련된 문서를 검색한다. 본 논문에서는 한국통신에서 만든 코퍼스를 이용하여 제안된 방법의 성능을 평가하였는데 복합명사 처리 및 시소러스 이용방식이 효율적임이 입증되었다. 또한 KAIST에서 개발한 문서검색 시스템보다 동일한 코퍼스로 실험하였을 경우 재현률 및 정확률이 $7{\sim}8%$ 정도 앞서 기존의 시스템보다도 성능이 우수하다는 것이 밝혀졌다.

  • PDF

A proposal on the framework of searching patterns for Hangul characters and Its relationship with Hangul code (한글 글자단위 검색 기능 구현에서의 검색 유형 정의 및 한글 부호계와의 연관성에 관한 연구)

  • Lee, Jung-Hwa;Kim, Kyong-Sok
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.282-287
    • /
    • 1994
  • 본 논문에서는 글자 단위를 기본으로 하는 한글 검색 기능을 구현할 때 적용될 수 있는 검색유형 (search pattern) 들은 어떠한 것들이 존재할 수 있는지에 대해 먼저 살펴보고, 검색 알고리즘에 적용시켜 본다. 이 때 부호계와의 연관성과 효율성을 따져보기 위해서 두 바이트 상용조합형, 두 바이트 KS C 5601 완성형, n-바이트 (3 바이트) 부호계, 그리고 국제 표준 한글 부호계의 첫-가-끝 부호계 등 여러가지 부호계를 사용할 때를 서로 비교해 본다. 각 부호계를 사용할 때 알고리즘이 조금씩 바뀌게된다. 그 변형을 살펴보면 그 효율을 측정할 수 있는데, 한글 글자단위 검색 등의 유형의 작업에서는 조합방식의 부호계를 사용하면 더욱 편리하다는 것을 알 수 있다. 이는 단순히 한글 글자단위 검색 기능에서 유리하다고 하기보다는 한글의 특성을 더 잘 반영하고 있다고 할 수 있는 것이다. 또한 조합방식의 부호체계 중에서도 별도의 연산값이 소리마디에서 글자를 분리해 낼 수 있는 부호계 (3-바이트 부호계, 첫-가-끝 부호계) 의 경우는 글자를 기본 단위로 처리하고자 하는 응용 분야에서 더욱 편리하게 사용될 수 있다.

  • PDF

The design and implementation of the search function of hangeul characters in database. (데이터베이스에서 한글 글자 단위 검색 기능 설계 및 구현)

  • Lee, Ho-Jin;Lee, Jung-Hwa
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2007.10a
    • /
    • pp.570-573
    • /
    • 2007
  • In this paper, we can find a new effective way in the search function of hangeul characters by using frequency of data. Also using a new algorithm suggested in this paper, we made the effective search function of hangeul characters in database.

  • PDF

An Extension of Hangul MG System for Web Document Retrival (웹 문서 검색을 위한 한글 MG 시스템의 확장)

  • 김범수;나연묵
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.290-292
    • /
    • 2000
  • 최근 국대 인터넷 발전과 더불어 검색엔진들의 수요가 많아지고 있어 크고 작은 검색엔진들이 많이 개발되고 있다. 기존의 디지털 라이브러리에 사용되고 있는 정보 검색 엔진인 한글 MG 시스템을 웹 문서 검색에 적용하는데는 어려움이 있었다. 본 논문은 한글 MG 시스템을 기반으로 웹 사이트의 내부 문서 검색이 가능한 소형검색엔진으로 확장하는데 필요한 웹 로봇에 의한 문서 수집, 수집된 문서의 가공, 메타 데이터의 데이터베이스와, 단락 대 문서 사상, 문서 검색을 위한 질의 루틴의 수정과 웹 검색 및 시스템 관리 인터페이스에 대한 방안들을 제안하여 확장 시스템을 설계하고 구현하였다.

  • PDF

ETLARS-2: 한글 정보 검색 시스템의 개발에 관한 연구

  • 박계숙;이용준
    • Journal of the Korean Society for information Management
    • /
    • v.5 no.1
    • /
    • pp.79-103
    • /
    • 1988
  • ETLARS- I1 system is a Hangeul information retrieval system, which can operate multiple bibliographic databases and process 2 byte Hangeul data as well as 1 byte English data. This paper describes the design of database structure and the implementation of online retrieval program.

  • PDF

Hangul Document Retrieval Using Character Recognition (문자 인식을 이용한 한글 문서 검색)

  • 안재철;오일석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.544-546
    • /
    • 2001
  • 이 논문은 OCR(Optical Character Reader)로 인식된 한글 문서에서의 오인식 경향을 분석하고, 이를 이용한 한글 단어 검색 방법을 제안한다. OCR로 인식된 많은 야의 한글 문서를 기반으로 자모별 인식 빈도수를 계산하고 이를 바탕으로 초성, 중성, 중성별 인식 혼동 행렬(confusion matrix)을 구성하였다. 또한 인식 정보를 적절히 이용하기 Bayes 정리를 이용하였다. 질의어에 대한 오인식 단어의 검색 방법을 제시하고 혼동 행렬과 이 검색 방법을 바탕으로 OCR 기반 단어 검색 시스템을 구축하였다.

  • PDF

A Mathematical Equation Retrieval System Based on Formula Patterns Expressed in Korean (한글화된 수식 패턴을 이용한 수학식 검색 시스템)

  • Kim, Shin-Il;Yang, Seon;Ko, Young-Joong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06a
    • /
    • pp.233-236
    • /
    • 2011
  • 일반적인 문서에 대한 정보 검색 연구는 활발히 진행되고 있으며, 일상 생활 속에서도 대중화되어 많이 사용되고 있다. 이에 따라 음성, 이미지 검색 등 특정 분야의 검색에 대한 연구도 활발히 진행되고 있지만, 수학식 검색에 대한 연구는 비교적으로 미비한 실정이다. 수학식 검색과 관련된 연구들은 대부분 MathML (Mathematical Markup Language), TeX 등으로 작성된 수학식을 대상으로 진행되었지만, 특정 언어나 별개의 수학 입력 툴들을 이용한 검색 방법은 일반 사용자들이 사용하기에는 쉽지 않다는 단점이 있다. 그래서, 본 논문에서는 일반 문서 검색과 마찬가지로, 수학식을 읽듯이 한글을 입력했을 때 색인어 추출 방법 및 검색 방법에 대해 제안한다. 실험을 위해서 수학 문제집에 나오는 1,432개의 수학식을 한글화 시켰고, 한글화된 결과에 대해 패턴 등을 추출하여 MRR (Mean Reciprocal Rank), $Rel_{EQ}$@N(Relevance evaluation at N)로 평가하였다. 100개의 한글 질의어에 대해 MRR@5로 계산된 수학식 검색 결과가 약 0.6 정도 되는 것을 확인할 수 있었고, 학습 데이터에 포함되지 않은 질의수학식 5개에 대해 $Rel_{EQ}$@5로 계산했을 때 평균 60% 의 정확률을 보였다.

Performance Improvement of Mathematical Formula Retrieval Using Two Different Kinds of Embedding (두 종류의 임베딩을 이용한 수식 검색 성능 개선)

  • Yang, Seon;Kim, Hyemin;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.616-618
    • /
    • 2018
  • 본 연구에서는 한글 질의어를 이용하여 MathML이라는 마크업 언어 형태로 저장된 수식을 검색하는 수식 검색 시스템을 제안하는데, 마크업 형태 자체에 대한 임베딩과 수식을 한글화 한 후의 임베딩이라는 두 가지 서로 다른 임베딩 결과를 이용하여 검색 성능을 향상시키는 것을 목표로 한다. 최근 자연어 처리의 많은 과제에서 임베딩은 거의 필수적으로 사용되고 있는데, 본 실험을 통해 자연어 문서가 아닌 마크업 형태 수식을 대상으로도 임베딩 사용이 성능 개선에 효과가 있음을 확인할 수 있다. 검색 환경을 실제와 유사하게 설정하기 위하여, 본 실험에서 사용하는 데이터에는 실험을 위해 수기로 작성된 수식들 외에도 실제 웹에서 가져온 여러 분야의 수많은 수식들이 포함된다. Indri 시스템을 이용하여 검색 실험을 수행한 결과, 임베딩을 활용하여 수식을 확장한 경우 수식 확장 이전에 비해 MRR 기준 4.8%p의 성능 향상을 확인할 수 있었다.

  • PDF

A Study of the framework of search patterns for Hangul characters and its relationship with Hangout code for Hangout Character based Index (한글 글자 단위 인덱스를 위한 검색 유형 정의 및 한글 부호계와의 연관성에 관한 연구)

  • Lee, Jung-Hwa;Lee, Jong-Min;Kim, Seong-Woo
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2007.06a
    • /
    • pp.327-330
    • /
    • 2007
  • 본 논문에서는 한글 인덱스를 구현할 때 글자 단위를 기본으로 하는 경우 적용될 수 있는 검색유형 (search pattern) 들은 어떠한 것들이 존재할 수 있는지에 대해 살펴보고, 검색 알고리즘에 적용시켜 본다. 이 때 부호계와의 연관성과 효율성을 따져보기 위해서 $KS\;{\times}\;1001$의 두 바이트 조합형과 두 바이트 완성형, 그리고 유니코드 3.0의 조합형 부호계와 완성형 부호계 등 여러가지 부호계를 사용할 때에 대해 기본 검색 알고리즘을 적용해 본다.

  • PDF