• Title/Summary/Keyword: 한국어 정보 검색

Search Result 523, Processing Time 0.025 seconds

A Personalized Meta-Search System based on Korean Sentence Pattern (한국어 문장 패턴 기반 개인형 메타 검색 시스템)

  • 이덕남;정혜경;박기선;이용석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.498-500
    • /
    • 2003
  • 인터넷의 급속한 팽창으로 인해 가을 정보의 양이 폭발적으로 증가하고 있다. 웹 사용자에게 이용 가치가 없는 정보 범람(information overflow)안이 발생한다면 효율적인 정보검색이 되지 못하므로 사용자가 원하는 정보만을 얻을 수 있다면 시간과 미숙한 정보의 검색을 방지 할 수 있다. 본 논문에서는 한국어 질의 생성과 관련하여 웹 사용자의 편의성과 효율성을 고려한 한국어 질의 처리 방법론과 개인형 메타 검색 모델을 제안하고자 한다. 한국어 질의를 기본으로 하여 한국어 문장 패턴 및 개인 정보 평가 구성 요소를 이용한 방법론과 모델을 제안하고자 한다.

  • PDF

Noun Extraction System in Information retrieval System of "Mirine" (미리내 검색시스템의 명사추출 시스템)

  • Kim, Young-Kwan;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.89-91
    • /
    • 1999
  • 이 논문은 한국어 정보검색 시스템 "미리내"의 내부 모듈인 색인어 추출 시스템의 성능 평가에 관한 내용이다. 성능 평가를 위해서 99년 ETRI에서 실시한 "형태소분석기 및 태거 비교 분석대회(MATEC99)"의 시험어절을 사용하였다. 정보검색 시스템 "미리내"는 한국어 정보검색을 위해 부산대학교에서 개발한 시스템이다. 한국어 형태소분석 및 태거 대회(MATEC99)를 위해 미리내 검색엔진의 색인어 추출 모듈을 일부 수정하여 명사를 추출하였다. 명사추출기이든 형태소분석기이든 응용프로그램의 특성에 맞춰져서 동작한다. 정보검색의 하위 모듈인 색인어 추출 시스템은 정보검색을 위해 변형된 결과를 출력하므로 성능 비교를 위해 일부 모듈의 수정이 불가피하였다. ETRI에서 실시한 MATEC99는 지금까지 객관적인 평가 기준이 없었던 한국어 형태소분석기, 태거, 명사추출기의 표준화에 중요한 역할을 하였다.

  • PDF

Query Translation and Query Expansion Method in Korean-to-English Cross-Language Information Retreival (한영 교차언어 정보검색에서 질의 변환 및 질의 확장 방법)

  • Kim, Baeg-Il;Seo, Hee-Cheol;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.235-242
    • /
    • 2002
  • 본 논문은 한영 교차언어 정보검색을 위한 질의 변환 방법과 질의 확장에 대해서 기술하고 있다. 한영 교차언어 정보 검색은 한국어 질의와 관련된 영어 문서를 검색하는 것을 말하며, 한국어 질의를 영어 질의로 변환하는 방법을 사용했다. 이를 위해 한국어 단어들에 대한 영어 대역어들의 공기 정보를 이용하며, 공기 정보로는 상호 정보를 사용했다. 또한 한국어와 영어의 연어 사전을 사용하여 성능을 향상시켰다. 추가적인 검색 성능 향상을 위한 방법으로, 기존 연구에서 많이 사용된 적합성 피드백에 의한 지역적 질의 확장 대신, 영어 워드넷을 확장하여 구축한 한영 이중언어 시소러스를 사용하여 질의 확장을 하는 전역적 질의 확장을 시도하였다. 실험결과, 정확률의 향상보다는 재현율의 향상 정도가 더 컸으며, 긴 질의보다 짧은 질의를 확장한 경우가 성능이 높았다.

  • PDF

Development of the Data Collection (KTSET) for Korean Information Retrieval Studies (한국어 정보검색연구를 위한 시험용 데이터 모음 (KTSET) 개발)

  • Kim, Jai-Gun;Kim, Young-Whan;Kim, Sung-Hyuk
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.378-385
    • /
    • 1994
  • 정보검색분야의 여러 기술들을 연구하고 이 결과들을 실험 평가하기 위해서는 모든 연구자들이 공동으로 사용할 수 있는 시험용 데이터 모음(Test Data Collection)이 필요하다. 외국에서는 이미 오래전부터 각 분야별 시험용 데이터 모음들을 준비하여 검색시스팀의 개발 및 객관적인 성능평가에 이용하여 왔는데 국내에서는 아직까지 이러한 시험용 데이터 모음이 개발되지 못한 실정이다. 본 연구는 한국어 정보검색 기술연구 활성화에 기여하기 위하여 한국어정보검색 기술 연구결과의 성능평가에 공동으로 활용할 수 있는 국내 최초의 시험용 데이터 모음인 KTSET을 개발하였다. KTSET은 정보과학회와 정보관리학회지의 논문지 및 학술대회 논문집으로부터 추출된 1,053개의 논문과 이를 검색대상으로 한 50개의 자연어질의어로 구성되었으며 대상문서들과 질의어 각각에 대한 색인결과와 질의어와 대상문서들간의 적합도 정보를 제공한다.

  • PDF

The State of the Art in Internet Information Retrieval System (한글 인터넷 정보검색 시스템의 기술방향)

  • Lee, Soo-Hyun;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.59-62
    • /
    • 1996
  • 빠르고 다양하게 늘어나는 정보 더미 속에서 사용자가 원하는 정보를 쉽고 정확하게 찾아주는 방법이 바로 정보 검색이다. 최근에는 인터넷을 이용하여 세계 각처에 흩어져 있는 데이터를 찾거나 웹 홈 폐이지를 찾아 주는 인터넷 정보 검색 프로그램들이 각광을 받고 있다. 본 논문에서는 현재 국내외에서 상용되고 있는 인터넷 정보검색 시스템의 검색 방법에 따른 특성을 살펴보고 국내에서 개발된 한국어 정보검색 시스템과 외국에서 개발된 정보검색 시스템과의 기능을 비교함으로써, 한국어 정보검색 시스템의 처리 항목을 제시한다.

  • PDF

Relevance Feedback Experiments for Korean Information Retrieval Systems (한국어 정보검색 시스템을 위한 다양한 적합성 피드백 방법의 실험)

  • Park, Su-Hyeon;Gwon, Hyeok-Cheol
    • Journal of KIISE:Software and Applications
    • /
    • v.26 no.5
    • /
    • pp.682-691
    • /
    • 1999
  • 정보검색 시스템의 검색 효율 향상을 위해서 다양한 적합성 피드백 방법이 개발되었다. 그러나 한국어 정보검색 시스템을 위한 적합성 피드백에 대한 연구는 거의 이루어지지 않은 실정이다. 이 논문에서는 기존에 개발된 적합성 피드백 방법을 한국어 정보 시스템에 적용하여 검색 효율을 비교하고, 새로운 적합성 피드백 방법을 개발 적용하여 기존의 방법들과 검색 효율을 비교분석하였다. 적합성 피드백은 원질의문을 확장할 단어 선택과 선택된 단어 가중치 부여로 이루어진다. 원질의문이 입력되면 검색된 적합문서에서 원질의문을 단어와 밀접한 관계가 있는 단어를 선택하기 위하여 가중치를 부가한후, 원질의문에 추가하여 질의문을 확장한다. 이 논문에서는 원질의문 확장을 위한 단어 선택과 단어 가중치 부여를 위해 3가지 값을 사용한다. 첫째, TF는 적합문서 내의 단어 빈도의 총합이다. 둘째, idf는 해당 문서집단의 역문헌빈도이다. 셋째, r/R은 검색된 적합문서 중에서 해당단어가 있는 적합문서의 비율을 나타낸다. TF와 idf는 정보검색 시스템에서 일반적으로 사용되고있는 값이고 r/R은 이 논문에서 제안한 새로운 값이다.

Natural language based Information Retrieval System considering the focus of the question (의문의 초점을 고려한 자연어 기반의 정보검색 시스템)

  • Park, Hong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.37-43
    • /
    • 1997
  • 본 논문에서는 기존의 키워드 검색 시스템의 불편함과 비효율성을 지적하고 이를 극복하기 위해 한국어 의문문 자체를 질의어로 채택하여 정보를 검색하는 자연어 기반의 정보검색 시스템을 제안하였다. 본 시스템은 주격 주제어와 서술격 주제어는 물론 의문의 초점과 초점 관련 어구에 대해서도 질의어 분석단계에서 분석하여 검색자의 요구에 부응하는 응답문 검색이 가능하도록 설계하였다. 본 논문에서는 의문문 질의 시스템에 적합하도록 의문사를 5형태로 분류하고 실제 한국어 문장에서 이들 각각에 대한 처리를 규칙화시켜 질의어의 체계적인 분석을 시도하였다. 한편, 후보 문장 검색을 위한 색인어로 사용되는 주격 주제어와 서술격 주제어를 정해진 규칙을 통해 추출함으로써 체계적이고 정확도 높은 질의어 분석이 이루어지도록 했다. 뿐만 아니라 의문의 초점과 초점 관련 어구또한 정해진 규칙을 통해 분석 추출함으로써 응답문 검색의 정확성을 높였다.

  • PDF

A Study on Korean Query Generation for Meta Retrieval (메타 검색을 위한 한국어 질의 생성에 관한 연구)

  • Lee, Deok-Nam;Lee, Yong-Seok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.687-690
    • /
    • 2005
  • 인터넷의 급속한 팽창으로 인해 가용 정보의 양이 폭발적으로 증가하고 있으나 이에 대응되는 효과적이고 효율적인 정보 검색 능력의 지원이 없다면 방대한 가용 정보들은 정보 사용자들에게 있어 이용 될 가치가 없으며 이는 곧 정보 범람(information overflow)으로 이어진다. 본 논문에서는 이에 대한 해결 방안으로써 한국어 표준 문형의 패턴을 기술하고 한국어 문장 구조(Korean Syntax Structure) 파악을 통한 메타 검색 시스템 설계를 제안한다.

  • PDF

Construction of Korean symptom articulation data using rule-based data augmentation technique (규칙기반 데이터 증강기법을 활용한 한국어 증상발화 데이터 구축)

  • Seong-Won Jeon;Dong-Jun Lee;Dong-Ho Lee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.360-362
    • /
    • 2023
  • 건강정보 검색 요구가 증가하면서 다양한 건강정보 검색 서비스가 제공되고 있다. 하지만 최근의 건강정보 검색 서비스는 정형화 된 전문적인 의료정보와 그 해석을 제공하기 때문에 사용자는 이러한 정보를 스스로 이해하여 원하는 건강정보를 검색해야 한다. 사용자의 검색 피로를 줄이고 원하는 정보를 정확하게 얻을 수 있는 건강정보 검색 시스템 개발을 위하여 사용자의 비의료적 표현인 한국어 증상발화 데이터 구축이 선행되어야 한다. 이러한 데이터 구축은 많은 시간과 비용이 필요하기 때문에 이를 줄이기 위한 규칙기반 데이터 증강기법을 제시하고, 이를 활용하여 한국어 증상발화 데이터를 증강하였다. 증강된 데이터의 유효성을 보이기 위하여 KoBERT 기반의 증상분류 실험을 진행하였으며, 증강된 데이터가 그 전의 데이터보다 F1 스코어가 더 높음을 확인할 수 있었다.

Semantic analysis of Korean for web-search interface (인터넷 정보검색 인터페이스를 위한 한국어 의미분석)

  • Kwon, Hye-Jin;Rho, Hyun-Cheol;Lee, Geun-Bae;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.189-195
    • /
    • 1996
  • 본 논문에서는 자연어를 통한 웹 정보검색 모델을 제시하고, 이를 위한 한국어 처리 방법을 소개한다. 자연어 질의에 대해 범주 문법에 기반한 구문 중심의 의미 파싱을 통해 QLF(quasi logical form)을 생성하며, 의미의 선택 제약 방법을 통해 모호성을 제거한다. QLF의 담화 처리를 통해 session 기반의 웹 검색을 실현할 수 있는 방법을 제안한다.

  • PDF