• 제목/요약/키워드: 구 단위 색인

검색결과 26건 처리시간 0.029초

웹기반 정보검색을 위한 자연어 키워드 색인에 관한 연구 (A Study on Natural Language Keyword Indexing for Web-based Information Retrieval)

  • 윤성희
    • 한국컴퓨터산업학회논문지
    • /
    • 제4권12호
    • /
    • pp.1103-1111
    • /
    • 2003
  • 정보검색의 방법으로 단일 주제어를 키워드로 색인하여 검색하는 방식이 널리 사용되어 왔으나 문서의 내용을 정확히 표현하기 어렵고 검색 결과의 문서 집합 또한 너무 커서 사용자의 만족도가 낮다. 본 논문에서는 자연언어 처리 기술인 구문 분석 모듈을 도입해 단어 이상의 단위인 구 단위를 색인과 검색의 단위로 삼는 구 단위 색인 및 검색 기법을 사용을 제안한다. 웹 문서들 자체가 갖는 다양한 오류들로 인해 현실적으로 충분히 만족할 만할 우수한 성능의 구문 분석 모듈이 구현되기는 어려우므로 상향식 구문 분석 모듈을 구현하여 완전한 구문 분석 결과를 얻지 못하는 많은 문장에 대해서도 구 단위 색인이 가능하며 단일어 색인보다 식별력이 뛰어나 검색 성능이 향상되고 검색 과정의 부하도 줄일수 있다.

  • PDF

한국어 정보검색 시스템을 위한 구 단위 색인 (Phrase-based Indexing for Korean Information Retrieval System)

  • 윤성희
    • 한국산학기술학회논문지
    • /
    • 제5권1호
    • /
    • pp.44-48
    • /
    • 2004
  • 본 논문에서는 자연언어 처리 기술인 구문 분석 모듈을 도입해 단어 이상의 단위인 구 단위를 색인과 검색의 단위로 삼는 구 단위 색인 및 검색 기법의 사용을 제안한다. 초기의 정보검색의 방법으로 단일 주제어를 키워드로 색인하여 검색하는 방식이 널리 사용되어 왔으나 문서의 내용을 정확히 표현하기 어렵고 검색 결과의 문서 집합 또한 너무 커서 사용자의 만족도가 낮다 고도의 문서 처리 측면에서는 웹 문서들 자체가 갖는 다양한 오류들로 인해 현실적으로 충분히 만족할 만할 우수한 성능의 구문 분석 모듈이 구현되기는 어려우므로 상향식 구문 분석 모듈을 구현하여 완전한 구문 분석 결과를 얻지 못하는 많은 문장에 대해서도 가능한 구 단위 색인을 이용하여 검색 정확률과 재현률이 향상되고 검색 과정의 처리 부하도 줄이는 장점을 얻는다.

  • PDF

키팩트 색인텀에 기반한 정보검색 시스템 (An Information Retrieval System Based on Keyfact Index Term)

  • 박의규;나동열;변성찬;정경택;박세영
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.245-251
    • /
    • 2000
  • 지금까지의 정보검색 시스템은 소위 키워드 기반 정보검색 시스템으로서 색인이 단일 단어(single word) 즉 키워드의 집합으로 나타내어 진다. 그러나 이 방법은 문서의 내용을 정확히 표현하는 데 한계가 있다. 따라서 최근에는 단어 이상의 구문 단위인 구(phrase)를 이용하여 색인과 검색을 하도록 하는 시스템을 개발하고자 하는 추세에 있다. 따라서, 본 논문에서는 키워드보다는 의미를 좀더 잘 나타내고 일반적인 구보다는 정형화된 형태의 색인 단위인 키팩트를 색인어로 하는 정보검색시스템을 개발하고 이의 성능을 살펴보았다.

  • PDF

구문분석과 공기정보를 이용한 개념 기반 명사구 색인 방법 (Concept-Based Method for Noun Phrase Indexing Using Syntactic Analysis and Co-occurence Information)

  • 이현아;이종혁;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-7
    • /
    • 1995
  • 한국어에서의 명사구 색인을 위한 기존의 방법들은 주로 간단한 규칙을 이용하여 왔고 그 결과 문장에 존재하는 모든 명사구를 추출하지 못했다. 이를 해결하기 위하여 본 논문에서는 개념 기반 명사구 색인 방법을 제안한다. 하나의 문장은 하나 이상의 개념으로 이루어져 있으므로, 명사구 추출은 개념을 고려하여 이루어져야 바람직하다 문장은 구문적으로 하나 이상의 내포문으로 이루어져 있다. 일반적으로 내포문 단위 내의 용어들이 나타내는 각각의 개념들은 서로 높은 연관성을 가진다. 그러므로 문장이 가지는 개념의 상이성을 내포문의 개념 상이성으로 축소할 수 있다. 문장을 내포문 단위로 분할하기 위하여 의존 문법을 기반한 구문분석과 공기정보를 이용한다. 특히 공기정보는 원거리 의존관계(long distance dependency)를 결정하여 한 내포문에 속함을 밝혀내는 데 도움을 준다. 이러한 내포문 내의 의존관계를 이용하여 명사구를 추출한다.

  • PDF

키팩트 색인텀에 기반한 정보검색 시스템 (An Information Retrieval System Based on Keyfact Index Term)

  • 박의규;나동열;변성찬;정경택;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.245-251
    • /
    • 2000
  • 지금까지의 정보검색 시스템은 소위 키워드 기반 정보검색 시스템으로서 색인이 단일 단어(single word) 즉 키워드의 집합으로 나타내어 진다. 그러나 이 방법은 문서의 내용을 정확히 표현하는 데 한계가 있다. 따라서 최근에는 단어 이상의 구문 단위인 구(phrase)를 이용하여 색인과 검색을 하도록 하는 시스템을 개발하고자 하는 추세에 있다. 따라서, 본 논문에서는 키워드보다는 의미를 좀더 잘 나타내고 일반적인 구보다는 정형화된 형태의 색인 단위인 키팩트를 색인어로 하는 정보검색시스템을 개발하고 이의 성능을 살펴보았다.

  • PDF

한글 문서를 위한 효과적인 색인 방법 (An Effective Indexing Method for Hangul Texts)

  • 이준호;박혁로;박현주;안정수;김명호
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1995년도 제2회 학술대회 논문집
    • /
    • pp.11-14
    • /
    • 1995
  • 기존의 한글 자동 색인 방법들은 어절 단위 색인법과 형태소 단위 색인법으로 분류될 수 있다. 전자는 문서내의 어절에서 색인어의 부분으로서 가치가 없는 음절들을 제거함으로써 색인어를 추출하는 방법으로, 문서에 복합 명사들이 많이 포함되어 있을 경우 검색효과가 저하되는 문제점을 지니고 있다. 후자는 형태소 해석이나 구문 해석을 이용하여 중요한 의미를 갖는 명사나 명사구를 추출하는 방법으로, 단일 명사를 추출함으로써 복합 명사의 띄어 쓰기 문제를 극복할 수 있다. 그러나, 색인 과정에서 요구되는 많은 언어 정보를 개발하고 유지 보수해야 하는 부담을 지니고 있다. 본 논문에서는 기존의 색인 방법들의 문제점들을 완화할 수 있는 새로운 색인 방법을 제안한다. 그리고 실험을 통하여 제안하는 방법의 성능을 평가한다.

  • PDF

한글 문서의 효과적인 검색을 위한 n-gram 기반의 색인 방법 (An n-gram-based Indexing Method for Effective Retrieval of Hangul Texts)

  • 이준호;안정수;박현주;김명호
    • 정보관리학회지
    • /
    • 제13권1호
    • /
    • pp.47-63
    • /
    • 1996
  • 기존의 한글 자동 색인 방법들은 어절 단위 색인법과 형태소 단위 색인법으로 분류될 수 있다. 전자는 문서내의 어절에서 비색인 분절을 절단함으로써 색인어를 추출하는 방법으로, 문서들이 많은 복합 명사들을 포함할 경우 검색 효과가 저하된다. 후자는 형태소 해석이나 구문 해석을 이용하여 중요한 의미를 갖는 명사나 명사구를 추출하는 방법으로 단일 명사를 추출함으로써 복합 명사의 띄어쓰기 문제를 극복할 수 있다. 그러나 색인 과정에서 요구되는 많은 언어 정보를 개발하고 유지 보수해야 하는 부담을 지니고 있다. 본 논문에서는 기존의 색인 방법들의 문제점들을 완화할 수 있는 새로운 색인 방법을 제안한다. 그리고 실험을 통하여 제안하는 방법의 성능을 평가한다.

  • PDF

텍스트 영역에 대한 단어 단위 분할 시스템 (A System for the Decomposition of Text Block into Words)

  • 정창부;곽희규;정선화;김수형
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.293-296
    • /
    • 2000
  • 본 논문에서는 주제어 인식에 기반한 문서영상의 검색 및 색인 시스템에 적용하기 위한 단어 단위 분한 시스템을 제안한다. 제안 시스템은 영상 전처리, 문서 구조 분석을 통해 추출된 텍스트 영역을 입력으로 단어 단위 분할을 수행하는데, 텍스트 영역에 대해 텍스트 라인을 분할하고 분할된 텍스트 라인을 단어 단위로 분할하는 계층적 접근 방법을 사용한다. 텍스트라인 분할은 수평 방향 투영 프로파일을 적용하여 분할 지점을 구한다. 그리고 단어 분할은 연결요소들을 추출한 후 연결요소간의 gap 정보를 구하고, gap 군집화 기법을 사용하여 단어 단위 분한 지점을 구한다. 이때 단어 단위 분할의 성능을 저하시키는 특수기호에 대해서는 휴리스틱 정보를 이용하여 검출한다. 제안 시스템의 성능 평가는 50개의 텍스트 영역에 적용하여 99.83%의 정확도를 얻을 수 있었다.

  • PDF

한국어 정보검색에서 복합명사 색인 실험 (Compound Noun Indexing Experiments in Korean Information Retrieval)

  • 강병주;최기선;윤준태
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.130-136
    • /
    • 1998
  • 한국어 정보검색에서 복합명사의 불규칙한 표기 형태로 인하여 발생하는 색인과 질의의 불일치 문제는 단순명사 단위로 색인하고 질의함으로써 해결할 수 있지만 원래의 복합명사가 가지고 있던 정보를 상실함으로써 정확도의 하락이 예상된다. 따라서 보다 정교한 문서검색을 위해서는 복합명사를 색인으로 사용하는 것이 필요하다. 본 논문에서는 단순한 패턴을 이용한 복합명사 색인 방법으로부터 정교한 명사구 구문분석을 통한 복합명사 색인 방법까지 그 동안 연구되었던 대표적인 복합명사 색인 방법을 실험을 통하여 비교 평가하여 복합명사 색인의 검색성능에 대한 효과성을 검증한다.

  • PDF

한국어 성조 이벤트와 음향적 길이 (Correlation between tonal events and their acoustic duration)

  • 이숙향
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.383-386
    • /
    • 1998
  • 한국어의 운율구조는 발화문장(utterance), 억양구(intonational phrase), 악센트구(accentual phrase), 음운적 어절(phonological word), 음절(syllable) 순의 계층적 구조를 가지고 있다. 본 연구에서는 운율구조의 각 층에서 성조 이벤트가 얹혀지는 음절이나 또는 각 층의 운율단위말의 음절의 음향적 길이를 측정함으로써 첫째, 운율단위말의 음절의 음향적 길이 또한 계층적 순위를 보이는지 둘째, 성조 이벤트(tonal event)와 음향적 길이 사이에 높은 상관관계를 보이는지 보고자 한다. 즉, 두 가지 측면에서 길이비교가 수행되었는데 하나는 언어 보편적 현상으로 알려진 구말 장음화 현상으로써 각 층 운율적 단위의 마지막 음절의 모음 길이 비교이며 다른 하나는 억양구초 고성조가 실현되는 음절의 모음과 어절 내 모음, 그리고 고성조가 실현되는 억양구말 음절의 모음간의 길이 비교이다. 남녀 각각 200문장의 각 분절음과 운율분석을 한 후 길이에 대한 일원분산분석 실시 결과 억양구말은 악센트구말 보다 길었으나 악센트구말은 어절말과 차이를 보이지 않거나 남자 화자의 경우 오히려 짧게 나타났다. 그리고 남자화자의 경우 악센트구초 고성자가 얹혀지는 음절의 길이는 어절 내 어절말 음절을 제외한 그 외 음절과 화자에 따라 큰 차이를 보이지 않거나 그보다 조금 짧게 실현되는 것으로 나타났다. 위의 결과는 첫째, 단위말 음절 모음의 장음화는 운율적 구조의 층위에 일대일 대응을 보이지 않는 것으로 해석되며 둘째, 성조 이벤트와 그것이 실현되는 분절음의 음향적 길이와는 큰 상관관계를 보이지 않는 것으로 해석될 수 있겠다. 그러나 이러한 일반화에 대한 충분한 근거 제공을 위해서는 해당음절의 모음 길이 뿐만 아니라 초성자음의 길이간의 비교와 음절자체의 길이 비교 또한 필요한 것이며 모음길이에 대한 선행자음의 분절음적 영향 고려가 수반되어야 할 것으로 보인다. 다음 내용을 정리해 보고자 한다.리해 보고자 한다.rc$ 구입할 때 중점적으로 살펴보는 사항은 신선도와 순수재래종 여부, 위생상태였다. 한편 소비자가 언제나 구입할 수 없다는 의견이 85.2%나 되어 원활한 공급과 시장조성이 아직 정착되지 않고 있었다. $\bigcirc$ 현재 유통되고 있는 재래종닭은 소비자 대부분이 잡종으로 인식하고 있었으며, 재래종과 일반육계와의 구별은 깃털색, 피부색, 정강이색등 외관상으로 구별하고 있었다. 체중에 대한 반응은 너무 작다는 의견이었고, 식품으로의 인식도는 비교적 고급식품으로 인식하고 있다. $\bigcirc$ 재래종닭고기의 브랜드화에 대한 견해는 젊고 소득이 높은 계층에서 브랜드화의 필요성을 강조하고 있다. $\bigcirc$ 재래종달걀의 소비형태는 대부분의 소비자가 좋아하였으나 아직 먹어보지 못한 응답자가 많았다. 재래종달걀의 맛에 대해서는 고소하고 독특하여 차별성을 느끼고 있었다. $\bigcirc$ 재래종달걀의 구입장소는 계란판매점(축협.농협), 슈퍼, 백화점, 재래닭 사육 농장등 다양하였으며 포장단위는 10개를 가장 선호하였고, 포장재료는 종이, 플라스틱, 짚의 순으로 좋아하였다. $\bigcirc$ 달걀의 가격은 200원정도를 적정하다고 하였으며, 크기는 (평균 52g)는 가장 적당하다고 인식하고 있으며, 난각색은 대부분의 응답자가 갈색을 선호하였다. $\bigcirc$ 재래종달걀의 구입시 애로사항은 믿을수 없고, 구입장소를 몰라서, 값이 싸다 등이었고, 앞으로 신뢰할 수 있고 위생적인 생산 및 유통체계가 확립될 경우 더 많이 소비하겠다는 의견이었다. $\bigcirc$ 재래닭 판매업소(식당)의 판매형태는 66.7%인 대부분의 업소가 잡종과 개량종 유색닭을 판매하고 있었으며, 1개 업소에서 1일 판

  • PDF