• 제목/요약/키워드: 색인어 정규화

검색결과 7건 처리시간 0.019초

색인어 정규화 및 응답 필터링을 이용한 검색기반 채팅 모델 (Retrieval-based Chat Model using Index-Term Normalization and Answer Filtering)

  • 이현구;김민경;김진태;김학수;이연수;최맹식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.197-200
    • /
    • 2017
  • 채팅 모델은 인간과 컴퓨터가 신변잡기 대화를 나눌 수 있게 해주는 시스템으로 빠른 속도로 발전하는 인공지능 음성언어 비서 시스템에 필수적으로 사용되는 기술이다. 본 논문에서는 검색기반 채팅 모델에서 발생하는 검색 효율 문제와 정확하지 못한 답변을 출력하는 문제를 해결하기 위해 색인어 정규화와 응답 필터링이 적용된 검색기반 채팅 모델을 제안한다. 색인어 정규화를 통해 99.3%의 색인 커버리지를 확보하였으며 필터링 모델을 통해 기존 검색 모델에서보다 향상된 사용자 만족도를 얻었다.

  • PDF

색인어 정규화 및 응답 필터링을 이용한 검색기반 채팅 모델 (Retrieval-based Chat Model using Index-Term Normalization and Answer Filtering)

  • 이현구;김민경;김진태;김학수;이연수;최맹식
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.197-200
    • /
    • 2017
  • 채팅 모델은 인간과 컴퓨터가 신변잡기 대화를 나눌 수 있게 해주는 시스템으로 빠른 속도로 발전하는 인공지능 음성언어 비서 시스템에 필수적으로 사용되는 기술이다. 본 논문에서는 검색기반 채팅 모델에서 발생하는 검색 효율 문제와 정확하지 못한 답변을 출력하는 문제를 해결하기 위해 색인어 정규화와 응답 필터링이 적용된 검색기반 채팅 모델을 제안한다. 색인어 정규화를 통해 99.3%의 색인 커버리지를 확보하였으며 필터링 모델을 통해 기존 검색 모델에서보다 향상된 사용자 만족도를 얻었다.

  • PDF

서지마크 데이터베이스로부터의 색인어 추출과 색인어의 검색 활용에 관한 연구 - 경북대학교 도서관 학술정보시스템 사례를 중심으로 - (A Study on the Extraction and Utilization of Index from Bibliographic MARC Database)

  • 박미성
    • 한국도서관정보학회지
    • /
    • 제36권2호
    • /
    • pp.327-348
    • /
    • 2005
  • 본 연구의 목적은 서지정보검색시스템의 색인 정의의 중요성을 강조하고 최적 색인의 기초 자료를 마련하기 위함이다. 이를 위해 서지마크 데이터베이스로부터 색인 태그 정의 및 정규화를 통한 색인어추출이론에 대해 고찰하고, 이론에 따라 생성된 색인어의 검색 활용도를 분석하였다. 실험은 서지 2,200,488건에서 생성된 색인어 29,219,853건을 텍스트형 색인과 코드형 색인으로 나누어 이용자 왱 검색 로그에 나타난 색인 항목과 비교하여 어떤 색인 정의가 얼마나 활용되는가를 분석하였다. 결과에 따르면 서명, 저자, 출판사, 주제와 같은 텍스트형 색인어는 높은 검색 활용도를 보인 반면에 코드형 색인어는 검색 활용도가 낮아 검색에 활용되지 않는 불필요한 색인 정의들은 과감하게 제거하여 색인 정의를 최적화해야 함을 제안하였다.

  • PDF

한국어 정보 검색에서 의미적 용어 불일치 완화 방안 (Alleviating Semantic Term Mismatches in Korean Information Retrieval)

  • 윤보현;박성진;강현규
    • 한국정보처리학회논문지
    • /
    • 제7권12호
    • /
    • pp.3874-3884
    • /
    • 2000
  • 정보검색시스템은 색인어와 질의어가 정확히 일치하지 않더라도 사용자 질의에 적합한 문서를 검색할 수 있어야 한다. 그러나, 색인어와 질의어간의 용어 불일치는 검색성능의 개선에 심각한 장애요소로 작용해 왔다. 따라서, 본 논문에서는 문서 코퍼스의 단어들간에 자동 용어 정규화를 수행하고, 용어 정규화의 산물을 한국어 정보검색 시스템에 적용하는 방안을 제시한다. 용어 불일치를 완화하기 위해 두가지 용어 정규화, 동치부류와 공기단어 클러스터를 수행한다. 첫째, 음역어, 절차오류, 그리고 동의어를 위해 문맥 유사도를 이용하여 동치부류로 구축하는 작업이다. 둘째, 상호정보와 단어 문맥의 조합을 이용하여 단어 유사도를 계산하고 문맥 기반 용어를 정규화한다. 그런 다음, K-means 알고리즘을 이용하여 자율 클러스터링을 수행하고 공기단어 클러스터를 구축한다. 본 논문에서는 이러한 용어 정규화의 산물들을 용어 불일치를 완화하기 위해 질의어 확장과정에서 사용한다. 다시 말해서 동치부류와 공기단어 클러스터는 새로운 용어로 질의를 확장하는 자원으로서 사용된다. 이러한 질의확장으로 사용자는 질의어에 음역어를 추가하여 질의어를 포괄적으로 만들거나 특정어를 추가하여 질의어를 세밀하게 만들 수 있다. 질의어 확장을 위해 두 가지 상호보완적인 방법인 용어 제시와 용어 적합성 피드백을 이용한다. 실험 결과는 제안된 시스템이 의미적 용어 불일치를 완화할 수 있고, 적절한 유사도 값을 제공할 수 있음을 보여준다. 결과적으로 제안한 시스템이 정보 검색 시스템의 검색 효율을 향상시킬 수 있음을 알 수 있다.

  • PDF

한국어정보검색에서 구문적 용어불일치 완화방안 (Alleviating Syntactic Term Mismatches in Korean Information Retrieval)

  • 윤보현;김상범;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.143-149
    • /
    • 1998
  • 한국어 정보검색에서 복합명사와 명사구로 발생하는 색인어와 질의어간의 구문적 용어 불일치는 많은 문제를 일으켜왔다. 본 논문에서는 복합명사 분해와 명사구 정규화를 함께 수행하여 유사도 측정값을 적당히 유지함으로써 재현율을 저하시키지 않고서 정확률을 향상시킬 수 있는 구문적 용어불일치 완화방안을 제시하고자 한다 색인모듈에서는 통계정보를 이용하여 복합명사를 분해하고, 의존관계를 이용하여 명사구를 정규화한다. 분해되고 정규화된 키워드에 경계정보 '/'가 할당되고, 가중치가 계산된다. 검색모듈에서는 경계정보를 이용하여 부분일치를 고려하는 유사도 계산을 수행한다. KTSET 2.0으로 실험한 결과, 제안한 방법은 구문적 용어불일치를 완화할 수 있으며, 재현율을 저하시키지 않고서 정확률을 향상시킬 수 있음을 보인다.

  • PDF

색인어 가중치 부여 방법에 따른 K-Means 문서 클러스터링의 LSI 분석 (Latent Semantic Indexing Analysis of K-Means Document Clustering for Changing Index Terms Weighting)

  • 오형진;고지현;안동언;박순철
    • 정보처리학회논문지B
    • /
    • 제10B권7호
    • /
    • pp.735-742
    • /
    • 2003
  • 정보검색 시스템에서 문서 클러스터링 기술은 사용자 질의에 대해 검색된 문서들을 문서간의 유사도를 기반으로 특정 주제에 따라 재배치하여 놓는 기술로써 사용자에게 검색의 편의성을 제공하고, 그 결과들을 시각적으로 보여줄 수 있다. 본 논문에서는 K-Means 알고리즘을 사용하여 문서를 클러스터링하며 문서를 대표하는 색인어에 가중치를 부여하는 기법에 대하여 논한다. 클러스터링 결과를 시각적으로 보여주기 위하여 문서와 클러스터 중심들을 2차원 공간으로 사상하기 위한 Latent Semantic Indexing 접근 방법을 적용하였다. 실험 결과 문서의 색인어에 대한 가중치 부여 방법을 동일하게 하거나 또는 유사한 수식을 적용한 사례보다는 로컬가중치, 글로벌가중치, 정규화 요소를 모두 부여한 사례에서 문서들이 2차원 벡터 공간에서 군집하여 분포하는 클러스터링 효과가 우수하였다. 특히 로컬 가중치와 글로벌 가중치에 logarithm을 적용하였을 때 문서 분포의 군집도는 현저하게 나타남을 알 수 있었다.

계몽기·근대시조 DB의 개선 및 콘텐츠화 방안 연구 (A study on the improving and constructing the content for the Sijo database in the Period of Modern Enlightenment)

  • 장정수
    • 한국시조학회지:시조학논총
    • /
    • 제44권
    • /
    • pp.105-138
    • /
    • 2016
  • 최근 검색 기능을 갖춘 "계몽기 근대시조의 XML 데이터베이스 문서화"라는 자료가 기초학문자료센터(http://www.krm.or.kr)를 통해 제공되고 있어 근대시조의 문화콘텐츠화를 진행할 수 있는 기반이 마련되었다. 이에 본고에서는 계몽기 근대시조 DB의 특성 및 문제점을 검토해 보고 개선 방향을 탐색함으로써 이 자료의 콘텐츠화 방안을 모색해 보았다. 계몽기 근대시조 DB는 12,500여 수에 이르는 방대한 양의 근대시조를 한자리에서 일별할 수 있도록 집성해 놓았다는 점과 문헌 및 작가명 작품명 검색, 원문 검색, 시기별 검색 등의 검색 기능을 갖춘 최초의 시조 DB라는 점에서 의의를 지닌다. 그러나 이 DB는 현대어 정규화 텍스트가 형성되지 않아 제목이나 원문이 고어나 한자로 표기되어 있는 경우 검색이 되지 않으며, 1945년 이후에 발표된 작품과 개인 시조집에 수록된 작품이 대거 누락되어 있어 계몽기 근대시조의 총체적 모습을 확인하는 데에 한계가 있다는 문제점을 지니고 있다. 또한 작자 표시가 실명, 호, 필명 등으로 다양하게 표기되어 있어 작가별 자료 추출에 불편함이 따르는 문제가 있다. 이러한 문제점을 해결하고 DB 활용을 제고(提高)하는 방안으로 본고에서는 현대어 정규화 텍스트 마련, 작품 별 내용소(內容素) 색인어 부여, 고시조 DB와의 통합, 작품 형식에 대한 정보 제공 등을 제시하였다. 나아가 '시조문화정보시스템'의 성격을 갖춘 복합적인 성격의 계몽기 근대시조 DB가 형성된다면 이를 연구 및 교육콘텐츠로 활용할 수 있음을 피력하였다. 그 구체적인 방안으로는 근대사 학습 및 근대기 국토 인식 등에 대한 보조 자료, 고유의 동식물 캐릭터 학습 및 상업적 캐릭터 생성을 위한 원천 자료, 시조놀이 등의 시조학습 도구로 활용할 수 있음을 제안하였다.

  • PDF