• 제목/요약/키워드: lexical search

검색결과 21건 처리시간 0.025초

디지털 도서관 환경에서의 정보 검색을 위한 자연어 문서 및 질의 처리기에 관한 연구 (A Study on Natural Language Document and Query Processor for Information Retrieval in Digital Library)

  • 윤성희
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권12호
    • /
    • pp.1601-1608
    • /
    • 2001
  • 디지털 도서관은 자연어 문서와 멀티미디어 자료에 대한 정보 검색 엔진을 필요로 하는 가장 중요한 데이터베이스 시스템이다. 이 논문은 자연어 처리 기법의 정보 검색 엔진과 브라우저에 대한 설계와 실험 결과를 소개한다. 자연어 문서에 대한 정보 검색 과정은 어휘 분석, 구문 분석, 스테밍, 주제어 색인 등의 계산학적 처리를 포함한다. 많은 이미지와 이미지의 제목, 그리고 자연어로 기술된 설명 문서를 포함하는 실험적인 데이터베이스 ‘Earth and Space Science’를 통해서 자연어 문서 분석에 기반하는 정보 검색 기능을 실험하였다. 또한 디지털 도서관 환경에서의 멀티미디어 정보 검색 내용 기반의 이미지 검색 엔진과 병행하는 정보 검색 시스템으로서의 가능성을 보여준다.

  • PDF

한국 무속어의 주술적 특성과 그 해석 (ON THE INCANTATORY FEATURES OF KOREAN SHAMANIC LANGUAGE)

  • Choong-yon Park
    • 인문언어
    • /
    • 제1권1호
    • /
    • pp.295-321
    • /
    • 2001
  • This paper attempts to demonstrate how the linguistic and mythological features of the shamanic language make it incantatory, or ′enchanting′. Passages used in shamanic rites manifest linguistic characteristics that point to their own norms and conventions, as well as some mythological features that contribute to the undecipherablity of the shamanic language. Focusing on the estranged linguistic and mythological features, I propose that shamanic languages can be best interpreted in terms of the linguistic hierarchization, a notion that has been developed since Roman Jakobson′s poetics. The present study adopts Eisele′s framework that reinterprets Jakobsonian hierarchization into a slightly revised notion on the basis of the "degree of combinatorial freedom" and the "degree of semantic immediacy", looking into a set of paradigm examples in search of some parallel structures characterizing the shamanic language. The enchanting effect of this peculiar form of language, it is argued, is due mostly to the frequent use of lexical parallelism, which works in the reverse direction of the normal process of interpretation.

  • PDF

Analysis of Impact Between Data Analysis Performance and Database

  • Kyoungju Min;Jeongyun Cho;Manho Jung;Hyangbae Lee
    • Journal of information and communication convergence engineering
    • /
    • 제21권3호
    • /
    • pp.244-251
    • /
    • 2023
  • Engineering or humanities data are stored in databases and are often used for search services. While the latest deep-learning technologies, such like BART and BERT, are utilized for data analysis, humanities data still rely on traditional databases. Representative analysis methods include n-gram and lexical statistical extraction. However, when using a database, performance limitation is often imposed on the result calculations. This study presents an experimental process using MariaDB on a PC, which is easily accessible in a laboratory, to analyze the impact of the database on data analysis performance. The findings highlight the fact that the database becomes a bottleneck when analyzing large-scale text data, particularly over hundreds of thousands of records. To address this issue, a method was proposed to provide real-time humanities data analysis web services by leveraging the open source database, with a focus on the Seungjeongwon-Ilgy, one of the largest datasets in the humanities fields.

An Example-Based Engligh Learing Environment for Writing

  • Miyoshi, Yasuo;Ochi, Youji;Okamoto, Ryo;Yano, Yoneo
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2001년도 The Pacific Aisan Confrence On Intelligent Systems 2001
    • /
    • pp.292-297
    • /
    • 2001
  • In writing learning as a second/foreign language, a learner has to acquire not only lexical and syntactical knowledge but also the skills to choose suitable words for content which s/he is interested in. A learning system should extrapolate learner\\`s intention and give example phrases that concern with the content in order to support this on the system. However, a learner cannot always represent a content of his/her desired phrase as inputs to the system. Therefore, the system should be equipped with a diagnosis function for learner\\`s intention. Additionally, a system also should be equipped with an analysis function to score similarity between learner\\`s intention and phrases which is stored in the system on both syntactic and idiomatic level in order to present appropriate example phrases to a learner. In this paper, we propose architecture of an interactive support method for English writing learning which is based an analogical search technique of sample phrases from corpora. Our system can show a candidate of variation/next phrases to write and an analogous sentence that a learner wants to represents from corpora.

  • PDF

한국어 모바일 대화형 에이전트 시스템 (A Korean Mobile Conversational Agent System)

  • 홍금원;이연수;김민정;이승욱;이주영;임해창
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권6호
    • /
    • pp.263-271
    • /
    • 2008
  • 본 논문에서는 한국어 정보처리 기술을 사용한 모바일 환경의 대화형 에이전트 시스템에 대해 논한다. 대화형 에이전트 시스템 구축의 목적은 인간 사용자와 시스템 에이전트간의 자연어 인터페이스를 제공하여 보다 편리한 상호작용을 가능하게 하는 데 있다. 모바일 환경의 대화형 에이전트를 구축하기 위해서는 구어체 발화에 특화된 다양한 언어 처리 및 언어 이해 요소들이 필요하다. 본 시스템은 입력 문장의 오류처리, 형태소 분석 및 품사 태깅, 양태 분석, 논항 인식 및 의미프레임 생성, 그리고 유사 발화 검색 및 응답 생성으로 구성된다. 주어진 사용자 발화에 적절한 응답을 생성하기 위해서 본 시스템은 사용자 발화와 예제 발화 간의 어휘적, 통사/구문적, 의미적 유사도 정보를 활용하여 예제기반 응답 검색을 수행한다.

  • PDF

LOD기반의 재난안전 정보서비스 확장에 관한 연구 (A Study on the Extension of Disaster Safety Information Service based on Linked Open Data)

  • 김태영;강주연;김혜영;김용
    • 한국문헌정보학회지
    • /
    • 제51권3호
    • /
    • pp.163-188
    • /
    • 2017
  • 본 연구는 재난안전정보의 효율적인 관리와 제공을 위해 LOD기반의 재난안전정보 서비스 모형을 제안하는데 그 목적이 있다. 이를 위해 온라인 조사 및 오프라인 인터뷰를 수행하여 재난안전정보 제공 현황을 분석하였으며, 재난안전정보를 6가지 영역으로 구분하였다. 재난안전정보 영역과 함께 도출된 재난안전정보 LOD 구축 시 고려해야 할 사항들을 기반으로 본 연구는 재난안전정보 LOD의 구축 과정을 상세하게 제시하였다. LOD 구축 과정은 한국정보화진흥원에서 발간한 링크드 데이터 구축 공정 가이드를 적용하였다. 특히, 재난안전정보 6가지 영역을 토대로 표준용어집 및 모델링 도구를 활용하여 온톨로지 개념 모델을 정의하였으며, 이를 기반으로 클래스와 속성을 제시하였다. 본 연구 결과를 통해 재난안전정보의 활용성이 극대화될 수 있을 것이라 기대할 수 있다.

의미 기반 정보 검색을 제공하는 멀티미디어 게시판 시스템 (A Multimedia Bulletin Board System Providing Semantic-based Searching)

  • 정의현
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권6호
    • /
    • pp.75-84
    • /
    • 2005
  • 게시판 시스템은 텍스트 외에도 다양한 멀티미디어 데이터를 포함하는 구조로 발전해왔다. 그러나 기존 시스템은 사용자가 게시물의 내용을 파악하기 위해서는 많은 시간과 노력을 들여야 한다는 단점을 갖고 있다. 이런 문제를 해결하기 위해 대부분의 게시판 시스템에서 검색 기능을 제공하지만, 렉시컬 수준의 정보 접근으로 사용자의 의도에 적합한 게시물을 찾는 것은 어려운 일이다. 더욱이 게시물이 멀티미디어를 포함하는 경우에는 검색이 거의 불가능하게 된다. 본 논문에서는 이를 해결하기 위하여 시맨틱 웹을 적용한 새로운 게시판 시스템을 제안한다. 제안된 게시판 시스템은 게시물의 분야와 멀티미디어 속성을 표현할 수 있는 온톨로지를 제공한다. 또한, 사용자들이 제안된 온톨로지로 분야별 게시판 온톨로지를 기술할 수 있도록 설계되었다. 시스템의 수정 없이 다양한 분야별 의미기반 검색을 제공하기 위하여, 관리자가 기술한 게시판 온톨로지를 게시판 시스템에서 도입할 경우 자동으로 입력/검색 인터페이스와 RDF 데이터의 접근 구조가 형성되도록 구현하였다. 제안된 게시판 시스템은 사용자의 의도에 적합한 게시물 검색을 하는 의미기반 검색의 가능성과 유효성을 보여주었다.

  • PDF

의미적 유사성에 기반한 온톨로지 선택 랭킹 모델 (Ontology Selection Ranking Model based on Semantic Similarity Approach)

  • 오선주;안중호;박진수
    • 한국전자거래학회지
    • /
    • 제14권2호
    • /
    • pp.95-116
    • /
    • 2009
  • 지식 재사용 측면에서 기존의 온톨로지를 재사용할 수 있다면 많은 자원을 절약할 수 있을 것이다. 그러나 기존의 온톨로지를 활용하기 위해서는 보다 발전된 온톨로지 검색 기능이 요구된다. 현재까지 이루어진 관련 연구들에서는 주로 렉시컬 매칭기법을 사용하여 온톨로지를 검색하였다. 그러나 의미적 측면에서 문제점이 있으므로 본 연구에서는 관계의 의미적 유사성에 기반한 온톨로지 선택 랭킹 모델을 제안한다. 본 연구는 개념간 계층 구조와 관계를 온톨로지 검색에 이용함으로써 온톨로지의 선택 랭킹을 효과적이며 실질적으로 개선하였다. 또한 실험을 통해 연구 모델의 결과와 선행 연구의 결과, 온톨로지 전문가의 랭킹 결과를 비교 분석하고 연구 모델의 타당성을 검증하였다. 본 연구 결과는 온톨로지 검색 연구를 이론적으로 발전시켰을 뿐 아니라 실무적인 측면에서 실무자들이 온톨로지를 쉽게 찾아 재사용할 수 있도록 한다.

  • PDF

XML 태그를 분류에 따른 가중치 결정 (An XML Tag Indexing Method Using on Lexical Similarity)

  • 정혜진;김용성
    • 정보처리학회논문지B
    • /
    • 제16B권1호
    • /
    • pp.71-78
    • /
    • 2009
  • 보다 효과적인 색인어 추출 및 색인어 가중치 결정을 위하여 문서의 내용뿐 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있는데, 대부분의 연구들이 XML 태그의 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하는게 일반적이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 상식적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 태그 정보를 이용한 자동색인을 위하여, 논문을 구성하는 주요 태그를 중요도에 따라 분류하고, 낮은 태그에서 추출된 용어 가중치를 계산하고, 그 가중치로 높은 가중치의 태그에서 추출된 용어의 가중치를 갱신해 가면서 최종 가중치를 계산하는 방법을 제안한다. 보다 객관적인 가중치 결정을 위하여 사용자가 중요하게 생각하는 태그를 실험해 보고 그에 따라 중요도를 분류하여 가중치 계산에 반영한다. 그리고 기존 태그 중요도 결정 방법을 적용하여 계산된 색인어 가중치를 이용한 검색성능과 비교함으로써 본 논문에서 제안한 방법을 적용하여 계산된 색인어 가중치의 효과를 검증한다.

감정 단어의 의미적 특성을 반영한 한국어 문서 감정분류 시스템 (A Korean Document Sentiment Classification System based on Semantic Properties of Sentiment Words)

  • 황재원;고영중
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권4호
    • /
    • pp.317-322
    • /
    • 2010
  • 본 논문은 감정단어(Sentiment Word)의 의미적 특성을 반영하여 한국어 문서 감정분류 시스템의 성능을 향상시킬 수 있는 방법을 제안한다. 감정단어는 감정을 가지는 단어를 의미하며, 감정단어들의 집합은 감정자질(Sentiment Feature)로써 감정분류를 위한 중요한 어휘 자원이다. 감정자질은 일반적으로 사용될 때와 특정 영역(Domain)에서 사용될 때에 그 감정 정도의 차이를 가진다. 감정자질이 일반적으로 사용될 때 그 감정 정도는 검색 엔진을 통해 얻을 수 있는 스니핏(Snippet)을 통해 추정할 수 있으며, 특정 영역에서 사용될 때의 감정 정도는 실험 말뭉치를 이용하여 추정할 수 있다. 이렇게 추정된 감정자질의 감정 정도 수치를 의미지향성이라고 하며, 문서내의 문장의 감정 강도를 추정하기 위해 이용된다. 문장의 감정 강도가 추정되면 문장 감정 강도를 감정자질의 가중치에 반영하게 된다. 본 논문은 지지 벡터 기계(Support Vector Machine)를 이용하여 일반적, 영역 의존적, 일반적/영역 의존적 의미지향성을 반영한 경우에 대해 성능을 평가한다. 평가 결과, 앞의 3가지 경우에 모두 성능 향상을 얻었으며 일반적/영역 의존적 의미지향성을 반영한 경우, 일반적인 정보 검색에서 사용하는 내용어(Content Word) 기반의 자질을 사용한 경우보다 3.1%의 성능 향상을 얻을 수 있었다.