• Title/Summary/Keyword: syntactic

Search Result 717, Processing Time 0.027 seconds

A Design of Efficient Automatic Indexing based on Dictionary Information (사전 정보에 기반한 효율적인 자동색인기 설계)

  • Jin, Joung-Hwan;Kim, Tae-Wan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.547-550
    • /
    • 2001
  • 웹상에 공유되어진 문서의 내용을 대표하는 색인어 추출은 정보 검색 시스템의 질을 좌우한다. 한국어의 자유로운 복합명사나 띄어쓰기 규약, 사전 미등록 어휘 등으로 색인어 추출시 질의어와 색인어 사이의 형태상의 불일치(Syntactic Term Mismatch)가 발생하여 검색성능을 저하시키는 경우가 많다. 따라서 본 논문에서는 사전을 통한 형태소 해석을 통해 단위명사(Unit Noun)로 색인어를 추출하고 사전 미등륵어는 N-gram 기반 색인 방법을 이용하여 질의어와 색인어 사이의 부분 일치된 문서도 추출될 수 있는 방법을 제안하였으며, 색인어와 질의어 사이의 유사도 계산을 통해 문서의 우선순위를 정함으로써 색인기의 성능을 높이는 방법을 제안한다.

  • PDF

DQL Search Interface Using Incremental Forward Chaining (점진적 전방향 추론을 이용한 DQL 검색 인터페이스)

  • 김제민;박영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.100-102
    • /
    • 2003
  • 인터넷의 등장 이후 폭발적으로 증대되는 웹 정보를 효율적으로 사용하기 위한 방안이 연구되고 있다. 현재, 웹 서비스에서 사용하고 있는 키워드 기반 검색은 syntactic 정보만을 제공하므로 원하는 서비스를 받고자하는 사용자의 의도와 상관없는 정보를 탐색하여 서비스한다. 그러나 시멘틱 웹을 기반으로 만들어진 시스템들은 서비스 정보의 질을 향상시키기 위하여 DQL(Daml Query Language)을 이용한 시멘틱 서치(Semantic search)기법을 이용하고 있다. 시멘틱 서치는 사용자가 입력한 질의들을 의미상으로 해석하고, 이를 통하여 사용자의 원하는 정보와 의미가 같은 해답을 얻어내는 것이다. 그러나 기존의 시멘틱 서치는 사용자가 복잡한 질의들을 수작업으로 처리하여 원하는 정보를 탐색해야하고 DQL(Daml Query Language)은 자체 추론 기능을 갖지 않기 때문에 DQL엔진에서 각각의 메타데이터들을 비교하여 사용자의 질의에 맞는 해답을 찾아내야 함으로 시스템 과부하 현상이 일어나게 된다. 본 논문은 이러한 기존의 시멘틱 서치 방식의 효율성과 속도를 놀이기 위하여, 사용자 중심의 키워드 형태 질의를 시스템 중심의 DQL로 변환하는 DQL 컨버터 시스템과 추론엔진을 불러내어 전방향 추론과 단일화를 실행하는 DQL 엔진을 제안한다.

  • PDF

A Study on the Characteristic of Metadata for Digital Contents : Based on the INDECS (디지털 콘텐츠를 위한 메타데이터에 관한 연구 : INDECS를 중심으로)

  • 황상규;윤세진;오경묵
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2001.08a
    • /
    • pp.99-104
    • /
    • 2001
  • 웹 정보 자원은 서지 자료와는 달리 인터넷상에 널리 분산되어 있으며, 그 특성상 계속하여 동적으로 변화하기 때문에, 전통적인 메타데이터의 주제 접근방식으로 접근하기는 어렵다. 또한, 인터넷상의 웹 정보 자원에 폭발적 증가는 더 이상 메타데이터 전문가가 아닌, 저작물의 생산자가 직접 메타데이터를 만들어내는 생산자로서의 역할까지 수행하도록 요구한다. 디지털 콘텐츠를 위한 메타데이터는 인터넷 전자상거래에서처럼 보다 복잡하고 다양한 용도로 그 사용범위가 확대되어짐에 따라, 디지털 콘텐츠를 위한 새로운 메타데이터 표준안은 기존 메타데이터들의 역할인 대상에 대한 세부적인 유형과 특징을 기술한 형식적 정보(syntactic information)전달기능을 제공함과 동시에, 어떠한 사건이 발생한 상황을 정확히 기술할 수 있는 의미적 정보(semantic information) 전달기능의 역할을 수행해야 한다.

  • PDF

The Personalized Agent using the Semantic WebService Discovery (개인화 에이전트를 이용한 시멘틱 웹서비스 검색)

  • 하상범;박영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.124-126
    • /
    • 2003
  • 현재 소프트웨어들은 웹서비스라는 새로운 분야로 확대되어 발전되고 있다. 또한 기존의 웹이 가지는 단점을 보완하기 위해 등장한 시멘틱 웹을 차세대 웹이라 말하고 이러한 시멘틱 웹을 사용하기 위한 않은 연구가 진행되고 있다. 본 논문에서는 에이전트가 정보의 의미를 이해하고 자동화한 기법들을 사용 할 수 있게 하는 시멘틱 웹에 대한 연구를 웹서비스(Webservice)분야로 확대시키고, DAML-S라는 독립된 연구분야로서 서비스내용에 대한 기술과 프로세스 컨트롤의 정의. 서비스를 접근하는 방법들을 에이전트가 수행하므로써 기존의 Syntactic기반 웹 서비스 검색구조가 가지는 문제점을 개선하고 에이전트가 추론형 검색엔진을 통하여 보다 정확하고 적합한 웹 서비스 검색을 가능하게 한다. 또한 개인화 기법들을 활용하여 효율성이 한 단계 높은 개인화 기능을 에이전트에게 부여하게 된다.

  • PDF

Syntax-driven Automata Generation for Esterel (Esterel 문법구조 바탕의 오토마타 생성)

  • Lee, Chul-Woo;Kim, Chul-Joo;Yun, Jeong-Han;Han, Tai-Sook;Choe, Kwang-Moo
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.11
    • /
    • pp.1136-1140
    • /
    • 2010
  • Esterel is an imperative synchronous language and its formal semantic based on finite state machine makes it easy to perform program analyses using automata. In this paper, we propose a syntax-driven automata generation rule. Because our rule intuitively expresses syntactic structure, it is very useful for other program analyses.

Syntactic Analysis and Keyword Expansion for Performance Enhancement of Information Retrieval System (정보 검색 시스템의 성능 향상을 위한 구문 분석과 검색어 확장)

  • Yoon Sung-Hee
    • Proceedings of the KAIS Fall Conference
    • /
    • 2004.06a
    • /
    • pp.139-142
    • /
    • 2004
  • 자연어 질의 문장을 입력하는 방법은 정보 검색 시스템 사용자에게 아주 이상적인 인터페이스이다. 검색을 위해 색인어를 입력하거나 불리언 질의식을 사용하는 것에 비해 훨씬 친밀하지만, 동일한 의도의 검색 요구에 대해서도 개인의 성향에 따라서 다양한 형태나 구조의 자연어 질의문장으로 입력될 수 있는 본질적인 특성이 있다. 본 논문은 자연어 질의문장을 입력으로 하는 검색 시스템을 위해 사용자의 입력 질의 문장을 분석하고 검색어를 확장하는 다중 검색 기법을 제안한다. 질의 문장에 대한 형태소 분석 및 구문 분석을 수행하고, 구문 트리를 순회하여 구조적으로 연관된 복합명사를 조합하거나 분할하고 이형 표기 용어와 축약 표기 용어들을 확장하여 다중 검색함으로써 재현율과 정확도를 높일 수 있다.

  • PDF

Intelligent consistency checking method for the use case model

  • Lee, Eun-young;Shim, Woo-gon;Paik, In-sup
    • Proceedings of the KAIS Fall Conference
    • /
    • 2003.11a
    • /
    • pp.50-56
    • /
    • 2003
  • In the development of complex software system, it is important to use hierarchical use case model due to the complex scope of development procedure. The use case model is core factor of the OMG (Object Management Group)'s UML (Unified Modeling Language) diagrams. In this paper, we propose a novel method to check syntactic consistency automatically in use case models at the different level of abstraction. This method is a rule-based approach which utilizes actor tree, use case tree and use case description. The proposed method is simulated on ITS (Intelligent Transportation System) architecture for the verification.

  • PDF

Construction of Korean Linguistic Information for the Korean Generation on KANT (Kant 시스템에서의 한국어 생성을 위한 언어 정보의 구축)

  • Yoon, Deok-Ho
    • The Transactions of the Korea Information Processing Society
    • /
    • v.6 no.12
    • /
    • pp.3539-3547
    • /
    • 1999
  • Korean linguistic information for the generation modulo of KANT(Knowledge-based Accurate Natural language Translation) system was constructed. As KANT has a language-independent generation engine, the construction of Korean linguistic information means the development of the Korean generation module. Constructed information includes concept-based mapping rules, category-based mapping rules, syntactic lexicon, template rules, grammar rules based on the unification grammar, lexical rules and rewriting rules for Korean. With these information in sentences were successfully and completely generated from the interlingua functional structures among the 118 test set prepared by the developers of KANT system.

  • PDF

POSTTS : Corpus Based Korean TTS based on Natural Language Analysis (POSTTS : 자연어 분석을 통한 코퍼스 기반 한국어 TTS)

  • Ha Ju-Hong;Zheng Yu;Kim Byeongchang;Lee Geunbae Lee
    • Proceedings of the KSPS conference
    • /
    • 2003.05a
    • /
    • pp.87-90
    • /
    • 2003
  • In order to produce high quality synthesized speech, it is very important to get an accurate grapheme-to-phoneme conversion and prosody model from texts using natural language processing. Robust preprocessing for non-Korean characters should also be required. In this paper, we analyzed Korean texts using a morphological analyzer, part-of-speech tagger and syntactic chunker. We present a new grapheme-to-phoneme conversion method, i.e. a dictionary-based and rule-based hybrid method, for unlimited vocabulary Korean TTS. We constructed a prosody model using a probabilistic method and decision tree-based method.

  • PDF

Prediction of Prosodic Boundary Strength by means of Three POS(Part of Speech) sets (품사셋에 의한 운율경계강도의 예측)

  • Eom Ki-Wan;Kim Jin-Yeong;Kim Seon-Mi;Lee Hyeon-Bok
    • MALSORI
    • /
    • no.35_36
    • /
    • pp.145-155
    • /
    • 1998
  • This study intended to determine the most appropriate POS(Part of Speech) sets for predicting prosodic boundary strength efficiently. We used 3-level POB bets which Kim(1997), one of the authors, has devised. Three POS sets differ from each other according to how much grammatical information they have: the first set has maximal syntactic and morphological information which possibly affects prosodic phrasing, and the third set has minimal one. We hand-labelled 150 sentences using each of three POS sets and conducted perception test. Based on the results of the test, stochastic language modeling method was used to predict prosodic boundary strength. The results showed that the use of each POS set led to not too much different efficiency in the prediction, but the second set was a little more efficient than the other two. As far as the complexity in stochastic language modeling is concerned, however, the third set may be also preferable.

  • PDF