• 제목/요약/키워드: syntactic processing

검색결과 174건 처리시간 0.029초

토픽 분할에 의한 토픽맵 매칭 및 통합 기법 (Topic maps Matching and Merging Techniques based on Partitioning of Topics)

  • 김정민;정현숙
    • 정보처리학회논문지D
    • /
    • 제14D권7호
    • /
    • pp.819-828
    • /
    • 2007
  • 본 논문에서는 토픽맵의 모델 특성을 고려한 토픽맵 매칭 및 통합 기법을 제안한다. 이전까지의 대부분의 스키마 매칭 연구들은 계산 시간의 효율성을 고려하지 않고 매칭 기법의 범용성 및 정확성을 높이기 위한 목적으로 개발되어 왔다. 그러나 현재 표준적인 온톨로지 언어로 RDF/OWL과 토픽맵이 사용되고 있으며 앞으로 많은 온톨로지들이 이들 언어로 구현될 것이다. 따라서 본 논문에서는 토픽맵 데이터 모델의 구조적 특성 및 제약조건을 고려하여 토픽 분할, 토픽명기반 매칭연산, 속성기반 매칭연산, 계층구조기반 매칭연산, 연관관계기반 매칭연산 및 통합 알고리즘을 개발함으로써 효과적이면서 효율적인 토픽맵 매칭 및 통합이 가능함을 보인다.

Middleware for Context-Aware Ubiquitous Computing

  • Hung Q.;Sungyoung
    • 정보처리학회지
    • /
    • 제11권6호
    • /
    • pp.56-75
    • /
    • 2004
  • In this article we address some system characteristics and challenging issues in developing Context-aware Middleware for Ubiquitous Computing. The functionalities of a Context-aware Middleware includes gathering context data from hardware/software sensors, reasoning and inferring high-level context data, and disseminating/delivering appropriate context data to interested applications/services. The Middleware should facilitate the query, aggregation, and discovery for the contexts, as well as facilities to specify their privacy policy. Following a formal context model using ontology would enable syntactic and semantic interoperability, and knowledge sharing between different domains. Moddleware should also provide different kinds of context classification mechanical as pluggable modules, including rules written in different types of logic (first order logic, description logic, temporal/spatial logic, fuzzy logic, etc.) as well as machine-learning mechanical (supervised and unsupervised classifiers). Different mechanisms have different power, expressiveness and decidability properties, and system developers can choose the appropriate mechanism that best meets the reasoning requirements of each context. And finally, to promote the context-trigger actions in application level, it is important to provide a uniform and platform-independent interface for applications to express their need for different context data without knowing how that data is acquired. The action could involve adapting to the new environment, notifying the user, communicating with another device to exchange information, or performing any other task.

  • PDF

자동 생성한 구문패턴과 의미망을 이용한 복합명사 생성 (Generation of Compound Nouns Using Automatic Constructed Syntactic Patterns and Semantic Network)

  • 임지희;최호섭;옥철영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.655-658
    • /
    • 2004
  • 본 논문은 구문패턴과 의미망을 이용하여 복합명사를 생성하는 방법을 제안하고, 제안된 방법으로 설계 구현된 시스템, 복합명사 생성기(Compound Nouns Generator : CNG)를 제시한다. 복합명사에 관한 연구는 형태적, 구문적, 의미적인 관점에서의 분석과 생성에 이르기까지 폭넓게 진행되고 있다. 본 논문에서는, 사전에 등재된 표제어만을 복합명사로 인정하고, 나머지는 1차적으로 명사 연결구로 파악한다. 그리고 이것을 다시 신형 복합명사와 명사 연결구로 파악함으로써, 복합명사에 대한 명확한 기준을 제시하여 자연언어처리, 정보검색 등에서 효율성을 높이고자 하였다. 본 논문에서 제안한 시스템은 복합명사 확장을 위해 구문패턴을 자동 생성함으로써 시스템의 융통성을 향상시키고, 구문패턴과 의미망을 통해 생성된 복합명사와 명사 연결구의 말뭉치상의 빈도정보를 이용함으로써 고빈도의 명사 연결구가 복합명사로서 굳어질 수 있는 가능성을 보여주기도 한다. 또한, 구문패턴과 의미망을 통해 생성된 명사 연결구를 비교하여 생성된 신형 복합명사는 구문패턴에 의해 뜻풀이가 자동으로 생성된다.

  • PDF

A Protein-Protein Interaction Extraction Approach Based on Large Pre-trained Language Model and Adversarial Training

  • Tang, Zhan;Guo, Xuchao;Bai, Zhao;Diao, Lei;Lu, Shuhan;Li, Lin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권3호
    • /
    • pp.771-791
    • /
    • 2022
  • Protein-protein interaction (PPI) extraction from original text is important for revealing the molecular mechanism of biological processes. With the rapid growth of biomedical literature, manually extracting PPI has become more time-consuming and laborious. Therefore, the automatic PPI extraction from the raw literature through natural language processing technology has attracted the attention of the majority of researchers. We propose a PPI extraction model based on the large pre-trained language model and adversarial training. It enhances the learning of semantic and syntactic features using BioBERT pre-trained weights, which are built on large-scale domain corpora, and adversarial perturbations are applied to the embedding layer to improve the robustness of the model. Experimental results showed that the proposed model achieved the highest F1 scores (83.93% and 90.31%) on two corpora with large sample sizes, namely, AIMed and BioInfer, respectively, compared with the previous method. It also achieved comparable performance on three corpora with small sample sizes, namely, HPRD50, IEPA, and LLL.

Improved Character-Based Neural Network for POS Tagging on Morphologically Rich Languages

  • Samat Ali;Alim Murat
    • Journal of Information Processing Systems
    • /
    • 제19권3호
    • /
    • pp.355-369
    • /
    • 2023
  • Since the widespread adoption of deep-learning and related distributed representation, there have been substantial advancements in part-of-speech (POS) tagging for many languages. When training word representations, morphology and shape are typically ignored, as these representations rely primarily on collecting syntactic and semantic aspects of words. However, for tasks like POS tagging, notably in morphologically rich and resource-limited language environments, the intra-word information is essential. In this study, we introduce a deep neural network (DNN) for POS tagging that learns character-level word representations and combines them with general word representations. Using the proposed approach and omitting hand-crafted features, we achieve 90.47%, 80.16%, and 79.32% accuracy on our own dataset for three morphologically rich languages: Uyghur, Uzbek, and Kyrgyz. The experimental results reveal that the presented character-based strategy greatly improves POS tagging performance for several morphologically rich languages (MRL) where character information is significant. Furthermore, when compared to the previously reported state-of-the-art POS tagging results for Turkish on the METU Turkish Treebank dataset, the proposed approach improved on the prior work slightly. As a result, the experimental results indicate that character-based representations outperform word-level representations for MRL performance. Our technique is also robust towards the-out-of-vocabulary issues and performs better on manually edited text.

Using Syntax and Shallow Semantic Analysis for Vietnamese Question Generation

  • Phuoc Tran;Duy Khanh Nguyen;Tram Tran;Bay Vo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권10호
    • /
    • pp.2718-2731
    • /
    • 2023
  • This paper presents a method of using syntax and shallow semantic analysis for Vietnamese question generation (QG). Specifically, our proposed technique concentrates on investigating both the syntactic and shallow semantic structure of each sentence. The main goal of our method is to generate questions from a single sentence. These generated questions are known as factoid questions which require short, fact-based answers. In general, syntax-based analysis is one of the most popular approaches within the QG field, but it requires linguistic expert knowledge as well as a deep understanding of syntax rules in the Vietnamese language. It is thus considered a high-cost and inefficient solution due to the requirement of significant human effort to achieve qualified syntax rules. To deal with this problem, we collected the syntax rules in Vietnamese from a Vietnamese language textbook. Moreover, we also used different natural language processing (NLP) techniques to analyze Vietnamese shallow syntax and semantics for the QG task. These techniques include: sentence segmentation, word segmentation, part of speech, chunking, dependency parsing, and named entity recognition. We used human evaluation to assess the credibility of our model, which means we manually generated questions from the corpus, and then compared them with the generated questions. The empirical evidence demonstrates that our proposed technique has significant performance, in which the generated questions are very similar to those which are created by humans.

언어 장애인의 언어보조 시스템을 위한 아이콘 언어의 구현 (Implementation of Iconic Language for the Language Support System of the Language Disorders)

  • 추교남;우요섭;민홍기
    • 정보처리학회논문지B
    • /
    • 제13B권4호
    • /
    • pp.479-488
    • /
    • 2006
  • 언어 장애인에게 기존의 키보드에 의한 문자입력 방법보다 원활하고 편리한 의사전달 환경을 제공하기 위한 아이콘 언어 인터페이스를 설계한다. 이를 위하여 활용성이 높은 대화 영역으로부터 구축한 원시 말뭉치를 대상으로 어휘 구사 경향과 특성을 분석하고 형태소, 구문, 의미 분석을 적용하여 아이콘에 부여되는 한국어의 어휘와 의미를 추출한다. 사용자가 직관적으로 인지하고 전달할 수 있는 아이콘 영역을 선별하고 추출한 한국어의 어휘와 의미를 정합시킨다. 이웃하는 아이콘간의 연결로부터 전달하고자 하는 의미적 상황을 만들어내기 위하여, 아이콘 언어의 어휘와 품사, 문법 규칙, 의미체계를 정의하여 아이콘 언어를 설계한다. 아이콘 언어에서 나타날 수 있는 언어적 애매성을 해결하기 위한 방법으로 범용의 한국어 의미사전과 술어 중심의 하위범주화사전으로부터 아이콘 언어에 대한 상황중심의 의미 데이터를 구축한다. 이를 바탕으로 아이콘 언어 인터페이스로부터 한국어를 의미적인 범주에서 생성한다.

주 키워드와 부 키워드를 이용한 자연언어 정보 검색 모델 (A Model of Natural Language Information Retrieval Using Main Keywords and Sub-keywords)

  • 강현규;박세영
    • 한국정보처리학회논문지
    • /
    • 제4권12호
    • /
    • pp.3052-3062
    • /
    • 1997
  • 정보 검색이란 사용자의 정보 요구를 만족하는 관련 정보를 검색하는 것이다. 그러나 정보 검색 시스템의 하나의 역활은 관련 정보의 집합들을 단순히 제시하는 것이 아니라 주어진 요구 사항에 가장 가까운 문서를 결정하는데 도움을 주는 것이다. 최근에 여러 가지 텍스트 분석 시스템들에서 내용을 인식하기 위해 구문 분석 방법 사용이 시도되고 있다. 불행히도 단독의 구문 이해 방법으로는 임의의 텍스트 예들을 완벽하게 분석하기 위해 불충분한 것으로 알려지고 있다. 이 논문에서는 2단계 문서 순위에 기반한 문서 순위 결정 방법에 대하여 논한다. 1단계는 문서를 검색하기 위해 사용하고 2단계는 검색된 문서를 재순서화하는데 사용한다. 1단계에서 이용된 주키워드는 문서를 구별할 수 있는 좋은 능력을 가지는 명사나 복합명사로서 정의될 수 있다. 2단계에서 이용된 부 키워드는 주키워드나 기능어가 아닌 형용사나 부사 또는 동사로 정의 될 수 있다. 실험은 23,113 항목을 가지는 한국어 백과사전과 일반 사용자들로부터 수집된 161개의 한국어 자연언어 질의로부터 이루어졌다. 자연언어 질의의 85%가 부 키워드를 가지고 있었다. 2단계 문서 순위 방법은 일반 문서 순위 방법보다 현격한 검색 효율의 향상을 제공한다.

  • PDF

의미 정보와 실체뷰를 활용한 효율적 질의 재구성 기법 (An Efficient Query Rewriting Technique Utilizing Semantic Information and Materialized Views)

  • 장재영
    • 정보처리학회논문지D
    • /
    • 제10D권4호
    • /
    • pp.661-670
    • /
    • 2003
  • 실체뷰는 뷰의 연산 결과를 미리 저장한 형태로서 질의 성능을 향상시키기 위해 질의 처리과정에 활용될 수 있다. 주어진 질의를 처리하는데 있어서 어떠한 실체뷰를 어떻게 이용할 것인가는 쉽게 해결될 수 있는 문제가 아니며 지금까지도 많은 연구가 이루어지고 있다. 질의를 처리하는데 실체뷰가 이용가능한가의 여부는 주어진 질의와 실체뷰간의 관계에 따라 결정된다. 본 논문에서는 질의처리에 실체뷰를 활용하는 새로운 방법을 제안한다. 우선 기존의 질의와 실체뷰간의 문법적 관계를 확장하여 의미적 관계를 이용한 활용 방안을 제시한다. 또한 원래의 질의에는 포함되지 않는 릴레이션을 갖는 실체뷰의 활용 방안에 대해서도 논의한다. 이를 위해 본 논문에서는 실체뷰의 활용을 위한 조건들을 제시하고 이 조건들을 검증하고 질의를 재구성하는 알고리즘을 제시한다.

규칙에 기반한 한국어 부분 구문분석기의 구현 (Implementing Korean Partial Parser based on Rules)

  • 이공주;김재훈
    • 정보처리학회논문지B
    • /
    • 제10B권4호
    • /
    • pp.389-396
    • /
    • 2003
  • 본 논문에서는 문법검사기나 기계번역과 같은 실제 응용 시스템을 위한 한국어 부분 구문분석의 처리 대상을 정의하고, 규칙에 기반한 한국어 부분 구문분석기의 구현에 대해서 논의한다. 부분 구문분석기는 기본적으로 여러 개의 형태소나 단어가 구문적으로 하나의 구조에 속한 경우 이를 하나의 덩어리로 묶어주는 역할을 수행하며, 동시에 부가적인 작업을 수행할 수 있다. 또한 부분 구문분석기는 다양한 형태로 표현된 부분 구조를 표준 형태소 구조로 바꾸어 줌으로써, 상위 모듈의 처리에서 그 결과를 용이하게 사용할 수 있도록 한다. 본 논문에서는 한국어 부분 구문분석을 위해서 수동으로 작성된 140여 개의 규칙을 이용하였으며, 각 규칙은 일반적인 규칙과 마찬가지로 조건부와 행위부로 구성되었다. 부분 구문분석의 효율성을 관찰하기 위해서 일반적인 구문분석과 부분 구문분석을 포함한 구문분석을 비교하였다. 실험을 통해서 전자가 후자에 비해 약 두 배의 레코드 수가 요구됨을 알 수 있었다.