• 제목/요약/키워드: syntactic model

검색결과 101건 처리시간 0.019초

구문트리에서 키워드 추출을 이용한 프로그램 유사도 평가 (A Program Similarity Evaluation using Keyword Extraction on Abstract Syntax Tree)

  • 김영철;최재영
    • 정보처리학회논문지A
    • /
    • 제12A권2호
    • /
    • pp.109-116
    • /
    • 2005
  • 본 논문에서는 프로그램의 분석 과정에서 생성된 구문트리에서 키워드만을 추출하여 유사도 평가하는 방법을 소개한다. 이 방법은 기존의 구조 기반 방법과 같이 프로그램 구조적 특징에 상관없이 유사도를 평가한 수 있으며, 구문트리의 키워드만을 평가에 이용함으로써 기존 시스템의 단점이었던 속도를 개선할 수 있었다. 따라서 본 논문에서는 유사도 평가 모델을 제시하고, 생성된 구문트리에서 키워드를 추출하는 방법을 제시하였다. 본 논문의 평가 부분에서는 기존 시스템에 비해 본 시스템이 구조적 특징이나 속도 면에서 많이 개선되었다는 것을 보여주었다. 따라서 본 시스템은 향후에 텍스트 위주의 문서의 유사도나 XML과 같은 전자 문서의 유사도 평가에 지대한 영향을 줄 것으로 기대된다.

Middleware for Context-Aware Ubiquitous Computing

  • Hung Q.;Sungyoung
    • 정보처리학회지
    • /
    • 제11권6호
    • /
    • pp.56-75
    • /
    • 2004
  • In this article we address some system characteristics and challenging issues in developing Context-aware Middleware for Ubiquitous Computing. The functionalities of a Context-aware Middleware includes gathering context data from hardware/software sensors, reasoning and inferring high-level context data, and disseminating/delivering appropriate context data to interested applications/services. The Middleware should facilitate the query, aggregation, and discovery for the contexts, as well as facilities to specify their privacy policy. Following a formal context model using ontology would enable syntactic and semantic interoperability, and knowledge sharing between different domains. Moddleware should also provide different kinds of context classification mechanical as pluggable modules, including rules written in different types of logic (first order logic, description logic, temporal/spatial logic, fuzzy logic, etc.) as well as machine-learning mechanical (supervised and unsupervised classifiers). Different mechanisms have different power, expressiveness and decidability properties, and system developers can choose the appropriate mechanism that best meets the reasoning requirements of each context. And finally, to promote the context-trigger actions in application level, it is important to provide a uniform and platform-independent interface for applications to express their need for different context data without knowing how that data is acquired. The action could involve adapting to the new environment, notifying the user, communicating with another device to exchange information, or performing any other task.

  • PDF

Using Syntax and Shallow Semantic Analysis for Vietnamese Question Generation

  • Phuoc Tran;Duy Khanh Nguyen;Tram Tran;Bay Vo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권10호
    • /
    • pp.2718-2731
    • /
    • 2023
  • This paper presents a method of using syntax and shallow semantic analysis for Vietnamese question generation (QG). Specifically, our proposed technique concentrates on investigating both the syntactic and shallow semantic structure of each sentence. The main goal of our method is to generate questions from a single sentence. These generated questions are known as factoid questions which require short, fact-based answers. In general, syntax-based analysis is one of the most popular approaches within the QG field, but it requires linguistic expert knowledge as well as a deep understanding of syntax rules in the Vietnamese language. It is thus considered a high-cost and inefficient solution due to the requirement of significant human effort to achieve qualified syntax rules. To deal with this problem, we collected the syntax rules in Vietnamese from a Vietnamese language textbook. Moreover, we also used different natural language processing (NLP) techniques to analyze Vietnamese shallow syntax and semantics for the QG task. These techniques include: sentence segmentation, word segmentation, part of speech, chunking, dependency parsing, and named entity recognition. We used human evaluation to assess the credibility of our model, which means we manually generated questions from the corpus, and then compared them with the generated questions. The empirical evidence demonstrates that our proposed technique has significant performance, in which the generated questions are very similar to those which are created by humans.

주 키워드와 부 키워드를 이용한 자연언어 정보 검색 모델 (A Model of Natural Language Information Retrieval Using Main Keywords and Sub-keywords)

  • 강현규;박세영
    • 한국정보처리학회논문지
    • /
    • 제4권12호
    • /
    • pp.3052-3062
    • /
    • 1997
  • 정보 검색이란 사용자의 정보 요구를 만족하는 관련 정보를 검색하는 것이다. 그러나 정보 검색 시스템의 하나의 역활은 관련 정보의 집합들을 단순히 제시하는 것이 아니라 주어진 요구 사항에 가장 가까운 문서를 결정하는데 도움을 주는 것이다. 최근에 여러 가지 텍스트 분석 시스템들에서 내용을 인식하기 위해 구문 분석 방법 사용이 시도되고 있다. 불행히도 단독의 구문 이해 방법으로는 임의의 텍스트 예들을 완벽하게 분석하기 위해 불충분한 것으로 알려지고 있다. 이 논문에서는 2단계 문서 순위에 기반한 문서 순위 결정 방법에 대하여 논한다. 1단계는 문서를 검색하기 위해 사용하고 2단계는 검색된 문서를 재순서화하는데 사용한다. 1단계에서 이용된 주키워드는 문서를 구별할 수 있는 좋은 능력을 가지는 명사나 복합명사로서 정의될 수 있다. 2단계에서 이용된 부 키워드는 주키워드나 기능어가 아닌 형용사나 부사 또는 동사로 정의 될 수 있다. 실험은 23,113 항목을 가지는 한국어 백과사전과 일반 사용자들로부터 수집된 161개의 한국어 자연언어 질의로부터 이루어졌다. 자연언어 질의의 85%가 부 키워드를 가지고 있었다. 2단계 문서 순위 방법은 일반 문서 순위 방법보다 현격한 검색 효율의 향상을 제공한다.

  • PDF

품사 정보와 템플릿을 이용한 문장 축소 방법 (A Sentence Reduction Method using Part-of-Speech Information and Templates)

  • 이승수;염기원;박지형;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권5호
    • /
    • pp.313-324
    • /
    • 2008
  • 문장 축소란 원본 문장의 기본적인 의미를 유지하면서 불필요한 단어나 구를 제거하는 일련의 정보 압축 과정을 의미한다. 기존의 문장 축소에 관한 연구들은 학습 과정에서 대량의 어휘나 구문적 자원을 필요로 하였으며, 복잡한 파싱 과정을 통해서 불필요한 문장의 구성원(예를 들어, 단어나 구, 절 등)들을 제거하여 문장을 요약하였다. 그러나 학습 데이타로부터 얻을 수 있는 어휘적 자원은 매우 한정적이며, 문장의 모호성과 예외적인 표현들 때문에 구문 분석 결과가 명료하게 제공되지 않은 언어에서는 문장 요약이 용이하지 않다. 이에 본 논문에서는 구문 분석을 대체하기 위한 방법으로 템플릿과 품사 정보를 이용한 문장 축소 방법을 제안한다. 제안하는 방법은 요약문의 구조적 형태를 결정하기 위한 문장 축소 템플릿(Sentence Reduction Templates)과 문법적으로 타당한 문장 구조를 구성하는 품사기반 축소규칙(Grammatical POS-based Reduction Rules)을 이용하여 요약 대상 문장의 구성을 분석하고 요약한다. 더불어, 문장 축소 템플릿 적용 시 발생하는 연산량 증가 문제를 은닉 마르코프 모델(HMM: Hidden Markov Model)의 비터비 알고리즘(Viterbi Algorithm)을 이용하여 효과적으로 처리한다. 마지막으로, 본 논문에서 제안한 문장 축소 방법의 결과와 기존 논문의 연구 결과를 비교 및 평가함으로써 제안하는 문장 축소 방법의 유용성을 확인한다.

사례 기반 추론 시스템에서 적응 지식 자동 획득 모델에 관한 연구 (A Study on Adaptive Knowledge Automatic Acquisition Model from Case-Based Reasoning System)

  • 이상범;김영천;이재훈;이성주
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2002년도 춘계학술대회 및 임시총회
    • /
    • pp.81-86
    • /
    • 2002
  • In current CBR(Case-Based Reasoning) systems, the case adaptation is usually performed by rule-based method that use rules hand-coded by the system developer. So, CBR system designer faces knowledge acquisition bottleneck similar to those found in traditional expert system design. In this thesis, 1 present a model for learning method of case adaptation knowledge using case base. The feature difference of each pair of cases are noted and become the antecedent part of an adaptation rule, the differences between the solutions in the compared cases become the consequent part of the rule. However, the number of rules that can possibly be discovered using a learning algorithm is enormous. The first method for finding cases to compare uses a syntactic measure of the distance between cases. The threshold fur identification of candidates for comparison is fixed th the maximum number of differences between the target and retrived case from all retrievals. The second method is to use similarity metric since the threshold method may not be an accurate measure. I suggest the elimination method of duplicate rules. In the elimination process, a confidence value is assigned to each rule based on its frequency. The learned adaptation rules is applied in riven target Problem. The basic. process involves search for all rules that handle at least one difference followed by a combination process in which complete solutions are built.

  • PDF

Chatting Pattern Based Game BOT Detection: Do They Talk Like Us?

  • Kang, Ah Reum;Kim, Huy Kang;Woo, Jiyoung
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제6권11호
    • /
    • pp.2866-2879
    • /
    • 2012
  • Among the various security threats in online games, the use of game bots is the most serious problem. Previous studies on game bot detection have proposed many methods to find out discriminable behaviors of bots from humans based on the fact that a bot's playing pattern is different from that of a human. In this paper, we look at the chatting data that reflects gamers' communication patterns and propose a communication pattern analysis framework for online game bot detection. In massive multi-user online role playing games (MMORPGs), game bots use chatting message in a different way from normal users. We derive four features; a network feature, a descriptive feature, a diversity feature and a text feature. To measure the diversity of communication patterns, we propose lightly summarized indices, which are computationally inexpensive and intuitive. For text features, we derive lexical, syntactic and semantic features from chatting contents using text mining techniques. To build the learning model for game bot detection, we test and compare three classification models: the random forest, logistic regression and lazy learning. We apply the proposed framework to AION operated by NCsoft, a leading online game company in Korea. As a result of our experiments, we found that the random forest outperforms the logistic regression and lazy learning. The model that employs the entire feature sets gives the highest performance with a precision value of 0.893 and a recall value of 0.965.

RDF(S) 모델에 기반한 다양한 형태의 단백질 데이타베이스 통합 (Integration of Heterogeneous Protein Databases Based on RDF(S) Models)

  • 이강표;유상원;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권2호
    • /
    • pp.132-142
    • /
    • 2008
  • 현재 생물학 분야에는 단백질이라는 동일한 대상에 대해 각기 고유한 의미를 지니고 있는 다양한 형태의 단백질 분석 데이타베이스들이 존재한다. 이렇게 산재되어 있는 이종의 단백질 정보들을 효과적으로 통합한다면 개개의 데이터베이스로부터는 얻을 수 없는 유용한 정보를 도출해낼 수 있다. 생물학 데이타의 특성상 이 각각의 정보들은 자신만의 고유한 형태와 의미를 지니는데, 시맨틱 웹 기술의 표준인 RDF(S) 모델을 이용하여 데이타를 기술하면 형태론적인 통합뿐만 아니라 의미론적인 통합까지 이루어낼 수 있다. 이에 본 논문에서는 RDF 통합 스키마에 기반한 새로운 통합 레이어(layer)를 제안하였다. 이를 위해 개념적 모델 차원으로서는 단백질 정보를 중심으로 통합 스키마를 구축하였고, 표현적 모델 차원으로 서는 래퍼(wrapper)가 해당 데이터베이스들로부터 필요한 정보를 취하여 동적으로 RDF 인스턴스를 구축하는 방법을 제안하였다. 실제로 이 통합 레이어는 연구자들이 필요로 하는 통합 질의 예제를 성공적으로 처리하여 그 결과를 보여줄 수 있음을 확인하였다.

지휘통제 관련 정보교환모델 비교분석 및 시사점 (Comparative Analysis and Implications of Command and Control(C2)-related Information Exchange Models)

  • 김건영;박규동;손미애
    • 인터넷정보학회논문지
    • /
    • 제23권6호
    • /
    • pp.59-69
    • /
    • 2022
  • 효과적인 전장상황 인식 및 지휘결심을 위해서는 체계 간의 솔기없는 정보교환이 핵심적이다. 그러나 각 체계는 각자의 목적에 맞게 독립적으로 개발되었기 때문에, 효과적으로 정보를 교환하기 위해서는 체계 간 상호운용성을 보장하여야 한다. 우리 군의 경우 데이터 교환을 위한 공통 메시지 포맷을 활용함으로써 문법적 상호운용성(Syntactic interoperability)을 보장하고 있다. 그러나 단순히 교환되는 데이터의 형식을 표준화하는 것으로는 체계 간 상호운용성을 충분히 보장할 수 없다. 현재 미국과 NATO에서는 데이터 교환 형식을 보장하는 데에서 더 나아가 의미적 상호운용성(Semantic interoperability)을 달성하기 위해 정보교환모델을 개발·활용하고 있다. 정보교환모델은 공통 어휘(Common vocabulary) 또는 참조 모델(Reference model)로, 체계 간에 정보 교환을 내용적·의미적인 수준에서 보장하기 위해 활용된다. 미국에서 개발·활용하는 정보교환모델은 초기에는 전장상황과 직접 관련된 정보를 교환하는 데에 초점을 맞추었으나, 이후 각 정부 부처 및 민간 기관이 함께 활용할 수 있는 범용적인 형태로 발전되었다. 반면 NATO의 경우 이에 속한 각 국가의 군 간 연합 작전을 수행하는 데에 필요한 개념을 엄격히 표현하는 데에 초점을 맞추었으며, 모델의 범위 역시 지휘통제에 관련된 개념으로 한정되었다. 본 논문에서는 미국과 NATO에서 개발·활용하였던 정보교환모델의 개발 배경, 목적 및 특성을 식별하였고, 이들의 비교분석을 수행하였다. 이를 통해 추후 한국형 정보교환모델 개발 시 시사점을 제시하고자 한다.

컬러 분포와 WordNet상의 유사도 측정을 이용한 의미적 이미지 검색 (Semantic Image Retrieval Using Color Distribution and Similarity Measurement in WordNet)

  • 최준호;조미영;김판구
    • 정보처리학회논문지B
    • /
    • 제11B권4호
    • /
    • pp.509-516
    • /
    • 2004
  • 의미기반 이미지 검색에서의 의미적 내용 인식은 주석 위주의 텍스트 정보를 이용하는 것이 일반적이다. 이러한 텍스트 정보 기반 이미지 검색은 전통적인 검색 방법인 키워드 검색 기술을 그대로 사하여 쉽게 구현할 수 있으나, 텍스트의 개념적 매칭이 아닌 스트링 매칭이므로 주석 처리된 단어와 정확한 매칭이 없다면 검색할 수 없는 단점이 있었다. 이에 본 논문에서는 Ontology의 일종인 WordNet을 이용하여 깊이, 정보량, 링크 타입, 밀도 등을 고려한 단어간 의미 유사도를 측정하여 패턴 매칭의 문제점을 해결하고자 한다. 또한, 이미지의 컬러 분포 유사도를 측정하여 저차원 특징과 결합한 의미적 이미지 검색이 가능하도록 설계하였다. 제안된 검색 방안에 대해 'Microsoft Design Gallery Live'의 주석을 포함한 이미지를 대상으로 실험한 결과, 기존 의미기반 검색 시스템보다 향상된 결과를 확인하였다.