• 제목/요약/키워드: 파싱

검색결과 385건 처리시간 0.03초

OWL Web Ontology Language를 위한 Ontology Parser의 설계 (A Design of Ontology Parser for OWL Web Ontology Language)

  • 이미경;박천수;손주찬
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.573-576
    • /
    • 2004
  • 시맨틱 웹에 이용되는 웹 온톨로지 언어들로는 RDF/RDFS, DAML+OIL, OWL 등이 있으며, 현재 W3C에서는 OWL을 웹 온톨로지 표준 언어로 삼고 있다. 기존의 웹 온톨로지 문서들의 파서는 대부분 RDF를 기반으로 한 Triple 모델을 기반으로 하여 파싱한다. 그러나 OWL의 경우는 triple 형태로 변환시키면 OWL Full의 형태를 가지게 되고 OWL 온톨로지의 표현력과 데이터의 손실을 가져오게 된다. 따라서 OWL 문서의 파싱을 위하여 우리는 OWL Abstract Syntax를 이용하여 Tree 모델을 가지는 OWL 파서를 만들고자 한다. 본 논문에서는 시맨틱 웹에서 사용되는 웹 온톨로지들을 파싱하여 온톨로지 객체 모델을 생성해주는 기능을 가지는 온톨로지 파서를 설계, 구현하였다. 논문에서 설계한 온톨로지 파서는 RDF, DAML+OIL, OWL 웹 온톨로지 문서들을 파싱하여 온톨로지 객체 모델을 생성할 때, RDF 온톨로지의 경우는 Triple 모델 형태로 파싱을 하지만, OWL 온톨로지의 경우에는 OWL Abstract Syntax Tree 모델 형태로 파싱한 후, OOM으로 변환시켜준다. 이를 위해 웹 온톨로지 언어의 종류 구분과 OWL 온톨로지의 경우, OWL Full, OWL DL, OWL Lite의 서브 타입을 구별하는 기능도 추가하였다.

  • PDF

FPGA를 이용한 하드웨어 기반 고성능 XML 파싱 기법 (Hardware-Based High Performance XML Parsing Technique Using an FPGA)

  • 이규희;서병석
    • 한국통신학회논문지
    • /
    • 제40권12호
    • /
    • pp.2469-2475
    • /
    • 2015
  • 다양한 웹 서비스들은 서비스의 제공을 위해서 구조화된 표준문서인 XML(eXtensible Markup Language)을 널리 사용하고 있으며, 모바일 환경에서의 전자문서 및 전자서명 그리고 메일시스템에서도 XML이 사용되고 있다. XML을 사용하기 위해서는 문서의 파싱이 요구되며, 이는 XML 처리에서 가장 계산 집중적 작업이다. 따라서, XML 파싱 성능을 높이기 위해 하드웨어 기반의 파서들이 제안되어 성능 향상에 초점을 맞추고 있지만 실제 파싱 기법들에 대한 연구는 거의 이루어지지 않았다. 본 논문에서는 파서의 종류와 상관없이 사용될 수 있는 고성능 XML 파싱 기법을 제안하고 FPGA를 이용하여 파서를 설계하여 검증하였다. 제안된 파싱 기법은 상태머신 대신에 엘리먼트 분석기들을 사용하며 다중바이트 단위 엘리먼트 매칭을 수행한다. 제안된 파싱 기법은 CPB 항목에서 약 2~4배의 소비 클록을 감소시켰으며 파싱 이전에 전처리작업을 요구하지 않는다. 다른 파서들과 비교하여 제안된 파서는 약 1.33~1.82배 속도를 향상시켰다. 따라서, 제안된 파싱 기법은 실시간 XML 파싱이 가능하며 일반적인 XML 파서들에서도 적용할 수 있는 적합한 구조를 갖는다.

LR 문법에 대한 단일상태파싱오토마톤의 적용 (Application of Single-State Parsing Automata to LR Grammars)

  • 이경옥
    • 정보과학회 논문지
    • /
    • 제43권10호
    • /
    • pp.1079-1084
    • /
    • 2016
  • 단일상태파싱오토마톤은 구문 분석할 때 행동의 결정이 현재 상태로만 가능하다는 특징이 있고, LR오토마톤과 비교하여 상태수가 적고 구문 분석 시간이 단축된다는 장점이 있다. 한편 단일 상태파싱오토마톤은 적용 가능한 문법 클래스가 LR문법보다 작다는 단점이 있다. 본 논문에서는 단일상태파싱오토마톤을 LR문법 클래스에 적용 가능하도록 확장하는 방법을 제시한다. 기존 방법에서는 파싱오토마톤 생성 과정에서 싸이클릭 상태가 생성되는 경우에 대한 처리 방법을 제시하지 못하였다. 본 논문은 싸이클릭 상태에 대한 입력스트링에 따른 동적 처리 작업을 제시하여, 싸이클릭 상태에 대한 문제를 해결한다. 본 논문에서 확장한 방법은 모든 LR 문법에 대해 단일상태파싱오토마톤을 생성할 수 있게 한다.

표층 구문 타입을 사용한 조건부 연산 모델의 일반화 LR 파서 (Generalized LR Parser with Conditional Action Model(CAM) using Surface Phrasal Types)

  • 곽용재;박소영;황영숙;정후중;이상주;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권1_2호
    • /
    • pp.81-92
    • /
    • 2003
  • 일반화 LR(Generalized LR, 이하 GLR) 파싱은 선형 스택을 사용하는 전통적인 LR 파싱 방식의 한계를 극복하도록 만들어진 LR 파싱 기법의 하나로서, LR 기법에 여러 가지 매커니즘을 통합하여 자연어 파싱에 응용하는 작업의 토대가 되어 왔다. 본 논문에서는 기존의 확률적 LR 파싱 기법이 가지고 있는 문제를 개선한 조건부 연산 모델(Conditional Action Model)을 제안한다. 기존의 확률적 LR 파싱 기법은 그래프 구조 스택의 복잡성으로 인해 상대적으로 제한된 문맥 정보만을 사용하여 왔다. 제안된 모델은 부분 생성 파스의 표현을 위하여 표층 구문 타입(Surface Phrasal Type)을 사용하여 그래프 구조 스택에 들어 있는 구문 구조를 기술함으로써 좀 더 세분된 구조적 선호도를 파서에 반영시킬 수 있다. 실험 결과, 어휘를 고려하지 않고 학습한 조건부 연산 모델로 구현된 본 GLR 파서는 기존의 방식보다 약 6-7%의 정확도 향상을 보였으며, 본 모델을 통해 풍부한 스택 정보를 확률적 LR 파서의 구조적 중의성 해결에 효과적으로 사용할 수 있음을 보였다.

항공관제용 현시시스템을 위한 패턴매칭 기반의 ASTERIX 파싱 모듈 설계 및 구현 (Design and Implementation of ASTERIX Parsing Module Based on Pattern Matching for Air Traffic Control Display System)

  • 김강희;김호중;은윤동;최상방
    • 전자공학회논문지
    • /
    • 제51권3호
    • /
    • pp.89-101
    • /
    • 2014
  • 최근 국내 항공교통량이 급증함에 따라 안전하고 효율적인 항공교통관리를 위한 항공관제 시스템의 필요성이 커지고 있다. 특히 원활한 항공교통관제를 위해 비행정보구역(FIR : Flight Information Region) 내의 모든 항공상황을 추가지연 없이 보여주어야 하는 현시시스템의 성능 보장이 무엇보다 중요하다. 본 논문에서는 표준 레이더 감시자료 포맷인 ASTERIX(All purpose STructured Eurocontrol suRveillance Information eXchange) 메시지의 파싱 과정에서 발생하는 오버헤드를 줄여 시스템 부하를 최소화함으로써 안정적인 관제운영을 도모할 수 있는 패턴매칭 기반의 ASTERIX 파싱 모듈을 설계하였다. 설계한 패턴매칭 기반의 ASTERIX 파싱 모듈은 수신 ASTERIX 데이터를 분석하여 패턴을 생성하며, 이후 수신되는 ASTERIX는 패턴을 통해 정의된 프로시저로 파싱한다. 기존 비트 수준 파싱 모듈의 불필요한 파싱 과정을 줄여 현시에 필요한 정보만을 빠르게 추출함으로써 현시 오류를 최소화하고 안정적인 항공관제를 가능하게 한다. 설계한 패턴매칭 기반의 ASTERIX 파싱 모듈의 성능을 비교하기 위하여 일반적인 비트 수준 ASTERIX 파싱 모듈과 비교한 결과, 짧은 처리지연시간, 높은 처리량, 낮은 CPU 사용률을 보이는 것을 확인하였다.

지배소 후위 제약을 적용한 트랜지션 시스템 기반 한국어 의존 파싱 모델 (Korean Dependency Parsing Model based on Transition System using Head Final Constraint)

  • 임준호;윤여찬;배용진;임수종;김현기;이규철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.81-86
    • /
    • 2014
  • 한국어 의존 파싱은 문장 내 단어의 지배소를 찾음으로써 문장의 구조적 중의성을 해소하는 작업이다. 지배소 후위 원칙은 단어의 지배소는 자기 자신보다 뒤에 위치한다는 원리로, 한국어 구문분석을 위하여 널리 사용되는 원리이다. 본 연구에서는 한국어 지배소 후위 원리를 의존 파싱을 위한 트랜지션 시스템의 제약 조건으로 적용하여 2가지 트랜지션 시스템을 제안한다. 제안 모델은 기존 트랜지션 시스템 중 널리 사용되는 arc-standard와 arc-eager 알고리즘에 지배소 후위 제약을 적용한 포워드(forward) 기반 트랜지션 시스템과, 트랜지션 시스템의 단점인 에러 전파(error propagation)를 완화시키기 위하여 arc-eager 알고리즘의 lazy-reduce 방식을 적용한 백워드(backward) 기반 트랜지션 시스템이다. 실험은 세종 구구조 말뭉치를 의존구조로 변환하여 실험하였고, 실험 결과 백워드 기반 트랜지션 시스템이 포워드 방식보다 우수한 성능을 보였다. 기존 연구와의 비교를 위하여 기존 연구를 조사하였지만 세부 실험 환경이 서로 달라서 직접적인 비교는 어려웠다. 제안하는 시스템의 최고 성능은 UAS 92.85%, LAS 90.82% 이다.

  • PDF

모나드를 이용한 비결정적 컴파일러 구현 (Implementation of Nondeterministic Compiler Using Monad)

  • 변석우
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권2호
    • /
    • pp.151-159
    • /
    • 2014
  • 본 연구에서는 Haskell의 모나드 기법을 이용한 명령형 언어의 컴파일러 구현에 대해 논의한다. 이 컴파일러는 한 생성 룰이 입력 스트링의 파싱을 실패할 때 다른 생성 룰로써 파싱하는 backtracking 기능의 비 결정적 Recursive Descent Parser를 포함한다. Haskell은 파싱에 필요한 우수한 기능들을 가지고 있다. Haskell의 대수적 타입은 추상구문트리를 자연스럽게 표현할 수 있으며, 모나드 파싱을 적용한 프로그램 코드는 매우 간결하여 가독성이 좋고, 타 언어에 의해 구현된 것에 비해 코드의 양이 획기적으로 감소된다. 이 컴파일러의 목적 코드는 스택 머신을 기반으로 한 Stack-Assembly 언어로서 이것을 위한 코드 생성과 어셈블러 실행 환경에 대해서도 논의한다.

복합 단위 정보를 이용한 차트 파서 (Chart Parser Using Compound Unit Information)

  • 정한민;여상화;김태완;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.291-295
    • /
    • 1997
  • 본 논문은 복합 단위 정보를 이용하여 모호성을 감소시키고 자연스러운 대역어 정보를 제공할 수 있는 차트파서를 기술한다. 복합 단위 정보를 사용하는 파싱은 태깅과 구문 분석 과정 사이에서 여러 단어들을 하나의 단위로 만들어서 형태론적/구문적 모호성과 파스 트리의 수를 감소시킨다. 우리는 Bottom-up 차트 파싱을 사용하는데, 이는 모호성 있는 태깅 결과가 많을수록 파스 트리의 생성 시간과 수의 증가를 초래하므로 복합 단위를 사용하여 파서에 대한 입력 단어의 수 및 모호성을 감소시켜 안정적인 파싱 결과를 얻을 수 있게 한다. 실험 결과는 복합 단위 정보를 사용한 차트 파싱이 차트들의 크기와 파스 트리의 수를 50%까지 감소시킴을 보여준다.

  • PDF

Extended LR Methods for Efficient Parsing with Feature-based Grammars

  • Le, Kang-Hyuk
    • 인지과학
    • /
    • 제15권1호
    • /
    • pp.25-33
    • /
    • 2004
  • 본 논문은 자질기반 문법의 LR 파싱 테이블 생성과 관련된 두 가지 문제점을 논의한다. 먼저 자질기반 문법에 LR 파싱 방법을 적용할 경우 발생하는 비종결성 및 비결정성의 문제를 살펴본 후, 이 문제를 해결할 수 있는 LR 방법을 제시한다. 또한 파싱 테이블을 생성하기에는 충분한 정보를 가지지 못하는 하위명시 규칙의 문제점을 지적하고, 이러한 규칙들을 LR 파싱 방법으로 처리할 수 있도록 하는 규칙추론 알고리듬을 제안한다.

  • PDF

WWW환경에서 데이터 전송량 절감을 위한 가상인덱스 시스템 (Virtural Index System to Reduce Amount of Data Transmission in WWW Environment)

  • 강재철;김창화
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제26권6호
    • /
    • pp.693-705
    • /
    • 1999
  • 최근에 사용중인 검색엔진은 증가하는 지역사이트의 정보를 로봇사이트에 인덱스하는데 많은 문제점이 있다. 첫째, 지역사이트의 문서 전체를 로봇사이트로 전송하므로 네트워크의 트래픽을 증가시킨다. 왜냐하면 인덱스 하는데 불필요한 불용어와 특수문자, 중복된 키워드 전체를 전송하기 때문이다. 둘째 지역사이트의증가로 인해 로봇의 방문주기가 길어지므로 최근의 정보를 유지하는데 어려움이 있다. 마지막으로 문서를 로봇사이트에서 파싱하므로 파싱 시간이 길다. 이러한 문제점을 해결하기 위해 본 논문에서는 VITAR 방식을 제안하고 중앙집중식 인덱스방식과 성능을 비교분석한다. 이 방식은 지역사이트에서 문서를 생성,갱신, 삭제하고 지역 인덱스에이전트에 의해 파싱한후 푸싱기법을 이용하여 가상인덱스에 키워드 메시지만을 전송한다. VITAR방식의 장점은 키워드메시지만을 전송하므로 네트워크 트래픽을 줄일 수 있고 지역사이트에서 미리 파싱하므로 파싱 시간을 줄일 수 있으며 , 각 지역사이트의 문서가 변경되는 즉시 가상인덱스가 변경되므로 인해 최근의 자료를 유지할 수있다. 특히 중앙집중식 인덱스방식과 성능을 비교분석한 결과 생성타입인 경우 80.3%의 전송절감효과를 얻을 수있었다.