• 제목/요약/키워드: 파싱

검색결과 385건 처리시간 0.032초

구문 제약으로 문형을 사용하는 CFG기반의 한국어 파싱 (CFG based Korean Parsing Using Sentence Patterns as Syntactic Constraint)

  • 박인철
    • 한국산학기술학회논문지
    • /
    • 제9권4호
    • /
    • pp.958-963
    • /
    • 2008
  • 한국어는 용언이 의미적 제약을 통해 문장을 지배하며 대부분의 한국어 문장은 주절과 내포문을 가지는 복문으로 구성되어 있다. 따라서 한국어에 맞는 구문 문법이나 구문 제약을 기술하는 것은 매우 어렵고 한국어를 파싱 하면 다양한 구문 모호성이 발생한다. 본 논문에서는 구문 제약으로 문형(sentence patterns)을 사용하는 CFG기반의 문법을 기술하여 구문 모호성을 해결하는 방법을 제안한다. 이를 위해 내포문을 포함하는 복문도 문형으로 분류하였으며 44개의 문형을 사용한다. 그러나 한국어 특성상 문형 정보만으로는 모든 구문 모호성을 해결할 수가 없기 때문에 문형에 의미 제약(semantic constraint)을 가한 의미 지표(semantic marker)를 사용하여 파싱을 수행한다. 의미 지표는 보조사의 처리나 공동격 조사에 의해 발생되는 구문 모호성을 해결하는데 이용될 수 있다.

TCP/IP 소켓을 이용한 원격 측정 장치의 실험 데이터 통합 관리 시스템 개발 (Management System for Experimental Data In Remote Measurement Device Using TCP/IP Socket)

  • 김선영;조환규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(B)
    • /
    • pp.397-400
    • /
    • 2010
  • 최근의 과학 실험은 그 규모나 내용에 있어서 점차 대형화되는 동시에 복잡해지고 있다. 이로 인하여 다양한 측정 장비로부터 도출된 실험 결과를 효율적으로 분석, 관리, 종합하는 도구의 필요성이 커지고 있다. 본 논문에서는 원격 측정 장치로부터 서로 다른 포맷의 실험 데이터를 자동 수집한 후 이중 정제한 데이터들만 추출하여 웹에서 시각화하는 실험 데이터 통합 관리 시스템을 제안한다. 먼저 원격 측정 장치의 데이터를 자동으로 수집하기 위해 폴링 서버를 설계하여 장치마다 폴링 에이전트를 도입하였다. 이를 통해 관리자가 각 측정 장치에 직접 접근하지 않고도 데이터를 수집할 수 있다. 폴링으로 확보한 데이터는 파싱을 통해 정제하고, 이들 데이터로 데이터베이스를 구축한다. 정제한 데이터는 시각화하여 사용자가 웹에서 쉽게 파악할 수 있다. 데이터 폴링은 TCP/IP Socket을 통해 수행하므로 보편적으로 사용하는 FTP 방식에 비해 데이터 확보 시 신뢰성을 높일 수 있으며, 폴링 여부 판단 시에는 동기식, 실제 폴링 시에는 비동기식 통신 방법을 사용하여 폴링의 효율을 높였다. 본 시스템을 활용하여 사용자의 임의적인 데이터 접근을 최소화하였고 데이터의 전송, 저장, 관리를 자동화함으로써 편의성을 높였다. 본 시스템을 활용하여 원격 실험 장치로부터 데이터를 확보할 때의 정확성과 폴링 및 파싱 속도를 실험을 통해 측정하였고, 그 결과 폴링 시 100%의 정확도와 정상 포맷의 데이터에 대해서 100%의 파싱 결과를 보임으로써 본 시스템이 원격 장치의 실험 데이터를 통합 관리할 때 적합함을 알 수 있었다. 추후 데이터의 속성에 따라 클러스터링 할 예정이며 클러스터링에 따른 시각화 서비스를 제공할 계획이다.

  • PDF

확률적 문법규칙에 기반한 국어사전의 뜻풀이말 구문분석기 (A Parser of Definitions in Korean Dictionary based on Probabilistic Grammar Rules)

  • 이수광;옥철영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권5호
    • /
    • pp.48-460
    • /
    • 2001
  • 국어사전의 뜻풀이말은 표제어의 의미를 기술할 뿐만 아니라, 상위/하위개념, 부분-전체개념, 다의어, 동형이의어, 동의어, 반의어, 의미속성 등의 많은 의미정보를 내재하고 있다. 본 연구는 뜻풀이말에서 다양한 의미정보를 획득을 위한 기본적인 도구로서 국어사전의 뜻풀이말 구문분석기를 구현하는 것을 목적으로 한다. 이를 위해서 우선 국어사전의 뜻풀이말을 대상으로 일정한 수준의 품사 및 구문 부착 말 뭉치를 구축하고, 이 말뭉치들로부터 품사 태그 중의성 어절의 빈도 정보와 통계적 방법에 기반한 문법규칙과 확률정보를 자동으로 추출한다. 본 연구의 뜻풀이말 구문분석기는 이를 이용한 확률적 차트파서이다. 품사 태그 중의성 어절의 빈도 정보와 문법규칙 및 확률정보는 파싱 과정의 명사구 중의성을 해소한다. 또한, 파싱 과정에서 생성되는 노드의 수를 줄이고 수행 속도를 높이기 위한 방법으로 문법 Factoring, Best-First 탐색 그리고 Viterbi 탐색의 방법을 이용한다. 문법규칙의 확률과 왼쪽 우선 파싱 그리고 왼쪽 우선 탐색 방법을 사용하여 실험한 결과, 왼쪽 우선 탐색 방식과 문법확률을 혼용하는 방식이 가장 정확한 결과를 보였으며 비학습 문장에 대해 51.74%의 재현률과 87.47%의 정확률을 보였다.

  • PDF

리덕션 골의 예상: 결정적인 접근 방법 ((Prediction of reduction goals : deterministic approach))

  • 이경옥
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권5_6호
    • /
    • pp.461-465
    • /
    • 2003
  • LR 파싱 시에 리덕션 골을 리덕션 시점 이전에 찾는 기법은 우문맥 계산 등의 다양한 응용을 갖는다. 기존 연구로서 미리 결정될 수 있는 리덕션 골의 집합을 생성해주는 방식이 제안되었다. 한편 이와 같은 집합 형태의 접근은 비결정적이어서 응용에 따라서는 부적절한 경우가 있다 이에 본 논문에서는 집합의 형태가 아닌 유일한 예상 가능한 리덕션 골을 제시하는 결정적인 방법을 제안한다.

정적 프로그램 분석 과정을 단순화하기 위한 지원 툴 설계 (Design of a Supporting Tool for Simplifying Static Program Analysis Process)

  • 윤준호;이병정;우치수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.19-21
    • /
    • 2003
  • 정적 프로그램 분석기는 프로그램의 결점을 찾아내는 초기 목적에서 진화하여, 역공학. 재공학. 메트릭 검증 등 도구의 front-End 모듈로 많이 쓰이고 있다. 이에 대한 다양한 연구가 진행되고 있고. 또 많은 관련 도구들이 소개되었지만, 사용자가 생각을 직접 코드형태로 구현하고, 결과를 모델형태로 표현하여, 시험하고 검증할 수 있도록 도와주는 프레임웍 수준 도구들은 거의 나와있지 않다. 본 논문에서는 정적 프로그램 분석을 쉽게 할 수 있도록 지원하는 기반도구의 설계를 제안한다. 본 연구에서는 언어의 파싱과 시각화 과정의 반복되는 작업들을 추상화하고, 분석 코드를 파싱 코드와 분리함으로써 사용자로 하여금 분석 과정에 집중할 수 있도록 도와준다.

  • PDF

LR 테크닉을 이용한 형태소 분석 (Morphological Processing with LR Techniques)

  • 이강혁
    • 인지과학
    • /
    • 제4권2호
    • /
    • pp.115-143
    • /
    • 1994
  • 본 논문은 LR 파싱기법을 이용한 확장된 두단계(two-level)형태소분석 모델을 제시한다.LA기법을 이용한 두단계 모델은 효율적 형태소분석 뿐만 아니라 Koskenniemi(1983)의 모델보다 형태론적 현상에 대한 보다 높은 기술성(descriptive adequacy)을 획득한다.이를 위해 두단계 모델은 자질기반의 문맥자유문법(feature-based CF grammar)에 근거한 독립적인 형태/통사모듈에 의해 확장된다.문맥자유문법에 근거한 단어문법(word grammar)을 채택함으로써 확장 모델은 하위사전의 중복현상을 피하면서 비연속적 의존관계(discontinuous dependencies) 를 가지는 복합어 등을 처리할 수 있다.또한 파싱테이블에 명시된 LR 예측은 형태소분석기로 하여금 사전탐색시간을 줄일 수 있도록 도와준다.

인터넷 환경에서 안전한 XML 문서에 관한 연구 (A Study on Secure XML Documents in Internet ]Environments)

  • 홍성표;박영옥;조애리;유혁선;이준
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 추계학술발표대회(상)
    • /
    • pp.95-99
    • /
    • 2003
  • XML은 SGML(Standard Generalized Markup Language)의 간략화된 버전으로 SGML의 확장성, 구조, 검증의 특성을 계승하고 있다. 이런 장점으로 XML은 발표된 이래로 인터넷 상의 자료표현의 표준으로 각광받고 있다. 그러나, XML은 문서의 데이터 포맷 표현을 향상시키는데 중점을 두고 만들어졌기 때문에 문서변조 및 데이터 삭제 등의 공격에 취약한 문제점을 가지고 있다. 이러한 문제점에 대한 해결책으로 XML 전자 서명, XML 암호화 기법, XML 접근 제어와 같은 다양한 해결책이 제시되었다. 본 논문에서는 XML 문서에만 전자서명을 첨부하는 것이 아니라, DTD에 전자 서명을 첨부하는 방법을 제안하였다. 먼저 DTD파일을 끝까지 읽으면서 파싱을 하고 여기서 추출되는 엘리먼트나 속성, 엔티티들을 해쉬테이블에 저장한다. 파싱이 종료되면 해쉬 테이블을 읽어 들여서 메시지 다이제스트를 수행한다. 수행 후 이를 개인 키와 합성하여 전자 서명을 생성한다.

  • PDF

웹 환경에서 XLink를 이용한 통합 GML 문서 처리 기법 (A Processing Technigue of Integrated GML Using XLink on the Web)

  • 유병섭;박순영;정원일;배해영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1741-1744
    • /
    • 2002
  • 최근 일반인들의 웹 사용이 급증함에 따라 웹 관련 어플리케이션이 증가하게 되었다. GIS 분야에서 웹 GIS라는 분야가 등장하게 되었고 많은 연구가 진행되어 왔다. OGC(Open GIS Consortium)에서는 GIS 데이터의 상호운용성을 웹 환경에서 지원하고, 서로 다른 타입의 지리정보의 접근을 위해 웹 맵서버 인터페이스 구현 명세(Web Map Server Interfaces Implementation Specification)를 제안하였다. 제안된 웹 맵 서버의 통합방법 중에서 XLink를 이용한 통합방법은 웹 맵 서버 통합방법보다 서버의 응답 시간을 줄였으나 클라이언트의 문서 처리시간이 증가하였다. 본 논문에서는 이러한 점을 해결하기 위하여 클라이언트에서 XLink로 표현된 통합문서를 각각 개별적으로 처리하는 개별 문서처리 기법을 제안한다. 본 논문의 개별 문서처리 기법은 클라이언트에서 XLink된 문서들을 각 문서별로 개별적인 파싱을 수행하고, 파싱된 결과를 동시에 처리한다.

  • PDF

개념간 상호 정보를 이용한 효율적인 개념기반 한국어 대화체 파싱 (An Efficient Concept-based Spoken Language Parsing for Korean using Mutual Information between Concepts)

  • 노서영;정천영;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.365-369
    • /
    • 1998
  • 개념기반 한국어 대화체 분석 시스템에서 어려운 점으로 대두될 수 있는 것 중의 하나가 대화체 파싱에서 과다한 탐색공간의 생성이다. 과다한 탐색공간의 생성은 대화체 발화문으로부터 불필요한 탐색공간을 제거하는 메커니즘의 결여 때문이다. 따라서 본 논문에서는 이러한 문제점을 해결하고자 개념에 기반 되어서 작성된 문법을 통해서 얻어진 동사정보를 구성하여 단일 최상위 레벨 개념들로 분리하고 이를 가장 최소 개수의 최상위 레벨 개념으로 제한해서 제한된 개념으로 대화체 토큰열을 전사시키는 방법을 제시하였다. 그 결과 기존 탐색공간의 40%정도의 탐색공간을 제약할 수 있었다.

  • PDF

데이터베이스와의 연동 기반 XML 에디터의 설계 및 구현 (Design and Implementation of a XML Editor For DataBases)

  • 고윤희;김현철;이원규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.136-138
    • /
    • 2001
  • 전자상거래를 위한 XML 및 관련 표준은 기존의 표준을 개선하거나 새로운 표준이 워킹 드래프트로 제안되고 있는 등 계속적으로 발전되고 있다. XML이 전자상거래에서 표준화된 문서로써 사용됨에 따라 XML문선의 효율적인 작성과 유지관리를 위해 다양한 XML에디터들이 개발되고 있다. 하지만 기존 에디터들의 경우, XML문서의 유효성만 체크하면서 단순한 편지기능만을 제공해 주고 있다. 따라서 이 논문에서는 실제 XML문서를 파싱하여 데이터베이스에 저장하고 자신이 원하는 쿼리(query)를 보냄으로써 그 결과를 XML문서로 변환하여 보여주는 기능을 구현하였다. 이는 전자 상거래 뿐만 아니라 동종 업계만의 전자 문서 교환에 있어 주고 받는 XML문서를 특별히 따로 처리할 필요 없이 원한다면 바로 자신의 데이터베이스로 파싱하여 넣거나, 필요한 부분을 기존의 데이터베이스에서 쿼리하여 이를 XML문서로 변환하여 주고 받는데 용이하게 이용될 수 있다.

  • PDF