• 제목/요약/키워드: 파싱

검색결과 385건 처리시간 0.065초

안드로이드 애플리케이션을 위한 XML 파서 성능비교 (Performance Comparison of XML Parsers for Android Applications)

  • 정길현;이종진;이진원
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2012년도 제45차 동계학술발표논문집 20권1호
    • /
    • pp.97-99
    • /
    • 2012
  • 모바일 애플리케이션의 다양한 개발 방법 중에서 파서는 중요한 요소로써 쓰이고 있으며 그 종류에는 여러 가지가 있다. 또 각 파서마다 데이터를 파싱하는 방법이 모두 다르며 구현되는 구조 또한 다르다. 본 논문에서는 이렇게 여러 가지 형태로 구현되는 파서를 분석하여 웹 서버를 거쳐 데이터베이스에 접근하는 방식을 좀 더 신속하고 효율적인 구조로 구현하고자한다. 구현방법으로는 파서의 성능 비교를 웹 전송부분을 제외한 파싱 속도를 측정한 방법과 웹 전송부분을 포함한 파싱 속도를 측정하는 두 가지 방법을 통하여 비교하였다. 그 결과, 웹 전송부분을 제외한 방법에서는 DOM 파서가 가장 좋은 성능을 보여주었고 웹 전송부분을 포함한 방법에서는 SAX 파서가 가장 좋은 성능을 보여주었다. 이러한 결과는 안드로이드 애플리케이션에서 웹 서버를 경유하여 데이터를 가져와 파싱하는데 사용할 파서를 선택하는데 도움을 줄 수 있다.

  • PDF

휴대단말용 다중 마크업 문서 파싱 시스템 설계 (Design of Multi-document Parsing System for Mobile Device)

  • 최은정;손지연;한동원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (3)
    • /
    • pp.247-249
    • /
    • 2002
  • 본 논문에서는 휴대단말용 유무선 통합 브라우저를 위한 다중 문서 파싱 시스템을 제안한다. 현재 유무선 인터넷 서비스를 지원하기 위해 단일화된 표준 마크업 언어가 없다. 따라서, 유무선 통합 브라우저를 설계하려면 이들 각기 다른 마크업 언어의 지원을 생각하지 않을 수 없다. 이를 지원하기 위해 본 논문에서는 모든 마크업의 공통 분모 격인 파서를 설계하였으며, 각기 다른 사양의 휴대단말에 적합하게 표현하기 위해 그래픽 사용자 인터페이스 객체를 생성하는 방법을 제안하기로 한다. 이를 위해, 파서는 마크업 언어의 그래픽 기능을 휴대단말에서 지원 가능한 그래픽 사용자 인터페이스 객체 형태의 결과물을 만들어 내다. 이 결과물은 추후에 브라우저의 사용자 인터페이스 모듈과 연동될 것이다. 이러한 파싱 시스템은 브라우저로 하여금 모든 언어를 파싱할 수 있도록 하는 한편, 여러 언어 표준을 지원하려는 브라우저에 부담을 최소화시키는 기법이다.

  • PDF

JFlex와 BYacc/J를 이용한 JX-PullParSer의 구현 및 성능 평가 (Implementation and Performance Evaluation of JX-PullParser using JFlex and BYacc/J)

  • 장주현;노희영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.862-864
    • /
    • 2004
  • 현재 XML은 HTML의 대체 마크업 언어로써 그 사용이 확대되어 지고, 또한 XML 데이터를 위한 파서 모델과 파서 구현방식에 대한 연구가 진행되고 있다. 그 연구의 결과로 벤치마킹에서 PULL모델이 빠른 파싱 속도를 나타내었고, 파서의 구현 방식에 있어서는 PULL 모델 파서인 piccolo에서 사용한 parser generator tool인 JFlex와 BYacc/J를 사용하는 방법이 기존 파서 구현 방식에서 사용하던 Hand-write 방식보다 파싱이 빠른결과 [1]를 내 놓았다. 또한 이 두 방법을 이용하여 기존의 파서 보다 파싱을 위한 시스템 설계를 제안하였다[2]. 본 논문에서는 JX-PullParser 시스템을 구현하였고, xml 파서 속도 비교 도구인 saxbench 속도 비교 도구를 사용하여 기존 파서보다 빠른 파싱 속도를 보이는 것을 입증하였다.

  • PDF

자질 가중치 학습을 이용한 한국어 의존파싱 (Korean Dependency Parsing Based on Learning Weights of Features)

  • 김영태;나동열;임수종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.63-67
    • /
    • 2010
  • 본 논문에서는 자질(feature)의 가중치를 학습하여 이용하는 기계학습 기반 한국어 의존 파싱 기법을 소개한다. 이를 위하여 모든 가능한 의존관계에 대하여 각 의존관계마다 일정한 수의 자질을 생성한다. 자질마다 가중치에 의하여 그 중요도를 나타낸다. 자질의 가중치 값은 의존관계가 태깅된 구문구조 학습 말뭉치를 이용하여 학습한다. 이를 위해 본 논문에서는 간단한 가중치 기계학습 기법을 제시한다. 실험을 위한 언어 자원으로는 구구조부착 세종말뭉치를 변환하여 구한 의존관계 부착 말뭉치를 사용하였다. 실험 결과 약 86.5%의 정확률을 가지는 의존파싱이 가능함을 관찰하였다.

  • PDF

한국어 의미 자원 구축 및 의미 파싱을 위한 Korean AMR 데이터 자동 증강 (Automatic Data Augmentation for Korean AMR Sembanking & Parsing)

  • 최현수;민진우;나승훈;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.287-291
    • /
    • 2020
  • 본 연구에서는 한국어 의미 표상 자원 구축과 의미 파싱 성능 향상을 위한 데이터 자동 증강 방법을 제안하고 수동 구축 결과 대비 자동 변환 정확도를 보인다. 지도 학습 기반의 AMR 파싱 모델이 유의미한 성능에 도달하려면 대량의 주석 데이터가 반드시 필요하다. 본 연구에서는 기성 언어 분석 기술 또는 기존에 구축된 말뭉치의 주석 정보를 바탕으로 Semi-AMR 데이터를 변환해내는 알고리즘을 제시하며, 자동 변환 결과는 Gold-standard 데이터에 대해 Smatch F1 0.46의 일치도를 보였다. 일정 수준 이상의 정확도를 보이는 자동 증강 데이터는 주석 프로젝트에 소요되는 비용을 경감시키는 데에 활용될 수 있다.

  • PDF

리덕션 골을 이용한 LR 파서의 개선 (Improvement of LR Parser using Reduction Goals)

  • 손윤식;오세만
    • 한국멀티미디어학회논문지
    • /
    • 제11권5호
    • /
    • pp.703-709
    • /
    • 2008
  • 컴파일러의 구성 방법론은 파싱 기법의 정립과 자동화 도구의 개발을 통해 많은 발전을 이루었으며, 이를 통해 다양한 컴파일러를 효과적으로 제작할 수 있는 환경이 마련되었다. 특히, 최근에는 임베디드/모바일 기기의 사용과 콘텐츠 산업이 활성화되고 있으며, 이에 따라 각 시스템과 콘텐츠에 적합한 컴파일러 개발 요구가 늘어나고 있다. 컴파일러의 모듈화와 자동적인 구성을 통해 이러한 수적인 요구는 해결되고 있지만, 개발도구로서의 컴파일러를 최적화하기 위해서는 경험적인 방법론의 사용과 이에 따른 매우 큰 비용이 필요하다. 본 논문에서는 LR 파서의 특징을 분석하여, 불필요한 reduce 행동을 경감할 수 있는 파싱기법을 제시한다. 개선된 파싱 기법은 파싱과정에서 lookahead/상태 정보와 도달 가능한 리덕션 골의 정보를 이용하여 연속적인 reduce를 하나의 reduce로 변환하여 효율성을 높인다. 또한, 임베디드 ANSI C컴파일러의 전단부에 적용하여 실제 모바일 콘텐츠 대한 파싱 성능을 분석하였다.

  • PDF

불완전 XML을 위한 파싱 방법 (A Parsing Method for an Incomplete XML)

  • 조경룡;조성언;박장우
    • 한국정보통신학회논문지
    • /
    • 제12권12호
    • /
    • pp.2153-2158
    • /
    • 2008
  • 대표적인 웹 문서의 표준인 XML은 문서의 구조와 내용을 기술하기 위해 태그로 이루어진 문법 구조를 갖는다. XML 문서 작성자는 XML 문서 작성 중 해당 XML DTD(Document Type Definition)에 문법적으로 올바르지 않은 문장을 입력할 수 있다. 즉, 일반적인 텍스트 에디터 환경에서 XML 문서에 입력되는 내용과 태그의 쌍은 완전하지 못한 형태로 입력될 수 있다. 문법적으로 불완전한 문장 입력은 사용자의 계속적인 편집 상태를 종료하고, 정상적인 파싱을 보장하지 않는 원인이 된다. XML 문서를 작성하는 과정에서 문법적으로 불완전한 문장 입력은 정상적인 파싱을 보장하지 않는다. 따라서, 에디터가 문법적으로 빠져있는 부분의 심볼이 무엇인지 정확히 인식 가능하고, 주어진 문법에 따라 부분적인 파스트리를 완성한다면, 사용자의 프로그래밍 편집 상태를 종료하지 않고 계속적인 편집과 성공적인 파싱을 보장할 수 있을 것이다. 본 논문은 XML 문서 편집기에 사용될 수 있는 XML 파서가 문법적으로 불충분한 문장의 입력에 대해 문법에 따라 빠진 부분을 인식하고, 누락된 문법 심벌을 찾아 부족한 부분 파스트리를 완성함으로써 사용자에게 성공적인 XML 문서 편집을 보장할 수 있는 파싱 방법을 제안한다. 제안된 파싱 방법을 통해 사용자는 프로그래밍 편집 중 문법 오류에 대한 부담을 줄일 수 있다. 또한, 사용자는 불완전 입력에 대해 일반적인 에러 처리에 따른 편집 중단 없이 계속적인 문서 파싱 을 보장받아 편집 효율을 높일 수 있다.

온톨로지 파싱 속도향상을 위한 온톨로지 파서 설계 (Ontology Parser Design for Speed Improvement of Ontology Parsing)

  • 김원필;공현장
    • 전자공학회논문지CI
    • /
    • 제47권4호
    • /
    • pp.96-101
    • /
    • 2010
  • 시맨틱 웹에서 핵심 연구는 온톨로지 파싱의 효율성이다. 온톨로지의 효율적 파싱과 추론은 시맨틱 웹의 궁극적인 목적인 의미적인 정보검색의 기반이 된다. 그러나 기존의 온톨로지 저작도구들은 온톨로지 파싱속도에 있어 효율적이지 못하고 있는 실정이다. 따라서, 본 연구에서는 온톨로지가 기술하는 모든 사실을 빠르게 추출하기 위해 2단계에 걸친 온톨로지 파서를 설계 하였다. 정확하고 빠른 파서의 설계를 위해 토큰 추출기에서 온톨로지의 구문의 토큰을 1단계로 추출하고, 이를 바탕으로 트리플 추출기에서 Statement를 추출한다. 이에 본 연구에서 설계한 파서의 속도는 기존의 도구들의 파서보다 빠른 처리가 이루어 짐을 확인할 수 있었다.

핵심개념 기반의 강건한 한국어 대화체 파싱 (A Robust Korean Spoken Language Parsing Based on Core Concept)

  • 노서영;정천영;서영훈
    • 한국정보처리학회논문지
    • /
    • 제6권8호
    • /
    • pp.2113-2123
    • /
    • 1999
  • 부분 자유어순 특성을 가지는 한국어를 CFG형태의 문법으로 기술했을 때 문법이 방대해지고 CFG형태의 문법을 파서가 이용할 때는 자연발화문의 특징인 간투어, 중복발화 등 때문에 불필요 성분을 따로 처리해야 하므로 파서의 부담이 커진다. 이러한 문제점을 해결하기 위해 본 논문에서는 발화문에서 중요한 의미를 가지는 요소를 '핵심개념'이라 정의하고 핵심개념만을 문법에 기술하여 문법이 방대해지는 것을 막고 문법에 기술된 핵심개념을 파싱요소로 선택함으로써 불필요 성분처리에 대한 파서의 부담을 줄였으며 이렇게 단순화된 문법만으로도 정확한 파싱결과를 내줄 수 있음으로 보인다. 실험결과 '여행안내'영역 자연발화문에 대해서 평균 98%이상의 올바른 파싱결과를 얻어낼 수 있었다.

  • PDF

효율적인 한국어 파싱을 위한 최장일치 기반의 형태소 분석기 기능 확장 (Functional Expansion of Morphological Analyzer Based on Longest Phrase Matching For Efficient Korean Parsing)

  • 이현영;이종석;강병도;양승원
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권3호
    • /
    • pp.203-210
    • /
    • 2016
  • 한국어는 문장 구성소의 생략과 수식 범위가 자유롭기 때문에 파싱보다는 형태소 분석 단계에서 처리하면 좋은 경우가 있다. 본 논문에서는 파싱의 부담을 덜어 줄 수 있는 형태소 분석기의 기능 확장 방안을 제안한다. 이 방법은 미지어의 추정, 복합 명사 및 복합동사의 처리, 숫자 및 심볼의 처리에 의해 여러 형태소 열이 하나의 구문 범주를 가질 때 이것을 최장일치 방법으로 결합하고 의미 자질을 부여하여 하나의 구문 단위로 처리하는 것이다. 제안한 형태소 분석 방법은 불필요한 형태론적 모호성이 제거되고 형태소 분석 결과가 줄어들어 태거 및 파서의 정확률이 향상되었다. 또한, 실험을 통해 파싱트리는 평균 73.4%, 파싱 시간은 평균 52.9%로 줄었음을 보인다.