• 제목/요약/키워드: 파싱 알고리즘

검색결과 42건 처리시간 0.025초

지배소 후위 제약을 적용한 트랜지션 시스템 기반 한국어 의존 파싱 모델 (Korean Dependency Parsing Model based on Transition System using Head Final Constraint)

  • 임준호;윤여찬;배용진;임수종;김현기;이규철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.81-86
    • /
    • 2014
  • 한국어 의존 파싱은 문장 내 단어의 지배소를 찾음으로써 문장의 구조적 중의성을 해소하는 작업이다. 지배소 후위 원칙은 단어의 지배소는 자기 자신보다 뒤에 위치한다는 원리로, 한국어 구문분석을 위하여 널리 사용되는 원리이다. 본 연구에서는 한국어 지배소 후위 원리를 의존 파싱을 위한 트랜지션 시스템의 제약 조건으로 적용하여 2가지 트랜지션 시스템을 제안한다. 제안 모델은 기존 트랜지션 시스템 중 널리 사용되는 arc-standard와 arc-eager 알고리즘에 지배소 후위 제약을 적용한 포워드(forward) 기반 트랜지션 시스템과, 트랜지션 시스템의 단점인 에러 전파(error propagation)를 완화시키기 위하여 arc-eager 알고리즘의 lazy-reduce 방식을 적용한 백워드(backward) 기반 트랜지션 시스템이다. 실험은 세종 구구조 말뭉치를 의존구조로 변환하여 실험하였고, 실험 결과 백워드 기반 트랜지션 시스템이 포워드 방식보다 우수한 성능을 보였다. 기존 연구와의 비교를 위하여 기존 연구를 조사하였지만 세부 실험 환경이 서로 달라서 직접적인 비교는 어려웠다. 제안하는 시스템의 최고 성능은 UAS 92.85%, LAS 90.82% 이다.

  • PDF

트리 접합 문법의 LR파싱 알고리즘 (A LR Parsing Algorithm for Tree Adjoining Grammar)

  • 한성국
    • 인지과학
    • /
    • 제6권3호
    • /
    • pp.41-63
    • /
    • 1995
  • 트리접합문법의 LR상향식 파싱 방법을 제시한다.먼저 트리접합문법의 형식특성을 기술하기 위한 접합규칙 시스템을 도입하여 파싱과정을 효율적으로 수행할 수 있게 한다.트리접합문법은 문맥의존성을 갖고 있는데,접합 순간은 문맥자 유문법 체계로 기술할 수 있음을 보이고,이러한 특성을 기반으로 상향식 파싱방법을 유도한다.본 논문에서 제시한 LR상향식 파싱방법은 트리접합문법에 문맥자유문법의 파싱방법을 변형하여 적용할 수 있음을 보인다.

  • PDF

깊이탐색과 노드간 최단거리를 이용한 XML 인덱싱 알고리즘 설계 및 구현 (Design and Implementation of XML-based Indexing Algorithm Using Depth-First and Shortest Distance Between Nodes)

  • 김광남;윤희병;김화수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.547-549
    • /
    • 2004
  • 웹기반 하에서 구조적인 정보를 표현하기 위해서 XML이 다양하게 사용되고 있으나 XML 기반 문서는 다양한 Schema와 노드의 표현으로 구성되어 있어서 이를 효율적으로 인덱싱 하여 저장하는 것은 매우 어려운 일이다 이를 해결하기 위하여 추상화, DTD, K-ary 완전트리 기법 등 다양한 연구가 이루어지고 있으나 응용에 많은 제한을 가지고 있다. 본 논문에서는 XML 기반의 웹문서를 효율적으로 인덱싱하고 사용자의 질의에 최적의 결과를 제공하기 위한 알고리즘을 설계 및 구현한다. 인덱싱 시스템 설계를 위해서 먼저 노드(부모 형제)의 ID를 추출하는 알고리즘을 제안하며, 문서 및 노드 테이블 설계 결과를 제시한다. 그리고 C#을 이용한 파싱과 인덱스 알고리즘을 구현하기 위하여 깊이탐색과 관계 노드간 최단거리를 이용하며, 알고리즘 실행 결과와 이 결과로 자동 생성된 문서 및 노드 테이블의 파싱 결과를 또한 제시한다.

  • PDF

한국어 의미 자원 구축 및 의미 파싱을 위한 Korean AMR 데이터 자동 증강 (Automatic Data Augmentation for Korean AMR Sembanking & Parsing)

  • 최현수;민진우;나승훈;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.287-291
    • /
    • 2020
  • 본 연구에서는 한국어 의미 표상 자원 구축과 의미 파싱 성능 향상을 위한 데이터 자동 증강 방법을 제안하고 수동 구축 결과 대비 자동 변환 정확도를 보인다. 지도 학습 기반의 AMR 파싱 모델이 유의미한 성능에 도달하려면 대량의 주석 데이터가 반드시 필요하다. 본 연구에서는 기성 언어 분석 기술 또는 기존에 구축된 말뭉치의 주석 정보를 바탕으로 Semi-AMR 데이터를 변환해내는 알고리즘을 제시하며, 자동 변환 결과는 Gold-standard 데이터에 대해 Smatch F1 0.46의 일치도를 보였다. 일정 수준 이상의 정확도를 보이는 자동 증강 데이터는 주석 프로젝트에 소요되는 비용을 경감시키는 데에 활용될 수 있다.

  • PDF

이질적인 분산 환경에서의 MPEG비디오의 파싱을 위한 스케줄링 알고리즘 (A Scheduling Algorithm for Parsing of MPEG Video on the Heterogeneous Distributed Environment)

  • 남윤영;황인준
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제31권12호
    • /
    • pp.673-681
    • /
    • 2004
  • 디지털 비디오의 사용이 보편화되면서 비디오에 대한 효율적인 브라우징이나 검색의 요구가 증가하게 되었다. 이러한 연산을 지원하기 위해서는 효과적인 비디오 인덱싱이 결랍되어야 한다. 비디오 인덱싱에서 가장 기초적인 단계의 하나는 비디오론 샷과 장면으로 파싱하는 것이다. 일반적으로, 비디오 파싱은 복잡한 연산을 필요로 하기 때문에, 기존의 단일 컴퓨터 환경에서는 많은 시간이 소요된다. 기존의 연구는 일정한 시간 동안에 각 슬레이브들에게 작업을 할당하는 라운드 로빈 방식을 사용하였다. 그러나 이러한 방식은 이질적인 환경에서는 적용하는데 어려움이 있다. 본 논문에서는 이질적인 분산 컴퓨팅 환경에서 사용가능한 병렬 파싱 알고리즘인 사이즈 적응적인 라운드 로빈과 동적으로 사이즈 적응적인 라운드 로빈 방식을 제안하였다 성능을 비교하기 위해 몇 가지 실험을 하였으며, 그 결과를 분석하였다.

미국 특허 서지정보 추출 방법에 대한 연구: HTML 파싱 기법의 활용을 중심으로 (An Extraction Method of Bibliographic Information from the US Patents: Using an HTML Parsing Technique)

  • 한유진;오승우
    • 정보관리학회지
    • /
    • 제27권2호
    • /
    • pp.7-20
    • /
    • 2010
  • 본 연구는 미국 특허 문서에서 가장 최신의 정보를 추출할 수 있는 방법을 제시하였다. 이를 위해 미국특허청 웹페이지에 직접 접속하여, HTML 문서를 파싱하는 방법을 제시하였다. 먼저 관심 있는 키워드로 검색을 한 후 50개로 이루어진 리스트가 출력되면, HTML 파싱 기법을 이용하여 여기서 직접 특허번호, 출원인, 미국 특허 클래스와 같은 주요 서지정보를 추출할 수 있는 알고리즘을 제안하였다. 또한 미국 특허문서에서 특수하게 제공되는 선.후행 특허간의 관계를 활용해 본 특허와 후행 특허의 미국 특허 클래스를 동시에 추출 할 수 있는 알고리즘도 보여주었다. 본 연구에서 제시한 방법은 몇 가지 한계를 가지지만, 적시성.포괄성 측면에서 이미 존재하는 데이터베이스를 보완할 수 있을 것이다.

XML 문서 편집을 위한 추상문법 (An Abstract Grammar for XML Document Editing)

  • 신경희;최종명;유재우
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권3_4호
    • /
    • pp.268-277
    • /
    • 2003
  • 문서내의 태그를 정의하는 문서타입정의(DTD)는 구문구조를 정의하는 XML 문서문법으로 이문법에 따라 작성되는 XML 문서는 파싱처리로 적합성을 확인해야 한다. XML 문서의 적합성을 확인하기 위한 파싱 방법으로서 프로그래밍 언어의 결정적 파싱은 표준에서 언급한 모든 엘리먼트선언에 대한 결정적 내용 모델에 대한 정의를 만족할 수 없다. 이에 본 논문에서는 적합한 XML 문서 처리를 위하여 구문 편집환경에 초점을 맞추고 구문편집에 기본이 되는 DTD의 내부표현과 그에 따른 알고리즘에 대하여 기술한다. 문자열로 표현되는 DTD의 엘리먼트선언과 어트리뷰트선언의 문서 논리구조는 본 논문에서 제시하는 알고리즘에 의해 그래프구조와 데이블구조로 변환되고, 특히 테이블구조의 구문정보는 속성값을 갖는 문맥자유문법형태로 구문지향적 편집기에 이용되는 문법이 된다. 이 문법을 XML 추상문법이라고 하고 문법생성결과 및 구문편집 예를 보인다.

파싱 알고리즘을 이용한 편의점 정보 검색 시스템 구현 (Implementation of The Shopping Information Retrieval System using Parsing Algorithm)

  • 김승욱;유희경;정인철;김태우
    • 사물인터넷융복합논문지
    • /
    • 제2권4호
    • /
    • pp.1-8
    • /
    • 2016
  • 소비자가 각 편의점에서 제공하는 제품과 행사 상품 등을 값싸게 구매하기 위해서는 해당 편의점의 홈페이지를 들어가거나 직접 방문하여 찾아야 한다. 본 연구에서는 각 편의점에서 어떤 제품이 행사 상품이며, 어떤 편의점에서 어떤 서비스를 제공하는지 여부를 검색하는 앱 프로그램을 개발한다. 본 앱을 사용하여 사용자는 여러 편의점에서 제공하는 행사 정보를 비롯한 각종 서비스를 실시간을 검색할 수 있다.

중심어 주도 단방향 차트 파싱을 이용한 문맥 대용어 해결 (A Resolution of Text Anaphora using Unidirection Chart Parsing in HPSG)

  • 김정해;조준모;이상국;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.386-392
    • /
    • 1996
  • 대용어(anaphor)는 한 문장이나 문장과 문장간에 같은 요소가 되풀이될 때 언어 사용의 경제성(language economy)을 위하여 잉여적 표현을 제거하는 방법으로, 좀 더 간략한 언어 표현으로 대치하여 쓰는 현상이다. 따라서 본 논문에서는 중심어 주도의 단방향 활성 차트 파싱을 이용하여 한국어 문장내에서 야기되는 문맥 대용어의 해결 방안에 대해 제안한다. 이는 자연어를 입력으로 하는 실용목적의 자연어처리 시스템 구축에 있어 필수적으로 요구되는 부분이다. 대용어 해결을 위해 먼저 전산학적인 대용어 정의를 내리고, 대용어와 선행어사이의 의미 분류 및 대용어 해결 과정에 필요한 처리 조건등을 설정하였다 또한 파서내에 대용어 처리를 위해 사전내 자질구조로 ANAPMAJ, ANAPMIN, PERSON, NUM, INDEX자질을 추가하였고, 대용어 해결을 위한 알고리즘을 제안하였으며, 기존에 개발된 HPSG 파서가 처리하는 모든 문장에서 야기된 문맥 대용을 해결하여 파서이후의 응용 시스템에서 이용할 수 있는 내적 표현을 보다 분명하게 형식화하였다.

  • PDF

사용자의 실시간 상황정보를 이용한 사용자 맞춤 검색 시스템 (Customized Search System using Real-time Contexts of User)

  • 권미림;홍광진;정기철
    • 한국산업정보학회논문지
    • /
    • 제21권5호
    • /
    • pp.19-30
    • /
    • 2016
  • 오늘날 우리는 인터넷에서 쉽게 정보를 얻지만, 수많은 정보들은 데이터 검색에 방해가 되며 비효율적이다. 그러므로 적절한 정보를 제공하는 사용자 맞춤의 웹 검색 시스템이 필요하다. 본 논문에서는 날씨, 위치, 시간 등 사용자가 처한 상황 정보를 반자동으로 수집하여 사용자에게 필요한 정보를 제공할 수 있는 검색 시스템을 제안한다. 이러한 상황 정보를 이용하면 검색 시스템은 사용자가 특정한 상황에서 어떤 정보를 원하는지 알 수 있으며, 사용자에게 보다 더 유용한 정보를 제공할 수 있다. 제안된 시스템은 '자발적 공유경제 방식의 개인 한글 콘텐츠 제작/공유 서비스'에 기반 하여 각 입력, 저장, 검색 부분에 데이터 파싱 알고리즘을 추가하였다. 실험에서는 몇 개의 일반적인 검색어를 이용해서 기존의 시스템과 제안된 시스템의 결과를 비교한다.