• 제목/요약/키워드: parsing

검색결과 507건 처리시간 0.028초

강화된 지배소-의존소 제약규칙을 적용한 의존구문분석 모델 : 심층학습과 언어지식의 결합 (Dependency parsing applying reinforced dominance-dependency constraint rule: Combination of deep learning and linguistic knowledge)

  • 신중민;조상현;박승렬;최성기;김민호;김미연;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.289-294
    • /
    • 2022
  • 의존구문분석은 문장을 의존관계(의존소-지배소)로 분석하는 구문분석 방법론이다. 현재 사전학습모델을 사용한 전이 학습의 딥러닝이 좋은 성능을 보이며 많이 연구되지만, 데이터셋에 의존적이며 그로 인한 자료부족 문제와 과적합의 문제가 발생한다는 단점이 있다. 본 논문에서는 언어학적 지식에 기반한 강화된 지배소-의존소 제약규칙 에지 알고리즘을 심층학습과 결합한 모델을 제안한다. TTAS 표준 가이드라인 기반 모두의 말뭉치로 평가한 결과, 최대 UAS 96.28, LAS 93.19의 성능을 보였으며, 선행연구 대비 UAS 2.21%, LAS 1.84%의 향상된 결과를 보였다. 또한 적은 데이터셋으로 학습했음에도 8배 많은 데이터셋 학습모델 대비 UAS 0.95%의 향상과 11배 빠른 학습 시간을 보였다. 이를 통해 심층학습과 언어지식의 결합이 딥러닝의 문제점을 해결할 수 있음을 확인하였다.

  • PDF

XML에서 브랜칭 노드를 이용한 효율적인 Twig Pattern 처리 (Efficient Processing of Twig Pattern Matching using Branching Node)

  • 류병걸;박상현;하종우;이상근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.767-768
    • /
    • 2009
  • 현재 웹상에서 데이터 표현을 위한 XML의 사용이 늘어나면서, XML 문서의 효율적인 질의 처리에 대한 관심이 증가하고 있다. 기존에 질의 처리 연구는 단일 경로에 대한 질의 처리가 연구되었고, 최근에는 두 개 이상의 경로를 가지는 Twig Pattern 질의 처리 연구가 이루어졌다. 따라서 본 논문에서는 기존에 제안된 기법들 보다 효율적으로 Twig Pattern 질의 처리를 할 수 있는 O-TJFast (Optimal TJFast) 기법을 제안한다. 또한, 본 논문에서는 XML 문서의 파싱(parsing)시 제공되는 정보를 가공하여 스트림과 포인터 구조를 얻어내어 기존에 제안된 기법들 보다 입출력 시간(I/O Time)과 처리 시간(Execution Time)을 효율적으로 감소시킬 수 있는 기법을 제안한다. 그리고 성능평가를 통해 제안한 기법이 처리시간에 많은 이득을 볼 수 있음을 보인다.

과학 논문 초록 말뭉치 구축 및 선학습 트랜스포머 기반 초록 자동구조화 방법 (Scientific Paper Abstract Corpus and Automatic Abstract Structure Parsing using Pretrained Transformer)

  • 김서경;조윤희;허세훈;정상근
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.280-283
    • /
    • 2020
  • 논문 초록은 논문의 내용을 요약해 제시함으로써 독자들의 연구결과물에 대한 빠른 검색과 이해를 도모한다. 초록의 구성은 대부분 전형적인 경우가 많기 때문에, 초록의 구조를 자동 분석하여 색인해두면 유사구조 초록을 검색하거나 생성하는 등의 연구효율화에 기여할 수 있다. 허세훈 외 (2019)는 초록 자동구조화를 위한 말뭉치 SPA2019 및 기계학습기반의 자동구조화 방법을 제시하였다. 본 연구는, 기존 SPA2019 의 구조화 오류를 바로잡고, SPA2019 에서 추출한 1,346 개의 초록데이터와 2,385 개의 초록데이터를 추가한 SPA2020 말뭉치를 새로이 소개한다. 또한, 다양한 선학습 기반 트랜스포머들을 활용하여 초록 자동구조화를 수행하였으며, 그 결과 BERT-0.86%, RoBERTa-0.86%, ALBERT-0.84%, XLNet-0.86%, DistilBERT-0.85% 등의 자동구조화 성능을 보임을 확인하였다.

  • PDF

문장 의미의 그래프 구조 표상을 위한 한국어 Abstract Meaning Representation 가이드라인 (Korean Abstract Meaning Representation (AMR) Guidelines for Graph-structured Representations of Sentence Meaning)

  • 최현수;한지윤;박혜진;오태환;박석원;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.252-257
    • /
    • 2019
  • 이 논문은 한국어 Abstract Meaning Representation (AMR; 추상 의미 표상) 가이드라인 1.0*을 소개한다. AMR은 통합적인 의미 표상 체계로, 의미 분석(semantic parsing)의 주요 Task 중 하나로 자리매김하고 있다. 한국어 AMR 가이드라인은 현행 AMR 1.2.6을 심도 있게 분석하고 이를 한국어 상황에 맞게 로컬라이징한 것이다. 해당 가이드라인은 추후 한국어 AMR 말뭉치 구축(sembanking)에 대비하여 일관된 주석 세부 지침을 제공하기 위해 작성되었다.

  • PDF

Object Detection and Localization on Map using Multiple Camera and Lidar Point Cloud

  • Pansipansi, Leonardo John;Jang, Minseok;Lee, Yonsik
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.422-424
    • /
    • 2021
  • In this paper, it leads the approach of fusing multiple RGB cameras for visual objects recognition based on deep learning with convolution neural network and 3D Light Detection and Ranging (LiDAR) to observe the environment and match into a 3D world in estimating the distance and position in a form of point cloud map. The goal of perception in multiple cameras are to extract the crucial static and dynamic objects around the autonomous vehicle, especially the blind spot which assists the AV to navigate according to the goal. Numerous cameras with object detection might tend slow-going the computer process in real-time. The computer vision convolution neural network algorithm to use for eradicating this problem use must suitable also to the capacity of the hardware. The localization of classified detected objects comes from the bases of a 3D point cloud environment. But first, the LiDAR point cloud data undergo parsing, and the used algorithm is based on the 3D Euclidean clustering method which gives an accurate on localizing the objects. We evaluated the method using our dataset that comes from VLP-16 and multiple cameras and the results show the completion of the method and multi-sensor fusion strategy.

  • PDF

소프트웨어 컴플라이언스를 위한 SPDX Parser 및 Validator (SPDX Parser and Validator for Software Compliance)

  • 윤호영;조용준;정병옥;신동명
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제13권1호
    • /
    • pp.15-21
    • /
    • 2017
  • 수 많은 파일로 이루어진 소프트웨어 패키지를 일일이 분석하는 것은 많은 시간과 비용을 요구하는 작업이다. 이에 리눅스 재단의 워킹그룹인 SPDX에서는 소프트웨어의 명세정보(메타데이터) 규약을 발표하였다. SPDX 문서는 2017년 상반기 기준 2.1버전이 발표되었으며, 총 7개의 콘텐츠에 66개 항목이 존재한다. 또한 Tag/Value 형식과 RDF형식을 권장하며, 스프레드시트 형식을 지원한다. 본 연구에서는 SPDX 문서를 각 항목별로 분류하고, 유효성 검사를 해주는 SPDX Parse & Validator 툴을 개발하였다. 추후 SPDX 문서를 생성(Generator)하는 툴을 개발하여 보다 효율적으로 소프트웨어 패키지를 관리하고자 한다.

Vocabulary Analyzer Based on CEFR-J Wordlist for Self-Reflection (VACSR) Version 2

  • Yukiko Ohashi;Noriaki Katagiri;Takao Oshikiri
    • 아시아태평양코퍼스연구
    • /
    • 제4권2호
    • /
    • pp.75-87
    • /
    • 2023
  • This paper presents a revised version of the vocabulary analyzer for self-reflection (VACSR), called VACSR v.2.0. The initial version of the VACSR automatically analyzes the occurrences and the level of vocabulary items in the transcribed texts, indicating the frequency, the unused vocabulary items, and those not belonging to either scale. However, it overlooked words with multiple parts of speech due to their identical headword representations. It also needed to provide more explanatory result tables from different corpora. VACSR v.2.0 overcomes the limitations of its predecessor. First, unlike VACSR v.1, VACSR v.2.0 distinguishes words that are different parts of speech by syntactic parsing using Stanza, an open-source Python library. It enables the categorization of the same lexical items with multiple parts of speech. Second, VACSR v.2.0 overcomes the limited clarity of VACSR v.1 by providing precise result output tables. The updated software compares the occurrence of vocabulary items included in classroom corpora for each level of the Common European Framework of Reference-Japan (CEFR-J) wordlist. A pilot study utilizing VACSR v.2.0 showed that, after converting two English classes taught by a preservice English teacher into corpora, the headwords used mostly corresponded to CEFR-J level A1. In practice, VACSR v.2.0 will promote users' reflection on their vocabulary usage and can be applied to teacher training.

전체 문장 분석에 기반한 한국어 문법 검사기 (A Korean Grammar Checker based on the Trees Resulted from a Full Parser)

  • 이공주;황선영;김지은
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권10호
    • /
    • pp.992-999
    • /
    • 2003
  • 문법 검사기는 문장의 문법 오류를 찾고 이에 대한 적절한 대안을 제시하는 것이다. 문법 오류를 찾기 위해서 문법 검사기는 전체 문장을 분석해야 하며 이는 많은 자원이 소요되는 작업이다. 이러한 이유로 대부분의 한국어 문법 검사기는 중의성이 없는 작은 부분에 대해서만 구문 분석을 수행하는 부분구문 분석기를 이용하고 있다. 본 논문의 구문 분석기는 문법 오류를 검사하기 위해서 전체 구문 분석기를 사용하였다. 이 방식은 여러 단어를 사이에 두고 떨어져 있는 두 단어간에 문법적 오류가 있을 경우에도 이를 찾아서 고칠 수 있다. 결과적으로 이 방식은 수행 성능을 저하시키는 대신, 문법 오류를 수정하는 정확률의 향상을 기대할 수 있다. 본 논문의 문법 검사기는 문법 오류를 찾고 수정하기 위해서 65개의규칙을 사용한다. 전체 구문 분석기를 사용하는 한국어 문법 검사기는 약 7백만 어절로 구성된 실험 코퍼스에 대해서 약 96.49%의 교정 정확률을 얻을 수 있었다.

LL($textsc{k}$) 커버링 문법의 확장 (An Extension of LL($textsc{k}$) Covering Grammers)

  • 이경옥;최광무
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권8호
    • /
    • pp.1028-1038
    • /
    • 1999
  • 본 논문에선 LR 문법의 부분 클래스를 동치인 LL 문법으로 변환하는 방법을 제시한다. 이 변환이 적용 가능한 문법을 확장된k`-transformable 문법이라 정의한다. 변환된 문법은 left-to-right 커버의 성질을 만족한다. 기존 연구에서 제시한 변환 방법은 LR 문법의 부분 클래스인 {{{{k`-transformable 클래스와 PLR 클래스를 LL 문법으로 바꾼다. 이 논문에서 제시하는 새로운 변환 방법의 적용 가능한 문법의 범위는 k`-transformable 클래스와 PLR 클래스를 포함한다. 기존의 커버링 성질을 만족하는 LL로의 문법 변환은 보편적인 LR 파서의 행동을 시뮬레이션하여 얻어진다. 이 과정에서 쉬프트, 리듀스 행동 이외에 무한의 가능성을 가진 스택 스트링의 유한 표현을 위해 리덕션 심볼에 대한 예상 행동이 추가된다. 본 논문에서는 파싱 문맥을 나타내는 LR 아이템들을 기존의 스택 스트링 표현 형태에 추가하여 스택 스트링 표현법을 정제하고, 리덕션 심볼에 대한 예상 방법을 확장하는 정형식을 제시한다. 이에 근거하여 LL 커버링 문법이 존재하는 클래스를 확장된 {{{{k`-transformable 문법으로 확장시킨다.Abstract A new transformation of a subclass of LR(k`) grammars into equivalent LL(k`) grammars is studied. The subclass of LR(k`) grammars is called extended k`-transformable. The transformed LL(k`) grammars left-to-right cover the original LR(k`) grammars. Previous transformations transform k`-transformable and PLR(k`) into LL(k`). The new transformation is more powerful in that it handles the extended k`-transformable subclass of LR(k`), which strictly includes k`-transformable and PLR(k`) classes. The previous covering transformations into LL grammars are obtained by simulating the actions of the conventional LR parser. Specially, a predict action of reduction goals is added to the action set in order to finitely represent stack string. In this paper, the stack string representation is refined by adding LR items to represent a parsing context, and the prediction of reduction goal is extended by generalizing the prediction formalism. Based on them, the previous grammar classes with LL({{{{k`) covering grammars are extended to extended k`-transformable grammars.

압축영역에서 움직임 벡터의 재추정을 이용한 비디오 해석 기법 (Video analysis using re-constructing of motion vectors on MPEG compressed domain)

  • 김낙우;김태용;강응관;최종수
    • 대한전자공학회논문지SP
    • /
    • 제39권3호
    • /
    • pp.78-87
    • /
    • 2002
  • 본 논문은 MPEG 비디오에서 나타나는 여러 예측 형태의 움직임 벡터를 프레임 타입에 관계없이 단일 예측방향만을 갖도록 새롭게 추정하여 비디오 영상물의 분석에 직접적으로 활용하는 방안에 대해 제시하고 있다. 또한 재추정된 각 프레임에서의 움직임 벡터를 이용한 비디오 시퀀스 내에서의 객체 추출 및 추적 기법 등에 대해서도 새롭게 제안하였다. 제안된 알고리즘은 압축 영상에 대한 전체적인 복원과정을 거치지 않고, 압축 비디오 영역으로부터 쉽게 추출될 수 있는 매크로 블록 영역 상에서 수행되었으며, 실험 결과는 제안된 방법의 높은 성능을 잘 나타내어 주고 있다.