• Title/Summary/Keyword: 부분 구문분석

Search Result 94, Processing Time 0.026 seconds

XML 스키마 메타모델에서 OCL 생성 (Generate of OCL on XML Sechma Meta Model)

  • 이돈양;최한용
    • 한국콘텐츠학회논문지
    • /
    • 제6권6호
    • /
    • pp.42-49
    • /
    • 2006
  • XML이 인터넷에서 정보전송을 위한 메타언어의 표현방법으로 급속하게 이용되고 있다. 아울러 XML 스키마는 XML 데이터의 다양한 유형을 표현하는데 사용하는 빈도수가 늘고 있다. 본 논문에서는 UML을 이용한 XML 스키마의 simpleType형 메타모델에 대한 설계를 하였다. 그러나 XML 스키마의 구조가 복잡하고 다양한 데이터의 유형을 지원하기 때문에 UML에서 나타내고 있는 모델의 속성에 대한 사용자의 이해와 적용에 어려운 부분이 많이 발생하는 것을 알 수 있다. 이를 해결하는 방법으로 본 연구에서는 OCL의 기능을 적용하여 XML 스키마 메타모델에서 구조적인 표현을 명확하게 명시할 수 있도록 하였으며, 아울러 이를 바탕으로 컴파일단계에서 어휘분석과 구문분석을 위한 파스트리와 토큰생성에 대한 구체적인 설계방법을 제시하였다.

  • PDF

통계 정보와 유전자 학습에 의한 최적의 문장 분할 위치 결정 (Determination of an Optimal Sentence Segmentation Position using Statistical Information and Genetic Learning)

  • 김성동;김영택
    • 전자공학회논문지C
    • /
    • 제35C권10호
    • /
    • pp.38-47
    • /
    • 1998
  • 실용적인 기계번역 시스템을 위한 구문 분석은 긴 문장의 분석을 허용하여야 하는데 긴 문장의 분석은 높은 분석의 복잡도 때문에 매우 어려운 문제이다. 본 논문에서는 긴 문장의 효율적인 분석을 위해 문장을 분할하는 방법을 제안하며 통계 정보와 유전자 학습에 의한 최적의 문장 분할 위치 결정 방법을 소개한다. 문장 분할 위치의 결정은 분할 위치가 태그된 훈련 데이타에서 얻어진 어휘 문맥 제한 조건을 이용하여 입력문장의 분할 가능 위치를 결정하는 부분과 여러 개의 분할 가능 위치 중에서 안전한 분할을 보장하고 보다 많은 분석의 효율 향상을 얻을 수 있는 최적의 분할 위치를 학습을 통해 선택하는 부분으로 구성된다. 실험을 통해 제안된 문장 분할 위치 결정 방법이 안전한 분할을 수행하며 문장 분석의 효율을 향상시킴을 보인다.

  • PDF

고성능 한국어 형태소 분석을 위한 어미 분류 (A Classification of Endings for an Efficient Morphological Analysis of Korean)

  • 은종진;박선영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.41-47
    • /
    • 2000
  • 한국어 형태소 분석에서 가장 중요한 부분 중 하나가 바로 용언구(서술어)를 분석하는 것이다. 형태소 분석 뿐만 아니라 구문 분석, 의미 분석 단계에서도 정확한 용언구 분석은 매우 중요한 작업 중의 하나이다. 또한, 용언구에는 [체언+지정사+어미] 패턴도 포함되므로, 정보검색기의 핵심 모듈인 명사 추출기(색인기)의 성능에도 용언구의 분석은 높은 비중을 차지한다. 본 논문에서는 용언구 분석의 정확성을 높이고, 견고하면서 속도도 향상시킬 수 있는 방법으로 새로운 어미 분류를 제안하고자 한다.

  • PDF

연세대 형태소 분석기 morany: 말뭉치로부터 추출한 대량의 어휘 데이터베이스에 기반한 형태소 분석 (Morphological Analyzer of Yonsei Univ., morany: Morphological Analysis based on Large Lexical Database Extracted from Corpus)

  • 윤준태;이충희;김선호;송만석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.92-98
    • /
    • 1999
  • 본 논문에서는 연세대학교 컴퓨터과학과에서 연구되어 온 형태소 분석 시스템에 대해 설명한다. 연세대학교 자연 언어 처리 시스템의 기본적인 바탕은 무엇보다도 대량의 말뭉치를 기반으로 하고 있다는 점이다. 예컨대, 형태소 분석 사전은 말뭉치 처리에 의해 재구성 되었으며, 3000만 어절로부터 추출되어 수작업에 의해 다듬어진 어휘 데이터베이스는 형태소 분석 결과의 상당 부분을 제한하여 일차적인 중의성 해결의 역할을 담당한다. 또한 복합어 분석 역시 말뭉치에서 얻어진 사전을 바탕으로 이루어진다. 품사 태깅은 bigram hmm에 기반하고 있으며 어휘 규칙 등에 의한 후처리가 보강되어 있다. 이렇게 구성된 형태소 분석기 및 품사 태거는 구문 분석기와 함께 연결되어 이용되고 있다.

  • PDF

어미변화를 고려한 감성 구문 패턴을 이용한 상품평 의견 분류 (Opinion Mining of Product Reviews using Sentiment Phrase Patterns considered the Endings of Declinable Words)

  • 김정호;차명훈;김명규;채수환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.285-290
    • /
    • 2010
  • 인터넷이 대중화됨에 따라 누구나 쉽게 자신의 의견을 온라인상에 표현할 수 있게 되었다. 그 결과 생각이나 느낌을 나타내는 의견 데이터들의 양이 급속도로 방대해졌으며, 이러한 데이터들을 이용한 여러 응용 사례들의 등장으로, 효율적인 검색 및 자동 분류 기술이 요구되고 있다. 이런 기술적 흐름에 맞추어 의견 데이터 분류에 관한 여러 연구들이 이루어져 왔다. 이러한 의견 분류에 대한 연구들을 살펴보면, 분류를 위해 자질(Feature)로서 사용한 단일어(Single word)가 아닌 2개 이상의 N-gram 단어, 어휘 구문 패턴 및 통사 구문 패턴 등을 사용한다. 특히, 패턴은 단일어나 N-gram 단어에 비해 유연하고, 언어학적으로 풍부한 정보를 표현할 수 있기 때문에 이를 주요 연구 주제로 사용되었다. 그럼에도 불구하고, 이러한 연구들은 주로 영어에 대한 연구들이었으며, 한국어에 패턴을 적용하여 주관성을 갖는 문장을 분류하거나, 극성을 분류하는 연구들은 아직 미비하다. 한국어의 특색으로 한국어는 용언의 활용이 발달되어 있어, 어미의 변화가 다양하며, 그 변화에 따라 의미가 미묘하게 변화한다. 그러나 기존 한국어에 대한 의견 분류 연구들은 단어의 핵심 의미만을 파악하기 위해 어미 부분을 제거하고 어간만을 취해서 처리하여 어미에 대한 의미변화를 고려하지 못하므로 분류 정확도가 영어권에 연구 결과에 비해 떨어진다. 그래서 본 연구는 영어에 적용된 패턴을 이용한 기존 방법들을 정리하고, 그 방법들 중에서 극성을 지닌 문장성분 패턴을 한국어에 적용하였다. 그리고 어미의 변화에 대한 패턴을 추출하여 이 변화가 의견 분류의 성능에 미치는 영향을 분석하였다.

  • PDF

`어절 정보 사전`을 이용한 형태소 분석의 중의성 (Ambiguity) 해결 (Desambiguation Method based on a Lexicon of Typographical Units)

  • 남지순;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.75-82
    • /
    • 1997
  • 이글은 한국어 형태소 분석시 발생하는 중의성의 유형에 대해서 논의하고, 그와 같은 여러 유형의 중의성의 발생율을 감소시키기 위한 방법으로써 '어절 정보 사전 시스템'의 구축을 강조하였다. 한국어 문서에 대한 형태소 분석시 발생하는 중의성은, 영어나 유럽어와는 달리, 어휘 형성 정보 뿐아니라 어절 형성 정보, 구문 구조에 관한 부분적인 정보까지도 제공되어야 비로소 해소될 수 있는 경우가 많아 이와 같은 정보를 얻어내기 위해서는 체계적으로 고안된 범용의 사전 (Lexicon)이 필요하다. 여기에서는 접사가 동반되어 구성될 수 있는 '파생 명사(Affixed Noun)'들의 경우에 논의의 범위를 제한하였다. 실제로, 체계적으로 구성된 하나의 파생어 사전은. 주어진 어절에 대한 형태소 분절시 발생할 수 있는 엄청난 수의 중의적 가능성을 해소해 줄 수 있는데. 이와 같은 사전을 구축하기 위해서는 단순어와 접사 사전이 모듈화되어 완성되어야 한다. 같은 방법으로 모든 합성어 유형에 대한 사전이 구축되고, 그러한 기본 형태들에 대한 '변화형' 사전이 결합되면 어절 정보를 갖춘 대용량의 한국어 MRD의 구현이 가능해질 것이다.

  • PDF

공간구문론을 이용한 근린공원 시각적 접근기회 분석- 청주시를 중심으로 - (Visual Access Opportunity Analysis of Neighborhood Park Users using Space Syntax Theory - Focused on Cheongju City -)

  • 이태호;반영운;유남훈
    • 한국조경학회지
    • /
    • 제39권4호
    • /
    • pp.28-38
    • /
    • 2011
  • 본 연구의 목적은 도시 근린공원을 대상으로 주변 공간의 가로망 형태에 따른 공원의 시각적 접근기회를 분석하는 것이다. 분석을 위해 도보로 이용이 가능한 도보권 및 근린 생활권 공원 27곳을 최종 선정하였다. 공원을 중심으로 각 유치거리에 따라 GIS를 이용하여 영향권을 설정(buffering)하였으며, 설정된 구역에서의 공간배열 특성을 가로망 중심으로 파악하고 공간구문론을 이용하여 분석하였다. 본 연구수행을 위해 Arcview 기반의 Axwoman Ver3.0프로그램을 활용하였다. 공간구문론에서 제시하는 연결도, 통합도 등의 지수를 통해 공원의 접근기회를 파악하였으며, 정량적 수치들이 가지는 의미는 관련 문헌고찰을 통해 해석하였다. 연구 결과는 공원 유치거리에 따른 공간의 전체적인 배열 특성에 대해서는 통합도, 명료도 값을 활용하였으며, 각 공원의 주출입구 공간은 연결도, 통합도 값을 이용해 분석했다. 분석 결과, 전체공간에서는 대부분의 통합도 값이 2보다 낮았으나, 명료도의 경우 0.7이상의 값을 가진 공원이 10곳으로 나타났다. 공원의 주출입구 공간에 대한 접근기회는 주출입구 공간의 통합도를 중심으로 살펴봤으며, 도보권 공원에서는 사직 2공원이, 생활권 근린공원에서는 중앙공원과 발산공원 등이 상대적으로 접근기회가 높은 것으로 분석되었다. 본 연구는 기존의 공원 접근성에 관한 연구가 시점과 종점간의 물리적 거리 및 환경에 초점이 맞춰져 있는데 반해, 공원을 둘러싼 공간 배열 특성을 고려한 접근성 분석이 이루어졌다는데 의의가 있다. 이러한 결과는 도시공원의 입지계획에 있어 합리적 근거를 부분적으로 제공해 줄 것으로 기대된다.

다중 기계학습 방법을 이용한 한국어 커뮤니티 기반 질의-응답 시스템 (A Korean Community-based Question Answering System Using Multiple Machine Learning Methods)

  • 권순재;김주애;강상우;서정연
    • 정보과학회 논문지
    • /
    • 제43권10호
    • /
    • pp.1085-1093
    • /
    • 2016
  • 커뮤니티 기반 질의 응답 시스템은 사용자 질의에 대한 정답을 인터넷 커뮤니티에 사용자들이 게시했던 문서 중에서 선택하여 제공하는 시스템이다. 기존 방법들은 질의 분석의 성능 향상을 위하여 목적 영역에 적합한 규칙을 구축하거나 일부 처리 과정에 기계 학습을 적용하였다. 하지만 기존 방법들은 적용 영역을 확장하거나 수정하는 경우 많은 비용이 소요되며 경우에 따라서는 시스템이 특정 영역에 과적합되는 경우가 발생한다. 본 논문에서는 커뮤니티 기반 질의-응답 시스템의 효과적인 처리를 위해서 시스템의 각 과정에 적합한 기계 학습 방법을 적용하여 전체 과정을 자동화하는 다중 기계학습 방법을 제안한다. 제안 시스템은 사용자 질의를 분석하는 부분과 정답 문서를 선택하는 부분으로 나눌 수 있다. 질의 분석 과정은 질의의 초점 구문을 분석하는 질의 핵심부 추출기와 질의의 주제를 분류하는 질의 유형 분류기로 구성하였으며, 전자는 조건부 무작위장을 사용하고 후자는 지지 벡터 기계를 사용한다. 정답 문서 선택에서는 유사도 측정에서 사용하는 가중치를 인공 신경망으로 학습한다. 또한 인터넷에 커뮤니티에 게시된 데이터는 형태소 분석 결과를 신뢰할 수 없는 경우가 많이 발생한다. 따라서 음절 자질을 사용하여 질의를 분석 단계에서 형태소 분석의 영향을 최소화하는 방법을 제안한다. 제안하는 시스템은 Mean Average Precision 기준으로 0.765, R-Precision 기준으로 0.872의 성능을 보여 기존 시스템보다 성능이 우수하다.

문법기반 객체지향 시각언어의 컴파일러 생성기 (A Compiler Generator for Object-Oriented Visual Languages based on Grammer)

  • 이기호;김경아
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권3호
    • /
    • pp.431-440
    • /
    • 1999
  • 기존 시각언어 컴파일러 자동화 도구는 시각 구문의 그래픽 정의부분을 명세하고 확장 및 수정하는 방법의 한계로 인해 어휘분석단계를 처리하는데 어려움이 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 객체지향 시각언어 문법을 기반으로 한 새로운 방식의 문법 기반 자동 생성 시스템인 시각언어 컴파일러 자동 생성 환경(CGE-VL)을 구축한다. 이 시스템은 객체지향 패러다임을 기초로 한 시각언어 컴파일러 구축을 위한 실질적인 도구로 기존의 시각언어 컴파일러 자동화 도구와는 구별되는 객체지향 시각언어의 효과적인 명세 방법 제공, 어휘분석기를 이용한 파싱 시간의 단축, 객체지향 파서를 자동 생성하는 등의 새로운 특성을 제공한다. 이러한 특성은 특히 동일한 의미를 가지는 언어 구성요소가 그 쓰임에 따라 서로 다른 구체화된 의미 및 행동을 가지는 객체지향 시각언어에서는 언어 명세에서 최종 산물인 컴파일러에 이르는 전 단계에 동일한 객체 지향 패러다임을 사용함으로써 일관된 개발방법을 제공하여 그 효과가 두드러진다.

X-바 이론의 중심어 개념을 도입한 형태소 단위의 한국어 자질 기반 문법 (A Morpheme-unit Korean Feature-Based Brammer (KFG) with the X-bar Theoretic Notion of Headedness)

  • 박소영;황영숙;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권10호
    • /
    • pp.1247-1259
    • /
    • 1999
  • 본 논문에서는 한국어 문장형성원리를 간결하게 제시할 수 있도록 X-바 이론의 중심어 개념을 도입한 한국어 자질기반 문법을 제안한다. 제안하는 문법은 어절에 관계없이 나타나는 한국어의 문법현상을 명확히 설명할 수 있도록 어절 대신 형태소를 기본단위로 한다. 그리고, 한국어의 구문범주가 지닌 의미정보와 기능정보를 자질을 이용하여 독립적으로 표현하며, 구문범주간의 결합관계를 바탕으로 하는 자질연산을 수행하여 문장을 분석한다. 또한, 한국어의 부분자유어순과 생략현상에 대해 견고하게 분석할 수 있도록 자질연산을 이진결합중심의 CNF(Chomsky Normal Form)로 제한한다. 이렇게 구성된 한국어 자질기반 문법은 규칙을 직관적이고도 간단하게 기술하며, 한국어의 다양한 문장들을 견고하게 분석한다. SERI Test Suites 97과 신문기사에서 746문장을 추출하여 실험한 결과 94%~99%의 적용율을 보였다.Abstract In this paper, we propose a Korean feature-based grammar(KFG) which adopts the X-bar theoretic notion of headedness for a precise representation of Korean syntactic structure. In order to explain various language phenomena in a given sentence, we use not the word but the morpheme as a constituent unit of KFG. We use features manifesting both the syntactic information and the semantic information of Korean syntactic categories, and feature operations based on the association relationship between two categories. In addition, we restrict feature operations to CNF(Chomsky Normal Form) binary form, which provides a robust representation for properties in Korean such as the frequent ellipsis and the partial free-order. The KFG is intuitive, simple, and versatile in representing most Korean sentences. The experimental result shows 94%~99% coverage on 746 sentences extracted from SERI Test Suites 97 and newspaper sentences.