• 제목/요약/키워드: 구문 분석기

검색결과 173건 처리시간 0.023초

XML Schema 지원도구 설계 및 구현 (Design and Implementation of XML Schema Supporting Tool)

  • 나종연;오정진;최한석
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 춘계학술발표대회논문집
    • /
    • pp.766-770
    • /
    • 2003
  • XML이 표준화 제정될 당시 XML문서의 구조를 정의하기 위해 DTD를 사용하였다 DTD는 XML의 전신인 SGML에서부터 사용되어 왔으며 여러 훌륭한 기능을 지원하고있다. 그러나 DTD는 그 고유의 형식으로 이루어져있어 XML 개발자는 XML구문분석기 이외에 DTD 구문분석기를 별도로 개발하여야하고, DTD는 지원하는 데이터 형식에 제한이 있으며, 데이터 값의 범위 등을 설정할 수 없어 XML 문서의 유효성 검사에 제한이 많다. 이러한 문제를 해결하기 위하여 W3C에서는 XMLSchema를 제정하였다. DTD의 구문을 XML Schema로 모델링하였고, XML 문서에서 XML스키마를 적용하기 위한 도구와 DTD의 XMLSchema변환을 효과적으로 생성할 수 있는 GUI기반 XMLSchema Tool을 설계, 구현하였다.

  • PDF

구문의미분석를 이용한 유사문서 판별기 (Discriminator of Similar Documents Using Syntactic and Semantic Analysis)

  • 강원석;황도삼
    • 한국콘텐츠학회논문지
    • /
    • 제14권3호
    • /
    • pp.40-51
    • /
    • 2014
  • 문서 저작권에 대한 관심과 중요성이 높아짐에 따라 문서 복제나 표절의 검출에 대한 필요성이 증대되고 있다. 이와 같은 이유로 많은 연구가 이루어지고 있으나 자연어 처리기술의 한계가 있어 문서의 심층적 표절 검출에 어려움이 있다. 본 논문은 자연어 분석의 기술을 적용한 유사문서 판별기를 설계, 구현한다. 이 시스템은 형태소 분석의 기술과 함께 구문의미 분석의 기술, 저빈도 및 관용표현 가중치을 이용하여 유사문서를 판별한다. 본 시스템의 성능을 실험하기 위하여 휴먼 판별과 기존 시스템, 그리고 휴먼 판별과 제안한 시스템의 판별과의 상관계수를 분석하였다. 실험결과, 구문의미 분석을 활용한 시스템의 개선점을 발견할 수 있었다. 앞으로 문서 유형을 정의하고 각 유형에 맞는 판별 기법을 개발할 필요가 있다.

Linked Data를 위한 한국어 자연언어처리 플랫폼 (Korean Natural Language Processing Platform for Linked Data)

  • 함영균;임경태;;박정열;윤용운;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.16-20
    • /
    • 2012
  • 본 논문에서는 한국어 자연언어처리를 위해 형태소분석기와 구구조 구문분석기와 의존구조 구문분석기를 통합한 하나의 플랫폼을 제공하고, 외국의 다양한 자연언어처리 도구들의 결과물과의 국제적 상호운용성 및 Linked Data를 위한 RDF 형태로의 변환 시스템을 제시한다.

  • PDF

다목적실용위성 2호에서 구문분석기를 이용한 탑재소프트웨어 검증시험분석 (Verification Test Script Parser for Flight Software using Lexical Analyser in KOMPSAT-2)

  • 이재승;최종욱;권기호;천이진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (3)
    • /
    • pp.430-432
    • /
    • 2002
  • 다목적실용위성 2호 FSW(Flight Software)의 개발단계에서 통합 및 시험, 검증시험을 위해 실제 위성시스템과 유사한 인터페이스를 제공하는 개발도구인 STB(Software Test Bed)가 제작되었으며, 제작된 STB를 통한 FSW의 검증시험 및 분석을 지원하기 위한 프로그램으로서 구문분석 프로그램을 이용한 VTSP(Verification Test Script Parser)의 개발이 필요하다. 본 논문에서는 구문분석 도구인 FLEX와 BISON을 이용하여 FSW가 실제시스템 상에서 요구조건에 따라 수행되고 있는지를 자동적으로 검증하기 위해 C 언어와 유사한 사용법을 가지며, 다양한 검증시험 환경에 적합한 VTSP를 개발하기 위한 전체적 개발환경 및 VTSP의 기능에 대해 소개한다.

  • PDF

구문 의존 경로에 기반한 단백질의 세포 내 위치 인식 (Detection of Protein Subcellular Localization based on Syntactic Dependency Paths)

  • 김미영
    • 정보처리학회논문지B
    • /
    • 제15B권4호
    • /
    • pp.375-382
    • /
    • 2008
  • 단백질의 세포 내 위치를 인식하는 것은 생물학 현상의 기술에 있어서 필수적이다. 생물학 문서의 양이 늘어남에 따라, 단백질의 세포 내 위치 정보를 문서 내용으로부터 얻기 위한 연구들이 많이 이루어졌다. 기존의 논문들은 문장의 구문 정보를 이용하여 정보를 얻고자 하였으며, 언어학적 정보가 단백질의 세포 내 위치를 인식하는 데 유용하다고 주장하고 있다. 그러나, 이전의 시스템들은 구문 정보를 얻기 위해 부분 구문분석기만을 사용하였고 재현율이 좋지 못했다. 그러므로 단백질의 세포 내 위치 정보를 얻기 위해 전체 구문분석기를 사용할 필요가 있다. 또한, 더 많은 언어학적 정보를 위해 의미 정보 또한 사용이 가능하다. 단백질의 세포 내 위치 정보를 인식하는 성능을 향상시키기 위하여, 본 논문은 전체 구문분석기와 어휘망(WordNet)을 기반으로 한 방법을 제안한다. 첫 번째 단계에서, 각 단백질 단어로부터 그 단백질의 위치후보에까지 이르는 구문 의존 경로를 구축한다. 두 번째 단계에서, 구문의존 경로의 루트 정보를 추출한다. 마지막으로, 단백질 부분트리와 위치 부분트리의 구문-의미 패턴을 추출한다. 구문 의존 경로의 루트와 부분트리로부터 구문태그와 구문방향을 구문 정보로서 추출하고, 각 노드 단어의 의미태그를 의미 정보로서 추출한다. 의미태그로는 어휘망의 동의어 집합(synset)을 사용한다. 학습데이터에서 추출한 루트 정보와 부분트리의 구문-의미 패턴에 따라서, 실험데이터에서 (단백질, 위치) 쌍들을 추출했다. 어떤 생물학적 지식 없이, 본 논문의 방법은 메드라인(Medline) 요약 데이터를 사용한 실험 결과에서 학습데이터에 대해 74.53%의 조화평균(F-measure), 실험데이터에 대해서는 58.90%의 조화평균을 보였다. 이 실험은 기존의 방법들보다 12-25%의 성능향상을 보였다.

용언구에 기반한 한영 기계번역 시스템 : 'CaptionEye/KE' (Korean-to-English Machine Translation System based on Verb-Phrase : 'CaptionEye/KE')

  • 서영애;김영길;서광준;최승권
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.269-272
    • /
    • 2000
  • 본 논문에서는 ETRI에서 개발 중인 용언구에 기반한 한영 기계번역 시스템 CaptionEye/KE에 대하여 논술한다. CaptionEye/KE는 대량의 고품질 한-영 양방향 코퍼스로부터 추출된 격틀사전 및 대역패턴, 대역문 연결패턴 등의 언어 지식들을 바탕으로 하여, 한국어의 용언구 단위의 번역을 조합하여 전체 번역을 수행한다. CaptionEye/KE는 변환방식의 기계번역 시스템으로서, 크게 한국어 형태소 분석기, 한국어 구문 분석기, 부분 대역문 연결기, 부분 대역문 생성기, 대역문 선택/정련기, 영어형태소 생성기로 구성된다. 입력된 한국어 문장에 대해 형태소 분석 및 태깅을 수행한 후, 격틀사전을 이용하여 구문구조를 분석하고 의존 트리를 생성해 낸다. 이렇게 생성된 의존 트리로부터 대역문 연결패턴을 이용하여 용언구들간의 연결에 대한 번역을 수행한 후 대역패턴을 이용하여 각 용언구들을 번역하고 문장 정련과정을 거쳐 영어 문장을 최종 생성한다.

  • PDF

시간 지원 데이타 베이스 관리 시험대 (Temporal Database Management Testbed)

  • 김동호;전근환
    • 한국정보처리학회논문지
    • /
    • 제1권1호
    • /
    • pp.1-13
    • /
    • 1994
  • 시간 지원 데이타베이스 관리 시험대는 유효시간과 수록 시간을 지원한다. 본 논문 에서는 시간 지원 데이타베이스 관리 시스템 시험대의 설계와 구현을 연구한다. 시험대는 구문 분석기, 의미 분석기, 코드 생성기 및 실행기로서 구성된다. 구문 분 석기는 시간 지원 질의어로부터 파스 트리를 생성한다. 그리고 의미 분석기는 시스템 카탈로그를 이용하여 시간 지원 질의어의 의미와 정당성을 점검한다. 코드 생성기는 Updata network와 같은 실행 트리를 생성하는데 실행 트리를 위하여 뷰 증진 형성 방 법을 사용하였다. 마지막으로 인덱싱 구조와 동시성 제어에 대하여 토의하였다.

  • PDF

한국어 어휘의미망에 기반한 논항 정보를 이용한 의존문법 구문분석기의 구현 (Implementation of Dependency Parser using Argument Information based on Korean WordNet)

  • 임경업;정영임;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.158-164
    • /
    • 2007
  • 한국어는 한 어절이 한 개 이상의 형태소로 이루어졌으며, 이 때문에 지역 중의성이 발생한다. 대부분의 선행 연구에서는 이러한 지역 중의성을 배제하거나, 태거를 사용하여 지역 중의성을 제거해왔다. 본 연구에서는 문장의 모든 형태소 분석에 대해 구문분석을 시도하며, 중의성을 제거하고자 적용된 의존문법 규칙과 구 묶음, 부사 하위범주화, 논항 정보 사전 이용 등의 다양한 기법을 설명하고, 구문분석 성능을 실험으로 나타낸다. 특히, 말뭉치마다 논항 정보 사전을 따로 구축하는 번거로움을 피하고자 한국어 어휘의미망을 사용한다.

  • PDF

구 분할을 이용한 명사구기반 색인의 성능향상 (Improvement of phrase-based indexing performance using phrase segmentation)

  • 이충희;김현진;장명길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.585-588
    • /
    • 2002
  • 정보검색의 정확률을 높이는 것이 최근 정보검색 연구의 추세이며, 정확률을 높일 수 있는 방법 중 하나로 명사구단위 색인이 있다. 명사구 색인을 하는 방법에는 구문분석기를 이용하는 방법과 패턴 규칙을 이용하는 방법으로 나눌 수 있다. 구문분석기를 이용하여 전체 문장을 분석한 후 명사구단위 색인을 할 경우, 범용적으로 이용할 수 있지만 속도와 정확도가 떨어진다는 문제점이 있으며 패턴 규칙을 이용하는 경우는 속도는 빠르지만 정확도 및 확장성에 문제를 가지고 있다. 이런 문제들을 해결하기 위해 본 논문에서는 문장으로부터 명사구를 분할한 후, 분할된 명사구를 완전 구문 분석하여 색인하는 방법을 제안한다. 명사구는 속격어구와 관형형 명사구를 대상으로 하였고, 구 분할은 속격조사와 관형형어미를 중심으로 주변 형태소와 품사를 고려하는 규칙을 만들어 실행하였다. 실험대상은 짧은 문장, 중간문장, 긴 문장을 각각 25 개를 선정하여 실험하였고, 구 분할을 이용할 경우 평균 재현율은 86%, 평균 정확률은 74% 정도의 성능을 보였다. 긴 문장의 경우, 구 분할을 이용하지 않는 경우에 비해서 정확도 및 속도에서 월등한 성능향상이 있었다.

  • PDF

자동 생성한 구문패턴과 의미망을 이용한 복합명사 생성 (Generation of Compound Nouns Using Automatic Constructed Syntactic Patterns and Semantic Network)

  • 임지희;최호섭;옥철영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.655-658
    • /
    • 2004
  • 본 논문은 구문패턴과 의미망을 이용하여 복합명사를 생성하는 방법을 제안하고, 제안된 방법으로 설계 구현된 시스템, 복합명사 생성기(Compound Nouns Generator : CNG)를 제시한다. 복합명사에 관한 연구는 형태적, 구문적, 의미적인 관점에서의 분석과 생성에 이르기까지 폭넓게 진행되고 있다. 본 논문에서는, 사전에 등재된 표제어만을 복합명사로 인정하고, 나머지는 1차적으로 명사 연결구로 파악한다. 그리고 이것을 다시 신형 복합명사와 명사 연결구로 파악함으로써, 복합명사에 대한 명확한 기준을 제시하여 자연언어처리, 정보검색 등에서 효율성을 높이고자 하였다. 본 논문에서 제안한 시스템은 복합명사 확장을 위해 구문패턴을 자동 생성함으로써 시스템의 융통성을 향상시키고, 구문패턴과 의미망을 통해 생성된 복합명사와 명사 연결구의 말뭉치상의 빈도정보를 이용함으로써 고빈도의 명사 연결구가 복합명사로서 굳어질 수 있는 가능성을 보여주기도 한다. 또한, 구문패턴과 의미망을 통해 생성된 명사 연결구를 비교하여 생성된 신형 복합명사는 구문패턴에 의해 뜻풀이가 자동으로 생성된다.

  • PDF