• 제목/요약/키워드: 구문의미트리

검색결과 46건 처리시간 0.022초

최대 엔트로피 모델을 이용한 텍스트 단위화 학습 (Learning Text Chunking Using Maximum Entropy Models)

  • 박성배;장병탁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.130-137
    • /
    • 2001
  • 최대 엔트로피 모델(maximum entropy model)은 여러 가지 자연언어 문제를 학습하는데 성공적으로 적용되어 왔지만, 두 가지의 주요한 문제점을 가지고 있다. 그 첫번째 문제는 해당 언어에 대한 많은 사전 지식(prior knowledge)이 필요하다는 것이고, 두번째 문제는 계산량이 너무 많다는 것이다. 본 논문에서는 텍스트 단위화(text chunking)에 최대 엔트로피 모델을 적용하는 데 나타나는 이 문제점들을 해소하기 위해 새로운 방법을 제시한다. 사전 지식으로, 간단한 언어 모델로부터 쉽게 생성된 결정트리(decision tree)에서 자동적으로 만들어진 규칙을 사용한다. 따라서, 제시된 방법에서의 최대 엔트로피 모델은 결정트리를 보강하는 방법으로 간주될 수 있다. 계산론적 복잡도를 줄이기 위해서, 최대 엔트로피 모델을 학습할 때 일종의 능동 학습(active learning) 방법을 사용한다. 전체 학습 데이터가 아닌 일부분만을 사용함으로써 계산 비용은 크게 줄어 들 수 있다. 실험 결과, 제시된 방법으로 결정트리의 오류의 수가 반으로 줄었다. 대부분의 자연언어 데이터가 매우 불균형을 이루므로, 학습된 모델을 부스팅(boosting)으로 강화할 수 있다. 부스팅을 한 후 제시된 방법은 전문가에 의해 선택된 자질로 학습된 최대 엔트로피 모델보다 졸은 성능을 보이며 지금까지 보고된 기계 학습 알고리즘 중 가장 성능이 좋은 방법과 비슷한 성능을 보인다 텍스트 단위화가 일반적으로 전체 구문분석의 전 단계이고 이 단계에서의 오류가 다음 단계에서 복구될 수 없으므로 이 성능은 텍스트 단위화에서 매우 의미가 길다.

  • PDF

술어-논항 구조의 패턴 유사도를 활용한 혼합 커널 기반 관계 추출 (Relation Extraction based on Composite Kernel using Pattern Similarity of Predicate-Argument Structure)

  • 정창후;전홍우;최윤수;송사광;최성필
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.276-279
    • /
    • 2011
  • 문서 내에 존재하는 개체 간의 관계를 자동으로 추출할 때 다양한 형태의 문서 분석 결과를 활용할 수 있다. 본 논문에서는 기존에 개발되어 비교적 높은 성능을 보여준 트리 커널의 구절 구조 유사성 정보와 두 개체 사이의 유의미한 연관관계를 표현하는 술어-논항 구조 패턴의 유사성 정보를 활용하는 혼합 커널을 제안한다. 구문적 구조를 이용하는 기존의 트리 커널 기법에 술어와 논항 간의 의미적 구조를 활용하는 술어-논항 구조 패턴 유사도 커널을 결합하여 상호보완적인 혼합 커널을 구성하였고, 실험을 통하여 개발된 커널의 성능을 측정하였다. 실험 결과 구절 구조 정보를 이용하는 트리 커널만을 단독으로 사용했을 때보다 술어-논항 구조의 패턴 정보를 결합한 혼합 커널을 사용했을 때에 더 좋은 성능을 보이는 것을 확인할 수 있었다. 이는 관계 인스턴스에 대한 구절 구조 정보뿐만 아니라 개체 간의 유의미한 연관관계를 표현해주는 술어-논항 구조 패턴 또한 관계 추출 작업에 매우 유용한 정보임을 입증하고 있다.

불확정 상황정보 상에서의 접근제어 방식 (A Method for Access Control on Uncertain Context)

  • 강우준
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권6호
    • /
    • pp.215-223
    • /
    • 2010
  • 새로운 정보기술의 발전으로 인해 정보 접근과 획득 방식이 훨씬 다양하고 용이해지고 있는 반면 다양하고 성능 좋은 도구를 이용한 불법적인 접근이 가능하도록 하는 부작용이 초래되고 있다. 이러한 위협에 대응하는 데이터베이스 기술로는 접근제어가 있고 현재 새로운 컴퓨팅 환경에 대응하기 위해 전통적인 접근제어를 확장한 다양한 연구들이 수행되고 있다. 본 연구에서는 상황정보의 시멘틱 정보를 기반으로 보안정책에 의해 명시된 상황제약조건이 질의에 수반되는 상황제약조건의 구문과 일치하지 않는 경우에도 적절한 보안정책 집행이 가능하도록 하는 접근제어 방식을 제안한다. 상황에 대한 의미적 정책집행을 위해 시멘틱 트리계층구조 상에서 이들 간의 의미적 함의관계를 이용하고 함의관계에 의해 초래될 수 있는 과도한 권한부여를 방지하기 위해 의미 차를 정량적으로 측정할 수 있는 인수를 정의하여 설정된 시스템 정의 임계치 범위 내에서만 의미적 함의에 의한 권한부여가 이루어지도록 한다.

개인정보 보호를 위한 의미적 상황을 반영하는 접근제어 방식 (An Access Control Method considering Semantic Context for Privacy-preserving)

  • 강우준
    • 한국인터넷방송통신학회논문지
    • /
    • 제15권1호
    • /
    • pp.1-14
    • /
    • 2015
  • 새롭게 대두되는 컴퓨팅 패러다임에 대응하기 위해 전통적인 접근제어 방식을 확장하는 다양한 연구들이 수행되고 있다. 정보에 대한 접근과 획득 방식이 훨씬 다양하고 용이해지고 있는 반면 강력하고 다양한 도구를 이용한 불법접근이 가능하도록 하는 부작용이 초래되고 있다. 본 연구에서는 상황정보의 의미를 기반으로 보안정책에 의해 명시된 상황제약조건이 질의에 수반되는 상황제약조건의 구문과 일치하지 않는 경우에도 적절한 보안정책 집행이 가능하도록 하는 접근제어 방식을 제안한다. 상황정보를 트리구조로 구성하여 함의에 의한 보안규칙을 유도하고 함의에 의한 과도한 권한부여를 방지할 수 있는 방법을 제시한다. 그리고 제안방식을 구현하는 프로토타입 시스템의 구조를 제시하고 성능평가를 통해 이전 접근제어 방식들과 비교한다.

수식 속성 문법 단순화에 대한 연구 (A Research on the Simplification of the Expression Attribute Grammar)

  • 정용주
    • 한국멀티미디어학회논문지
    • /
    • 제14권2호
    • /
    • pp.282-287
    • /
    • 2011
  • 속성문법은 각 구문규칙에 의미론을 추가한 문법체계이다. 그러나 이 속성문법은 그 추가적인 규칙들 때문에 구성과 이해의 어려움이 있다. 대부분 속성 문법에서 그 규모가 크고 복잡하기 때문에 규모의 수가 작고 단순하면 좋을 것이다. 그래서 본 논문에서는 LR 파싱을 할 때 수식을 위한 속성문법의 규모를 줄일 수 있는 방법을 연구하였다. 이것은 수식의 종류를 고려한 방식이다. 즉 수식의 종류들 사이의 의미적 포함관계를 성립시키면 보다 단순하고 작은 규모의 속성 문법으로 구성될 수 있음을 보여준다.

의미적 보안정책 집행에 의한 효율적 개인정보보호 방식 (An Efficient Privacy Preserving Method based on Semantic Security Policy Enforcement)

  • 강우준
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권6호
    • /
    • pp.173-186
    • /
    • 2013
  • 새로운 정보기술의 발전으로 인해 정보 접근과 획득 방식이 훨씬 다양하고 용이해지고 있는 반면 다양하고 성능 좋은 도구를 이용한 불법적인 접근이 가능하도록 하는 부작용이 초래되고 있다. 이러한 새로운 컴퓨팅 환경에서의 위협에 대응하고자 전통적인 접근제어를 확장한 다양한 연구들이 수행되고 있다. 본 연구에서는 정책집행의 제약조건 중 주요 요소인 상황과 목적에 대한 의미적 정보를 기반으로 명시적으로 기술되는 정책 제약조건과 보안집행과정에서의 질의 제약조건이 서로 구문적으로 일치하지 않는 경우에도 그 의미를 파악하여 적절한 정책집행이 가능하도록 하는 접근제어 방식을 제안한다. 의미적 보안 정책집행을 위해 온톨로지를 기반으로 트리 계층 구조를 구성하고 이를 이용하여 의미적 함의 관계를 유도하고 함의관계에 의해 유도되는 추가적 함의 때문에 발생할 수 있는 과도한 권한부여를 의미 차 인수를 이용하여 방지할 수 있는 방법을 제시한다. 그리고 제안방식을 구현하는 프로토타입 시스템의 구조를 제시하고 성능평가를 통해 이전 접근제어 방식들과 비교한다.

C++ 중간 코드를 이용한 CHILL96 컴파일러의 설계 및 구현 (Design and Implementation of a CHILL96 Compiler Using C++ Intermediate Code)

  • 금창섭;이준경;이동길;이병선
    • 한국정보처리학회논문지
    • /
    • 제7권5호
    • /
    • pp.1559-1569
    • /
    • 2000
  • 본 논문에서는 ITU-T에서 통신시트템 구현을 위해 제안된 CHILL96 언어를 C++언어로 변환하는 컴파일러의 설계 및 구현에 관하여 기술하였다. C++ 코드를 생성하기 위해서 CHILL96 언어에서 C++ 언어로서 변환 규칙을 고안하였다. ChILL96 컴파일러는 심볼 테이블과 추상구문트리와 밀접한 관계를 갖는 구문 분석기, 가시싱 제어기, 의미 분석기, 코드 생성기로 이루어져 있다. 또한, 본 논문에서 기술한, CHILL96 컴파일러는 이전에 개발된 다른 CHILL 컴파일러들에 비해 우수한 성능을 보여주었다. 이 논문에서 개발된 CHILL96컴파일러는 성능과 이식성의 향상 이외에도 기존에 CHILL로 개발된 통신 소프트웨어들을 C++로 변환함으로써 신규 기능의 추가니 유지보수에서 편의성을 높였다.

  • PDF

효율적인 한국어 파싱을 위한 최장일치 기반의 형태소 분석기 기능 확장 (Functional Expansion of Morphological Analyzer Based on Longest Phrase Matching For Efficient Korean Parsing)

  • 이현영;이종석;강병도;양승원
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권3호
    • /
    • pp.203-210
    • /
    • 2016
  • 한국어는 문장 구성소의 생략과 수식 범위가 자유롭기 때문에 파싱보다는 형태소 분석 단계에서 처리하면 좋은 경우가 있다. 본 논문에서는 파싱의 부담을 덜어 줄 수 있는 형태소 분석기의 기능 확장 방안을 제안한다. 이 방법은 미지어의 추정, 복합 명사 및 복합동사의 처리, 숫자 및 심볼의 처리에 의해 여러 형태소 열이 하나의 구문 범주를 가질 때 이것을 최장일치 방법으로 결합하고 의미 자질을 부여하여 하나의 구문 단위로 처리하는 것이다. 제안한 형태소 분석 방법은 불필요한 형태론적 모호성이 제거되고 형태소 분석 결과가 줄어들어 태거 및 파서의 정확률이 향상되었다. 또한, 실험을 통해 파싱트리는 평균 73.4%, 파싱 시간은 평균 52.9%로 줄었음을 보인다.

복합 커널을 사용한 한국어 종속절의 의존관계 분석 (Analyzing dependency of Korean subordinate clauses using a composit kernel)

  • 김상수;박성배;박세영;이상조
    • 인지과학
    • /
    • 제19권1호
    • /
    • pp.1-15
    • /
    • 2008
  • 한국어에서 절들의 의존관계를 밝히는 작업은 구문 분석 작업에서 가장 어려운 작업들 중에 하나로 인식되고 있다. 절의 의존관계를 파악하는 일은 표면적으로 나타나는 정보만을 가지고 처리할 수 없고, 의미정보와 같은 추가적인 정보가 필요할 것으로 판단하고 처리해 왔다. 본 논문에서는 추가적인 정보를 사용하지 알고, 문장에서 얻을 수 있는 표면적인 정보만을 사용하여 절들 간의 의존관계를 파악하는 방법을 제안한다. 문장에서 얻을 수 있는 표면적인 정보는 문장의 구문 정보(tree structure information)와 어휘 및 거리 정보를 가지고 있는 정적인 정보(static information)로 나누어 볼 수 있다. 본 논문에서는 절들 간의 의존 관계 파악을 위하여 구문 정보와 정적 정보를 다루는 하나 이상의 커널의 결합해서 사용하는 복합 커널(composite kernel)을 제안하고, 이 커널에 맞는 다양한 인스턴스 공간의 설정을 제안한다. 실험은 최적화된 인스턴스 공간을 절들 간의 의존관계 파악 및 문장 수준에서 성능을 검정하였다. 관계 인스턴스 공간은 절들 간의 연결 및 하부절의 표현 유무로 나누었고, 결정된 인스턴스 공간에서 복합커널을 사용한 방법이 좋은 성능을 발휘함을 보였다.

  • PDF

Graph Editor형식의 통합정보사전 개발 시스템 (A thesaurus development system with an embedded graphic editor)

  • 남동수;최용준;황도삼
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.341-344
    • /
    • 2000
  • 통합정보사전은 고도의 언어처리 및 이해를 목적으로 한 것이며, 체계적이고 과학적인 방법론을 이용하여 형태소, 구문, 의미정보 등 각종 정보가 통합된 전자사전으로, 이를 개발하는데는 막대한 개발시간과 노력을 필요로 한다. 이러한 특성 때문에 통합정보사전을 구축하기 위해서는 정보를 통합하고 관리하는 사전개발 시스템의 개발이 선행되어야 한다. 현재까지의 사전개발 시스템은 사전 항목을 정의하고, 정의된 항목에 표제어별 정보를 입력하는 시스템으로, 단순한 정렬 및 검색에 의한 표제어 찾기 및 편집을 지원하고 있다. 본 논문에서는 사전의 계층화된 항목정보를 트리 형식으로 나타내어 사전의 개발 및 구축작업을 효율적으로 지원하기 위한 통합정보사전 개발 시스템인 YDK3를 설계하고 구현하였다. 구현한 YDK3는 기존의 각종 사전의 다양한 사전정보를 입력하는 기본적인 기능 외에, 항목정보를 기반으로 한 graph editor형식의 사용자 인터페이스가 제공되어, 사전의 개발, 자료입력 및 검색을 보다 쉽게 할 수 있다는 특징이 있다.

  • PDF