• 제목/요약/키워드: Korean parsing

검색결과 326건 처리시간 0.026초

한국어 수분류사 어휘의미망 KorLexClas 1.5 (KorLexClas 1.5: A Lexical Semantic Network for Korean Numeral Classifiers)

  • 황순희;권혁철;윤애선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권1호
    • /
    • pp.60-73
    • /
    • 2010
  • 본 연구의 목적은 한국어 수분류사 체계를 설정하고, 수분류사와 공기명사 간 의미관계 정보를 제공하는 한국어 수분류사 어휘의미망 "KorLexClas 1.5"의 정보구조와 구축방식을 소개하는 데 있다. KorLex 명사, 동사, 형용사, 부사가 영어 워드넷(Princeton WordNet)을 기반으로 참고구축 방식으로 개발된 것에 비해, KorLexClas 1.0버전과 이를 확장한 1.5버전은 직접구축 방식으로 개발하였다는 점에서, 수분류사의 계층구조와 언어단위 간 의미관계 설정은 매우 방대한 시간과 정교한 구축 방식을 요구한다. 따라서 작업의 효율성을 기함과 동시에, 구축된 어휘의미망의 신뢰성 및 확장성을 높이기 위해, (1) 다양한 기구축 언어자원을 활용하되 상호 검증하는 절차를 거치고, (2) 부분문장 분석방법을 이용하여, 수분류사 및 공기명사 목록을 확장하며, (3) 언어학적 준거를 기준으로 수분류사의 계층구조를 설정하고, (4) 수분류사와 공기명사 간 의미관계 정보를 제공하되 확장성을 확보하기 위해, KorLexNoun 1.5에 '최하위 공통상 위노드(LUB : Least Upper Bound)'를 설정하는 방식을 택한다. 이러한 특성을 가진 KorLexClas 1.5는 기계번역을 비롯한 한국어정보처리의 제 분야에 응용될 수 있다.

스택-포인터 네트워크와 부분 트리 정보를 이용한 한국어 의존 구문 분석 (Korean Dependency Parsing Using Stack-Pointer Networks and Subtree Information)

  • 최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권6호
    • /
    • pp.235-242
    • /
    • 2021
  • 본 연구에서는 포인터 네트워크 모델을 의존 구문 분석에 맞게 확장한 스택-포인터 네트워크 모델을 이용하여 한국어 의존 구문 분석기를 구현한다. 스택-포인터 네트워크 모델 기반 의존 구문 분석기는 인코더-디코더로 구성되어 있으며 다른 의존 구문 분석기와 달리 내부 스택을 갖고 있어 루트부터 시작하는 하향식 구문 분석이 가능하다. 디코더의 각 단계에서는 의존소를 찾기 위해 부모 노드뿐만 아니라 이미 파생된 트리 구조에서 조부모와 형제 노드를 참조할 수 있다. 기존 연구에서는 단순하게 해당 노드들의 합을 계산하여 입력으로 사용하였고, 형제 노드의 경우에는 가장 최근에 방문했던 것만을 사용할 수 있었다. 본 연구에서는 그래프 어텐션 네트워크를 도입하여 이미 파생된 부분 트리를 표현하고 이를 스택-포인터 네트워크의 입력으로 사용하도록 구문 분석기를 수정한다. 세종 코퍼스와 모두의 코퍼스를 대상을 실험한 결과 레이어 2의 그래프 어텐션 네트워크를 이용하여 부분 트리를 표현했을 때 특히 문장 단위의 구문 분석 정확도에서 많은 성능 향상을 확인할 수 있었다.

TCP/IP Hardware Accelerator를 위한 TCP Engine 설계 (TCP Engine Design for TCP/IP Hardware Accelerator)

  • 이보미;정여진;임혜숙
    • 한국통신학회논문지
    • /
    • 제29권5B호
    • /
    • pp.465-475
    • /
    • 2004
  • Transport Control Protocol (TCP)은 소프트웨어로 구현되어 네트워크로 입출력되는 데이터를 처리하는 역할을 한다. 네트워크 기술의 향상으로 CPU에서 수행되는 TCP의 처리가 새로운 병목점으로 등장하고 있다. 또한 iSCSI와 같은 Storage Area Network (SAN) 에서도 TCP의 고속 처리가 전체 시스템의 성능을 결정하는 주요 관건이 되고 있다. 이러한 TCP를 하드웨어로 구현할 경우, 엔드 시스템에서의 CPU의 부하를 줄이고, 고속의 데이터 처리가 가능하여진다. 본 논문에서는TCP의 고속 처리를 위한 전용 하드웨어 엔진에 관하여 다룬다. TCP 하드웨어 는 TCP Connection을 담당하는 블럭과 Receive flow 를 위한 Rx TCP 블럭, Transmit Flow를 위한 Tx TCP 블럭으로 구성된다. TCP Connection 볼럭은 TCP connection 상태를 관리하는 기능을 수행한다. Rx TCP 블록은 네트워크로부터 패킷을 받아 헤더와 데이터 처리를 담당하는데, 헤더 정보를 parsing 하여 전달하고, 데이터를 순서에 맞게 조립하는 역할도 담당한다. Tx TCP 블럭은 CPU로부터 온 데이터를 패킷을 만들어 네트워크로 전송하는 기능, 신뢰성 있는 데이터 전송을 위한 재전송 기능1 Transmit Window 의 관리와 Sequence Number를 생성, 관리하는 기능을 담당한다. TCP 하드웨어 엔진을 검증하기 위한 여러 가지 Testcase들이 수행되었으며, 구현된 TCP 전용 하드웨어 엔진을 0.18 마이크론 기술을 사용하여 Synthesis 한 결과, 입출력 데이터를 저장하기 위한 버퍼를 제외하곡 51K 게이트가 소요됨을 보았다.

감정 온톨로지의 구축을 위한 구성요소 분석 (Component Analysis for Constructing an Emotion Ontology)

  • 윤애선;권혁철
    • 인지과학
    • /
    • 제21권1호
    • /
    • pp.157-175
    • /
    • 2010
  • 의사소통에서 대화자 간 감정의 이해는 메시지의 내용만큼이나 중요하다. 비언어적 요소에 의해 감정에 관한 더 많은 정보가 전달되고 있기는 하지만, 텍스트에도 화자의 감정을 나타내는 언어적 표지가 다양하고 풍부하게 녹아들어 있다. 본 연구의 목적은 인간언어공학에 활용할 수 있는 감정 온톨로지를 구축할 수 있도록 그 구성요소를 분석하는 데 있다. 텍스트 기반 감정 처리 분야의 선행 연구가 감정을 분류하고, 각 감정의 서술적 어휘 목록을 작성하고, 이를 텍스트에서 검색함으로써, 추출된 감정의 정확도가 높지 않았다. 이에 비해, 본 연구에서 제안하는 감정 온톨로지는 다음과 같은 장점이 있다. 첫째, 감정 표현의 범주를 기술 대상과 방식에 따라 6개 범주로 분류하고, 이들 간 상호 대응관계를 설정함으로써, 멀티모달 환경에 적용할 수 있다. 둘째, 세분화된 감정을 분류할 수 있되, 감정 간 차별성을 가질 수 있도록 24개의 감정 명세를 선별하고, 더 섬세하게 감정을 분류할 수 있는 속성으로 강도와 극성을 설정하였다. 셋째, 텍스트에 나타난 감정 표현을 명시적으로 구분할 수 있도록, 경험자 기술 대상과 방식 언어적 자질에 관한 속성을 도입하였다. 넷째, 본 연구의 감정분류는 Plutchik의 분류와 호환성을 갖고 있으며, 언어적 요소의 기술에서 국제표준의 태그세트를 수용함으로써, 다국어 처리에 활용을 극대화할 수 있도록 고려했다.

  • PDF

우리나라 도로명주소를 활용한 지오코딩 및 역 지오코딩 기법 개발 (Development of Geocoding and Reverse Geocoding Method Implemented for Street-based Addresses in Korea)

  • 석상묵;이지영
    • 한국측량학회지
    • /
    • 제34권1호
    • /
    • pp.33-42
    • /
    • 2016
  • 현재 국내 포털사이트 및 기타 공공기관에서 제공하는 지오코딩 서비스는 어드레스-포인트 지오코딩 기법을 활용한다. 이 기법은 매우 높은 위치 정확도를 가지는 반면, 데이터의 품질이 지오코딩 결과물에 큰 영향을 미치며, 3차원 주소에 대한 지오코딩 및 역 지오코딩에 활용될 수 없다는 한계점이 있다. 이에 본 연구에서는 미국 센서스 국에서 개발한 도로 기반 지오코딩 기법에 기반 하여, 우리나라 도로명주소를 활용한 지오코딩 기법을 제시한다. 이때, 본 연구에서 제안하는 지오코딩 기법은 (1) 단일 건물을 표현하는 2차원 주소뿐만 아니라 지하 건축물 또는 실내 공간까지 포함하는 3차원 주소의 지오코딩을 지원하는 지오코딩 기법과, (2) 특정 지점을 주소로 반환하는 역지오코딩 기법으로 구분된다. 실제 연구 대상지역을 대상으로 제안한 지오코딩 기법을 적용한 결과, 도로명주소의 지오코딩 시 82.63% 매칭률, 역 지오코딩 시 98.5% 매칭률을 가지는 것으로 나타났으며, 평균 위치 오차가 1.7미터로 나타남에 따라 제안한 지오코딩 기법을 활용한 위치 기반 서비스가 가능함을 보였다. 지오코딩 기법 개발에 있어, 본 연구에서는 주소 정규화를 위한 파싱 알고리즘 및 농촌지역, 도로종속 구간 등의 일부 지역을 고려하지 않고 수행하였다. 이에 향후 연구에서는 이와 같은 사항을 고려한 개선된 지오코딩 기법이 제시될 필요가 있다.

한국어 TTS 시스템에서 딥러닝 기반 최첨단 보코더 기술 성능 비교 (Performance Comparison of State-of-the-Art Vocoder Technology Based on Deep Learning in a Korean TTS System)

  • 권철홍
    • 문화기술의 융합
    • /
    • 제6권2호
    • /
    • pp.509-514
    • /
    • 2020
  • 기존의 TTS 시스템은 텍스트 전처리, 구문 분석, 발음표기 변환, 경계 분석, 운율 조절, 음향 모델에 의한 음향 특징 생성, 합성음 생성 등 여러 모듈로 구성되어 있다. 그러나 딥러닝 기반 TTS 시스템은 텍스트에서 스펙트로그램을 생성하는 Text2Mel 과정과 스펙트로그램에서 음성신호을 합성하는 보코더로 구성된다. 본 논문에서는 최적의 한국어 TTS 시스템 구성을 위해 Tex2Mel 과정에는 Tacotron2를 적용하고, 보코더로는 WaveNet, WaveRNN, WaveGlow를 소개하고 이를 구현하여 성능을 비교 검증한다. 실험 결과, WaveNet은 MOS가 가장 높으며 학습 모델 크기가 수백 MB이고 합성시간이 실시간의 50배 정도라는 결과가 나왔다. WaveRNN은 WaveNet과 유사한 MOS 성능을 보여주며 모델 크기가 수십 MB 단위이고 실시간 처리는 어렵다는 결과가 도출됐다. WaveGlow는 실시간 처리가 가능한 방법이며 모델 크기가 수 GB이고 MOS가 세 방식 중에서 가장 떨어진다는 결과를 보여주었다. 본 논문에서는 이러한 연구 결과로부터 TTS 시스템을 적용하는 분야의 하드웨어 환경에 맞춰 적합한 방식을 선정할 수 있는 참고 기준을 제시한다.

J2EE기반의 웹 애플리케이션을 위한 프리젠테이션 계층 자동생성 템플릿 개발 (Development of Template for Automatic Generation of Presentation Layer in J2EE-Based Web Applications)

  • 유철중;채정화;김송주;장옥배
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제9권2호
    • /
    • pp.133-145
    • /
    • 2003
  • J2EE(Jav $a^{™}$ 2 Platform, Enterprise Edition) 기반의 웹 애플리케이션은 기존의 애플리케이션이 갖는 시간적.공간적 제약을 극복하는 대안으로 대두되었다. 최근 웹 애플리케이션을 보다 빠르고 효율적으로 개발하기 위한 해결책으로 프레임워크를 이용하는 방안들이 다양하게 제기되고 있다. 본 논문에서는 계층구조를 갖는 웹 애플리케이션을 각 계층의 개발자들이 따로 프로그램을 개발할 수 있다는 점에 착안하여 프리젠테이션 계층에서 담당해야 할 여러 처리와 그 유형을 템플릿으로 제시하여 웹 애플리케이션의 프리젠테이션 계층을 보다 빠르게 개발할 수 있도록 한다. 이 템플릿은 사용자가 작성하고자 하는 웹 애플리케이션의 프리젠테이션 계층에 대한 정보를 나타내는 것으로 XML 형태의 문서이며, 이것을 입력받은 코드 생성기는 사용자 정보를 파싱한 후 주어진 웹 애플리케이션 프레임워크를 바탕으로 프리젠테이션 계층의 골격 코드를 자동 생성한다. 이것은 코드 생성기를 이용하여 프레임워크의 핫스팟 클래스들을 상속받은 골격 코드를 빠르게 생성할 수 있어 보다 효율적으로 웹 애플리케이션을 개발할 수 있음을 의미한다. 본 템플릿과 코드 생성기를 사용함으로써 개발자는 적은 학습량으로 웹 애플리케이션을 개발할 수 있고, 표준화시킨 개발 과정을 내포함으로써 다른 개발자와의 협력작업을 용이하게 하여 웹 애플리케이션을 적시에 개발할 수 있다.

경량 동적 코드 변환 기법을 이용한 동적 인스트루멘테이션 기법 설계 및 구현 (Design and Implementation of a Dynamic Instrumentation Framework based on Light-weight Dynamic Binary Translation)

  • 김지홍;이동우;김인혁;엄영익
    • 정보과학회 논문지
    • /
    • 제41권11호
    • /
    • pp.892-899
    • /
    • 2014
  • 동적 인스트루멘테이션 기법은 동적 코드 변환 기법을 사용하여 프로그램의 수행 흐름을 흐트러뜨리지 않으면서 분석 코드를 삽입하는 구현 기법으로 사용되고 있다. 기존의 동적 코드 변환 기법은 머신 코드 스트림을 중간 코드 형태로 파싱하고, 이를 일반적인 컴파일러 기법에 적용함으로써 코드를 변환한다. 이러한 방식의 코드 변환 과정에서 수반되는 높은 변환 오버헤드는 응답성이 높은 사용자 프로그램에 적용을 어렵게 한다. 본 논문에서는 변환 과정의 경량화를 통해 변환 오버헤드를 줄임으로써, 높은 동적 코드 변환 성능을 가지는 경량 동적 코드 변환 기법을 제안하고, 이를 기반으로 하는 동적 인스트루멘테이션 프레임워크를 제안한다. 제안 기법은 테이블 기반의 새로운 동적 주소 변환 기법으로 코드를 변환하고, 더불어 자주 실행되는 라이브러리 함수에 대해 변환 과정에 대해서는 주소 변환만을 함으로써 변환 오버헤드를 줄이는 변환 우회 기법을 이용한다. 기존 동적 코드 변환 기법과의 비교를 통해 2%~65%의 성능 향상을 확인하였다.

기계학습 및 필터링 방법을 결합한 경쟁관계 인식 (Competition Relation Extraction based on Combining Machine Learning and Filtering)

  • 이충희;서영훈;김현기
    • 정보과학회 논문지
    • /
    • 제42권3호
    • /
    • pp.367-378
    • /
    • 2015
  • 본 논문은 기계학습 방법과 필터링 방법을 결합해서 경쟁관계를 인식하는 방법에 대한 연구이다. 기존 연구들은 기계학습 방법에만 의존해서 관계유형을 인식하는 연구들이 대부분이며. 사용되는 자질도 일반적인 관계유형에 적합한 자질을 사용하고 특히 구문분석 정보가 매우 중요한 자질로 사용된다. 본 논문에서는 구문분석 등의 언어분석 결과를 이용하지 않고, 단순한 자질들(어휘, 거리, 위치, 단서단어)만을 사용해도 경쟁관계 인식에 효과적임을 확인하였다. 또한, 경쟁관계인식 긍정 정확도를 향상시킬 수 있는 문장별 경쟁유무 분류방법, 스팸분류 방법, 거리제약 기반 자질필터링 방법을 기계학습 방법과 결합한 방법론을 제안한다. 방법론 검증을 위해서 뉴스분야 2,565개 문장을 평가셋으로 구축하였고, 비교 평가를 위해서 규칙기반 경쟁관계 인식기와 기존연구의 관계추출 방법론에 기반한 일반 관계추출기를 적용해서 비교하였다. 성능평가 결과로 규칙기반 엔진이 긍정정확도와 전체정확도(accuracy)가 81.2%와 56.8% 성능을 보였고, 일반 관계추출기는 61.2%와 56.3%를 보였다. 그에 비해서 본 논문에서 제안하는 방법은 긍정 정확도 92.2%와 전체정확도 71.3% 성능을 보여서 경쟁관계 인식에 효과적임을 확인하였다.

데이터 지역성 및 질의 수행 경로를 고려한 분산 SPARQL 질의 처리 기법 (A Distributed SPARQL Query Processing Scheme Considering Data Locality and Query Execution Path)

  • 김병훈;김대윤;고건식;노연우;임종태;복경수;이병엽;유재수
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권5호
    • /
    • pp.275-283
    • /
    • 2017
  • 시맨틱 웹 서비스의 증가로 인해 RDF 데이터가 대용량화되고 있다. 대용량 RDF 데이터를 효율적으로 활용하기 위하여 다양한 분산 저장 및 질의 처리기법들이 연구되고 있다. 본 논문에서는 대용량 RDF 데이터의 데이터 지역성 및 질의 수행 경로를 고려한 분산 SPARQL 질의 처리 기법을 제안한다. 제안하는 기법은 질의 처리 시의 조인 비용 및 통신비용을 감소시키기 위해 분산 저장된 RDF 데이터의 지역성 및 질의 수행 경로를 고려한다. 분산 환경에서 SPARQL 질의를 처리할 때 데이터 지역성을 고려하여 WHERE절을 기준으로 해당 질의를 여러 개의 서브 질의로 분할한다. 제안하는 기법은 분할된 서브 질의들을 인덱스를 통해 연관 노드들끼리 그룹화 하여 처리함으로써 데이터 통신비용을 감소시킬 수 있다. 또한 그룹 화된 서브 질의 처리 시 불필요한 조인 및 대기 시간을 감소시키기 위해 데이터 파싱 비용, 노드별 데이터 통신량 및 대기 시간 등을 고려한 효율적인 질의 수행 경로를 생성한다. 다양한 성능평가를 통해 제안하는 기법이 기존 기법보다 우수함을 보인다.