• 제목/요약/키워드: POS 시스템

검색결과 169건 처리시간 0.035초

오타에 강건한 자모 조합 임베딩 기반 한국어 품사 태깅 (A typing error-robust Korean POS tagging using Hangul Jamo combination-based embedding)

  • 서대룡;정유진;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.203-208
    • /
    • 2017
  • 본 논문은 한글 자모 조합 임베딩을 이용하여 오타에 강건한 한국어 품사 태깅 시스템을 구축하는 방법에 대해 기술한다. 최근 딥 러닝 연구가 활발히 진행되면서 자질을 직접 추출해야 하는 기존의 기계학습 방법이 아닌, 스스로 자질을 찾아서 학습하는 딥 러닝 모델을 이용한 연구가 늘어나고 있다. 본 논문에서는 다양한 딥 러닝 모델 중에서 sequence labeling에 강점을 갖고 있는 bidirectional LSTM CRFs 모델을 사용하였다. 한국어 품사 태깅 문제에서 일반적으로 사용되는 음절 임베딩은 약간의 오타에도 품사 태깅 성능이 크게 하락하는 한계가 있었다. 따라서 이를 개선하기 위해 본 논문에서는 한글 자모 임베딩 값을 조합시킨 음절 임베딩 방식을 제안하였다. 강제로 오타를 발생시킨 테스트 집합에서 실험한 결과, 자모 조합 임베딩 기법이 word2vec 음절 임베딩 방식에 비해 형태소 분할은 0.9%, 품사 태깅은 3.5% 우수한 성능을 기록하였다.

  • PDF

IBM NP4GS3 기반 패킷 포워딩 엔진에서의 VLAN 구현 방안 (The VLAN implementation scheme on IBM-NP4GS3 based Packet Forwarding Engine)

  • 최창식;곽동용
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (3)
    • /
    • pp.502-504
    • /
    • 2002
  • 기존 라우터시스템에서의 패킷 포워딩 엔진은 최적화된 룩업 알고리즘을 통한 소프트웨어 방식으로 구현되었으나, 처리해야 할 데이터가 폭주하면서 전용화된 룩업칩을 이용한 포워딩 엔진으로 대체되어 가고 있다. 그러나, 이러한 룩업칩 기반 패킷 포워딩 엔진은 가격이 비싼 것은 물론. 급변하는 통신 프로토콜에 적응하기 힘든 단점을 가지게 되었으며, 이로 인해서 최근에는 Network Processor 기반의 패킷 포워딩 엔진에 대한 개발이 활발해지고 있다. 본 연구소에서도 초고속광가입자망 사업에 적용되는 포워딩 엔진을 IBM의 2.5G Network Processor 인 NP4GS3 칩을 이용하고 있으며, GbE/POS/E-PON 등의 인터페이스를 지원하고 있다. 또한 본 사업에서는 가입자망에서의 Layer2 broadcasting시의 트래픽 폭주와 가입자간의 보안 기능 등을 지원하기 위해 VLAN 서비스를 적용할 예정이다. 본 논문에서는 일반적인 VLAN 기능에 대해서 알아보고, IBM NP4GS3에서 지원되는 VLAN 기능을 분석하였으며, 이를 토대로 NP4GS3 기반 패킷 포워딩 엔진에서 VLAN 구현 방안에 대하여 기술하였다.

  • PDF

오타에 강건한 자모 조합 임베딩 기반 한국어 품사 태깅 (A typing error-robust Korean POS tagging using Hangul Jamo combination-based embedding)

  • 서대룡;정유진;강인호
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.203-208
    • /
    • 2017
  • 본 논문은 한글 자모 조합 임베딩을 이용하여 오타에 강건한 한국어 품사 태깅 시스템을 구축하는 방법에 대해 기술한다. 최근 딥 러닝 연구가 활발히 진행되면서 자질을 직접 추출해야 하는 기존의 기계학습 방법이 아닌, 스스로 자질을 찾아서 학습하는 딥 러닝 모델을 이용한 연구가 늘어나고 있다. 본 논문에서는 다양한 딥 러닝 모델 중에서 sequence labeling에 강점을 갖고 있는 bidirectional LSTM CRFs 모델을 사용하였다. 한국어 품사 태깅 문제에서 일반적으로 사용되는 음절 임베딩은 약간의 오타에도 품사 태깅 성능이 크게 하락하는 한계가 있었다. 따라서 이를 개선하기 위해 본 논문에서는 한글 자모 임베딩 값을 조합시킨 음절 임베딩 방식을 제안하였다. 강제로 오타를 발생시킨 테스트 집합에서 실험한 결과, 자모 조합 임베딩 기법이 word2vec 음절 임베딩 방식에 비해 형태소 분할은 0.9%, 품사 태깅은 3.5% 우수한 성능을 기록하였다.

  • PDF

운율 경계 정보를 이용한 HMM 기반의 한국어 음성합성 시스템 (An HMM-based Korean TTS synthesis system using phrase information)

  • 주영선;정치상;강홍구
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2011년도 하계학술대회
    • /
    • pp.89-91
    • /
    • 2011
  • In this paper, phrase boundaries in sentence are predicted and a phrase break information is applied to an HMM-based Korean Text-to-Speech synthesis system. Synthesis with phrase break information increases a naturalness of the synthetic speech and an understanding of sentences. To predict these phrase boundaries, context-dependent information like forward/backward POS(Part-of-Speech) of eojeol, a position of eojeol in a sentence, length of eojeol, and presence or absence of punctuation marks are used. The experimental results show that the naturalness of synthetic speech with phrase break information increases.

  • PDF

자모 및 음절 임베딩 결합을 이용한 오타에 효과적인 한국어 형태소 분석 (Effective Korean POS Tagging for Typing Errors Using the Concatenation of Jamo and Syllable Embedding)

  • 김혜민;양선;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.574-579
    • /
    • 2018
  • 본 논문에서는 한국어 형태소 분석 시스템을 제안하는데, 연구 목표는 오타 없는 문서를 대상으로 한 경우에도 높은 성능을 유지하면서, 동시에 오타가 있는 문서에서도 우수한 성능을 산출하는 것이다. 실험은 크게 두 종류로 나누어서 진행된다. 주 실험인 첫 번째 실험에서는, 자모 임베딩과 음절 임베딩을 결합(concatenate)한 벡터를 입력으로 Bidirectional LSTM CRFs을 수행함으로써, 세종말뭉치 대상으로 어절 정확도 97%, 그리고 1, 2, 5 어절마다 오타가 출현한 경우에서도 각각 80.09%, 87.53%, 92.49%의 높은 성능을 산출하였다. 추가 실험인 두 번째 실험에서는, 실생활에서 자주 발생하는 오타들을 집계하여 그 중에서 11가지 오타 유형을 선정 후, 각 유형에 대해 변환된 임베딩 벡터를 적용함으로써, 해당 오타를 포함한 문장에서 93.05%의 우수한 성능을 산출하였다.

  • PDF

가능납기 산정을 위한 ATP 알고리즘 연구 (A Study on Available-To-Promise Algorithm for Determining Available Delivery Time)

  • 진동주;양광모;김건호
    • 대한안전경영과학회:학술대회논문집
    • /
    • 대한안전경영과학회 2001년도 추계학술대회
    • /
    • pp.43-49
    • /
    • 2001
  • 최근 기업활동의 자재구매, 제조, 보관 및 운송, 유통/판매까지 포함한 공급체인 전체에 대해 통합관리가 중요한 비스를 받고 싶어한다. 이에 따라 오늘날의 대부분의 기업들은 고도의 기술을 요하는 정보시스템의 도입과, POS, Data Mining 등과 같은 기술들을 이용하고 고객의 요구 사항들을 적시, 적소에서 파악하여 고객이 요구하는 상품과 서비스를 공급하기 위하여 최선과을 정리하고 주요 SCM solution에서 제공하는 기능 및 사용된 방법론을 분석하여, 이를 바탕으로 주문 접수 시 주문물량의 가능납기를 산정하기 위한 입력데이터, 고려요소, 연산절차 등을 포함한 ATI(Available to Promise) 모델을 제제로 부각되고 있다. 현대의 고객들은 제품이나 납기, 품질과 같은 부문에서 높은 서의 노력을 다하고 있다. 최초의 공급자로부터 소비자까지 상품이 전달되는 과정 중에서 재고와 물류비용은 모든 비용의 대부분을 차지하고 있다. 이에 대한 비용을 줄이려고 하는 것이 공급체인관리(SCM)의 기본적인 목적이라 하겠다. 이에 본 논문에서는 공급체인관리(SCM)에 대한 개념과 배경, 필요성 등시한다.

  • PDF

UTOPIA-L3/CSIX-L1 변환모듈 설계 (A Design of Converter Module between UTOPIA-L3 and CSIX-L1)

  • 김광옥;최창식;박완기;곽동용
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (3)
    • /
    • pp.127-129
    • /
    • 2002
  • NP Forum에서는 다양한 밴더의 네트워크 프로세서와 스위치 패브릭간에 물리적 인터페이스를 제공하기 위해 CSIX-L1(Common Switch Interface-Level 1 )인터페이스를 표준화하였다. IBM 네트워크 프로세서는 MPLS 및 VPN, VLAN, Security, Ipv6와 같은 다양한 어플리케이션과 TBI. SMII CMII. POS bus등 다양한 가입자 인터페이스를 지원하며, L2 기 반에서 2.5Gbps 이상의 패킷 처리를 수행하기 때문에 많은 시스템에 사용된다. 그러나 IBM네트워크 프로세서는 스위치 인터페이스로 DASL인터페이스를 사용한다. 따라서 DASL인 터페이스와 CSIX-L1 인터페이스를 정합하기 위해서는 IBM UDASL칩을 이용해 DASL인 터페이스를 UTOPIA-L3인터페이스로 변환해야 하며, 이것을 다시 CSIX-L1인터페이스로 변환해야 한다. 따라서 본 논문에서는 UTOPIA-L3인터페이스 패킷과 CSIX-L1인터페이스 프레임을 상호 변환하는 모듈을 설계하였으며, 32비트 데이터 버스와 최대 125MHz로클록을 사용해 최대 4Gbps의 패킷처리를 제공하도록 구현하였다. 또한 스위치 패브릭의 특정 포트에서 과잉 트래픽 전달로 인해 발생할 수 있는 블로킹을 방지하기 위해 네트워크 프로세서에게 3개의 Priority/최대 64개 포트수의 VOQ(Virtual Output Queue)를 제공하는 기법에 대해서 기술한다.

  • PDF

접사 정보를 이용한 영어 미등록어의 품사부착 성능개선 (Performance Improvement of POS tagging for English Unknown words Using Affixes)

  • 김형철;김재훈;최윤수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.186-190
    • /
    • 2009
  • 품사 부착은 각종 자연어처리의 기본적인 요소이며, 크게 규칙 기반 방법과, 통계 기반 방법으로 나눌 수 있다. 대부분은 통계 기반의 기계학습을 이용하고 있으며, 대개 95% 이상의 성능을 보여주고 있다. 그러나 미등록어에 대해서는 성능이 그다지 높지 않다. 이 논문에서는 단어의 접사 정보를 이용해서 미등록어에 대한 품사 부착의 성능을 높이는 방법을 제안한다. 제안된 시스템은 CRF(Conditional Random Fields)를 이용하며, 그 자질의 일부로 접사 정보를 이용한다. 그 결과 미등록어에 대해서 약 40%의 성능이 개선되었다. 앞으로 미등록어에 적합한 자질을 연구하고 개발할 필요가 있을 것으로 생각된다.

  • PDF

길이 비트맵 해시 기반 형태소 분석 시스템 (Length Bitmap HASH Based POS Tagging System)

  • 선충녕;민경구;서정연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.505-507
    • /
    • 2005
  • 인터넷의 확장에 따라 형태소 분석기에서 사용하는 사전의 규모도 커지고 있다. 이러한 상황은 사전의 증가를 가져옴으로써 기존 형태소 분석기의 자료 구조에 대한 새로운 요구를 발생시켰다. 기존의 트라이를 이용한 방법은 노드의 과다 생성과 데이터 부족문제로 발생하는 메모리 낭비의 문제를 가지고 있다. 효율적인 메모리 사용을 위해서는 해시 구조가 적절하다. 하지만 이 경우 트라이에 비해 검색 횟수의 복잡도가 비약적으로 증가되는 문제점을 안고 있다. 본 논문에서는 해시를 위한 길이 비트맵을 이용하여 검색 횟수를 제한할 수 있는 방법을 제안하였다. 실험을 통해 제안된 자료 구조와 해시와 트라이의 형태소 사전 검색 횟수를 비교하였으며 비문 사용이 많은 영역에서 효율적임을 입증하였다.

  • PDF

제어봉 구동장치 제어시스템의 다중화 설계에 관한 고찰 (A Study of Redundant Design of a Control Rod Control System)

  • 서중석;조창호;육심균;남채호;문태선
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2003년도 하계학술대회 논문집 D
    • /
    • pp.2337-2339
    • /
    • 2003
  • Digital technologies are required to reduce to events due to human fails clarified existing nuclear power plant. When we are trying to retrofit control rod control system from analog system to digital one, new communication network and controller is required to be constructed. In this paper, we are going to introduce experience in developing economic and reliable control rod control system construction. this proposed system consists of redundant POS, communication network, and controller to provide enhance reliability and safety.

  • PDF