• 제목/요약/키워드: Sequence labeling

검색결과 77건 처리시간 0.021초

제한된 언어 자원 환경에서의 다국어 개체명 인식 (Multilingual Named Entity Recognition with Limited Language Resources)

  • 천민아;김창현;박호민;노경목;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.143-146
    • /
    • 2017
  • 심층학습 모델 중 LSTM-CRF는 개체명 인식, 품사 태깅과 같은 sequence labeling에서 우수한 성능을 보이고 있다. 한국어 개체명 인식에 대해서도 LSTM-CRF 모델을 기본 골격으로 단어, 형태소, 자모음, 품사, 기구축 사전 정보 등 다양한 정보와 외부 자원을 활용하여 성능을 높이는 연구가 진행되고 있다. 그러나 이런 방법은 언어 자원과 성능이 좋은 자연어 처리 모듈(형태소 세그먼트, 품사 태거 등)이 없으면 사용할 수 없다. 본 논문에서는 LSTM-CRF와 최소한의 언어 자원을 사용하여 다국어에 대한 개체명 인식에 대한 성능을 평가한다. LSTM-CRF의 입력은 문자 기반의 n-gram 표상으로, 성능 평가에는 unigram 표상과 bigram 표상을 사용했다. 한국어, 일본어, 중국어에 대해 개체명 인식 성능 평가를 한 결과 한국어의 경우 bigram을 사용했을 때 78.54%의 성능을, 일본어와 중국어는 unigram을 사용했을 때 각 63.2%, 26.65%의 성능을 보였다.

  • PDF

제한된 언어 자원 환경에서의 다국어 개체명 인식 (Multilingual Named Entity Recognition with Limited Language Resources)

  • 천민아;김창현;박호민;노경목;김재훈
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.143-146
    • /
    • 2017
  • 심층학습 모델 중 LSTM-CRF는 개체명 인식, 품사 태깅과 같은 sequence labeling에서 우수한 성능을 보이고 있다. 한국어 개체명 인식에 대해서도 LSTM-CRF 모델을 기본 골격으로 단어, 형태소, 자모음, 품사, 기구축 사전 정보 등 다양한 정보와 외부 자원을 활용하여 성능을 높이는 연구가 진행되고 있다. 그러나 이런 방법은 언어 자원과 성능이 좋은 자연어 처리 모듈(형태소 세그먼트, 품사 태거 등)이 없으면 사용할 수 없다. 본 논문에서는 LSTM-CRF와 최소한의 언어 자원을 사용하여 다국어에 대한 개체명 인식에 대한 성능을 평가한다. LSTM-CRF의 입력은 문자 기반의 n-gram 표상으로, 성능 평가에는 unigram 표상과 bigram 표상을 사용했다. 한국어, 일본어, 중국어에 대해 개체명 인식 성능 평가를 한 결과 한국어의 경우 bigram을 사용했을 때 78.54%의 성능을, 일본어와 중국어는 unigram을 사용했을 때 각 63.2%, 26.65%의 성능을 보였다.

  • PDF

Improved Perfusion Contrast and Reliability in MR Perfusion Images Using A Novel Arterial Spin Labeling

  • Jahng, Geon-Ho;Xioaping Zhu;Gerald Matson;Weiner, Michael-W;Norbert Schuff
    • 한국의학물리학회:학술대회논문집
    • /
    • 한국의학물리학회 2002년도 Proceedings
    • /
    • pp.341-344
    • /
    • 2002
  • Neurodegenerative disorders, like Alzheimer's disease, are often accompanied by reduced brain perfusion (cerebral blood flow). Using the intrinsic magnetic properties of water, arterial spin labeling magnetic resonance imaging (ASLMRI) can map brain perfusion without injection of radioactive tracers or contrast agents. However, accuracy in measuring perfusion with ASL-MRI can be limited because of contributions to the signal from stationary spins and because of signal modulations due to transient magnetic field effects. The goal was to optimize ASL-MRI for perfusion measurements in the aging human brain, including brains with Alzheimer's disease. A new ASL-MRI sequence was designed and evaluated on phantom and humans. Image texture analysis was performed to test quantitatively improvements. Compared to other ASL-MRI methods, the newly designed sequence provided improved signal to noise ratio improved signal uniformity across slices, and thus, increased measurement reliability. This new ASL-MRI sequence should therefore provide improved measurements of regional changes of brain perfusion in normal aging and neurodegenerative disorders.

  • PDF

웹 카메라와 손을 이용한 마우스 기능의 구현 (Implementation of Mouse Function Using Web Camera and Hand)

  • 김성훈;우영운;이광의
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권5호
    • /
    • pp.33-38
    • /
    • 2010
  • 본 논문에서는 USB 인터페이스 방식의 웹 카메라를 통해 입력받은 영상을 영상처리 기법을 통해 손의 움직임과 손가락 개수를 파악하여 실시간으로 마우스의 기능을 구현하는 알고리즘을 제안하였다. 웹 카메라로부터 입력받은 RGB 컬러모델 영상을 조명 변화에 강한 YCbCr 컬러 모델 영상으로 변환하여 휘도 성분을 제외한 색차 성분만으로 피부색을 추출해 이진화된 영상으로 만든다. YCbCr 컬러 모델을 이용하여 피부색을 추출할 경우, 주변 환경에 의해 정확한 손 영역을 추출할 수 없어 라벨링(labeling)과 열림(opening) 연산, 닫힘(closing) 연산을 수행하여 정확한 손 영역을 추출한다. 이렇게 추출된 손 영역의 중심을 이용하여 마우스 포인터를 이동시키며 손가락 개수를 이용하여 마우스의 클릭을 수행하였다. 구현된 제안 기법을 실험한 결과, 마우스 포인터 이동을 위한 기능 성공률은 평균 94.0%, 손가락 개수 인식률은 평균 96.0%로 실용화 가능성을 보였다.

Discriminative Training of Sequence Taggers via Local Feature Matching

  • Kim, Minyoung
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제14권3호
    • /
    • pp.209-215
    • /
    • 2014
  • Sequence tagging is the task of predicting frame-wise labels for a given input sequence and has important applications to diverse domains. Conventional methods such as maximum likelihood (ML) learning matches global features in empirical and model distributions, rather than local features, which directly translates into frame-wise prediction errors. Recent probabilistic sequence models such as conditional random fields (CRFs) have achieved great success in a variety of situations. In this paper, we introduce a novel discriminative CRF learning algorithm to minimize local feature mismatches. Unlike overall data fitting originating from global feature matching in ML learning, our approach reduces the total error over all frames in a sequence. We also provide an efficient gradient-based learning method via gradient forward-backward recursion, which requires the same computational complexity as ML learning. For several real-world sequence tagging problems, we empirically demonstrate that the proposed learning algorithm achieves significantly more accurate prediction performance than standard estimators.

A Study on Gene Detection using Non-labeling DNA

  • Choi Yong-Sung;Lee Kyung-Sup;Kwon Young-Soo
    • 한국전기전자재료학회논문지
    • /
    • 제19권10호
    • /
    • pp.960-965
    • /
    • 2006
  • This research aims to develop the multiple channel electrochemical DNA chip using microfabrication technology. At first, we fabricated a high integration type DNA chip array by lithography technology. Several probe DNAs consisting of thiol group at their 5-end were immobilized on the gold electrodes. Then target DNAs were hybridized and reacted. Cyclic voltammetry showed a difference between target DNA and control DNA in the anodic peak current values. Therefore, it is able to detect a plural genes electrochemically after immobilization of a plural probe DNA and hybridization of non-labeling target DNA on the electrodes simultaneously. It suggested that this DNA chip could recognize the sequence specific genes.

Farey Labeling : 계층적 데이터 관리를 지원하는 XML 데이터 레이블링 기법 (Farey Labeling : XML data labeling scheme for Hierarchical data management)

  • 배주호;김학인;박석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.164-169
    • /
    • 2010
  • 본 논문에서는 계층적 데이터를 관계형 데이터베이스 시스템에 저장하기 위한 요구사항을 만족하는 XML 레이블링 기법으로서 Farey Sequence 를 응용한 Faray 레이블링 기법을 제안한다. 이는 일반적인 동적 삽입연산 외에 형제간 노드 사이에 새 노드를 삽입할 경우 추가적인 레이블의 사이즈 증가 없이 기존노드의 리레이블링이 없고, 말단 노드의 삭제시 레이블의 재사용이 원할하며, 부모와 자식 사이에 새 노드를 삽입하는 경우가 빈번한 계층적 데이터 관리 시에 리레이블링을 최소화 할 수 있는 방법이다. 기존 XML 레이블링 기법이 부모 자식사이에 삽입 연산을 하는 경우 하위의 모든 노드를 리레이블링 해야 하는것에 비하여 본 기법은 오직 1개의 하위 노드만을 리레이블링 하기 때문에 해당 경우의 계층적 데이터의 동적 삽입 시 하위 노드의 개수에 상관없이 일정하게 연산시간을 유지할 수 있다.

  • PDF

음절 단위 임베딩과 딥러닝 기법을 이용한 복합명사 분해 (Compound Noun Decomposition by using Syllable-based Embedding and Deep Learning)

  • 이현영;강승식
    • 스마트미디어저널
    • /
    • 제8권2호
    • /
    • pp.74-79
    • /
    • 2019
  • 기존의 복합명사 분해 알고리즘은 미등록어 단위명사들이 포함된 복합명사를 분해할 때 미등록어를 분리하기 어려운 문제가 발생한다. 이는 현실적으로 모든 고유명사, 신조어, 외래어 등의 모든 단위 명사를 사전에 등록하는 것은 불가능하다는 한계가 존재하기 때문이다. 이 문제를 해결하기 위하여 복합명사 분해 문제를 태그 열 부착(sequence labeling) 문제로 정의하고 음절 단위 임베딩과 딥러닝 기법을 이용하는 복합명사 분해 방법을 제안한다. 단위명사 사전을 구축하지 않고 미등록 단위명사를 인식하기 위하여 복합명사를 구성하는 각 음절들을 연속적인 벡터 공간에 표현하여 LSTM과 선형체인(linear-chain) CRF를 이용하는 방식으로 복합명사를 단위명사들로 분해한다.

Structural SVM을 이용한 백과사전 문서 내 생략 문장성분 복원 (Restoring Omitted Sentence Constituents in Encyclopedia Documents Using Structural SVM)

  • 황민국;김영태;나동열;임수종;김현기
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.131-150
    • /
    • 2015
  • 영어와 달리 한국어나 일본어 문장의 경우 용언의 필수격을 채우는 명사구가 생략되는 무형대용어 현상이 빈번하다. 특히 백과사전이나 위키피디아의 문서에서 표제어로 채울 수 있는 격의 경우 그 격이 문장에서 더 쉽게 생략된다. 정보검색, 질의응답 시스템 등 주요 지능형 응용시스템들은 백과사전류의 문서에서 주요한 정보를 추출하여 수집하여야 한다. 그러나 이러한 명사구 생략 현상으로 인해 양질의 정보추출이 어렵다. 본 논문에서는 백과사전 종류 문서에서 생략된 명사구 즉 무형대용어를 복원하는 시스템의 개발을 다루었다. 우리 시스템이 다루는 문제는 자연어처리의 무형대용어 해결 문제와 거의 유사하나, 우리 문제의 경우 문서의 일부가 아닌 표제어도 복원에 이용할 수 있다는 점이 다르다. 무형대용어 복원을 위해서는 먼저 무형대용어의 탐지 즉 문서 내에서 명사구 생략이 일어난 곳을 찾는 작업을 수행한다. 그 다음 무형대용어의 선행어 탐색 즉 무형대용어의 복원에 사용될 명사구를 문서 내에서 찾는 작업을 수행한다. 문서 내에서 선행어를 발견하지 못하면 표제어를 이용한 복원을 시도해 본다. 우리 방법의 특징은 복원에 사용된 문장성분을 찾기 위해 Structural SVM을 사용하는 것이다. 문서 내에서 생략이 일어난 위치보다 앞에 나온 명사구들에 대해 Structural SVM에 의한 시퀀스 레이블링(sequence labeling) 작업을 시행하여 복원에 이용 가능한 명사구인 선행어를 찾아내어 이를 이용하여 복원 작업을 수행한다. 우리 시스템의 성능은 F1 = 68.58로 측정되었으며 이는 의미정보의 이용 없이 달성한 점을 감안하면 높은 수준으로 평가된다.

그래프 임베딩과 관련된 이항 트리에서의 Q-에지 번호매김에 관한 연구 (The Research of Q-edge Labeling on Binomial Trees related to the Graph Embedding)

  • 김용석
    • 전자공학회논문지CI
    • /
    • 제42권1호
    • /
    • pp.27-34
    • /
    • 2005
  • 본 논문에서는 그래프 임베딩 문제와 관련된 이항트리에서의 Q-에지 번호매김 방법을 제안한다. 이러한 연구결과는 신뢰성이 높은 통신망을 설계하는 최적화 문제인 "n 개의 노드와 e 개의 에지를 가지면서 연결도가 최대인 그래프를 구성하라."를 해결한 Harary 그래프의 일반화인 원형군 그래프(circulant graph)의 점프열로 Q-에지번호들을 이용하면 연결도가 최대인 신뢰성이 높은 새로운 상호연결망(interconnection networks)의 위상을 설계할 수 있다. 그리고 이러한 위상은 이항트리를 스패닝 트리로 가지므로 최적방송이 가능하다.