• 제목/요약/키워드: Sequence Tagging

검색결과 39건 처리시간 0.024초

Discriminative Training of Sequence Taggers via Local Feature Matching

  • Kim, Minyoung
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제14권3호
    • /
    • pp.209-215
    • /
    • 2014
  • Sequence tagging is the task of predicting frame-wise labels for a given input sequence and has important applications to diverse domains. Conventional methods such as maximum likelihood (ML) learning matches global features in empirical and model distributions, rather than local features, which directly translates into frame-wise prediction errors. Recent probabilistic sequence models such as conditional random fields (CRFs) have achieved great success in a variety of situations. In this paper, we introduce a novel discriminative CRF learning algorithm to minimize local feature mismatches. Unlike overall data fitting originating from global feature matching in ML learning, our approach reduces the total error over all frames in a sequence. We also provide an efficient gradient-based learning method via gradient forward-backward recursion, which requires the same computational complexity as ML learning. For several real-world sequence tagging problems, we empirically demonstrate that the proposed learning algorithm achieves significantly more accurate prediction performance than standard estimators.

Sequence-to-sequence 기반 한국어 형태소 분석 및 품사 태깅 (Sequence-to-sequence based Morphological Analysis and Part-Of-Speech Tagging for Korean Language with Convolutional Features)

  • 이건일;이의현;이종혁
    • 정보과학회 논문지
    • /
    • 제44권1호
    • /
    • pp.57-62
    • /
    • 2017
  • 기존의 전통적인 한국어 형태소 분석 및 품사 태깅 방법론은 먼저 형태소 후보들을 생성한 뒤 수많은 조합에서 최적의 확률을 가지는 품사 태깅 결과를 구하는 두 단계를 거치며 추가적으로 형태소의 접속 사전, 기분석 사전 및 원형복원 사전 등을 필요로 한다. 본 연구는 기존의 두 단계 방법론에서 벗어나 심층학습 모델의 일종인 sequence-to-sequence 모델을 이용하여 한국어 형태소 분석 및 품사 태깅을 추가 언어자원에 의존하지 않는 end-to-end 방식으로 접근하였다. 또한 형태소 분석 및 품사 태깅 과정은 어순변화가 일어나지 않는 특수한 시퀀스 변환과정이라는 점을 반영하여 음성인식분야에서 주로 사용되는 합성곱 자질을 이용하였다. 세종말뭉치에 대한 실험결과 합성곱 자질을 사용하지 않을 경우 97.15%의 형태소 단위 f1-score, 95.33%의 어절단위 정확도, 60.62%의 문장단위 정확도를 보여주었고, 합성곱 자질을 사용할 경우 96.91%의 형태소 단위 f1-score, 95.40%의 어절단위 정확도, 60.62%의 문장단위 정확도를 보여주었다.

Epitope Tagging with a Peptide Derived from the preS2 Region of Hepatitis B Virus Surface Antigen

  • Kang, Hyun-Ah;Yi, Gwan-Su;Yu, Myeong-Hee
    • BMB Reports
    • /
    • 제28권4호
    • /
    • pp.353-358
    • /
    • 1995
  • Epitope tagging is the process of fusing a set of amino acid residues that are recognized as an antigenic determinant to a protein of interest. Tagging a protein with an epitope facilitates various immunochemical analyses of the tagged protein with a specific monoclonal antibody. The monoclonal antibody H8 has subtype specificity for an epitope derived from the preS2 region of hepatitis B virus surface antigen. Previous studies on serial deletions of the preS2 region indicated that the preS2 epitope was located in amino acid residues 130~142. To test whether the amino acid sequence in this interval is sufficient to confer on proteins the antigenicity recognizable by the antibody H8, the set of amino acid residues in the interval was tagged to the amino terminal of ${\beta}$-galactosidase and to the carboxyl terminal of the truncated $p56^{lck}$ fragment. The tagged ${\beta}$-galactosidase, expressed in Escherichia coli, maintained the enzymatic activity and was immunoprecipitated efficiently with H8. The tagged $p56^{lck}$ fragment, synthesized in an in vitro translation system, was also immunoprecipitated specifically with H8. These results demonstrate that the amino acid sequence of the preS2 region can be used efficiently for the epitope tagging approach.

  • PDF

형태소 분석기 사용을 배제한 음절 단위의 한국어 품사 태깅 (Syllable-based POS Tagging without Korean Morphological Analysis)

  • 심광섭
    • 인지과학
    • /
    • 제22권3호
    • /
    • pp.327-345
    • /
    • 2011
  • 본 논문에서는 형태소 분석기를 사용하지 않는 음절 단위의 한국어 품사 태깅 방법론을 제안한다. 기존 연구에서 한국어 품사 태거는 형태소 분석기가 생성한 결과 중에서 문맥에 가장 잘 맞는 형태소/품사 열을 결정하는 데 반하여, 본 논문에서 제안한 방법론에서는 품사열을 결정할 뿐만 아니라 형태소도 생성한다. 398,632 어절의 학습 데이터로 학습을 하고 33,467 어절의 평가 데이터로 성능 평가를 한 결과 어절 단위의 정확도가 96.31%인 것으로 나타났다.

  • PDF

The Variation of Tagging Contrast-to-Noise Ratio (CNR) of SPAMM Image by Modulation of Tagline Spacing

  • Kang, Won-Suk;Park, Byoung-Wook;Choe, Kyu-Ok;Lee, Sang-Ho;Soonil Hong;Haijo Jung;Kim, Hee-Joung
    • 한국의학물리학회:학술대회논문집
    • /
    • 한국의학물리학회 2002년도 Proceedings
    • /
    • pp.360-362
    • /
    • 2002
  • Myocardial tagging technique such as spatial modulation of magnetization (SPAMM) allows the study of myocardial motion with high accuracy. Tagging contrast of such a tagging images can affect to the accuracy of the estimation of tag intersection in order to analyze the myocardial motion. Tagging contrast can be affected by tagline spacing. The aim of this study was to investigate the relationship between tagline spacing of SPAMM image and tagging contrast-to-noise ratio (CNR) experimentally. One healthy volunteer was undergone electrocardiographically triggered MR imaging with SPAMM-based tagging pulse sequence at a 1.5T MR scanner (Gyroscan Intera, Philips Medical System, Netherland). Horizontally modulated stripe patterns were imposed with a range from 3.6mm to 9.6mm of tagline spacing. Images of the left ventricle (LV) wall were acquired at the mid-ventricle level during cardiac cycle with FEEPI (TR/TE/FA=5.8/2.2/10). Tagging CNR for each image was calculated with a software which developed in our group. During contraction, tagging CNR was more rapidly decreased in case of short tagline spacing than in case of long tagline spacing. In the same heart phase, CNR was increased corresponding with tag line spacing. Especially, at the fully contracted heart phase, CNR was more rapidly increased than the other heart phases as a function of tagline spacing.

  • PDF

기분석사전과 기계학습 방법을 결합한 음절 단위 한국어 품사 태깅 (Syllable-based Korean POS Tagging Based on Combining a Pre-analyzed Dictionary with Machine Learning)

  • 이충희;임준호;임수종;김현기
    • 정보과학회 논문지
    • /
    • 제43권3호
    • /
    • pp.362-369
    • /
    • 2016
  • 본 논문은 음절 단위 한국어 품사 태깅 방법의 성능 개선을 위해 기분석사전과 기계학습 방법을 결합하는 방법을 제안한다. 음절 단위 품사 태깅 방법은 형태소분석을 수행하지 않고 품사 태깅만을 수행하는 방법이며, 순차적 레이블링(Sequence Labeling) 문제로 형태소 태깅 문제를 접근한다. 본 논문에서는 순차적 레이블링 기반 음절 단위 품사 태깅 방법의 전처리 단계로 품사 태깅말뭉치와 국어사전으로부터 구축된 복합명사 기분석사전과 약 1천만 어절의 세종 품사 태깅말뭉치로부터 자동 추출된 어절 사전을 적용함으로써 품사 태깅 성능을 개선시킨다. 성능 평가를 위해서 약 74만 어절의 세종 품사 태깅말 뭉치로부터 67만 어절을 학습 데이터로 사용하고 나머지 7만 4천 어절을 평가셋으로 사용하였다. 기계학습 방법만을 사용한 경우에 96.4%의 어절 정확도를 보였으며, 기분석사전을 결합한 경우에는 99.03%의 어절 정확도를 보여서 2.6%의 성능 개선을 달성하였다. 퀴즈 분야의 평가셋으로 실험한 경우에도 기계학습 엔진은 96.14% 성능을 보인 반면, 하이브리드 엔진은 97.24% 성능을 보여서 제안 방법이 다른 분야에도 효과적임을 확인하였다.

KRDD: Korean Rice Ds-tagging Lines Database for Rice (Oryza sativa L. Dongjin)

  • Kim, Chang-Kug;Lee, Myung-Chul;Ahn, Byung-Ohg;Yun, Doh-Won;Yoon, Ung-Han;Suh, Seok-Cheol;Eun, Moo-Young;Hahn, Jang-Ho
    • Genomics & Informatics
    • /
    • 제6권2호
    • /
    • pp.64-67
    • /
    • 2008
  • The Korean Rice Ds-tagging lines Database (KRDD) is designed to provide information about Ac/Ds insertion lines and activation tagging lines using japonica rice. This database has provided information on 18,158 Ds lines, which includes the ID, description, photo image, sequence information, and gene characteristics. The KRDD is visualized using a web-based graphical view, and anonymous users can query and browse the data using the search function. It has four major menus of web pages: (i) a Blast Search menu of a mutant line; Blast from rice Ds-tagging mutant lines; (ii) a primer design tool to identify genotypes of Ds insertion lines; (iii) a Phenotype menu for Ds lines, searching by identification name and phenotype characteristics; and (iv) a Management menu for Ds lines.

Tagline 간격의 조절을 통한 SPAMM 영상에서의 Tagging 대조도 대 잡음비의 변화 (The Variation of Tagging Contrast-to-Noise Radio (CNR) of SPAMM Image by Modulation of Tagline Spacing)

  • 강원석;최병욱;최규옥;이상호;홍순일;정해조;김희중
    • 한국의학물리학회지:의학물리
    • /
    • 제13권4호
    • /
    • pp.224-228
    • /
    • 2002
  • MR영상에 Spatial Modulation of Magnetization (SPAMM)과 같은 lagging 기법을 이용하여 심근의 움직임을 분석하여 임상에 적용하려는 많은 노력들이 이루어지고 있다. Tagging 대조도는 자동 tagline 검출 알고리즘을 사용하는 경우, 그 정확도에 영향을 미칠 수 있으며, 이는 tagline들 간의 간격에 의해 영향을 받을 수 있다. 본 연구의 목적은 SPAMM 영상에서 tagline 간격과 tagging 대조도와의 관계를 생체내 연구를 통해 알아보고자 하였다. 두 명의 건강한 지원자를 대상으로 1.5T MR 시스템에서 SPAMM 기반의 ECG triggered MR 영상을 획득하였다. 영상을 획득할 때, 먼저 3.6 mm에서 9.6 mm 사이의 간격을 가지는 수평 tagging stripe pattern의 tagline을 가하였다. 심실의 영상은 심장주기가 진행되는 동안 field echo EPI (FE-EPI) 기법을 이용하여 심실 중간 부분에서 얻었다 각 영상에 대한 tagging contrast-to-noise ratio (CNR)는 IDL을 이용한 프로그램을 사용하여 측정하였다. 분석 결과는, 심근의 수축이 진행되는 동안, tagline 간격이 좁은 경우 CNR은 급격한 감소를 나타내었으나, 간격이 넓은 경우에서는 CNR 감소 현상이 보이지 않았다. 같은 심장 위상에서, CNR은 tagline 간격이 넓어짐에 따라 증가하는 경향을 보였다. 특히, 완전히 수축한 심장 위상에서는, CNR의 변화가 다른 위상일 때와 비교해서 그 증가율이 높음을 알 수 있었다. 이러한 양상은 움직임이 없는 다른 주변 조직에서는 관찰되지 않았다. 결론적으로, 본 연구에서는 lagging 대조도가 tagline 간격 및 심근의 수축에 영향을 받을 수 있음을 알 수 있었으며, 앞으로 정확한 심근 움직임 연구를 위한 기초 자료로 쓰여질 수 있을 것이라 생각된다.

  • PDF

BERT기반 LSTM-CRF 모델을 이용한 한국어 형태소 분석 및 품사 태깅 (Korean Morphological Analysis and Part-Of-Speech Tagging with LSTM-CRF based on BERT)

  • 박천음;이창기;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.34-36
    • /
    • 2019
  • 기존 딥 러닝을 이용한 형태소 분석 및 품사 태깅(Part-Of-Speech tagging)은 feed-forward neural network에 CRF를 결합하는 방법이나 sequence-to-sequence 모델을 이용한 방법 등의 다양한 모델들이 연구되었다. 본 논문에서는 한국어 형태소 분석 및 품사 태깅을 수행하기 위하여 최근 자연어처리 태스크에서 많은 성능 향상을 보이고 있는 BERT를 기반으로 한 음절 단위 LSTM-CRF 모델을 제안한다. BERT는 양방향성을 가진 트랜스포머(transformer) 인코더를 기반으로 언어 모델을 사전 학습한 것이며, 본 논문에서는 한국어 대용량 코퍼스를 어절 단위로 사전 학습한 KorBERT를 사용한다. 실험 결과, 본 논문에서 제안한 모델이 기존 한국어 형태소 분석 및 품사 태깅 연구들 보다 좋은 (세종 코퍼스) F1 98.74%의 성능을 보였다.

  • PDF

Sequence-to-Sequence 와 BERT-LSTM을 활용한 한국어 형태소 분석 및 품사 태깅 파이프라인 모델 (A Pipeline Model for Korean Morphological Analysis and Part-of-Speech Tagging Using Sequence-to-Sequence and BERT-LSTM)

  • 윤준영;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.414-417
    • /
    • 2020
  • 최근 한국어 형태소 분석 및 품사 태깅에 관한 연구는 주로 표층형에 대해 형태소 분리와 품사 태깅을 먼저하고, 추가 언어자원을 사용하여 후처리로 형태소 원형과 품사를 복원해왔다. 본 연구에서는 형태소 분석 및 품사 태깅을 두 단계로 나누어, Sequence-to-Sequence를 활용하여 형태소 원형 복원을 먼저 하고, 최근 자연어처리의 다양한 분야에서 우수한 성능을 보이는 BERT를 활용하여 형태소 분리 및 품사 태깅을 하였다. 본 논문에서는 두 단계를 파이프라인으로 연결하였고, 제안하는 형태소 분석 및 품사 태깅 파이프라인 모델은 음절 정확도가 98.39%, 형태소 정확도 98.27%, 어절 정확도 96.31%의 성능을 보였다.

  • PDF