• 제목/요약/키워드: Tagging method

검색결과 154건 처리시간 0.022초

Reference String Recognition based on Word Sequence Tagging and Post-processing: Evaluation with English and German Datasets

  • Kang, In-Su
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권5호
    • /
    • pp.1-7
    • /
    • 2018
  • Reference string recognition is to extract individual reference strings from a reference section of an academic article, which consists of a sequence of reference lines. This task has been attacked by heuristic-based, clustering-based, classification-based approaches, exploiting lexical and layout characteristics of reference lines. Most classification-based methods have used sequence labeling to assign labels to either a sequence of tokens within reference lines, or a sequence of reference lines. Unlike the previous token-level sequence labeling approach, this study attempts to assign different labels to the beginning, intermediate and terminating tokens of a reference string. After that, post-processing is applied to identify reference strings by predicting their beginning and/or terminating tokens. Experimental evaluation using English and German reference string recognition datasets shows that the proposed method obtains above 94% in the macro-averaged F1.

음성합성을 위한 품사태깅시스템의 속도 개선 (A fast POS tagging method for speech synthesis)

  • 김정세;박준
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.159-162
    • /
    • 2002
  • 본 논문에서는 음성합성을 위한 의사형태소 품사 태깅 시스템의 속도를 개선하는 방법으로 정확률을 다소 희생하더라도 속도개선이 될 수 있는 방법을 제안하고자 한다. 형태소 해석 시에는 종성으로 올 수 있는 자모를 제외한 나머지에 대해서는 음절단위로 구성하는 변형된 Tabular 파싱법으로 해석하는데, 여기에다 일반적으로 적용 가능한 몇 가지의 규칙을 추가함으로써 해석 가능한 노드들을 줄였다. 태깅 시에는 한국어의 특성상 어절 하나씩을 품사 태깅하였을 경우에도 상당히 정확하다는 점을 이용하여 어절 내부에서는 full search 를 하고 그 다음 어절은 이전 어절의 제일 높은 값을 가지는 품사열 정보를 활용하는 방법을 제안한다. 제안한 시스템은 32 개 품사 태그셋에 2 만 형태소 사전을 이용해 실험한 결과, 기존의 시스템보다 약 $60\%$이상의 속도 개선을 보였으며, 정확률은 약 $1\%$ 정도 떨어졌다.

  • PDF

Neural Model for Named Entity Recognition Considering Aligned Representation

  • Sun, Hongyang;Kim, Taewhan
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.613-616
    • /
    • 2018
  • Sequence tagging is an important task in Natural Language Processing (NLP), in which the Named Entity Recognition (NER) is the key issue. So far the most widely adopted model for NER in NLP is that of combining the neural network of bidirectional long short-term memory (BiLSTM) and the statistical sequence prediction method of Conditional Random Field (CRF). In this work, we improve the prediction accuracy of the BiLSTM by supporting an aligned word representation mechanism. We have performed experiments on multilingual (English, Spanish and Dutch) datasets and confirmed that our proposed model outperformed the existing state-of-the-art models.

Proper Noun Embedding Model for the Korean Dependency Parsing

  • Nam, Gyu-Hyeon;Lee, Hyun-Young;Kang, Seung-Shik
    • Journal of Multimedia Information System
    • /
    • 제9권2호
    • /
    • pp.93-102
    • /
    • 2022
  • Dependency parsing is a decision problem of the syntactic relation between words in a sentence. Recently, deep learning models are used for dependency parsing based on the word representations in a continuous vector space. However, it causes a mislabeled tagging problem for the proper nouns that rarely appear in the training corpus because it is difficult to express out-of-vocabulary (OOV) words in a continuous vector space. To solve the OOV problem in dependency parsing, we explored the proper noun embedding method according to the embedding unit. Before representing words in a continuous vector space, we replace the proper nouns with a special token and train them for the contextual features by using the multi-layer bidirectional LSTM. Two models of the syllable-based and morpheme-based unit are proposed for proper noun embedding and the performance of the dependency parsing is more improved in the ensemble model than each syllable and morpheme embedding model. The experimental results showed that our ensemble model improved 1.69%p in UAS and 2.17%p in LAS than the same arc-eager approach-based Malt parser.

XML 편집도구를 이용한 향상된 RDFa 태깅 기법 (Enhanced RDFa Tagging Method using XML Editing Tool)

  • 최영호;차승준;이규철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.155-158
    • /
    • 2010
  • 시맨틱 웹 기술을 활용한 OpenAPI 의미 기반 검색 시스템에서 설명정보페이지에 의미정보를 가진 메타데이터를 첨가하기 위해 RDFa 기술을 이용한 태깅을 하였다. 하지만 태깅 시 사람이 수작업을 통해 입력하기 때문에 시간소모가 크고 오류 위험이 높다는 제약사항이 있다. 이러한 제약사항을 해결하기 위해 본 논문에서는 XML/XHTML 편집도구를 이용한 향상된 RDFa 태깅을 제안한다. 이는 속도향상과 오류 감소의 방법으로 XML/XHTML 편집도구에서 제공하는 자동완성 기능을 제안하고 있다. 그리고 자동완성 기능을 사용하기 위해 DTD를 수정하여 적용하였고 수정된 방법을 테스트한 결과 기존의 수동 태깅 기법보다 걸리는 시간이 단축됐고, 오류를 줄일 수 있음이 확인되었다. 결과를 얻을 수 있었다.

두문자어 의미 태깅 방법 (A Method for Acronym Sense Tagging)

  • 황명권;정도헌;성원경
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1199-1201
    • /
    • 2011
  • 본 논문은 의미적 정보처리에서 걸림돌이 되는 두문자어(Acronym)의 의미처리를 위한 전체적인 구조설계를 포함하고 있다. 두문자어는 일반적으로 복합어에서 의미가 큰 단어의 첫 번째 문자들로 구성된다. 두문자어를 구성하는 복합어는 다른 일반 명사들과 달리 대부분 고유한 의미를 갖고 있기 때문에 정보처리에서 의미 파악의 핵심적인 역할을 수행할 수 있다. 본 논문은 문서에서 출현하는 두문자어의 정확한 의미를 판단하기 위한 방법을 제안하며 현재까지 진행된 결과에 대해 언급하도록 한다.

온톨로지 지식 기반 특성치를 활용한 Bidirectional LSTM-CRF 모델의 시퀀스 태깅 성능 향상에 관한 연구 (Improving Bidirectional LSTM-CRF model Of Sequence Tagging by using Ontology knowledge based feature)

  • 진승희;장희원;김우주
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.253-266
    • /
    • 2018
  • 본 연구는 질의 응답(QA) 시스템에서 사용하는 개체명 인식(NER)의 성능을 향상시키기 위하여 시퀀스 태깅 방법론을 적용한 새로운 방법론을 제안한다. 사용자의 질의를 입력 받아 데이터베이스에 저장된 정답을 추출하기 위해서는 사람의 언어를 컴퓨터가 알아들을 수 있도록 구조화 질의어(SQL)와 같은 데이터베이스의 언어로 전환하는 과정이 필요한데, 개체명 인식은 사용자의 질의에서 데이터베이스에 포함된 클래스나 데이터 명을 식별하는 과정이다. 기존의 데이터베이스에서 질의에 포함된 단어를 검색하여 개체명을 인식하는 방식은 동음이의어와 문장성분 구를 문맥을 고려하여 식별하지 못한다. 다수의 검색 결과가 존재하면 그들 모두를 결과로 반환하기 때문에 질의에 대한 해석이 여러 가지가 나올 수 있고, 계산을 위한 시간복잡도가 커진다. 본 연구에서는 이러한 단점을 극복하기 위해 신경망 기반의 방법론을 사용하여 질의가 가지는 문맥적 의미를 반영함으로써 이러한 문제를 해결하고자 했고 신경망 기반의 방법론의 문제점인 학습되지 않은 단어에 대해서도 문맥을 통해 식별을 하고자 하였다. Sequence Tagging 분야에서 최신 기술인 Bidirectional LSTM-CRF 모델을 도입함으로써 신경망 모델이 가진 단점을 해결하였고, 학습되지 않은 단어에 대해서는 온톨로지 기반 특성치를 활용하여 문맥을 반영한 추론을 사용하였다. 음악 도메인의 온톨로지(Ontology) 지식베이스를 대상으로 실험을 진행하고 그 성능을 평가하였다. 본 연구에서 제안한 방법론인 L-Bidirectional LSTM-CRF의 성능을 정확하게 평가하기 위하여 학습에 포함된 단어들뿐만 아니라 학습에 포함되지 않은 단어들도 포함한 질의를 평가에 사용하였다. 그 결과 L-Bidirectional LSTM-CRF 모형을 재학습 시키지 않아도 학습에 포함되지 않은 단어를 포함한 질의에 대한 개체명 인식이 가능함을 확인하였고, 전체적으로 개체명 인식의 성능이 향상됨을 확인할 수 있었다.

솔잎혹파리에 대한 방사선동위원소 표식방법에 관한 연구 (Radioisotope Labelling Method of Pine Gall Midge (Thecodiplosis japonensis UCHIDA et INOUYE))

  • 권신한;정규회;유준
    • 한국응용곤충학회지
    • /
    • 제17권3호
    • /
    • pp.155-160
    • /
    • 1978
  • 솔잎혹파리의 비산거리를 조사하기 위해서 방사성 동위원소인 $^{45}Ca$$^{32}P$의 표식방법에 관한 기초 실험을 하였다. 1. $^{45}Ca$를 유충기에 표식 시켰을때 성충에서는 방사능이 검출되지 않았다. 즉 생물학적 반감기가 짧아 체내축적이 않되었다. 2. 충영내 유충의 방사능 표식는 $^{45}Ca$ 처리시 10월이전에는 점차 증가하다가 10월 이후 부터는 점차 낮아져 평형상태를 유지하는 것으로 보아 유충은 10월 이후에 섭식을 작게 하는 것으로 본다. 3. $^{32}P$에 의한 충영내 노숙유충의 표식율은 3주째가 가장 높았으나 반감기가 짧은 까닭에 시일의 경과에 따라 급속한 표식방사능의 감소를 보인 결과로 미루어 $^{32}P$는 수간주입에 의해 성충을 표식하기에는 부적당하였다. 4. 월동 노숙유충체를$^{32}P$용액으로 처리하여 표식방사능을 검출할 수 있는 최적처리농도는 비방사능이 0.5uCi/ml에 침지을 30분간 한 후 흐르는 물에 10분간 세척하늘 방법이었다. 그러나 이 농도에서 침지시간은 20분 이상으로 하여야 $^{32}P$가 유충체내에 충분히 침투되었다

  • PDF

동형이의어 분별에 의한 한국어 의존관계 분석 (An Analysis of Korean Dependency Relation by Homograph Disambiguation)

  • 김홍순;옥철영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권6호
    • /
    • pp.219-230
    • /
    • 2014
  • 의존관계 분석은 문장의 어절 간에 의존소-지배소를 결정하는 작업이다. 용언은 문형 및 하위범주화 정보의 선택제약에 의해 다른 어절과의 의존관계를 형성한다. 본 논문은 형태소 분석 단계에서 동형이의어 분별된 용언의 문형을 이용하여 용언의 의존관계를 분석하는 방법을 제안한다. 특히, 형태소분석 단계에서 품사 및 동형이의어 태깅을 위해 사용하는 단계별 전이모델의 학습사전을 재활용하여 {명사+격조사, 용언} 간의 의존관계를 확정하는 방안을 제안하고 그의 정확률 및 영향을 분석한다. 동형이의어가 부착되고 의존관계로 변경된 21개의 세종구문분석말뭉치를 이용하여 실험한 결과, 동형이의어 분별된 의존관계 분석 정확률이 80.38%로, 동형이의어가 분별되지 않은 의존관계분석에 비해 0.42%의 정확률 향상이 있었으며, 유의수준 1%의 검정통계량 Z는 ${\mid}Z{\mid}=4.63{\geq}z_{0.01}=2.33$으로 동형이의어 분별이 의존관계 분석에 영향이 있음을 보였다. 또한, 단계별 전이모델이 의존관계 분석 정확률에 약 7.14% 영향을 미치는 것을 알 수 있었다.

The Efficient Transformation of Pleurotus ostreatus using REMI Method

  • Joh, Joong-Ho;Kim, Beom-Gi;Chu, Kyo-Sun;Kong, Won-Sik;Yoo, Young-Bok;Lee, Chang-Soo
    • Mycobiology
    • /
    • 제31권1호
    • /
    • pp.32-35
    • /
    • 2003
  • Restriction enzyme-mediated integration(REMI) was used to transform uracil auxotrophs of Pleurotus ostreatus to prototrophy. When protoplasts of Pleurotus ostreatus were treated by the reaction mixture containing 10 units of BamHI, the frequency of REMI was about 64 transformants per 1 ${\mu}g$ of DNA. This efficiency was increased by 14.2 times compared with that of the conventional PEG transformation. The optimal condition for REMI of P. ostreatus was achieved when 1 ${\mu}g$ of linearized pTRura3-2 DNA was added into $1{\times}10^7$ protoplasts along with 10 units BamHI. Southern blot analysis revealed that about 50% of transformants examined were caused by REMI event and 30% carried single copy insertion at the genome. This suggested that the REMI method might be a useful tool for efficient transformation and tagging mutagenesis of P. ostreatus.