• 제목/요약/키워드: Korean Natural Language Processing

검색결과 513건 처리시간 0.025초

DeNERT: Named Entity Recognition Model using DQN and BERT

  • Yang, Sung-Min;Jeong, Ok-Ran
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권4호
    • /
    • pp.29-35
    • /
    • 2020
  • 본 논문에서는 새로운 구조의 개체명 인식 DeNERT 모델을 제안한다. 최근 자연어처리 분야는 방대한 양의 말뭉치로 사전 학습된 언어 표현 모델을 활용하는 연구가 활발하다. 특히 자연어처리 분야 중 하나인 개체명인식은 대부분 지도학습 방식을 사용하는데, 충분히 많은 양의 학습 데이터 세트와 학습 연산량이 필요하다는 단점이 있다. 강화학습은 초기 데이터 없이 시행착오 경험을 통해 학습하는 방식으로 다른 기계학습 방법론보다 조금 더 사람이 학습하는 과정에 가까운 알고리즘으로 아직 자연어처리 분야에는 많이 적용되지 않은 분야이다. 아타리 게임이나 알파고 등 시뮬레이션 가능한 게임 환경에서 많이 사용된다. BERT는 대량의 말뭉치와 연산량으로 학습된 구글에서 개발한 범용 언어 모델이다. 최근 자연어 처리 연구 분야에서 높은 성능을 보이고 있는 언어 모델이며 많은 자연어처리 하위분야에서도 높은 정확도를 나타낸다. 본 논문에서는 이러한 DQN, BERT 두가지 딥러닝 모델을 이용한 새로운 구조의 개체명 인식 DeNERT 모델을 제안한다. 제안하는 모델은 범용 언어 모델의 장점인 언어 표현력을 기반으로 강화학습 모델의 학습 환경을 만드는 방법으로 학습된다. 이러한 방식으로 학습된 DeNERT 모델은 적은 양의 학습 데이터세트로 더욱 빠른 추론시간과 높은 성능을 갖는 모델이다. 마지막으로 제안하는 모델의 개체명 인식 성능평가를 위해 실험을 통해서 검증한다.

한의학 증상용어의 형태소 분석을 위한 자연어 표기 분석 (Analyzing Morpheme of the Natural Language to Express the Symptoms of Korean Medicine)

  • 김혜은;성호경;엄동명;이충열;이병욱
    • 대한예방한의학회지
    • /
    • 제17권2호
    • /
    • pp.179-187
    • /
    • 2013
  • Objectives : In many cases, patient's symptoms have been recorded on EMR in natural language instead of medical terminologies. It is possible to build a database by analyzing the symptoms of Korean Medicine(KM) that indicates patient's symptoms in natural language. Using the database, when doctors record patient's symptoms on EMR in natural language, conversely it'll be also possible to extract the symptoms of KM from those natural language. The database will enhance the value of EMR as a medical data. Methods : In this study, we aimed to make data structure of the terminologies that represent the symptoms of KM. The data structure is combinations of smallest unit in natural language. We made the database by analyzing morpheme of the natural language to express the symptoms of KM. Results & Conclusions : By classifying the natural language in 15 features, we made the structure of concept and the data available for morphological analysis.

GPCR 경로 추출을 위한 생물학 기반의 목적지향 텍스트 마이닝 시스템 (BIOLOGY ORIENTED TARGET SPECIFIC LITERATURE MINING FOR GPCR PATHWAY EXTRACTION)

  • KIm, Eun-Ju;Jung, Seol-Kyoung;Yi, Eun-Ji;Lee, Gary-Geunbae;Park, Soo-Jun
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2003년도 제2차 연례학술대회 발표논문집
    • /
    • pp.86-94
    • /
    • 2003
  • Electronically available biological literature has been accumulated exponentially in the course of time. So, researches on automatically acquiring knowledge from these tremendous data by text mining technology become more and more prosperous. However, most of the previous researches are technology oriented and are not well focused in practical extraction target, hence result in low performance and inconvenience for the bio-researchers to actually use. In this paper, we propose a more biology oriented target domain specific text mining system, that is, POSTECH bio-text mining system (POSBIOTM), for signal transduction pathway extraction, especially for G protein-coupled receptor (GPCR) pathway. To reflect more domain knowledge, we specify the concrete target for pathway extraction and define the minimal pathway domain ontology. Under this conceptual model, POSBIOTM extracts interactions and entities of pathways from the full biological articles using a machine learning oriented extraction method and visualizes the pathways using JDesigner module provided in the system biology workbench (SBW) [14]

  • PDF

자연어 처리 및 기계학습을 통한 동의보감 기반 한의변증진단 기술 개발 (Donguibogam-Based Pattern Diagnosis Using Natural Language Processing and Machine Learning)

  • 이승현;장동표;성강경
    • 대한한의학회지
    • /
    • 제41권3호
    • /
    • pp.1-8
    • /
    • 2020
  • Objectives: This paper aims to investigate the Donguibogam-based pattern diagnosis by applying natural language processing and machine learning. Methods: A database has been constructed by gathering symptoms and pattern diagnosis from Donguibogam. The symptom sentences were tokenized with nouns, verbs, and adjectives with natural language processing tool. To apply symptom sentences into machine learning, Word2Vec model has been established for converting words into numeric vectors. Using the pair of symptom's vector and pattern diagnosis, a pattern prediction model has been trained through Logistic Regression. Results: The Word2Vec model's maximum performance was obtained by optimizing Word2Vec's primary parameters -the number of iterations, the vector's dimensions, and window size. The obtained pattern diagnosis regression model showed 75% (chance level 16.7%) accuracy for the prediction of Six-Qi pattern diagnosis. Conclusions: In this study, we developed pattern diagnosis prediction model based on the symptom and pattern diagnosis from Donguibogam. The prediction accuracy could be increased by the collection of data through future expansions of oriental medicine classics.

온라인 방식의 자연언어 해석기 설계 (Design of On-Line Natural Language Parser)

  • 우요섭;최병욱
    • 전자공학회논문지B
    • /
    • 제31B권3호
    • /
    • pp.14-23
    • /
    • 1994
  • A natural language processing system usually has the demerit that its processing time is relatively long. If an interactive system makes its user kept waiting long, it can't be said to be practical. In this paper, the on-line natural language parser in which its processing coincides with the sentence's inputting is designed. Since the greater part of morpholgical and syntatic semantic analysis is already performed during the keyboard input, user can get a prompt response. Moreover, the Korean parser is implemented in multitasking environment, and it is compared with an off-line parser. The on-line parser can be considered to be efficient for its real time processing.

  • PDF

자연어 처리 기반 한국어 TTS 시스템 구현 (Implementation of Korean TTS System based on Natural Language Processing)

  • 김병창;이근배
    • 대한음성학회지:말소리
    • /
    • 제46호
    • /
    • pp.51-64
    • /
    • 2003
  • In order to produce high quality synthesized speech, it is very important to get an accurate grapheme-to-phoneme conversion and prosody model from texts using natural language processing. Robust preprocessing for non-Korean characters should also be required. In this paper, we analyzed Korean texts using a morphological analyzer, part-of-speech tagger and syntactic chunker. We present a new grapheme-to-phoneme conversion method for Korean using a hybrid method with a phonetic pattern dictionary and CCV (consonant vowel) LTS (letter to sound) rules, for unlimited vocabulary Korean TTS. We constructed a prosody model using a probabilistic method and decision tree-based method. The probabilistic method atone usually suffers from performance degradation due to inherent data sparseness problems. So we adopted tree-based error correction to overcome these training data limitations.

  • PDF

품사별 자질을 이용한 한국어 품사부착의 성능 향상 (Improving Korean Part-of-speech tagging by Part-of-Speech specific features)

  • 최원종;이도길;임해창
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.16-18
    • /
    • 2006
  • 한국어 형태소분석 및 품사부착에서 일부 품사는 높은 중의성으로 인하여 오류가 많으며, 일부 품사가 전체 오류의 대부분을 차지한다. 본 연구에서는 높은 중의성으로 인하여 오류가 많은 품사를 대상으로, 각 품사에 적합한 자질을 이용하여 학습한, 정확률이 높은 분류기를 통계적 방식의 태거와 순차 결합하여 형태소분석/품사부착 성능을 향상하였다. 2003년 세종계획 품사 부착 말뭉치 200만 어절에서 학습하여 평가를 한 결과 기존 통계적 품사 부착기에 비해 정확도는 0.62% 향상되었으며, 오류는 13.12% 감소하였다.

  • PDF

입력 문장의 띄어쓰기를 고려한 음절 바이그램 띄어쓰기 모델 (Automatic Word Spacer based on Syllable Bi-gram Model using Word Spacing Information of an Input Sentence)

  • 조한철;이도길;임해창
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2006년도 춘계학술대회
    • /
    • pp.67-71
    • /
    • 2006
  • 현재까지 제안된 자동 띄어쓰기 교정 모델들은 그 중의 대다수가 입력 문장에서 공백을 제거한 후에 교정 작업을 수행한다. 이러한 교정 방식은 입력 문장의 띄어쓰기가 잘 되어 있는 경우에 입력 문장보다 좋지 못한 교정 문장을 생성하는 경우가 있다. 본 논문에서는 이러한 문제점을 해결하기 위하여 입력 문장의 띄어쓰기를 고려한 자동 띄어쓰기 교정모델을 제안한다. 이 모델은 입력 문장의 음절단위 띄어쓰기 오류가 5%일 때 약 8%의 성능 향상을 보였으며, 10%의 오류가 존재할 때 약 5%의 성능 향상을 보였다.

  • PDF

설계지식 데이터베이스의 자료구조 규명과 자연어처리를 이용한 인터페이스 프로그램 개발 (The Definition of Data Structure for Design Knowledge Database and Development of the Interface Program for using Natural Language Processing)

  • 이정재;이민호;윤성수
    • 한국농공학회지
    • /
    • 제43권6호
    • /
    • pp.187-196
    • /
    • 2001
  • In this study, by using the natural language processing of the field of artificial intelligence, automated index was performed. And then, the Natural Language Processing Interface for knowledge representation(NALPI) has been developed. Furthermore, the DEsign KnOwledge DataBase(DEKODB) has been also developed, which is designed to interlock the knowledge base. The DEKODB processes both the documented design-data, like a concrete standard specification, and the design knowledge from an expert. The DEKODB is also simulates the design space of structures accordance with the production rule, and thus it is determined that DEKODB can be used as a engine to retrieve new knowledge and to implement knowledge base that is necessary to the development of automatic design system. The application field of the system, which has been developed in this study, can be expanded by supplement of the design knowledge at DEKODB and developing dictionaries for foreign languages. Furthermore, the perfect automation at the data accumulation and development of the automatic rule generator should benefit the unified design automation.

  • PDF

자연어 처리 기반 챗봇이 포함된 E-스포츠 애플리케이션 개발 (Development of E-Sports Application including Natural Language Processing-based Chatbot)

  • 이수정;하예성;정경훈;서진태
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.501-502
    • /
    • 2023
  • 본 논문은 자연어 처리(Natural Language Processing, NLP) 기술과 Flutter 언어를 활용하여 E-스포츠(E-Sports) 애플리케이션을 개발하는 방법을 제안한다. E-스포츠는 전 세계적으로 급속히 성장하는 산업이며, 많은 팬과 선수들이 참여하고 있다. 그러나 E-스포츠 관련 정보를 찾고 이해하기 위해서는 다양한 데이터를 직접 검색하고 분석해야 하는 어려움이 있다. 이러한 어려움을 극복하기 위해 자연어 처리 기술을 활용한 챗봇이 접목된 E-스포츠 애플리케이션을 개발하여 사용자가 효율적으로 관련 정보를 얻을 수 있도록 한다.

  • PDF