• 제목/요약/키워드: 한글 모형

검색결과 86건 처리시간 0.018초

통계 기법을 이용한 연어 추출 모형 연구 (The Study on the Model of Extracting Collocations from Corpus in Korean Using the Statistical Tools)

  • 안성민
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.162-165
    • /
    • 2010
  • 공기하여 나타나는 구 정보 중에서 언어에 대한 연구는 응용 언어학에 발전에 기여할 수 있는 부분이 크다. 연어란 어휘들 간의 제한된 결합 관계를 갖는 공기 확률이 높은 구 구성이다. 이러한 연어 구성에 대한 연구는 특히 기계 번역이나 사전 편찬 등의 분야에서 관심이 높아지고 있다. 본 연구에서는 언어를 추출하기 위해 T-test와 상호 정보, 조건 확률 등의 여러 통계 기법의 사용을 제시한다. 각 기법을 적용하였을 때 연어 추출에 어떠한 변화를 보이는지 조사하였고, 가장 적절한 기법의 적용도 모색함으로써 향후 언어 추출의 방향을 제시하고자 한다.

  • PDF

KorQuAD를 활용한 한국어 오픈도메인 질의응답 시스템 (Korean Open Domain Question Answering System Using KorQuAD)

  • 조상현;김민호;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.321-325
    • /
    • 2019
  • 오픈 도메인 질의응답이란, 질문을 줬을 때 그 질문과 연관성이 높은 문서를 검색하고 검색된 문서에서 정답을 추출하는 태스크이다. 본 논문은 기계 독해 데이터인 KorQuAD를 활용한 오픈도메인 질의응답 시스템을 제안한다. 문서 검색기를 이용하여 질문과 관련 있는 위키피디아 문서들을 검색하고 검색된 문서에 단락 선택 모델을 통해서 문서 질문과 연관성이 높은 단락들을 선별하여 기계 독해 모델에서 처리해야 할 입력의 수를 줄였다. 문서 선별모델에서 선별된 여러 단락에서 추출된 정답 후보에서 여러 가지 정답 모형을 적용하여 성능을 비교하는 실험을 하였다. 본 논문에서 제안한 오픈도메인 질의응답 시스템을 KorQuAD에 적용했을 때, 개발 데이터에서 EM 40.42%, F1 55.34%의 성능을 보였다.

  • PDF

기계 독해를 이용한 COVID-19 뉴스 도메인의 한국어 질의응답 챗봇 (Korean Q&A Chatbot for COVID-19 News Domains Using Machine Reading Comprehension)

  • 이태민;박기남;박정배;정영희;채정민;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.540-542
    • /
    • 2020
  • 코로나 19와 관련한 다양한 정보 확인 욕구를 충족하기 위해 한국어 뉴스 데이터 기반의 질의응답 챗봇을 설계하고 구현하였다. BM25 기반의 문서 검색기, 사전 언어 모형인 KoBERT 기반의 문서 독해기, 정답 생성기의 세 가지 모듈을 중심으로 시스템을 설계하였다. 뉴스, 위키, 통계 정보를 수집하여 웹 기반의 챗봇 인터페이스로 질의응답이 가능하도록 구현하였다. 구현 결과는 http://demo.tmkor.com:36200/mrcv2 페이지에서 접근 및 사용을 할 수 있다.

  • PDF

채란양계 경영의 경제성 분석을 위한 전산모형 개발 (A Computer Model for Economic Analysis of Egg Producing Operations)

  • 최성옥;조광호
    • 한국가금학회지
    • /
    • 제21권1호
    • /
    • pp.21-34
    • /
    • 1994
  • 우리의 채란 양계산업은 호당 사육 규모의 확대와 기술개선이 있었음에도 사육 기반은 낙후되었고 자동화 시설이 크게 도입되지 않았으며 영농 기록도 하지 않았다. 이는 아직도 기술 향상과 구조개선에 의해 생산비 절감이 가능함을 보인 것이다. 이 연구에서의 경쟁력 향상을 위해 채란양계 경영 내부에서 무엇이 문제인가를 판단하고 개선방향을 분석하는데 필요한 전산모형을 개발함으로써 그동안 실행되지 못했던 경영진단을 실시할 수 있고, 새로운 경영전략의 도입에 대한 경제적 합리성의 판단을 쉽게 할 수 있게 하였다. 또한 우리 농가의 실정에 적합하도록 입출력 모형을 세웠고, 컴퓨터에 대한 지식이 없는 농가도 쉽게 이용할 수 있도록 한글화시켰으며, 모형을 단순화 하였으면서도 농민이나 연구자들이 필요로 하는 내용은 포함토록 하였다. 우리나라의 개인용 컴퓨터의 보급이 크게 신장되었으나, 아직도 채란계 농가까지 널리 보급되지 않은 상태에서 채란계 농가가 쉽게 이용할 수 있는 이러한 프로그램들이 많이 개발되어야 채란계 농가에 컴퓨터의 보급이 촉진되고, 정보화 시대에 대응할 수 있기 때문에 이 모형은 상당한 유용성을 가진다고 볼 수 있다. 앞으로는 일반관리(사양관리, 방역관리, 사료, 작업관리) 등과 결합된 종합 경영관리 모형이 개발되어 농민이 컴퓨터에 쉽게 접근할 수 있도록 해야 한다.

  • PDF

한국어 기계 독해를 위한 언어 모델의 효과적 토큰화 방법 탐구 (Exploration on Tokenization Method of Language Model for Korean Machine Reading Comprehension)

  • 이강욱;이해준;김재원;윤희원;유원호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.197-202
    • /
    • 2019
  • 토큰화는 입력 텍스트를 더 작은 단위의 텍스트로 분절하는 과정으로 주로 기계 학습 과정의 효율화를 위해 수행되는 전처리 작업이다. 현재까지 자연어 처리 분야 과업에 적용하기 위해 다양한 토큰화 방법이 제안되어 왔으나, 주로 텍스트를 효율적으로 분절하는데 초점을 맞춘 연구만이 이루어져 왔을 뿐, 한국어 데이터를 대상으로 최신 기계 학습 기법을 적용하고자 할 때 적합한 토큰화 방법이 무엇일지 탐구 해보기 위한 연구는 거의 이루어지지 않았다. 본 논문에서는 한국어 데이터를 대상으로 최신 기계 학습 기법인 전이 학습 기반의 자연어 처리 방법론을 적용하는데 있어 가장 적합한 토큰화 방법이 무엇인지 알아보기 위한 탐구 연구를 진행했다. 실험을 위해서는 대표적인 전이 학습 모형이면서 가장 좋은 성능을 보이고 있는 모형인 BERT를 이용했으며, 최종 성능 비교를 위해 토큰화 방법에 따라 성능이 크게 좌우되는 과업 중 하나인 기계 독해 과업을 채택했다. 비교 실험을 위한 토큰화 방법으로는 통상적으로 사용되는 음절, 어절, 형태소 단위뿐만 아니라 최근 각광을 받고 있는 토큰화 방식인 Byte Pair Encoding (BPE)를 채택했으며, 이와 더불어 새로운 토큰화 방법인 형태소 분절 단위 위에 BPE를 적용하는 혼합 토큰화 방법을 제안 한 뒤 성능 비교를 실시했다. 실험 결과, 어휘집 축소 효과 및 언어 모델의 퍼플렉시티 관점에서는 음절 단위 토큰화가 우수한 성능을 보였으나, 토큰 자체의 의미 내포 능력이 중요한 기계 독해 과업의 경우 형태소 단위의 토큰화가 우수한 성능을 보임을 확인할 수 있었다. 또한, BPE 토큰화가 종합적으로 우수한 성능을 보이는 가운데, 본 연구에서 새로이 제안한 형태소 분절과 BPE를 동시에 이용하는 혼합 토큰화 방법이 가장 우수한 성능을 보임을 확인할 수 있었다.

  • PDF

건강신념모형에 기초한 고지혈증 환자의 건강행태 관련요인 (Related Factors to Health Behavior by Patients With Hyperlipidemia Based on Health Belief Model)

  • 이은선;나백주;이무식;이진용;홍지영;임영실
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2011년도 춘계학술논문집 2부
    • /
    • pp.1057-1060
    • /
    • 2011
  • 본 연구는 건강신념모형의 주요 변수와 고지혈증 환자의 건강행태와의 관계를 파악하여 고지혈증 환자의 건강행태를 촉진하고 더 나아가 만성질환 보건사업 및 교육프로그램을 계획하는데 기초 자료를 제공하고자 시도되었다. 자료는 2009년 07월부터 2010년 9월까지 총콜레스테롤이 240mg/dl 이상이고, 중성지방이 200mg/dl 이상으로 고지혈증을 진단받은 20세 이상의 성인 남녀 146명을 대상으로 구조화된 설문지를 이용하여 조사하였으며, SPSS WIN(14.0 한글판) 프로그램을 이용하여 Chronbach's alpha의 신뢰성 분석, 요인분석, 단변량 및 다변량 분석을 시행하였다. 본 연구의 결과는 다음과 같다. 첫째, 본 연구에서는 LDL-cholesterol, HDL-cholesterol, TG에 대한 인지수준 중 TG에 대한 인지가 가장 높았고, 3가지 모두를 인지한 경우는 28.08%였다. 또한 9가지 항목에 대한 고지혈증 지식수준은 9점 만점에 평균 6.51이었으며, 지식수준이 높을수록 건강행태수준도 높았다. 둘째, 요인분석을 통하여 10개의 건강행태를 2개 요인으로 재분류 하였다. 그 결과, 건강행태 요인 1은 '식이, 운동 습관 및 고지혈증 검사 및 관련 검사요인', 건강행태 요인 2는 '흡연, 음주 습관 및 고지혈증 치료 관련 요인'이었다. 건강행태 요인1에 유의한 관련성이 있는 건강신념변수는 심각성, 이득, 장애로 나타났고, 취약성은 상관 관계가 없는 것으로 나타났다. 각 신념 요인들과 건강행태 간의 상관되는 순서는 이득(r =.455), 심각성 (r=.38), 장애(r=-.244) 순으로 나타나 고지혈증에 대한 이득 인식이 건강행태 요인1과 가장 관련성이 높은 것으로 파악되었다. 그러나, 건강행태 요인2는 건강신념변수와 관련성이 없는 것으로 나타났다. 셋째, 행동계기에 따른 건강행태의 관계를 살펴보면, 교육을 받았을 때 건강행태 요인1과 요인2에 모두 유의한 차이를 보이는 것으로 나타나, 교육이 고지혈증 환자의 건강행태에 중요한 영향을 미치는 것을 보여 주었다. 넷째, 다중회귀분석 결과 고지혈증 건강행태 요인1에 영향을 미치는 요인 중 유의한 요인으로 인지된 심각성 및 이점 신념요인, 교육여부, 보건소 교육정도 이었다. 건강행태 요인2에서는 성별, 연령, 교육여부가 유의한 영향을 미치는 요인으로 나타났다. 이상의 결과를 종합하면 건강신념모형이 고지혈증 건강행태를 예측하는데 적합한 모형이라고 판단 할 수 있으며, 건강행태 요인 특성에 따라 건강신념변수 중 고지혈증 예방에 대한 이득을 높이 인식할 수 있도록 프로그램과 교육목표를 설정하면 보다 효과적인 교육이 될 것이라 생각된다.

  • PDF

한글 음소 단위 딥러닝 모형을 이용한 감성분석 (Sentiment Analysis Using Deep Learning Model based on Phoneme-level Korean)

  • 이재준;권순범;안성만
    • 한국IT서비스학회지
    • /
    • 제17권1호
    • /
    • pp.79-89
    • /
    • 2018
  • Sentiment analysis is a technique of text mining that extracts feelings of the person who wrote the sentence like movie review. The preliminary researches of sentiment analysis identify sentiments by using the dictionary which contains negative and positive words collected in advance. As researches on deep learning are actively carried out, sentiment analysis using deep learning model with morpheme or word unit has been done. However, this model has disadvantages in that the word dictionary varies according to the domain and the number of morphemes or words gets relatively larger than that of phonemes. Therefore, the size of the dictionary becomes large and the complexity of the model increases accordingly. We construct a sentiment analysis model using recurrent neural network by dividing input data into phoneme-level which is smaller than morpheme-level. To verify the performance, we use 30,000 movie reviews from the Korean biggest portal, Naver. Morpheme-level sentiment analysis model is also implemented and compared. As a result, the phoneme-level sentiment analysis model is superior to that of the morpheme-level, and in particular, the phoneme-level model using LSTM performs better than that of using GRU model. It is expected that Korean text processing based on a phoneme-level model can be applied to various text mining and language models.

한국어 관계관형절의 전산처리 (Processing Korean Relative Adnominal Clauses)

  • 홍정하;이기용
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.265-271
    • /
    • 1999
  • 이 논문은 한국어 관계관형절(relative adnominal clause)의 전산처리에 적합한 통사 의미 표상 모형을 제시하고, 그 결과를 전산적 구현을 통해서 검증하는 것이 목적이다. 이를 위해 이 논문에서는 다음의 두 가지 문제를 중심으로 관계관형절의 통사 의미 표상과 전산적 구현 문제를 다룬다. 첫째, 관계관형절의 수식을 받는 머리 명사(head noun)는 관계관형절과 모문(matrix sentence)에서 각각 다른 의미역할을 하는 논항이다. 즉, 하나의 논항이 두 개의 의미역을 표상한다. 이 논문의 첫째 과제는 이러한 관계관형절 구문에서 머리 명사의 이중의미역을 표상하는 방법을 모색하는 것이다. 둘째, 관계관형절이 일항술어로 구성될 때, 서술어 단독으로 머리 명사를 수식할 수 있을 뿐만 아니라, 주격중출 구문을 관계화하여 미리 명사를 수식할 수도 있다. 그러나 모든 일항술어가 주격중출 구문을 구성할 수 있는 것은 아니기 때문에 주격중출 구문의 관계화가 가능한 경우와 그렇지 않은 경우를 구별할 필요가 있다. 이 논문의 둘째 과제는 이러한 주격중출 구문의 관계화와 그 표상의 문제를 다루는 것이다. 이 논문에서는 이러한 문제들을 단순히 기술하는 데 그치지 않고 전산 구현을 통해 문제해결을 제시한다. 이를 위해 구현 도구로 C-언어를 보강하여 개발한 문법개발 도구언어인 말라가(Malaga)를 사용하며, 분석결과를 자질구조(feature structure)로 명시하여 그 타당성을 검토한다.

  • PDF

신뢰도 자질을 이용한 지식검색 문서의 품질 평가 (Quality Prediction of Knowledge Search Documents Using Text-Confidence Features)

  • 이정태;송영인;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.62-67
    • /
    • 2007
  • 불특정 사용자의 참여에 의해 정보가 생성되는 지식검색 서비스에서는 문서의 품질이 검색 만족도에 중요한 요소 중 하나이다. 지식검색 문서의 품질 평가에 관한 기존 연구는 조회 수나 추천 수 등의 비텍스트 정보를 이용하여 문서의 품질을 평가하고, 이를 검색 모형에 반영하여 검색 성능을 높이는데 집중하였다. 이러한 비텍스트 정보는 그 유용성이 실험을 통해 증명되었지만, 새로 작성된 문서와 같은 경우 심각한 자료 부족 문제가 발생할 수 있다는 단점이 있다. 본 논문에서는 이러한 비텍스트 정보의 자료 부족 문제를 완화할 수 있는 새로운 문서 품질 평가 자질로서 문서 내용의 신뢰성을 반영하는 신뢰도 자질을 제안한다. 제안하는 자질은 문서의 내용으로부터 직접 추출되며, 따라서 추천 수나 조회 수 등 서비스 사용자의 참여나 이용을 필요로 하는 비텍스트 자질보다 자료 부족 문제에 견고하다는 장점이 있다. 또한 제안하는 신뢰도 자질은 문서 품질 평가에 유용하다고 알려진 비텍스트 자질과 유사하거나 향상된 성능을 실험에서 보였으며, 추후 자질 추출 방법을 개선한다면 효과적인 품질 평가 자질로서 기능을 할 수 있을 것으로 기대된다.

  • PDF

데이터베이스 의미론을 위한 한국어 피동형의 전산적 처리 (Processing Korean Passives for Database Semantics)

  • 홍정하;최승철;이기용
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.411-418
    • /
    • 2000
  • Hausser (1999)와 이기용 (1999a, 1999c)에서는 데이터베이스 관리 시스템(DBMS)을 이용하여 자연언어의 의미를 다루는 데이터베이스 의미론을 제안하였다. 특히 이기용 (1999c)에서는 수형도(tree), 논리 형태(logical fomulas), 자질 구조(feature structure)와 같은 다양한 언어 표상 형식들을 관계형 데이터베이스 관리 시스템(RDBMS)의 표상 형식인 테이블 형식으로 전환 가능함을 보임으로써 데이터베이스 의미론에 관계형 데이터 베이스 관리 시스템을 도입할 수 있음을 제시하였다. 한편, Lee (2000)에서 제시한 데이터베이스 의미론 모형에서는 데이터베이스 관리 시스템과 사용자(end-user)를 연결하는 언어 정보 처리 시스템(LIPS; Linguistic Information Processing System)을 제안하였다. 이 언어정보 처리 시스템은 사용자에 의해 입력된 언어 자료를 처리하여 그 분석 결과를 데이터베이스 관리 시스템에 전달하고, 이를 통해 구축된 데이터베이스에서 추출한 정보를 다시 사용자에게 전달하는 시스템이다. 이 논문은 한국어 '이, 히, 리, 기' 피동형을 전산처리를 할 수 있도록, 데이터베이스 의미론에서 핵심 요소인 언어정보 처리 시스템과 데이터베이스 관리 시스템을 구현하는 것 이 목적이다.

  • PDF