• 제목/요약/키워드: 자연어

검색결과 1,197건 처리시간 0.042초

언어 정보 획득을 위한 한국어 코퍼스 분석 도구 (A Korean Corpus Analysis Tool for Language Information Acquisition)

  • 이호;김진동;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.297-304
    • /
    • 1994
  • 코퍼스는 기계 가독형으로 개장되어 있는 실제 사용 언어의 집합으로 자연어 처리에 필요한 여러 가지 언어 정보를 내재하고 있다. 이들 정보는 코퍼스 분석기를 이용하여 획득할 수 있으며 용례와 각종 통계 정보 및 확률 정보, 연어 목록 등은 코퍼스에서 추출할 수 있는 대표적인 언어 정보들이다. 그러나 기존의 한국어 코퍼스 분석 도구들은 용례 추출 기능만을 보유하여 활용 범위가 제한되어 있었다. 이에 본 논문에서는 대량의 한국어 코퍼스를 분석하여 용례뿐만 아니라 자연어 처리의 제분야에서 필요한 언어 정보들을 추출하는 방법에 대해 연구하였으며 이의 검증을 위해 KCAT(Korean Corpus Analysis Tool)를 구현하였다. KCAT는 코퍼스 색인, 용례 추출, 통계 정보 추출, 연어 추출 부분으로 구성되어 있다. 용례 색인을 위해서는 여러 가지 사전과 용례 색인 구조가 필요한데 KCAT에서는 가변 차수 B-Tree 구조를 이용하여 사전을 구성하며 용례 색인을 위해 버킷 단위의 역 화일 구조를 이용한다. 질 좋은 용례의 추출을 위해 KCAT는 다양한 용례 연산 및 정렬 기능을 제공한다. 또한 통계적 방법의 자연어 처리 분야를 위해 어휘 확률, 상태 전이 확률, 관측 심볼 확률, 상호 정보, T-score 등을 제공하며, 기계 번역 분야에서 필요한 연어를 추출한다.

  • PDF

도메인 질의응답 시스템 (Domain Question Answering System)

  • 윤승현;임은희;김덕호
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권2호
    • /
    • pp.144-147
    • /
    • 2015
  • Question Answering (QA) 서비스는 사용자의 자연어 질의에 대응하는 정확한 답변을 제공하는 시스템이다. 본 연구는 특정 도메인에 관련한 사용자들의 질문에 대해 QA 서비스가 자동으로 대응하는 방법에 관한 연구이다. 이를 수행하기 위하여 사용자의 자연어 질문을 이해하고, 정형 데이터 및 비정형 데이터로부터 사용자 질문에 적합한 답변을 도출하여 제공하는 방법을 제시한다. 실험 결과 top 1 accuracy 68%, top 5 accuracy 77% 결과를 얻었다. 또한 본 논문은 QA 시스템 내부 모듈이 전체 accuracy에 미치는 영향에 대해서도 기술하였다.

국방 기사 데이터를 이용한 맞춤형 정보 분석 시스템 (Customized Information Analysis System Using National Defense News Data)

  • 최중환;임채오
    • 한국콘텐츠학회논문지
    • /
    • 제10권12호
    • /
    • pp.457-465
    • /
    • 2010
  • 맞춤형 정보 분석 시스템이란 정형화 되어 있지 않은 자연어 텍스트에서 유용한 정보를 추출하고 고객이 요구하는 맞춤형 정보로 가공하여, 미래를 예측하거나 추론하는데 도움을 주는 시스템을 말한다. 이러한 정보 분석 시스템을 구현하기 위해서는 자연어를 분석하는 자연어 처리 기술과 텍스트에서 필요한 개체와 그것들의 관계를 찾아내는 정보 추출 기술, 추출한 데이터로부터 알려지지 않은 새로운 정보를 찾아 내는 데이터 마이닝 기술이 필요하다. 본 논문에서는 국방 기사 데이터를 대상으로 맞춤형 정보 분석을 수행하는 가상의 시스템을 제안하고, 정보 분석을 위한 기반 기술들을 소개한다.

자연어 질의응답 시스템을 위한 is-a 관계 패턴의 구축과 활용 (Extracting and Utilizing is-a Relation Patterns for Question Answering System)

  • 심보준;고영중;김학수;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.181-188
    • /
    • 2004
  • 대다수의 개방영역 자연어 질의응답 시스템은 답을 선택할 수 있는 개념영역을 미리 정의하고 있기 때문에 시스템이 준비하지 못한 범주의 개념을 묻는 질의문에 대해서는 올바른 응답을 생성하지 못하거나 예외 처리 방식으로 응답을 생성해 낸다. 본 논문에서는 전형적인 범주에 속하지 않는 명사 개념에 관한 질의문에 대해 범용적으로 대응할 수 있는 개방영역 자연어 질의응답 시스템을 제안한다. 제안하는 시스템은 상위 개념 명사구(Hypernym)에 포함되는 하위 개념의 명사구(Hyponym)들을 추출할 수 있는 일반적인 패턴들을 그 신뢰도와 함께 가지고 있다. 따라서 질의문이 임의의 명사구 개념을 요청할 때 정답의 후보들을 동적으로 생성되는 가상의 is-a 의미관계 사전으로부터 신뢰 순위로 정렬하여 추출해 낼 수가 있다. 제안하는 시스템은 "What 명사구 동사구" 형태의 질의문들 중에서 개체명 인식기나 시소러스를 이용하여 정답 후보를 손쉽게 생성할 수 있는 질의문을 배제한 실험용 질의문 집합을 이용한 실험에서 42%의 재현율을 보였다.

  • PDF

자연어 처리 기반 텍스트 마이닝을 위한 한글 어간 추출 알고리즘 (Hangeul Stem Extraction Algorithm for Text Mining Based on Natural Language Processing)

  • 최기원;최성훈;조상현;김희철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.718-721
    • /
    • 2017
  • 텍스트 마이닝의 기반이 되는 자연어 처리는 언어의 종류에 따라 처리 방법이 다를 수 있다. 특히 타 언어에 비해 비교적 표현의 자유도가 높은 한글은 어미의 활용에 따라서 여러 가지 단어의 형태가 존재한다. 이처럼 다양한 형태로 굴절하는 단어에서 변화하지 않는 부분을 어간이라고 하며, 효과적인 텍스트 마이닝을 위해선 어간을 추출하여 다양한 형태의 단어들을 단일화하는 과정이 필수적이다. 따라서 본 논문에서는 한글문서의 효과적인 텍스트 마이닝을 위하여 한글 어간 추출 알고리즘을 제시한다.

  • PDF

단어 표현에 기반한 연관 바이오마커 발굴 (Biomarker Detection of Specific Disease using Word Embedding)

  • 윤영신;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.317-320
    • /
    • 2016
  • 기계학습 기반의 자연어처리 모듈에서 중요한 단계 중 하나는 모듈의 입력으로 단어를 표현하는 것이다. 벡터의 사이즈가 크고, 단어 간의 유사성의 개념이 존재하지 않는 One-hot 형태와 대조적으로 유사성을 표현하기 위해서 단어를 벡터로 표현하는 단어 표현 (word representation/embedding) 생성 작업은 자연어 처리 작업의 기계학습 모델의 성능을 개선하고, 몇몇 자연어 처리 분야의 모델에서 성능 향상을 보여 주어 많은 관심을 받고 있다. 본 논문에서는 Word2Vec, CCA, 그리고 GloVe를 사용하여 106,552개의 PubMed의 바이오메디컬 논문의 요약으로 구축된 말뭉치 카테고리의 각 단어 표현 모델의 카테고리 분류 능력을 확인한다. 세부적으로 나눈 카테고리에는 질병의 이름, 질병 증상, 그리고 난소암 마커가 있다. 분류 능력을 확인하기 위해 t-SNE를 이용하여 2차원으로 단어 표현 결과를 맵핑하여 가시화 한다. 2차원으로 맵핑된 결과 값을 코사인 유사도를 사용하여 질병과 바이오 마커간의 유사도를 구한다. 이 유사도 결과 값 상위 20쌍의 결과를 가지고 실제 연구가 되고 있는지 구글 스콜라를 통해 관련 논문을 검색하여 확인하고, 검색 결과를 점수화 한다. 실험 결과 상위 20쌍 중에서 85%의 쌍이 실제적으로 질병과 바이오 마커 간의 관계를 파악하는 방향으로 진행 되고 있으나, 나머지 15%의 쌍에 대해서는 실질적인 연구가 잘 되고 있지 않은 것으로 파악되었다.

  • PDF

EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템 (An Example-Based Natural Language Dialogue System for EPG Information Access)

  • 김석환;이청재;정상근;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.65-70
    • /
    • 2006
  • 본 논문에서는 EPG 정보 검색을 위한 자연어 대화 시스템에 대해 논한다. 자연어 대화 시스템 구축을 위한, 대화 예제를 이용한 상황 기반 대화 관리 방법론은, 효율적이고 실용적인 대화 시스템 구축을 가능하게 한다. 대화 시스템은 사용자 발화에 대해 적합한 시스템응답 발화를 출력하는 과정으로 진행되며, 이를 위해, 사용자 발화 의미 분석, 대화 관리, 시스템 응답 발화 생성의 과정을 거친다. 정확하고 신속한 정보의 전달이 중요한 EPG 정보 검색 도메인의 특성상 EPG 데이터베이스의 관리 및 갱신이 중요한 요소로 작용한다. 이를 위해 웹마이닝 기반의 EPG 데이터베이스 관리자를 구현함으로써 데이터베이스 구축에 필요한 비용을 최소화하고, 신속하고 정확한 정보를 제공할 수 있었다.

  • PDF

자연어 대화 기반 몰입환경 영어 교육 시스템 (Natural Language-based Immersive English Tutoring System)

  • 이성진;이규송;이종훈;노형종;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.22-27
    • /
    • 2010
  • 최근 국가적 차원에서 영어교육에 대한 많은 투자가 이루어지고 있으나 기존의 주입식, 암기식 영어 교육은 회화 실력 향상에 큰 도움을 주지 못하였다. 컴퓨터를 이용한 영어교육 또한 많은 관심을 얻고 있으나 실제 의사소통을 위한 회화 학습에 대한 고려는 깊지 않으며, 주어진 흐름의 대본을 따라 단순히 읽고 반복하는 수준의 시스템만 존재하고 있다. 이러한 학습형태는 흥미 유발 동기가 약하여 사용자로 하여금 장기간 꾸준히 학습하게 만들지 못한다는 문제가 있다. 이러한 문제점에 대하여 제2언어 습득 이론에 바탕을 둔 자연어 처리 기반 몰입 환경 영어 교육 시스템을 제안한다. 이는 도메인 확장성이 뛰어난 예제 기반 대화 시스템을 3 차원 가상공간과 결합한 시스템으로 자연스러운 대화를 통한 외국어 회화 연습을 하는 과정에서 학습자의 발화 오류를 분석하고 교육적 피드백을 제공한다. 또한 현실과 비슷한 몰입 환경에서 체험형 기술을 통해 자발적인 학습을 유도하고 집중력, 기억력을 획기적으로 높이고자 한다. 본 논문에서는 영어교육 시스템의 이론적 배경, 예제 기반 대화관리, 시스템 구성요소와 동작에 대하여 중점적으로 기술하였다.

  • PDF

학습 상담 내용의 자연어 처리를 위한 오픈 데이터 현황 분석 (Analyze the Open data for Natural Language Processing of Learning Counseling)

  • 김유두
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2019년도 춘계학술대회
    • /
    • pp.500-501
    • /
    • 2019
  • 4차산업의 융합시대를 맞이하여 단순한 학습이 아닌 다양한 학문을 학습하고 융합하여 적용하기 위해서는 주입식 수업보다는 자기주도방식의 학습방법이 중요해지고 있다. 따라서 다양한 교육 기관에서는 자기주도적인 학습 방법의 개발에 많은 노력을 하고 있다. 자기주도적인 학습이 효과적으로 수행되기 위해서는 교수자는 학생의 학업에 직접 관여하기 보다는 학업의 전체적인 과정을 관리하는 것이 더 중요하다. 이에 학습 상담은 자기주도적학습을 효과적으로 수행하는데 중요한 방법이 된다. 이에 본 논문에서는 학습 상담 내용을 자연어 처리를 통해 다양한 응용이 가능하도록 이를 구현할 수 있는 자연어 처리를 위한 오픈 데이터 현황에 대한 분석을 수행 하였다.

  • PDF

SaJuTeller: 조건부 생성 모델을 기반으로 한 인공지능 사주 풀이 모델 (SaJuTeller: Conditional Generation Deep-Learning based Fortune Telling Model)

  • 문현석;이정섭;서재형;어수경;박찬준;김우현;박정배;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.277-283
    • /
    • 2022
  • 사주 풀이란 주어진 사주에 대해서 그에 맞는 해석 글을 생성해주는 작업을 의미한다. 전통적으로 사주 풀이는 온전한 사람의 영역으로 인식되어왔으나, 우리는 본 연구를 통해 사주 풀이 영역도 인공지능으로 대체할 수 있을 것이라는 가능성을 탐구한다. 본 연구에서 우리는 최근 연구되고 있는 자연어 생성분야의 연구들에서 영감을 받아, 사주 유형과 사주 풀이 내에 포함할 명사 키워드를 기반으로 풀이글을 생성하는 인공지능 모델 SaJuTeller를 설계한다. 특히 이전 문맥을 고려하여 풀이글을 생성하는 모델과 단순 사주 유형 및 명사 키워드를 기반으로 풀이글을 생성하는 두가지 모델을 제안하며, 이들 각각의 성능을 분석함으로써 각 모델의 구체적인 활용 방안을 제안한다. 본 연구는 우리가 아는 한 최초의 인공지능 기반 사주풀이 연구이며, 우리는 이를 통해 사주풀이에 요구되는 전문인력의 노력을 경감시킴과 동시에, 다양한 표현을 가진 사주 풀이 글을 생성할 수 있음을 제안한다.

  • PDF