• 제목/요약/키워드: 단어 문맥

검색결과 211건 처리시간 0.021초

단어의 의미와 문맥을 고려한 순환신경망 기반의 문서 분류 (Document Classification using Recurrent Neural Network with Word Sense and Contexts)

  • 주종민;김남훈;양형정;박혁로
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권7호
    • /
    • pp.259-266
    • /
    • 2018
  • 본 논문에서는 단어의 순서와 문맥을 고려하는 특징을 추출하여 순환신경망(Recurrent Neural Network)으로 문서를 분류하는 방법을 제안한다. 단어의 의미를 고려한 word2vec 방법으로 문서내의 단어를 벡터로 표현하고, 문맥을 고려하기 위해 doc2vec으로 입력하여 문서의 특징을 추출한다. 문서분류 방법으로 이전 노드의 출력을 다음 노드의 입력으로 포함하는 RNN 분류기를 사용한다. RNN 분류기는 신경망 분류기 중에서도 시퀀스 데이터에 적합하기 때문에 문서 분류에 좋은 성능을 보인다. RNN에서도 그라디언트가 소실되는 문제를 해결해주고 계산속도가 빠른 GRU(Gated Recurrent Unit) 모델을 사용한다. 실험 데이터로 한글 문서 집합 1개와 영어 문서 집합 2개를 사용하였고 실험 결과 GRU 기반 문서 분류기가 CNN 기반 문서 분류기 대비 약 3.5%의 성능 향상을 보였다.

관심 지점 명칭의 단어와 문맥 정보를 활용한 관심 지점의 분류 (Categorization of POIs Using Word and Context information)

  • 최수정;박성배
    • 한국지능시스템학회논문지
    • /
    • 제24권5호
    • /
    • pp.470-476
    • /
    • 2014
  • 관심 지점이란 상점이나 공원, 음식점 등과 같이 사람들이 관심을 가지거나 유용하다고 생각하는 특정한 지리적 위치를 의미한다. 관심 지점은 명칭과 제공 서비스, 카테고리 등과 같은 여러 정보들로 구성되어 있다. 이와 같은 정보들은 위치기반 어플리케이션에서 필수적인 정보이고, 그 중에서도 카테고리 정보는 위치기반 서비스에서 가장 핵심적인 역할을 한다. 그러나 관심 지점의 카테고리 정보를 직접 모으는 것은 많은 비용과 노력이 들기 때문에 자동으로 수집되어야 한다. 본 논문에서는 카테고리를 자동으로 추정하기 위해서 관심 지점 명칭의 단어 정보와 제한적 주변 문맥 정보를 결합하여 사용하는 방법을 제안한다. 관심 지점 명칭의 단어에는 카테고리를 반영하는 단어들을 포함하고 있어 카테고리를 추정하는데 있어서 중요한 단서가 된다. 제한적 주변 문맥 정보는 관심 지점의 명칭이 언급된 문서에서 명칭이 언급된 주변의 문맥을 의미한다. 명칭이 언급된 주변의 문맥에는 관심 지점의 카테고리를 추정할 정보들을 포함하고 있어 카테고리를 추정하는 것에 있어서 가치있는 정보를 제공한다. 우리는 제안한 모델의 성능을 측정하기 위해 두 가지 데이터셋에서 성능을 평가한 결과, 각 정보를 따로 사용하여 카테고리를 추정한 성능보다 결합하여 사용한 모델의 성능이 더 높게 나타났다.

가중치 정보를 이용한 한국어 동사의 의미 중의성 해소 (Word Sense Disambiguation of Korean Verbs Using Weight Information from Context)

  • 임수종;박영자;송만석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.425-429
    • /
    • 1998
  • 본 논문은 문맥에서 추출한 가중치 정보를 이용한 한국어 동사의 의미 중의성 해소 모델을 제안한다. 중의성이 있는 단어가 쓰인 문장에서 그 단어의 의미 결정에 영향을 주는 단어들로 의미 결정자 벡터를 구성하고, 사전에서 그 단어의 의미 항목에 쓰인 단어들로 의미 항목 벡터를 구성한다. 목적 단어의 의미는 두 벡터간의 유사도 계산에 의해 결정된다. 벡터간의 유사도 계산은 사전에서 추출된 공기 관계와 목적 단어가 속한 문장에서 추출한 거리와 품사정보에 기반한 가중치 정보를 이용하여 이루어진다. 4개의 한국어 동사에 대해 내부실험과 외부실험을 하였다. 내부 실험은 84%의 정확률과 baseline을 기준으로 50%의 성능향상, 외부 실험은 75%의 정확률과 baseline을 기준으로 40 %의 성능향상을 보인다.

  • PDF

신경망 기반 음성, 영상 및 문맥 통합 음성인식 (Speech Recognition by Integrating Audio, Visual and Contextual Features Based on Neural Networks)

  • 김명원;한문성;이순신;류정우
    • 전자공학회논문지CI
    • /
    • 제41권3호
    • /
    • pp.67-77
    • /
    • 2004
  • 최근 잡음환경에서 신뢰도 높은 음성인식을 위해 음성정보와 영상정보를 융합하는 방법이 활발히 연구되고 있다. 본 논문에서는 이절적인 정보의 융합에 적합한 신경망 모델을 기반으로 음성, 영상 및 문맥 정보 등 다양한 정보를 융합하여 잡음 환경에서 고려단어를 인식하는 음성인식 기법에 대하여 기술한다. 음성과 영상 특징을 이용한 이중 모드 신경망 BMNN(BiModal Neural Network)을 제안한다. BMM은 4개 층으로 이루어진 다층퍼셉트론의 구조를 가지며 각 층은 입력 특징의 추상화 기능을 수행한다. BMNN에서는 제 3층이 잡음에 의한 음성 정보의 손실을 보상하기 위하여 음성과 영상 특징을 통합하는 기능을 수행한다. 또한, 잡음환경에서 음성 인식률을 향상시키기 위해 사용자가 말한 단어들의 순차 패턴을 나타내는 문맥정보를 이용한 후처리 방법을 제안한다. 잡음환경에서 BMNN은 단순히 음성만을 사용한 것 보다 높은 성능을 보임으로써 그 타당성을 확인할 수 있을 뿐 아니라, 특히 문맥을 이용한 후처리를 하였을 경우 잡음 환경에서 90%이상의 인식률을 달성하였다 본 연구는 잡음환경에서 강인한 음성인식을 위해 다양한 추가 정보를 사용함으로써 성능을 향상시킬 수 있음을 제시한다.

구성정보와 문맥정보를 이용한 전문용어의 전문성 측정 방법 (Determining the Specificity of Terms using Compositional and Contextual Information)

  • 류법모;배선미;최기선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권7호
    • /
    • pp.636-645
    • /
    • 2006
  • 어떤 용어가 전문적인 개념을 많이 내포하고 있을 때 전문성이 높다고 말한다. 본 논문에서는 용어의 내부 구성정보와 외부 문맥정보를 이용하여 정보이론에 기반한 방법으로 전문용어가 내포하는 전문성을 정량적으로 계산하는 방법을 제안한다. 용어의 전문성은 용어간 상하위어 관계 설정에서 중요한 필요조건으로 사용될 수 있다. 제안한 방법은 전문용어의 내부 구성정보를 이용하는 방법, 문맥정보를 이용하는 방법 그리고 두 정보를 모두 이용하는 방법으로 나눈다. 구성정보를 이용하는 방법에서는 전문용어를 구성하는 단어의 빈도수, 가중치, 바이그램, 내부 수식구조 둥을 이용하고, 문맥정보를 이용하는 방법에서는 전문용어를 수식하는 단어들의 분포를 이용한다. 본 논문에서 제안한 방법은 분야에 독립적으로 적용될 수 있고, 전문용어 생성 절차에 대한 특정을 잘 반영할 수 있는 장점이 있다. MeSH 트리에 포함된 질병 이름의 전문성 값을 계산한 뒤 상위어의 전문성 값과 비교한 결과 82.0%의 정확률을 보였다.

중간언어와 단어정렬을 통한 이중언어 사전의 자동 추출에 대한 성능 개선 (Performance Improvement of Bilingual Lexicon Extraction via Pivot Language and Word Alignment Tool)

  • 권홍석;서형원;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.27-32
    • /
    • 2013
  • 본 논문은 잘 알려지지 않은 언어 쌍에 대해서 병렬말뭉치(parallel corpus)로부터 자동으로 이중언어 사전을 추출하는 방법을 제안하였다. 이 방법은 중간언어(pivot language)를 매개로 하고 문맥 벡터를 생성하기 위해 공개된 단어 정렬 도구인 Anymalign을 사용하였다. 그 결과로 초기사전(seed dictionary)을 사용한 문맥벡터의 번역 과정이 필요 없으며 통계적 방법의 약점인 낮은 빈도수를 가지는 어휘에 대한 번역 정확도를 높였다. 또한 문맥벡터의 요소 값으로 특정 임계값 이상을 가지는 양방향 번역 확률 정보를 사용하여 상위 5위 이내의 번역 정확도를 크게 높였다. 본 논문은 두 개의 서로 다른 언어 쌍 한국어-스페인어 그리고 한국어-프랑스어 양방향에 대해서 각각 이중언어 사전을 추출하는 실험을 하였다. 높은 빈도수를 가지는 어휘에 대한 번역 정확도는 이전 연구에서 보인 실험 결과에 비해 최소 3.41% 최대 67.91%의 성능 향상을 보였고 낮은 빈도수를 가지는 어휘에 대한 번역 정확도는 최소 5.06%, 최대 990%의 성능 향상을 보였다.

  • PDF

문맥 및 어휘 그룹 기반 지능형 영어 어휘 학습 시스템 설계 (A Design of an Intelligent English Vocabulary Learning System based on Context and Vocabulary Group)

  • 김도현;옥준혁;장홍준;황요한;김병욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.88-90
    • /
    • 2022
  • 영어 교육 시장이 증대되면서 영어 학습을 효과적으로 지원하는 다양한 학습 시스템들이 개발되고 있다. 영어문장을 구성하는 기본적인 단위는 어휘로 문장 전체의 의미를 파악하기 위해서는 어휘의 의미를 이해하는 것이 필수적이다. 따라서 영어 어휘 능력 향상을 위한 다양한 영어 어휘 학습 시스템들이 개발되고 있으나, 어휘가 사용되는 문맥을 고려하거나 동시에 학습하면 효과적인 어휘 등 어휘 학습에 효과적인 교수학습 방법의 원리가 적용된 영어 어휘 학습 시스템에 대한 연구는 미비한 상황이다. 본 논문에서는 n 개의 영어 단어가 하나의 그룹으로 동시에 제시되면서 그 n개의 영어 단어가 모두 포함된 예문을 제공하는 지능형 영어 어휘 학습 시스템을 설계한다. 임의로 n 개의 영어 어휘가 주어졌을 경우 문맥에 맞게 영어 예문을 자동으로 생성하는 지능형 영어 문장 생성 모델이 본 연구의 핵심이다. 또한, 어휘 능력 평가에서 기존 어휘 학습 시스템과 같이 단순히 어휘를 얼마나 암기하고 있는지에 대한 평과 결과만을 제시하는 것이 아니라, 그룹별 취약 어휘 분석을 통해 효과적인 그룹 어휘 선택 규칙을 파악할 수 있는 기반을 마련하고자 한다. 본 논문에서 제안한 지능형 영어 어휘 학습 시스템을 통해 영어 어휘 학습자들의 학습 능력 향상에 도움이 될 것으로 기대한다.

개체명 문맥의미표현 학습을 통한 기계 요약의 사실 불일치 교정 (Learning Contextual Meaning Representations of Named Entities for Correcting Factual Inconsistent Summary)

  • 박준모;노윤석;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.54-59
    • /
    • 2020
  • 사실 불일치 교정은 기계 요약 시스템이 요약한 결과를 실제 사실과 일치하도록 만드는 작업이다. 실제 요약 생성연구에서 가장 공통적인 문제점은 요약을 생성할 때 잘못된 사실을 생성하는 것이다. 이는 요약 모델이 실제 서비스로 상용화 하는데 큰 걸림돌이 되는 부분 중 하나이다. 본 논문에서는 원문으로부터 개체명을 가져와 사실과 일치하는 문장으로 고치는 방법을 제안한다. 이를 위해서 언어 모델이 개체명에 대한 문맥적 표현을 잘 생성할 수 있도록 학습시킨다. 그리고 학습된 모델을 이용하여 원문과 요약문에 등장한 개체명들의 문맥적 표현 비교를 통해 적절한 단어로 교체함으로써 요약문의 사실 불일치를 해소한다. 제안 모델을 평가하기 위해 추상 요약 데이터를 이용해 학습데이터를 만들어 학습하고, 실제 시나리오에서 적용가능성을 검증하기 위해 모델이 요약한 요약문을 이용해 실험을 수행했다. 실험 결과, 자동 평가와 사람 평가에서 제안 모델이 비교 모델보다 높은 성능을 보여주었다.

  • PDF

전화 음성 인식을 위한 특징 추출 방법 비교 (Comparison of Feature Extraction Methods for the Telephone Speech Recognition)

  • 전원석;신원호;김원구;이충용;윤대희
    • 한국음향학회지
    • /
    • 제17권7호
    • /
    • pp.42-49
    • /
    • 1998
  • 본 논문에서는 전화망 환경에서 음성 인식 성능을 개선하기 위한 특징 벡터 추출 단계에서의 처리 방법들을 연구하였다. 먼저, 고립 단어 인식 시스템에서 채널 왜곡 보상 방 법들을 단어 모델과 문맥 독립 음소 모델에 대하여 인식 실험을 하였다. 켑스트럼 평균 차 감법, RASTA 처리, 켑스트럼-시간 행렬을 실험하였으며, 인식 모델에 따른 각 알고리즘의 성능을 비교하였다. 둘째로, 문맥 독립 음소 모델을 이용한 인식 시스템의 성능 향상을 위하 여 정적 특징 벡터에 대하여 주성분 분석 방법(principal component analysis)과 선형 판별 분석(linear discriminant analysis)과 같은 선형 변환 방법을 적용하여 분별력이 높은 벡터 공간으로 변환함으로써 인식 성능을 향상시켰다. 또한 선형 변환 방법을 켑스트럼 평균 차 감법과 결합하여 더욱 뛰어난 성능을 보여주었다.

  • PDF

템플릿에 기반한 기록정보 QA (Record Information Retrieval based on Template)

  • 이충희;오효정;김현진;장명길
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.478-480
    • /
    • 2005
  • 기네스 기록과 같은 기록정보는 사용자가 질의응답 시스템에 자주 질문할 수 있는 내용이지만, 구성단어의 수가 적고 일반적인 단어로 구성되는 기록정보 문장의 특성으로 인해 전통적인 질의응답 시스템에서는 정답을 제시하기 힘든 정보이다. 그러므로 기록정보만을 위한 접근방법이 필요하다. 우리는 기록정보는 특정 문맥에 의해 쓰여지는 경우가 많다는 가정 하에, 문맥 정보를 반영할 수 있는 템플릿을 정의하고, 이 템플릿에 의해서 기록정보를 색인하여 정답을 제시하는 시스템을 제안한다. 템플릿은 거리, 형태소, 형태 소품사, 정답유형, 구문 정보의 5가지 제약정보를 나타낼 수 있게 구성된다. 전통적인 백과사전 QA 시스템과 제안 시스템을 비교하여 평가한 결과, 제안한 방법이 기록정보 QA 시스템에 효과적임을 알 수 있었다.

  • PDF