• 제목/요약/키워드: 어휘-의미 패턴

검색결과 53건 처리시간 0.021초

다양한 지식을 사용한 영한 기계번역에서의 대역어 선택 (Target Word Selection for English-Korean Machine Translation System using Multiple Knowledge)

  • 이기영;김한우
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권5호
    • /
    • pp.75-86
    • /
    • 2006
  • 일반적으로 영어를 한국어로 번역할 때, 대부분의 영어 명사 어휘들은 해당 어휘가 사용되는 문맥에 따라 다양한 한국어 명사로 번역될 수 있다. 따라서 영어 원문이 갖는 의미를 손실 없이 번역문으로 전달하기 위해서는 문맥에 맞는 올바른 한국어 대역어를 선택할 수 있어야 한다. 본 논문에서는 동사구패턴, 공기 정보에 기반한 의미벡터, 공기 품사 정보 및 한국어 문맥 통계 정보 등의 다양한 지식을 사용하여 영어 명사 어휘의 대역어를 올바로 선택하는 방안을 제공한다. 동사구 패턴은 사전과 코퍼스를 사용하여 구축되었으며, 의미 벡터는 영어 어휘가 특정 한국어 어휘로 번역될 때 공기하는 정보들의 조건부 확률을 나타낸다. 한국어 문맥 통계 정보는 한국어 코퍼스로부터 추출된 N-그램 정보를 나타내며, 품사 공기 정보는 대역어 선택 모호성을 지니는 영어 어휘와 통계적으로 깊은 관련성을 지니는 품사를 나타낸다. 마지막으로 본 논문에서 제안한 대역어 선택 모호성 해소 방안을 평가하기 위한 실험을 수행하였으며, 실험 결과, 제안하는 방법이 기존의 방법보다 성능이 좋다는 것을 확인할 수 있었다.

  • PDF

한국어 어휘의 중의성 해결과 관련된 대뇌활동: MEG 연구 (The cerebral activation related to Korean word ambiguity: MEG study)

  • 유기순;김충명;김준식;정천기;남기춘
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2006년도 춘계학술대회
    • /
    • pp.61-65
    • /
    • 2006
  • 본 연구는 한국어 어휘중의성 해결과정에 관련된 대뇌활동을 살펴보기 위하여 MEG(magnetoencephalography)를 이용한 실험을 실시하였다. 일차적으로 기존의 중의성 관련 fMRI 실험 결과들이 MEG를 이용한 신호원 국소화 결과와 유사한 패턴을 보이는지 확인하였고, 본 실험의 주요 목적인 중의성 관련 처리과정에 기저하는 하위 처리과정이 어떠한 기능적 처리 요소들로 분해될 수 있는 지에 대해서도 시간 해상도가 높은 MEG의 특성을 이용하여 관찰하였다. 분석 결과, 한국어 중의어 해소과정의 하위처리 과정은 어휘의미 접속이라는 기본적인 과정 비에, 이들의 의미분지를 유발하는 단서의 유무가 그 활성화 영역의 시간적인 패턴과 중의성 해결을 위한 지속시간에 영향을 미치는 것으로 확인되었다.

  • PDF

미등록어 거절을 이용한 오류 보정 방법 개선 시스템 (Error Correction Methode Improve System using Out-of Vocabulary Rejection)

  • 안찬식;오상엽
    • 디지털융복합연구
    • /
    • 제10권8호
    • /
    • pp.173-178
    • /
    • 2012
  • 어휘 인식을 위한 모델 생성에서 준비하지 않은 트라이폰이 생성된다. 이는 모델 파라미터의 초기 추정치를 생성하지 못하는 원인으로 어휘 모델을 구성할 수 없는 단점으로 나타난다. 결과적으로 가우시안 모델의 정교함이 떨어지게 되어 인식률을 저하시키게 된다. 이를 개선하기 위한 방법으로 미등록 어휘 거절 알고리즘을 이용한 오류 보정 시스템을 제안한다. 이 방법은 어휘 인식 모델 생성 시 등록되지 않은 어휘를 거절하여 인식률을 향상시킨다. 또한 확률 분포를 이용하여 어휘 분석과 의미를 파악하고 음운 변동이 적용되기 전의 문자열로 복원시킨다. 시스템 분석은 음소 유사율과 신뢰도를 이용하여 오류 보정율을 확인하였고 성능 평가를 위해 에러 패턴, 오류 패턴, 의미 패턴 방법을 이용하여 평가하였다. 성능 평가 결과 2.8%의 오류 보정률의 향상을 보였다.

한국어 분석의 중의성 해소를 위한 하위범주화 사전 구축 (Development of Subcategorization Dictionary for the Disambiguation Korean Language Analysis)

  • 이수선;박현재;우요섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.257-264
    • /
    • 1999
  • 자연언어 처리에 있어 문장의 성분 구조를 파악하는 통사적 해석에서는 애매성 있는 결과가 많이 생성된다. 한국어의 경우 어순 등의 통사적 특성뿐 아니라 상황과 의미, 문맥이 문장의 분석에 더 중요한 역할을 하기 때문에 문맥 자유 문법에 의한 접근 방법만으로는 중의적 구조의 해결이 어렵다. 이는 또한 의미 분석시 애매성을 증가시키는 원인이 된다. 이러한 통사적, 의미적 중의성 해결을 위해 용언 중심의 하위범주화 사전을 구축하였다. 본 논문에서는 용언에 따라 제한될 수 있는 하위범주 패턴을 정의하고 패턴에 따라 하위범주 사전을 구축하였다. 하위범주화 사전에는 명사의 시소러스와 정합하여 보어를 선택 제한(Selectional Restriction)할 수 있도록 용언과 명사와의 의미적 연어 관계에 따라 의미마커를 부여했다. 말뭉치를 통해 수집된 용언 12,000여개를 대상으로 25,000여개의 하위범주 패턴을 구축하였고 이렇게 구축한 하위범주화 사전이 120,000여 명사에 대한 의미를 갖고 있는 계층 시소러스 의미 사전과 연동하도록 하였다. 또한 논문에서 구현된 하위범주화 사전이 구문과 어휘의 중의성을 어느 정도 해소하는지 확인하기 위해 반자동적으로 의미 태깅(Sense Tagging)된 2만여 문장의 말뭉치를 통해 검증 작업을 수행하고, 의존관계와 어휘의 의미를 포함하고 있는 말뭉치에 하위범주 패턴이 어느정도 정합되는지를 분석하여, 하위범주 패턴과 말뭉치의 의존관계만 일치하는 경우와 어휘의 의미까지 일치하는 경우에 대해 평가한다. 이 과정에서 하위범주 패턴에 대한 빈도 정보나, 연어 정보를 수집하여 데이터베이스에 포함시키고, 각 의미역과 용언의 통계적 공기 정보 등을 추출하는 방법도 제시하고자 한다.을 입증하였다.적응에 문제점을 가지기도 하였다. 본 연구에서는 그 동안 계속되어 온 한글과 한잔의 사용에 관한 논쟁을 언어심리학적인 연구 방법을 통해 조사하였다. 즉, 글을 읽는 속도, 글의 의미를 얼마나 정확하게 이해했는지, 어느 것이 더 기억에 오래 남는지를 측정하여 어느 쪽의 입장이 옮은 지를 판단하는 것이다. 실험 결과는 문장을 읽는 시간에서는 한글 전용문인 경우에 월등히 빨랐다. 그러나. 내용에 대한 기억 검사에서는 국한 혼용 조건에서 더 우수하였다. 반면에, 이해력 검사에서는 천장 효과(Ceiling effect)로 두 조건간에 차이가 없었다. 따라서, 본 실험 결과에 따르면, 글의 읽기 속도가 중요한 문서에서는 한글 전용이 좋은 반면에 글의 내용 기억이 강조되는 경우에는 한자를 혼용하는 것이 더 효율적이다.이 높은 활성을 보였다. 7. 이상을 종합하여 볼 때 고구마 끝순에는 페놀화합물이 다량 함유되어 있어 높은 항산화 활성을 가지며, 아질산염소거능 및 ACE저해활성과 같은 생리적 효과도 높아 기능성 채소로 이용하기에 충분한 가치가 있다고 판단된다.등의 관련 질환의 예방, 치료용 의약품 개발과 기능성 식품에 효과적으로 이용될 수 있음을 시사한다.tall fescue 23%, Kentucky bluegrass 6%, perennial ryegrass 8%) 및 white clover 23%를 유지하였다. 이상의 결과를 종합할 때, 초종과 파종비율에 따른 혼파초지의 건물수량과 사료가치의 차이를 확인할 수 있었으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract

  • PDF

의미 유사도를 활용한 Distant Supervision 기반의 트리플 생성 성능 향상 (Improving The Performance of Triple Generation Based on Distant Supervision By Using Semantic Similarity)

  • 윤희근;최수정;박성배
    • 정보과학회 논문지
    • /
    • 제43권6호
    • /
    • pp.653-661
    • /
    • 2016
  • 기존의 패턴기반 트리플 생성 시스템은 distant supervision의 가정으로 인해 오류 패턴을 생성하여 트리플 생성 시스템의 성능을 저하시키는 문제점이 있다. 이 문제점을 해결하기 위해 본 논문에서는 패턴과 프로퍼티 사이의 의미 유사도 기반의 패턴 신뢰도를 측정하여 오류 패턴을 제거하는 방법을 제안한다. 의미 유사도 측정은 비지도 학습 방법인 워드임베딩과 워드넷 기반의 어휘 의미 유사도 측정 방법을 결합하여 사용한다. 또한 한국어 패턴과 영어 프로퍼티 사이의 언어 및 어휘 불일치 문제를 해결하기 위해 정준 상관 분석과 사전 기반의 번역을 사용한다. 실험 결과에 따르면 제안한 의미 유사도 기반의 패턴 신뢰도 측정 방법이 기존의 방법보다 10% 높은 정확률의 트리플 집합을 생성하여, 트리플 생성 성능 향상을 증명하였다.

자동 문제 생성 기술을 이용한 한국어 어휘학습시스템 (Korean Word Learning System Using Automatic Question Generation Technique)

  • 최수일;임지희;최호섭;옥철영
    • 인지과학
    • /
    • 제17권4호
    • /
    • pp.271-286
    • /
    • 2006
  • 본 논문은 한국어 어휘에 대한 풍부한 정보를 담고 있는 한국어사전과 사용자 어휘지능망(User-Word Intelligent Network: U-WIN)등의 언어자원을 이용한 자동 문제 생성 기술을 소개하고, 이 기술을 이용한 한국어 어휘학습시스템을 제시한다. 대부분의 학습시스템에서 사용하는 문제 은행식 출제 방식의 문제점을 해소하기 위하여, 자동 문제 생성을 위한 한국어 어휘 문제의 유형을 8가지로 분류하고, 각 문제 유형별 자동 문제 생성 패턴을 구축하였다. 이러한 자동 문제 생성 패턴에 따라 언어자원이 가지고 있는 한국어 어휘의 형태적 정보와 의미적 정보를 이용하여 어휘 문제를 자동으로 출제하는 한국어 어휘학습 시스템을 구현하였다.

  • PDF

어휘의미패턴을 이용한 음성인식 오류 검출 및 수정 (Error detection and correction in speech recognition by using lexico-semantic patterns)

  • 윤용욱;정한민;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.62-68
    • /
    • 2002
  • 음성인식기를 거친 결과는 오류를 포함할 수 있으며 이를 다른 자연어처리 응용에 이용하기 위해서는 오류의 검출과 수정과정이 필수적이다. 음성인식 오류 후처리는 그 성격상 문자인식 후처리와는 다른 접근 방법을 필요로 하며, 본 인구에서는 잡음환경을 제외한 특정 도메인에 국한된 음성발화 상황에 초점을 맞추고자 한다. 후처리 방법에 있어서는 통계적 접근과 패턴매칭에 의한 접근 방법이 있으며, 본 연구에서는 특정 도메인에서 사용되는 어휘의 의미정보를 포함하는 패턴을 자동으로 생성시켜 이에 의한 오류 검출 및 수정 방안을 제안한다. 본 실험에 사용된 도메인은 차량정보센터용 음성정보 제공 시나리오이며 상용 음성인식기를 후처리를 위한 개발 툴로 사용하였다.

  • PDF

채팅 시스템 구현을 위한 3단계 문장 검색 방법 (A three-step sentence searching method for implementing a chatting system)

  • 전원표;송영길;김학수
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제37권2호
    • /
    • pp.205-212
    • /
    • 2013
  • 기존 채팅 시스템은 일반적으로 사용자 입력 문장과 데이터베이스 내 목표 문장들 사이의 어휘 일치도에 기반을 둔 방법을 사용한다. 그러나 이러한 방법은 어휘 불일치 문제를 자주 일으킨다. 이러한 문제를 해결하기 위해 순차적으로 적용되는 3단계 문장 검색 방법을 제안한다. 첫 번째 단계는 어휘 수준에서 사용자 입력 문장과 목표 문장들 사이의 공통 키워드 열을 비교하는 것이다. 두 번째 단계는 의미 수준에서 사용자 입력 문장과 데이터베이스 내 문장들 사이의 문장 유형과 의미 표지를 비교하는 것이다. 마지막 단계는 미리 정의된 어휘-구문 패턴을 사용자 입력 문장과 매칭하는 것이다. 실험에서 제안된 방법은 단순 키워드 매칭 방법 보다 더 나은 응답 정확도와 사용자 만족도를 보였다.

개념패턴과 통계정보를 이용한 한국어 미지격의 구문관계 결정 방법 (Resolution of Ambiguous Grammatical Functions of Korean Using Conceptual Patterns and Statistical Information)

  • 이휘봉;강인수;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.261-266
    • /
    • 1998
  • 본 논문은 보조사로 인해 야기되는 한국어 미지격의 구문관계 중의성 해소를 위한 새로운 기법을 제안한다. 기존의 연구는 수작업으로 얻어진 동사의 의미적 선택 제약을 사용하는 방식과 단어 간의 공기패턴과 빈도를 어휘 레벨에서 추출하여 중의성을 해소하는 방식으로 나뉠 수 있다. 본 논문은 말뭉치에서 어휘 레벨이 아닌 개념패턴과 격의 분포 값을 자동으로 추출하여 미지격의 구문관계를 결정한다. 개념패턴과 용언의 격 분포 정보를 적용하여 구문분석 단계에서 실험한 결과, 본 논문이 제안한 방법은 92%의 미지격 결정 정확율을 보였다. 개념패턴은 지식의 저장공간을 줄이고 격 결정 범위를 확장할 수 있기에 범용 구문분석 시스템으로의 확장을 가능하게 한다.

  • PDF

하위범주화 사전의 구축 및 자동 확장 (Development and Automatic Extraction of Subcategorization Dictionary)

  • 이수선;박현재;우요섭
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.179-181
    • /
    • 2000
  • 한국어의 통사적, 의미적 중의성 해결을 위해 하위범주화 사전을 구축하였다. 용언에 따라 제한될 수 있는 문형 패턴과 의미역(semantic roles) 정보의 표준을 정하여 이를 부가하였고 구축한 하위범주화 사전이 명사에 대한 의미를 갖고 있는 계층 시소러스 의미사전과 연동하도록 용언과 명사와의 의미적 연어 관계에 따라 의미마커를 부여했다. 논문에서 구현된 하위범주화 사전이 구문과 어휘의 중의성을 어느 정도 해소하는지 확인하기 위해 반자동적으로 의미 태깅(Sense Tagging)된 말뭉치와 구문분석된 말뭉치를 통해 검증 작업을 수행했다. 이 과정에서 자동으로 하위범주 패턴에 대한 빈도 정보나, 연어정보, 각 의미역과 용언의 통계적 공기 정보 등을 추출하여 하위범주화사전에 추가시켰다. 또한 여기서 얻은 정보를 기준으로 하위범주화 사전을 자동으로 확장하는 알고리즘을 적용하여 확장시켰다.

  • PDF