• 제목/요약/키워드: 어휘 중의성 해소

검색결과 49건 처리시간 0.052초

한국어 어휘의미망을 이용한 자동 수화 번역 시스템의 개발 (Development of Automatic Sign Language Translation System using Korean WordNet)

  • 김민호;최성기;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1358-1361
    • /
    • 2013
  • 한국어와 한국 수화 간 자동 번역을 위해서는 한국어-한국 수화 대역어 사전이 필요하지만, 현재 한국 수화 사전으로 가장 공신력 있는 한국 수화 사전은 등재 어휘 수가 약 12,000개에 불과하다. 이 때문에 한국어를 한국 수화로 자동 번역을 할 때 대치어가 없어 완벽하게 번역이 되지 않는다. 본 연구에서는 한국 수화 사전의 미등재어로 말미암은 번역률 저하를 최소화하고자 한국어 어휘의미망의 동의어와 상 하위어 정보를 이용한다. 또한, 자동 번역에서 빈번하게 발생하는 어의 중의성 문제도 한국어 어휘의미망의 정보를 이용하여 어의 중의성 해소 규칙을 일반화한다.

단어 간 연관성 측정을 통한 문맥 철자오류 교정 (Context-sensitive Spelling Correction using Measuring Relationship between Words)

  • 최성기;김민호;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1362-1365
    • /
    • 2013
  • 한국어 텍스트에 나타나는 오류어의 유형은 크게 단순 철자오류와 문맥 철자오류로 구분할 수 있다. 이중 문맥 철자오류는 문맥의 의미 통사적 관계를 고려해야만 해당 어휘의 오류 여부를 알 수 있는 오류로서 철자오류 중 교정 난도가 가장 높다. 문맥 철자오류의 유형은 발음 유상성에 따른 오류, 오타 오류, 문법 오류, 띄어쓰기 오류로 구분할 수 있다. 본 연구에서는 오타 오류에 의해 발생하는 문맥 철자오류를 어의 중의성 해소와 같은 문제로 보고 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 방법을 제안한다. 미리 생성한 교정 어휘 쌍을 대상으로 교정 어휘 쌍의 각 어휘와 주변 문맥 간 의미적 연관성을 통계적으로 측정하여 문맥 철자오류를 검색하고 교정한다. 제안한 방법을 적용한 결과 3개의 교정 어휘 쌍 모두 90%를 넘는 정확도를 보였다.

`어절 정보 사전`을 이용한 형태소 분석의 중의성 (Ambiguity) 해결 (Desambiguation Method based on a Lexicon of Typographical Units)

  • 남지순;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.75-82
    • /
    • 1997
  • 이글은 한국어 형태소 분석시 발생하는 중의성의 유형에 대해서 논의하고, 그와 같은 여러 유형의 중의성의 발생율을 감소시키기 위한 방법으로써 '어절 정보 사전 시스템'의 구축을 강조하였다. 한국어 문서에 대한 형태소 분석시 발생하는 중의성은, 영어나 유럽어와는 달리, 어휘 형성 정보 뿐아니라 어절 형성 정보, 구문 구조에 관한 부분적인 정보까지도 제공되어야 비로소 해소될 수 있는 경우가 많아 이와 같은 정보를 얻어내기 위해서는 체계적으로 고안된 범용의 사전 (Lexicon)이 필요하다. 여기에서는 접사가 동반되어 구성될 수 있는 '파생 명사(Affixed Noun)'들의 경우에 논의의 범위를 제한하였다. 실제로, 체계적으로 구성된 하나의 파생어 사전은. 주어진 어절에 대한 형태소 분절시 발생할 수 있는 엄청난 수의 중의적 가능성을 해소해 줄 수 있는데. 이와 같은 사전을 구축하기 위해서는 단순어와 접사 사전이 모듈화되어 완성되어야 한다. 같은 방법으로 모든 합성어 유형에 대한 사전이 구축되고, 그러한 기본 형태들에 대한 '변화형' 사전이 결합되면 어절 정보를 갖춘 대용량의 한국어 MRD의 구현이 가능해질 것이다.

  • PDF

외국어로서의 영어 구문 중의성 해결 과정 (Processing of the Syntactic Ambiguity Resolution in English as a Foreign Language)

  • 정유진;이윤형;황유미;남기춘
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 춘계 학술대회
    • /
    • pp.261-266
    • /
    • 2000
  • 글을 이해하기 위해서는 어휘와 어휘간의 연결 및 전체 구조를 아는 것이 필요하다. 이는 비단 한국어뿐만 아니라 영어나 기타 다른 외국어에서도 마찬가지일 것이다. 본고는 두 가지를 고찰하기 위해 진행되었는데 우선 외국어로서 영어를 처리하는데 발생하는 구문적 중의성을 해결하는데 Garden Path Sentence(GPS), Late Closure(LC), PP의 세 문형에 따라 어떻게 해결하는지 알아보기 위한 것이다. 그리고 각 문형의 중의적 어절에서의 반응과 애매성 해소 어절에서의 반응에 따라 sysntactic module이 작용하는 것인지 알아보고자 한다. 예를 들어 "The boat floated down the streams sank"란 Garden Path 문장이 제시된 경우에 독자는 "sank"란 어휘가 제시되기 전까지 "floated"를 동사로 생각하게 되나 다음에 본동사인 "sank"가 제시될 경우 문장의 해석에 혼란을 갖게 될 것이다. 예문에서 "floated"가 문장에서 어떤 역할을 하는지 결정하는 것은 "sank"를 보고서야 가능하다. 이런 구문적 중의성을 해결하는 방식을 알아보기 위해 어절 단위로 제시된 자극을 읽는 자기 조절 읽기 과제(self-paced reading task)를 사용하였다. 각 어절을 읽는데 걸리는 시간을 측정한 실험 결과 GPS, PP, LC 모두 중의성을 지닌 영역이 중의성을 해소한 후와 각각 유형적으로 큰 차이가 없는 것으로 나타났다. 다만 GPS, CGPS, PP와 CPP는 어절 후반으로 갈수록 반응시간이 짧아졌다. 이는 우리나라 사람의 경우 외국어인 영어의 구문 중의성 해소는 구문 분석 단원(syntactic module)에 의한 자동적 처리라기보다 의미를 고려해 가면서 문법지식을 이용해 추론을 통한 구문 분석이라 할 수 있다.에 의한 자동적 처리라기보다 의미를 고려해 가면서 문법지식을 이용해 추론을 통한 구문 분석이라 할 수 있다.많았다(P<0.05).조군인 Group 1에서보다 높은 수준으로 발현되었다. 하지만 $12.5{\;}\mu\textrm{g}/ml$의 T. denticola sonicated 추출물로 전처리한 Group 3에서는 IL-2와 IL-4의 수준이 유의성있게 억제되어 발현되었다 (p < 0.05). 이러한 결과를 통하여 T. denticola에서 추출된 면역억제 단백질이 Th1과 Th2의 cytokine 분비 기능을 억제하는 것으로 확인 되었으며 이 기전이 감염 근관에서 발견되는 T. denticola의 치수 및 치근단 질환에 대한 병인기전과 관련이 있는 것으로 사료된다.을 보였다. 본 실험 결과, $Depulpin^{\circledR}은{\;}Tempcanal^{\circledR}와{\;}Vitapex^{\circledR}$에 비해 높은 세포 독성을 보여주공 있으나, 좀 더 많은 임상적 검증이 필요할 것으로 사료된다.중요한 역할을 하는 것으로 추론할 수 있다.근관벽을 처리하는 것이 필요하다고 사료된다.크기에 의존하며, 또한 이러한 영향은 $(Ti_{1-x}AI_{x})N$ 피막에 존재하는 AI의 함량이 높고, 초기에 증착된 막의 업자 크기가 작을 수록 클 것으로 여겨진다. 그리고 환경의 의미의 차이에 따라 경관의 미학적 평가가 달라진 것으로 나타났다.corner$적 의도에 의한 경관구성의 일면을 확인할수 있지만 엄밀히 생각하여 보면 이러한 예의 경우도 최락의 총체적인 외형은 마찬가지로 $\ulcorner$순응$\lrcorner$의 범위를 벗어나지 않는다. 그렇기 때문에도 $\ulcorner$순응$\lrcorner$$\ulcorner$표현$\lrcorner$의 성격과 형태를 외형상으로 더욱이 공간상에서는 뚜렷하게 경계

  • PDF

복합명사 의미사전을 이용한 동음이의어 중의성 해소 (Homonym Disambiguation using Sense-Tagged Compound Noun Dictionary)

  • 허정;장명길
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.538-540
    • /
    • 2005
  • 본 논문에서는 평균 상호정보량에 기반하고 복합명사 의미사전을 이용한 동음이의어 중의성 해소 기술에 대해서 소개한다. 평균 상호정보량을 이용한 방법은 사전의 뜻풀이를 이용하는 기존 방법의 자료부족문제를 완화시킨다. 복합명사 의미사전은 복합명사를 구성하는 단일영사들의 의미제약 관계를 이용하여 구축된다. 기 구축된 복합명사 의미사전은 어휘 의미 중의성의 정확률을 향상시키고, 연산 시간을 줄여 시스템의 효율성을 극대화시킨다. 평균 상호정보량을 이용한 실험에서는 $62.04\%$의 정확률로 LESK의 방법에 비해 $6.06\%$의 향상이 있었고, 복합명사 의미사전을 이용하였을 때는 $68.13\%$의 정확률로 $12.76\%$의 정확률 향상이 있었다.

  • PDF

영한 기계 번역을 위한 혼합형 N-best 품사 태거 (A Hybrid N-best Part-of-Speech Tagger for English-Korean Machine Translation)

  • 임희석;권철중;이재원;오기은
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.15-19
    • /
    • 1998
  • 기계 번역 시스템에서 품사 태거의 오류는 전체번역 정확률에 결정적인 영향을 미친다. 따라서 어휘 단계의 정보만으로는 중의성 해소가 불가능한 단어에 대해서는 중의성 해소에 충분한 정보를 얻을 수 있는 구문 분석이나 의미 분석 단계까지 완전한 중의성 해소를 유보하는 N-best 품사 태거가 요구된다. 또한 N-best 품사 태거는 단어에 할당되는 평균 품사 개수를 최소화함으로써 상위 단계의 부하를 줄이는 본연의 역할을 수행하여야 한다. 본 논문은 통계 기반 품사 태깅 방법을 이용하여 N-best 후보를 선정하고, 선정된 N-best 후보에 언어 규칙을 적용하여 중의성을 감소시키거나 오류를 보정하는 혼합형 N-best 품사 태깅 방법을 제안한다 제안된 N-best 품사 태거는 6만여 단어의 영어 코퍼스에서 실험한 결과, 단어 당 평균 1.09개의 품사를 할당할 때 0.43%의 오류율을 보인다.

  • PDF

워드넷과 구글에 기반한 온톨로지 개체의 일반화 (Generalization of Ontology Instances Based on WordNet and Google)

  • 강신재;강인수
    • 한국지능시스템학회논문지
    • /
    • 제19권3호
    • /
    • pp.363-370
    • /
    • 2009
  • 본 논문은 온톨로지의 지식을 확장하기 위하여 웹 페이지 등 텍스트에서 추출된 온톨로지 개체(ontology instances)를 일반화하는 방법을 제시한다. 이를 위해서는 단어 의미 중의성 해소 과정이 필수적인데, 구글, 워드넷과 같은 오픈 API와 어휘 리소스를 이용하여 비교사학습 방법으로 해결하는 방법을 제안한다. 실험 결과 기존 연구에 비해 15.8%의 성능 향상을 얻을 수 있었다.

시맨틱 구문 트리 커널을 이용한 생명공학 분야 전문용어간 관계 식별 및 분류 연구 (A Study on the Identification and Classification of Relation Between Biotechnology Terms Using Semantic Parse Tree Kernel)

  • 최성필;정창후;전홍우;조현양
    • 한국문헌정보학회지
    • /
    • 제45권2호
    • /
    • pp.251-275
    • /
    • 2011
  • 본 논문에서는 단백질 간 상호작용 자동 추출을 위해서 기존에 연구되어 높은 성능을 나타낸 구문 트리 커널을 확장한 시맨틱 구문 트리 커널을 제안한다. 기존 구문 트리 커널의 문제점은 구문 트리의 단말 노드를 구성하는 개별 어휘에 대한 단순 외형적 비교로 인해, 실제 의미적으로는 유사한 두 구문 트리의 커널 값이 상대적으로 낮아지는 현상이며 결국 상호작용 자동 추출의 전체 성능에 악영향을 줄 수 있다는 점이다. 본 논문에서는 두 구문 트리의 구문적 유사도(syntactic similarity)와 어휘 의미적 유사도(lexical semantic similarity)를 동시에 효과적으로 계산하여 이를 결합하는 새로운 커널을 고안하였다. 어휘 의미적 유사도 계산을 위해서 문맥 및 워드넷 기반의 어휘 중의성 해소 시스템과 이 시스템의 출력으로 도출되는 어휘 개념(WordNet synset)의 추상화를 통한 기존 커널의 확장을 시도하였다. 실험에서는 단백질 간 상호작용 추출(PPII, PPIC) 성능의 심층적 최적화를 위해서 기존의 SVM에서 지원되던 정규화 매개변수 외에 구문 트리 커널의 소멸인자와 시맨틱 구문 트리 커널의 어휘 추상화 인자를 새롭게 도입하였다. 이를 통해 구문 트리 커널을 적용함에 있어서 소멸인자 역할의 중요성을 확인할 수 있었고, 시맨틱 구문 트리 커널이 기존 시스템의 성능향상에 도움을 줄 수 있음을 실험적으로 보여주었다. 특히 단백질 간 상호작용식별 문제보다도 비교적 난이도가 높은 상호작용 분류에 더욱 효과적임을 알 수 있었다.

반복적 기법을 사용한 그래프 기반 단어 모호성 해소 (Graph-Based Word Sense Disambiguation Using Iterative Approach)

  • 강상우
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권2호
    • /
    • pp.102-110
    • /
    • 2017
  • 최근 자연어 처리 분야에서 단어의 모호성을 해소하기 위해서 다양한 기계 학습 방법이 적용되고 있다. 지도 학습에 사용되는 데이터는 정답을 부착하기 위해 많은 비용과 시간이 필요하므로 최근 연구들은 비지도 학습의 성능을 높이기 위한 노력을 지속적으로 시도하고 있다. 단어 모호성 해소(word sense disambiguation)를 위한 비지도 학습연구는 지식 기반(knowledge base)를 이용한 방법들이 주목받고 있다. 이 방법은 학습 데이터 없이 지식 기반의 정보을 이용하여 문장 내에서 모호성을 가지는 단어의 의미를 결정한다. 지식 기반을 이용한 방법에는 그래프 기반방식과 유사도 기반 방법이 대표적이다. 그래프 기반 방법은 모호성을 가지는 단어와 그 단어가 가지는 다양한 의미들의 집합 간의 모든 경로에 대한 의미 그래프를 구축한다는 장점이 있지만 불필요한 의미 경로가 추가되어 오류를 증가시킨다는 단점이 있다. 이러한 문제를 해결하기 위해 본 논문에서는 그래프 구축을 위해 불필요한 간선들을 배제하면서 반복적으로 그래프를 재구축하는 모델을 제안한다. 또한, 구축된 의미 그래프에서 더욱 정확한 의미를 예측하기 위해 하이브리드 유사도 예측 모델을 적용한다. 또한 제안된 모델은 다국어 어휘 의미망 사전인 BabelNet을 사용하기 때문에 특정 언어뿐만 아니라 다양한 언어에도 적용 가능하다.

한국어 분석의 중의성 해소를 위한 하위범주화 사전 구축 (Development of Subcategorization Dictionary for the Disambiguation Korean Language Analysis)

  • 이수선;박현재;우요섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.257-264
    • /
    • 1999
  • 자연언어 처리에 있어 문장의 성분 구조를 파악하는 통사적 해석에서는 애매성 있는 결과가 많이 생성된다. 한국어의 경우 어순 등의 통사적 특성뿐 아니라 상황과 의미, 문맥이 문장의 분석에 더 중요한 역할을 하기 때문에 문맥 자유 문법에 의한 접근 방법만으로는 중의적 구조의 해결이 어렵다. 이는 또한 의미 분석시 애매성을 증가시키는 원인이 된다. 이러한 통사적, 의미적 중의성 해결을 위해 용언 중심의 하위범주화 사전을 구축하였다. 본 논문에서는 용언에 따라 제한될 수 있는 하위범주 패턴을 정의하고 패턴에 따라 하위범주 사전을 구축하였다. 하위범주화 사전에는 명사의 시소러스와 정합하여 보어를 선택 제한(Selectional Restriction)할 수 있도록 용언과 명사와의 의미적 연어 관계에 따라 의미마커를 부여했다. 말뭉치를 통해 수집된 용언 12,000여개를 대상으로 25,000여개의 하위범주 패턴을 구축하였고 이렇게 구축한 하위범주화 사전이 120,000여 명사에 대한 의미를 갖고 있는 계층 시소러스 의미 사전과 연동하도록 하였다. 또한 논문에서 구현된 하위범주화 사전이 구문과 어휘의 중의성을 어느 정도 해소하는지 확인하기 위해 반자동적으로 의미 태깅(Sense Tagging)된 2만여 문장의 말뭉치를 통해 검증 작업을 수행하고, 의존관계와 어휘의 의미를 포함하고 있는 말뭉치에 하위범주 패턴이 어느정도 정합되는지를 분석하여, 하위범주 패턴과 말뭉치의 의존관계만 일치하는 경우와 어휘의 의미까지 일치하는 경우에 대해 평가한다. 이 과정에서 하위범주 패턴에 대한 빈도 정보나, 연어 정보를 수집하여 데이터베이스에 포함시키고, 각 의미역과 용언의 통계적 공기 정보 등을 추출하는 방법도 제시하고자 한다.을 입증하였다.적응에 문제점을 가지기도 하였다. 본 연구에서는 그 동안 계속되어 온 한글과 한잔의 사용에 관한 논쟁을 언어심리학적인 연구 방법을 통해 조사하였다. 즉, 글을 읽는 속도, 글의 의미를 얼마나 정확하게 이해했는지, 어느 것이 더 기억에 오래 남는지를 측정하여 어느 쪽의 입장이 옮은 지를 판단하는 것이다. 실험 결과는 문장을 읽는 시간에서는 한글 전용문인 경우에 월등히 빨랐다. 그러나. 내용에 대한 기억 검사에서는 국한 혼용 조건에서 더 우수하였다. 반면에, 이해력 검사에서는 천장 효과(Ceiling effect)로 두 조건간에 차이가 없었다. 따라서, 본 실험 결과에 따르면, 글의 읽기 속도가 중요한 문서에서는 한글 전용이 좋은 반면에 글의 내용 기억이 강조되는 경우에는 한자를 혼용하는 것이 더 효율적이다.이 높은 활성을 보였다. 7. 이상을 종합하여 볼 때 고구마 끝순에는 페놀화합물이 다량 함유되어 있어 높은 항산화 활성을 가지며, 아질산염소거능 및 ACE저해활성과 같은 생리적 효과도 높아 기능성 채소로 이용하기에 충분한 가치가 있다고 판단된다.등의 관련 질환의 예방, 치료용 의약품 개발과 기능성 식품에 효과적으로 이용될 수 있음을 시사한다.tall fescue 23%, Kentucky bluegrass 6%, perennial ryegrass 8%) 및 white clover 23%를 유지하였다. 이상의 결과를 종합할 때, 초종과 파종비율에 따른 혼파초지의 건물수량과 사료가치의 차이를 확인할 수 있었으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract

  • PDF