• 제목/요약/키워드: 중의성

검색결과 4,485건 처리시간 0.028초

Beam Search 알고리즘을 이용한 효율적인 한국어 의존 구조 분석 (Efficient Analysis of Korean Dependency Structures Using Beam Search Algorithms)

  • 김학수;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.281-286
    • /
    • 1998
  • 구문분석(syntactic analysis)은 형태소 분석된 결과를 입력으로 받아 구문단위간의 관계를 결정해 주는 자연어 처리의 한 과정이다. 그러나 구문분석된 결과는 많은 중의성(ambiguity)을 갖게 되며, 이러한 중의성은 이후의 자연어 처리 수행과정에서 많은 복잡성(complexity)를 유발하게 된다. 지금까지 이러한 문제를 해결하기 위한 여러 가지 연구들이 있었으며, 그 중 하나가 대량의 데이터로부터 추출된 통계치를 이용한 방법이다. 그러나, 생성된 모든 구문 트리(parse tree)에 통계치를 부여하고, 그것들을 순위화하는 것은 굉장히 시간 소모적인 일(time-consuming job)이다. 그러므로, 생성 가능한 트리의 수를 효과적으로 줄이는 방법이 필요하다. 본 논문에서는 이러한 문제를 해결하기 위해 개선된 beam search 알고리즘을 제안하고, 기존의 방법과 비교한다. 본 논문에서 제안된 beam search 알고리즘을 사용한 구문분석기는 beam search를 사용하지 않은 구문분석기가 생성하는 트리 수의 1/3정도만으로도 같은 구문 구조 정확률을 보였다.

  • PDF

한국어 어휘 중의성 해소에서 어휘 확률에 대한 효과적인 평가 방법 (An Effective Estimation method for Lexical Probabilities in Korean Lexical Disambiguation)

  • 이하규
    • 한국정보처리학회논문지
    • /
    • 제3권6호
    • /
    • pp.1588-1597
    • /
    • 1996
  • 본 논문은 한국어 어휘 중의성 해소(lexical disambiguation)에서 어휘 확률 (lexical probability) 평가방법에 대해 기술하고 있다. 통계적 접근 방법의 어휘 중 의성 해소에서는 일반적으로 말뭉치(corpus)로부터 추출된 통계 자료에 기초하여 어 휘 확률과 문맥 확률(contextual probability)을 평가한다. 한국어는 어절별로 띄어 쓰기가 이루어지므로 어절 단위로 어휘 확률을 적용하는 것이 바람직하다. 하지만 한 국어는 어절의 다양성이 심하기 때문에 상당히 큰 말뭉치를 사용하더라도 어절 단위 로는 어휘 확률을 직접 평가할 수 없는 경우가 다소 있다. 이러한 문제점을 극복하기 위해 본 연구에서는 어휘 분석 측면에서 어절의 유사성을 정의하고 이에 기반을 둔 한국어 어휘 확률 평가 방법을 제안한다. 이 방법에서는 어떤 어절에 대해 어휘 확률 을 직접 평가할 수 없는 경우 이와 어휘 분석이 유사한 어절들을 통해 간접적으로 평 가한다. 실험결과 제안된 접근방법이 한국어 어휘 중의성 해소에 효과적인 것으로 나 타나고 있다.

  • PDF

국어의 통사적 중의성

  • 이정민
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1989년도 한글날기념 학술대회 발표논문집
    • /
    • pp.282-287
    • /
    • 1989
  • PDF

"일대일로(一帶一路)" 전략 아래의 중의약(中醫藥) 해외 전파의 현실적인 딜레마와 대책 (The Predicament and The Solutions to Overseas Dissemination of Chinese Medical Culture Under the Background of "The Belt and Road")

  • 왕관은
    • 국제교류와 융합교육
    • /
    • 제3권1호
    • /
    • pp.77-86
    • /
    • 2023
  • "일대일로" 전략을 세운 이래 중국은 중의약(中醫藥)을 해외에 보급하였고 더불어 중의약 교육 및 중의약 문화의 현대화라는 큰 성과를 거두었다. 그러나 중의약의 해외 보급 및 발전은 여전히 중국의 문화 강대국으로 발전시키고자 하는 국가의 전략적 요구와 중의약의 역사적 사명 사이의 격차가 여전히 존재하고 있다. 특히, 중의약의 문화 이론, 해외 전파 방식, 전문용어 번역 등에는 여전히 어려움과 이를 해결하고자 하는 도전은 여전히 잔존하고 있다. "일대일로" 전략의 맥락에서 중의약 종사자는 문화적 이상과 자신감을 강화하여야 한다. 또한 중의약 이론의 대중화를 미디어를 충분히 이용하여 강화하여야 한다. 더불어 중의약의 해외 보급 수단을 개선하고, 다문화 언어 교류를 가속화 해야 한다. 이에 중의약 문화의 혁신을 의사 소통 실천으로 실현하고 중의약의 대외 교류와 협력을 강화하며 중의약의 해외 발전을 촉진할 것을 제언하였다.

Word2Vec를 이용한 단어 의미 모호성 해소 (Word Sense Disambiguation using Word2Vec)

  • 강명윤;김보겸;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.81-84
    • /
    • 2015
  • 자연어 문서에 출현하는 단어에는 중의적 단어가 있으며, 이 단어에서 발생되는 의미 모호성은 대개 그 문맥에 따라 해소된다. 의미 모호성 해소 연구 중, 한국어 단어 공간 모델 방법은 의미 태그 부착 말뭉치를 이용하여 단어의 문맥 정보를 구축하고 이를 이용하여 모호성을 해결하는 연구로서 비교적 좋은 성능을 보였다. 본 연구에서는 Word2Vec를 이용하여 기존 연구인 한국어 단어 공간 모델의 단어 벡터를 효과적으로 축소할 수 있는 방법을 제안한다. 세종 형태 의미 분석 말뭉치로 실험한 결과, 제안한 방법이 기존 성능인 93.99%와 유사한 93.32%의 정확률을 보이면서도 약 7.6배의 속도 향상이 있었다.

  • PDF

TAKTAG: 통계와 규칙에 기반한 2단계 학습을 통한 품사 중의성 해결 (TAKTAG: Two phase learning method for hybrid statistical/rule-based part-of-speech disambiguation)

  • 신상현;이근배;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.169-174
    • /
    • 1995
  • 품사 태깅은 형태소 분석 이후 발생한 모호성을 제거하는 것으로, 통계적 방법과 규칙에 기 반한 방법이 널리 사용되고 있다. 하지만, 이들 방법론에는 각기 한계점을 지니고 있다. 통계적인 방법인 은닉 마코프 모델(Hidden Markov Model)은 유연성(flexibility)을 지니지만, 교착어(agglutinative language)인 한국어에 있어서 제한된 윈도우로 인하여, 중의성 해결의 실마리가 되는 어휘나 품사별 제대로 참조하지 못하는 경우가 있다. 반면, 규칙에 기반한 방법은 차체가 품사에 영향을 받으므로 인하여, 새로운 태그집합(tagset)이나 언어에 대하여 유연성이나 정확성을 제공해 주지 못한다. 이러한 각기 서로 다른 방법론의 한계를 극복하기 위하여, 본 논문에서는 통계와 규칙을 통합한 한국어 태깅 모델을 제안한다. 즉 통계적 학습을 통한 통계 모델이후에 2차적으로 규칙을 자동학습 하게 하여, 통계모델이 다루지 못하는 범위의 규칙을 생성하게 된다. 이처럼 2단계의 통계와 규칙의 자동 학습단계를 거치게 됨으로써, 두개 모델의 단점을 보강한 높은 정확도를 가지는 한국어 태거를 개발할 수 있게 하였다.

  • PDF

한국어 텍스트의 개체 URI 탐지: 품사 태깅 독립적 개체명 인식과 중의성 해소 (A Non-morphological Approach for DBpedia URI Spotting within Korean Text)

  • 김영식;함영균;김지성;황도삼;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.100-106
    • /
    • 2014
  • URI spotting (탐지) 문제는 텍스트에 있는 단어열 중에서 URI로 대표되는 개체(entity)에 해당되는 것을 탐지하는 것이다. 이 문제는 두 개의 작은 문제를 순차적으로 해결하는 과제이다. 즉, 첫째는 어느 단어열이 URI에 해당하는 개체인가를 인식하는 것이고, 둘째는 개체 중의성 해소 문제로서 파악된 개체가 복수의 URI에 해당할 수 있는 의미적 모호성이 있을 때 그 URI중 하나를 선택하여 모호성을 해소하는 것이다. 이 논문은 디비피디아 URI를 대상으로 한다. URI 탐지 문제는 개체명 인식 문제와 비슷하나, URI(예를 들어 디비피디아 URI, 즉 Wikipedia 등재어)에 매핑될 수 있는 개체로 한정되므로 일반적인 개체명 인식 문제에서 단어열의 품사열이 기계학습의 자질로 들어가는 방법론과는 다른 자질을 사용할 수 있다. 이 논문에서는 한국어 텍스트를 대상으로 한국어 디비피디아 URI 탐지문제로서 SVM을 이용한 개체경계 인식 방법을 제시하여, 일반적 개체명 인식에서 나타나는 품사태거의 오류파급효과를 없애고자 한다. 또한 개체중의성 해소 문제는 의미모호성이 주변 문장들의 토픽에 따라 달라지므로, LDA를 활용하며 이를 영어 디비피디아 URI탐지에서 쓰인 방법들과 비교한다.

  • PDF

워드 임베딩을 활용한 관용표현 인식 연구 (Korean Idiom Classification Using Word Embedding)

  • 박서윤;강예지;강혜린;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.548-553
    • /
    • 2020
  • 우리가 쓰는 일상 언어 중에는 언어적 직관이 없는 사람은 의미 파악이 힘든 관용표현이 존재한다. 관용표현을 이해하기 위해서는 표현에 대한 형태적, 의미적 이해가 수반되어야 하기 때문이다. 기계도 마찬가지로 언어적 직관이 없기 때문에 관용표현에 대한 자연어 처리에는 어려움이 따른다. 특히 일반표현과 중의성 관계에 있는 관용표현의 특성이 고려되지 않은 채 문자적으로만 분석될 위험성이 높다. 본 연구에서는 '관용표현은 주변 문맥과의 관련성이 떨어진다'라는 가정을 중심으로 워드 임베딩을 활용한 관용표현과 일반표현에 대한 구분을 시도하였다. 실험은 4개 표현에 대해 이루어 졌으며 Skip-gram, Fasttext를 활용한 방법을 통해 관용표현은 주변 단어들과의 유사성이 떨어짐을 확인하였다.

  • PDF