• 제목/요약/키워드: Semantic Ambiguity

검색결과 62건 처리시간 0.02초

A Rule-Based Analysis from Raw Korean Text to Morphologically Annotated Corpora

  • Lee, Ki-Yong;Markus Schulze
    • 한국언어정보학회지:언어와정보
    • /
    • 제6권2호
    • /
    • pp.105-128
    • /
    • 2002
  • Morphologically annotated corpora are the basis for many tasks of computational linguistics. Most current approaches use statistically driven methods of morphological analysis, that provide just POS-tags. While this is sufficient for some applications, a rule-based full morphological analysis also yielding lemmatization and segmentation is needed for many others. This work thus aims at 〔1〕 introducing a rule-based Korean morphological analyzer called Kormoran based on the principle of linearity that prohibits any combination of left-to-right or right-to-left analysis or backtracking and then at 〔2〕 showing how it on be used as a POS-tagger by adopting an ordinary technique of preprocessing and also by filtering out irrelevant morpho-syntactic information in analyzed feature structures. It is shown that, besides providing a basis for subsequent syntactic or semantic processing, full morphological analyzers like Kormoran have the greater power of resolving ambiguities than simple POS-taggers. The focus of our present analysis is on Korean text.

  • PDF

Fake News Detection Using Deep Learning

  • Lee, Dong-Ho;Kim, Yu-Ri;Kim, Hyeong-Jun;Park, Seung-Myun;Yang, Yu-Jun
    • Journal of Information Processing Systems
    • /
    • 제15권5호
    • /
    • pp.1119-1130
    • /
    • 2019
  • With the wide spread of Social Network Services (SNS), fake news-which is a way of disguising false information as legitimate media-has become a big social issue. This paper proposes a deep learning architecture for detecting fake news that is written in Korean. Previous works proposed appropriate fake news detection models for English, but Korean has two issues that cannot apply existing models: Korean can be expressed in shorter sentences than English even with the same meaning; therefore, it is difficult to operate a deep neural network because of the feature scarcity for deep learning. Difficulty in semantic analysis due to morpheme ambiguity. We worked to resolve these issues by implementing a system using various convolutional neural network-based deep learning architectures and "Fasttext" which is a word-embedding model learned by syllable unit. After training and testing its implementation, we could achieve meaningful accuracy for classification of the body and context discrepancies, but the accuracy was low for classification of the headline and body discrepancies.

한국어 개체명 인식 과제에서의 의미 모호성 연구 (A study on semantic ambiguity in the Korean Named Entity Recognition)

  • 김성현;송영숙;송치성;한지윤
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.203-208
    • /
    • 2021
  • 본 논문에서는 맥락에 따라 개체명의 범주가 달라지는 어휘를 중심으로 교차 태깅된 개체명의 성능을 레이블과 스팬 정답률, 문장 성분과 문장 위치에 따른 정답률로 나누어 살펴 보았다. 레이블의 정확도는 KoGPT2, mBERT, KLUE-RoBERTa 순으로 정답률이 높아지는 양상을 보였다. 스팬 정답률에서는 mBERT가 KLUE-RoBERTa보다 근소하게 성능이 높았고 KoGPT2는 매우 낮은 정확도를 보였다. 다만, KoGPT2는 개체명이 문장의 끝에 위치할 때는 다른 모델과 비슷한 정도로 성능이 개선되는 결과를 보였다. 문장 종결 위치에서 인식기의 성능이 좋은 것은 실험에 사용된 말뭉치의 문장 성분이 서술어일 때 명사의 중첩이 적고 구문이 패턴화되어 있다는 특징과 KoGPT2가 decoder기반의 모델이기 때문으로 여겨지나 이에 대해서는 후속 연구가 필요하다.

  • PDF

KOREAN TOPIC MODELING USING MATRIX DECOMPOSITION

  • June-Ho Lee;Hyun-Min Kim
    • East Asian mathematical journal
    • /
    • 제40권3호
    • /
    • pp.307-318
    • /
    • 2024
  • This paper explores the application of matrix factorization, specifically CUR decomposition, in the clustering of Korean language documents by topic. It addresses the unique challenges of Natural Language Processing (NLP) in dealing with the Korean language's distinctive features, such as agglutinative words and morphological ambiguity. The study compares the effectiveness of Latent Semantic Analysis (LSA) using CUR decomposition with the classical Singular Value Decomposition (SVD) method in the context of Korean text. Experiments are conducted using Korean Wikipedia documents and newspaper data, providing insight into the accuracy and efficiency of these techniques. The findings demonstrate the potential of CUR decomposition to improve the accuracy of document clustering in Korean, offering a valuable approach to text mining and information retrieval in agglutinative languages.

갱신 의미 보존 객체-지향 뷰 (Update Semantic Preserving Object-Oriented View)

  • 나영국
    • 정보처리학회논문지D
    • /
    • 제8D권1호
    • /
    • pp.32-43
    • /
    • 2001
  • 데이터 모델링 능력이 한정되고 뷰 갱신 모호성 문제에 기인하여, 관계형 뷰는 공학 응용에 제한적으로 사용되어 왔다. 반면에 객체지향 데이터베이스의 뷰는 관계형 뷰의 이 두 가지 단점을 극복하기 때문에, 공학 응용을 위한 맞춤 인터페이스를 정의하는데 중요한 역할을 할 것이다. 특히 공학 응용을 위한 데이터베이스 인터페이스는 갱신을 충분히 지원하여 한다. 좀더 자세히 말하면, 인터페이스에 대한 갱신이 모호성이 없이 정의되어야 하며 이 정의는 베이스 스키마에 대한 갱신 행동과 일치하여야 한다. 이를 위하여 객체지향 뷰가 베이스 데이터 모델과 같은 갱신 행동을 보이기 위한 제반 조건 - 갱신 의미 보존(update semantic preserving)-을 정의하였다. 그리고 이 갱신 의미 보존 특성의 실현 가능성을 보이기 위하여 CAD에 특화된 객체지향 뷰 시스템, 멀티 뷰(MultiView), 을 선정하여 그 시스템의 뷰 모델에 대한 갱신 의미 보존 갱신 행동을 정의하고 구체적인 구현 알고리즘을 제시하였다. 이 연구는 객체지향 데이터베이스에서 가장 클래스를 모았을 때 단순한 클래스의 모임이 아니라 isa계층을 갖는 '스키마'가 될 수 있게하기 위해서는 가상 클래스에 대한 갱신 의미가 클래스간 isa 관계를 위반해서는 안된다는 것을 발견하였다. 그리고 이의 충분조건으로 '뷰 스키마가 베이스 스키마처럼 보이도록'하는 가상 클래스의 갱신 의미와 가상 클래스간 스키마 형성 가능 조건을 발견하였다. 이는 객체 지향 데이터베이스에서 뷰를 클래스 수준에서 스키마 수준으로 정의하는 충분조건을 발견하고 구현한 최초의 논문이다.

  • PDF

휴대용 단말기 환경을 위한 Annotation 모델링 및 시스템 구현 (Annotation Modeling and System Implementation for Hand-held Environment)

  • 손원성
    • 정보교육학회논문지
    • /
    • 제10권2호
    • /
    • pp.219-226
    • /
    • 2006
  • 어노테이션(annotation)은 문서에서 개인의 의견, 정리, 요약 등을 표현하기 위한 주석을 의미한다. 따라서 전자문서에서도 어노테이션은 중요하게 사용되며 특히 전자 잉크(digital inking)릉 이용한 이동 단말기 환경에서 효과적으로 사용된다. 그러나 기존 연구에서는 휴대용 단말기 환경의 단점인 적은 디스플레이 공간을 전혀 고려하지 않기 때문에 어노테이션 작성 및 활용이 매우 불편하다. 따라서 본 논문에서는 전자펜과 이동식 단말기 환경을 고려한 어노테이션 모델 및 시스템을 제안한다. 제안 어노테이션 모델은 다양한 컨텍스트(context)를 고려하고 이에 기반한 어노테이션 마크업 언어를 정의한다. 본 모델은 다양한 어노테이션 타입 및 의미(semantic) 모델, 펜 기반 어노테이션의 자동 인식 및 영역 보정 기능 등을 고려하며, 이것을 기반으로 CAML(Context-based Annotation Markup Language)를 정의한다. 또한 본 모델을 이용하여 XML 기반의 전자책문서 및 단말기 환경을 고려한 어노테이션 시스템을 구현하고 그 활용 가능성에 대하여 살펴본다. 본 연구의 결과는 eLearning, Cyber-Class, IETM(Interactive Electronic Technical Manuals) 에서 적절히 응용 가능하다.

  • PDF

의미 정보를 이용한 이단계 단문분할 (Two-Level Clausal Segmentation using Sense Information)

  • 박현재;우요섭
    • 한국정보처리학회논문지
    • /
    • 제7권9호
    • /
    • pp.2876-2884
    • /
    • 2000
  • 단문분할은 한 문장에 용언이 복수개 있을 때 용언을 중심으로 문장을 나누는 방법이다. 기존의 방법은 정형화된 문장의 경우 비교적 효율적인 결과를 얻을 수 있으나, 구문적으로 복잡한 문장인 경우는 한계를 보였다. 본 논문에서는 이러한 한계를 극복하기 위해서 구문 정보만이 아니라, 의미 정보를 활용하여 단문을 분할하는 방법을 제안한다. 정형화된 문장의 경우와 달리 일상적인 문장은 무장 구조의 모호성이나 조사의 생략 등이 빈번하므로 의미 수준에서의 단문분할이 필요하다. 의미 영역에서 단문분할을 하면 기존의 구문 의존적인 방법들에서 발생하는 모호성을 상당수 해소할 수 있게 된다. 논문에서는 먼저 하위범주와 사전과 시소러스의 의미 정보를 이용하여 용언과 보어성분 간의 의존구조를 우선적으로 파악하고, 구문적인 정보와 기타 문법적인 지식을 사용하여 기타 성분을 의존구조에 점진적으로 포함시켜가는 이단계 단문분할 알고리즘을 제안한다. 제안된 이단계 단문분할 방법의 유용성을 보이기 위해 ETRI-KONAN의 말뭉치 중 25,000문장을 수작업으로 술어와 보어성분 간의 의존구조를 태깅한 후 본 논문에서 제안한 방법과 비교하는 실험을 수행하였으며, 이때 단문분할의 결과는 91.8%의 정확성을 보였다.

  • PDF

대물(de re) 문맥과 '-라고'의 몇 가지 의미론적 특성 (De re context and some semantic traits of 'rago')

  • 민찬홍
    • 논리연구
    • /
    • 제16권1호
    • /
    • pp.61-85
    • /
    • 2013
  • 대언 믿음과 대물 믿음의 구별을 소개하고, 믿음 문맥과 양상 문맥에서 대언(de dicto)/대물(de re) 애매성이 동일하게 나타나는데, 양상 구문의 경우 한국어는 영어와 차별화되는 특징을 갖지 않는다는 것을 지적한다. 부정문에서도 대언/대물 구문의 애매성이 나타나는 바, 이와 관련하여 한국어는 대물 부정문에 해당하는 통사 구조를 허용한다. 대물 구문은 지시적으로 투명한 구문이요 따라서 동일자 대입률을 허용하는 구문이며, 대언 구문은 지시적으로 불투명한 구문이요 동일자 대입률을 허용하지 않는 구문이다. 그런데, 인용 동사, 언어행위동사, 인지태도 동사들과 함께 사용되는 한국어의 인용 어미 '라고'는 특이하게도 영어와 평행하게 대언/대물 애매성을 갖는 문장 뿐 아니라 애매성 없는 대물 구문을 구성하는 문장도 제공한다. 또한, '라고' 구문은 내포절의 내용에 대한 화자의 공약에 있어서도 중립적이다. 한국어에서는 내포절의 내용에 대한 화자의 긍정적인 공약을 표시하고자 하는 경우 '음/임' 또는 '라는 것'이라는 어미를 사용한다. 이런 점 때문에 '앎이 진리를 전제한다'는 서구 인식론의 원칙은 인식 문장을 한국어 어미 '라고'를 사용하는 문장으로 표현하려고 할 때에는 어려움을 겪게 된다.

  • PDF

하이퍼그래프 모델 기반의 장면 이미지 분류 기법 (Hypergraph model based Scene Image Classification Method)

  • 최선욱;이종호
    • 한국지능시스템학회논문지
    • /
    • 제24권2호
    • /
    • pp.166-172
    • /
    • 2014
  • 이미지를 각각의 카테고리로 분류하는 일은 컴퓨터 비전 분야의 중요한 문제 중 하나이다. 그러나 이미지에 존재하는 가변성, 모호성, 스케일 문제 등으로 인해 매우 도전적인 문제라고 할 수 있다. 본 논문에서는 장면 이미지를 구성하는 시멘틱 속성들의 고차원의 상호작용 관계를 고려 가능한 하이퍼그래프 기반의 모델링 기법을 제시하고 이를 장면 이미지 분류에 적용한다. 각 장면 카테고리에 준최적화된 하이퍼그래프를 생성하기 위해 확률 부분공간 기법에 기반을 둔 탐색기법을 제안하고, 이들 부분 공간 내에 속한 시멘틱 속성들의 발현량을 축약하기 위한 우도비 기반의 선형 변환 기법을 제안한다. 제안한 기법의 우수성을 검증하기 위한 실험을 통하여 제시한 기법을 통해 생성된 특징 벡터의 분별력이 기존의 기법들에서 사용된 특징 벡터들의 분별력보다 우수함을 보인다. 또한 제안한 기법을 장면 분류 데이터에 적용한 결과 기존의 기법들과 비교하여 경쟁력 있는 분류 성능을 보인다. 제안 한 기법은 이미지 분류에서 일반적으로 사용 되는 기법인 BoW+SPM 모델과 비교하여 3~4%이상의 성능 향상을 보였다.

웹 사용자 누적 사용정보 기반의 키워드 검색 모델 (A Keyword Search Model based on the Collected Information of Web Users)

  • 윤성희
    • 한국전자통신학회논문지
    • /
    • 제7권4호
    • /
    • pp.777-782
    • /
    • 2012
  • 본 논문은 웹 검색 시스템의 사용자 질의에 대한 키워드 색인 기반의 검색 과정에서 적합 문서를 선별하기 위해 검색 키워드의 의미정보와 사용자의 누적 사용정보를 사용하여 검색 성능을 향상시키는 방법을 소개한다. 검색 키워드 의미 정보를 이용하는 검색 방법은 검색 결과로서 의미적으로 무관한 많은 문서들을 배제할 수 있고, 사용자의 누적된 사용정보는 관심사에 중심을 둔 검색문서들을 상위에 제시할 수 있다. 검색 키워드의 의미정보 지식베이스를 구축하고, 검색 문서들을 색인어와 해당 의미범주로 분류하며, 사용자의 정답 문서 참조 행위에 대한 누적 정보를 순위 결정에 반영하여 검색 성능을 향상시킬 수 있다.