• 제목/요약/키워드: 한글표현

검색결과 514건 처리시간 0.027초

Graph Convolutional Network 기반 집합적 개체 연결 (Graph Convolutional Networks for Collective Entity Linking)

  • 이영훈;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.170-172
    • /
    • 2019
  • 개체명 연결이란 주어진 문장에 출현한 단어를 위키피디아와 같은 지식 기반 상의 하나의 개체에 연결하는 것을 의미한다. 문장에 나타나는 개체들은 주로 동일한 주제를 가지게 되는데 본 논문에서는 이러한 특징을 활용하기 위해서 개체들을 그래프상의 노드로 표현하고, 그래프 신경망을 이용하여 주변 노드의 정보를 통해 노드 표상을 업데이트한다. 한국어 위키피디아 링크 데이터를 사용하여 실험을 진행한 결과 개발 셋에서 82.09%, 평가 셋에서 81.87%의 성능을 보였다.

  • PDF

품사 부착 실험을 통한 Bags-of-Features 방법의 정량적 평가 (Quantitative Evaluation of Bags-of-Features Method Using Part-of-Speech Tagging)

  • 이찬희;이설화;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.298-300
    • /
    • 2017
  • 본 논문에서는 단순하지만 효과적인 단어 표현 방법인 Bags of Features에 대한 비교 실험을 수행한다. Bags of Features는 어휘집의 크기에 제한이 없으며, 문자 단위의 정보를 반영하고, 벡터화 과정에서 신경망 구조에 의존하지 않는 단어 표현 방법이다. 영어 품사 부착 실험을 사용하여 실험한 결과, one-hot 인코딩을 사용한 모델과 대비하여 학습 데이터에 존재하지 않는 단어의 경우 49.68%, 전체 부착 정확도는 0.96% 향상이 관찰되었다. 또한, Bags of Features를 사용한 모델은 기존의 영어 품사 부착 분야의 최첨단 모델들 중 학습 데이터 외의 추가적인 데이터를 활용하지 않는 모델들과 비견할 만한 성능을 보였다.

  • PDF

텍스트 이해 모델에 기반한 정보 검색 시스템 (Text Undestanding System for Summarization)

  • 송인석;박혁로
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.1-6
    • /
    • 1997
  • 본 논문에서는 인지적 텍스트 이해 모형을 제시하고 이에 기반한 자동 요약 시스템을 구현하였다. 문서는 정보의 단순한 집합체가 아닌 정형화된 언어 표현 양식으로서 단어의 의미적 정보와 함께 표현 양식, 문장의 구조와 문서의 구성을 통해 정보를 전달한다. 요약 목적의 텍스트 이해 및 분석 과정을 위해 경제 분야 기사 1000건에 대한 수동 요약문을 분석, 이해 모델을 정립하였고. 경제 분야 기사 1000건에 대한 테스트 결과를 토대로 문장간의 관계, 문서의 구조에서 요약 정보 추출에 사용되는 정보를 분석하였다. 본 텍스트 이해 모형은 단어 빈도수에 의존하는 통계적 모델과 비교해 볼 때, 단어 간의 관련성을 찾아내고, 문서구조정보에 기반한 주제문 추출 및 문장간의 관계를 효과적으로 사용함으로서 정보를 생성한다. 그리고 텍스트 이해 과정에서 사용되는 요약 지식과 구조 분석정보의 상관관계를 체계적으로 연결함으로서 자동정보 추출에서 야기되는 내용적 만족도 문제를 보완한다.

  • PDF

수화 자동 생성을 위한 한국어 문장 분석과 처리 (Analysis and Computational Processing of Sentences in Korean for Automatic Sign Language Generation)

  • 최지원;박종철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.219-226
    • /
    • 2003
  • 한국 수화는 한국어에 대한 기본적인 유사성을 가지고 있지만, 교착어이자 청각-음성 체계 언어인 한국어와는 달리 고립어이자 시각-운동 체계 언어로서의 특성을 동시에 나타내고 있다. 그러므로 텍스트 형태의 한국어 문장으로부터 수화를 자동 생성하기 위해서는 한국어를 위해 미리 정의된 문법에 수화 표현을 무리하게 연계시키려고 하기 보다, 수화 고유의 의미 전달 체계를 분석하고 활용하여야 할 필요가 있다. 본 논문에서는 수화 표현상의 언어학적 특징을 재현 생략 변형 이동의 네 가지로 구분하여 분석하고 결합범주문법을 이용한 이 같은 형상의 처리 방법 및 구현 방안에 대하여 논의한다.

  • PDF

느낌만이 뜻인가? (Is feeling enough for-meanings?)

  • 이건원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1989년도 한글날기념 학술대회 발표논문집
    • /
    • pp.236-239
    • /
    • 1989
  • 뜻이 느낌만으로 충분한가를 살펴본다. 느낌이 보거나 들을 수 없다는 특성을 감안하여 보거나 들을 수 있는 또 다른 언어로 표현된 것에 의하여 고찰하는 것이 더 정확하다고 보아서 변역에 의하여 고찰하는 방법을 택한다. 한 표현p에 대한 느낌을 인지자i의 주관적인 작용에 따라 다르다는 것은 분명하나 그 다름을 식별하는 어려움이 있어서 변역에 의한다. 성급히 보편적인 뜻이 없다고는 못하나 실제로는 합의된 뜻이 사용된다. 합의는 절대적이지 않아서 절대적인 분식성과 개연성의 이분법을 받아들이지 않는다. 또 이러한 관점에서 양상논리의 삼분법보다는 다치논리가 더 엄밀하다고 본다. 그래서 함의된 뜻에서의 합의는 이분법이나 삼분법에 의한 합의가 아닌 확률적인 정도에 의존한다.

  • PDF

문서 구조 정보에 기반한 웹 페이지 범주화 모델 (A Web Page Categorization Model Based on Document Structural Information)

  • 정성화;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.91-96
    • /
    • 1998
  • 본 논문에서는 주제범주 체계를 이용한 웹 검색이 가지는 장점을 이용 할 수 있도록 인터넷 웹 페이지들을 주제범주 체계에 따라 자동으로 분류하는 모델을 제시한다. 특히 웹 페이지 작성자들의 의도를 범주화에 반영할 수 있는 방법으로 HTML 태그를 이용한다. 즉 웹 페이지의 표현에 있어서 벡터 스페이스 모델에서의 색인어 빈도 가중치에 태그 가중치를 추가 하여 보다 좋은 성능을 얻도록 하였다. 그리고 주제범주를 표현하는데 사용되는 자질의 선정에는 기대상호정보, 상호정보 척도를, 문서간 유사도 비교에는 최근린법을 사용하였다. 전북대에서 정보탐정용으로 분류한 웹 페이지를 대상으로 실험하였으며, 기본 모델 대비 약 7%의 정확도 향상을 얻을 수 있었다.

  • PDF

SGML/XML 정보검색 시스템의 구성과 구현 방법론 사례연구 : STEER-SGML/XML (Constructing and Implementing SGML/XML Information Retrieval Systems with a Case Study : STEER-SGML/XML)

  • 박영찬;김문석;김남일;주종철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.105-110
    • /
    • 1998
  • SGML/XML은 임의 형태 문서, 임의 응용에 대해 일반화 마크업을 정의하기 위한 방법을 기술하는 메타언어이다. 즉 문서의 작성시에 고려되는 문서의 논리적 정보를 표현 가능하다. 이러한 논리적 구분을 이용하여 정보사용자에게 좀 더 정확한 검색을 제공할 수 있다. SGML/XML을 이용하여 표현된 계층적 논리정보를 이용하여 다양한 문서 접근점을 제공할 수 있으며, 문서의 재사용 및 동적인 문서제시를 가능케 한다. 본 논문에서는 SGML/XML 정보검색의 장점과 이러한 시스템을 구현하기 위한 구현 단계 및 구성요소를 알아보고자 한다. 아울러 구현사례로 STEER-SGML/XML 검색 시스템을 알아본다.

  • PDF

신문 사설의 특징적 표현들에 대한 연구 (Key Expressions in Editorial Texts: Determining the Unithood and Termhood of Word Sequences based on a 2009 Newspaper Corpus)

  • 김혜영;강범모
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.185-190
    • /
    • 2012
  • 본 논문은 동아, 조선, 중앙, 한겨레 신문의 2009년 신문 사설의 제목과 본문에서 나타나는 n-gram에 대한 논의이다. 구체적으로 자주 출현하는 단어들의 연속 단위 3~6개의 형태소를 추출하여 신문 사설에서 나타난 고빈도 형태소 연속체를 살펴본다. 또한 이들을 기사문에서 추출한 패턴과 로그공산비로 비교하여 신문 사설에서 더 특징적인 의미로 사용되는 어휘들을 살펴본다. 그 결과, 사설 본문에서는 3-gram은 '아야 한다'. 4-gram은 'ㄹ 것이다', 5-gram은 'ㄹ 수밖에 없다', 6-gram은 '아야 할 것이다' 등이, 사설 제목은 '것인가, 안 된다'가 하나의 용어처럼 사용되고 있었다. 이러한 형태소 연속체를 살펴봄으로써, 신문사설의 텍스트 특징과 정형적인 표현에 대해서 살펴볼 수 있다.

  • PDF

한국어 의존 구문 분석을 위한 개선된 Deep Biaffine Attention (Improved Deep Biaffine Attention for Korean Dependency Parsing)

  • 오동석;우종성;이병우;김경선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.608-610
    • /
    • 2018
  • 한국어 의존 구문 분석(Dependency Parsing)은 문장 어절의 중심어(head)와 수식어(modifier)의 의존관계를 표현하는 자연어 분석 방법이다. 최근에는 이러한 의존 관계를 표현하기 위해 주의 집중 메커니즘(Attention Mechanism)과 LSTM(Long Short Term Memory)을 결합한 모델들이 높은 성능을 보이고 있다. 본 논문에서는 개선된 Biaffine Attention 의존 구문 분석 모델을 제안한다. 제안된 모델은 기존의 Biaffine Attention에서 의존성과 의존 관계를 결정하는 방법을 개선하였고, 한국어 의존 구문 분석을 위한 입력 열의 형태소 표상을 확장함으로써 기존의 모델보다 UAS(Unlabeled Attachment Score)가 0.15%p 더 높은 성능을 보였다.

  • PDF

KBCNN: CNN을 활용한 지식베이스 완성 모델 (KBCNN: A Knowledge Base Completion Model Based On Convolutional Neural Networks)

  • 김지호;한기종;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.465-469
    • /
    • 2018
  • 본 논문에서는 지식베이스 완성을 위한 새로운 모델, KBCNN을 소개한다. KBCNN 모델은 CNN을 기반으로 지식베이스의 개체들과 관계들 사이의 연관성을 포착한다. KBCNN에서 각 트리플 <주어 개체, 관계, 목적어 개체>는 3개의 열을 가진 행렬로 표현되며, 각각의 열은 트리플의 각 원소를 표현하는 임베딩 벡터다. 트리플을 나타내는 행렬은 여러 개의 필터를 가지고 있는 컨볼루션 레이어를 통과한 뒤, 하나의 특성 벡터로 합쳐진다. 이 특성 벡터를 가중치 행렬과 내적 하여 최종적으로 해당 트리플의 신뢰도를 출력하게 된다. 이 신뢰도를 바탕으로 트리플의 진실 여부를 가려낼 수 있다. 지식베이스 완성 연구에서 가장 많이 사용되는 데이터셋인 FB15k-237을 기반으로 한 실험을 통해 KBCNN 모델이 기존 임베딩 모델들보다 뛰어난 성능을 보이는 것을 확인하였다.

  • PDF