• 제목/요약/키워드: 어휘자원

검색결과 78건 처리시간 0.022초

명사 어휘의미망을 활용한 문법 검사기의 문맥 오류 결정 규칙 일반화 (Generalization of error decision rules in a grammar checker using Korean WordNet, KorLex)

  • 소길자;이승희;권혁철
    • 정보처리학회논문지B
    • /
    • 제18B권6호
    • /
    • pp.405-414
    • /
    • 2011
  • 국내에서 가장 일반적으로 사용되고 있는 규칙 기반 오류 검출 방법은 언어 전문가가 한국어 문서에서 자주 발생하는 오류에 대한 검출 규칙을 경험적으로 구축하고 있다. 그러나 이렇게 경험적으로 규칙을 만들면 새로운 패턴의 문장이 나타날 때마다 규칙이 수정되어야 하므로 일관성 있는 오류 검사 및 교정을 기대할 수 없다. 본 논문에서는 이를 해결하려고 최근 개발되고 있는 어휘의미망 중에서 KorLex와 같은 정규화된 언어 자원을 활용하여 단어들의 범주 정보를 추출하고 이를 이용하여 오류 결정 규칙을 일반화한다. 그러나 현재 구축된 KorLex에는 명사의 계층관계 정보는 구축되어 있지만, 문장 요소와의 관계 정보, 즉, 격틀 정보가 부족하다. 본 논문에서는 용언 의미 오류 결정 규칙으로 사용할 선택제약 명사 클래스를 정보이론에 기초한 MDL과 Tree Cut Model을 활용하여 추출하고 이러한 선택제약 명사 클래스를 사용하여 문법 검사기 규칙을 일반화하는 방안을 제안한다. 실험 결과, 혼동하기 쉬운 네 개의 용언에 대해 목적어로 사용된 명사를 선택제약 명사 클래스로 일반화하여 문법 검사기 오류 결정 규칙 수를 평균 64.8%로 줄였고 기존 명사를 사용한 문법 검사기보다 정확도 측면에서 평균 약 6.2%정도 향상된 결과를 얻을 수 있었다.

시소러스와 술어 패턴을 이용한 의미역 부착 한국어 하위범주화 사전의 구축 (Constructing a Korean Subcategorization Dictionary with Semantic Roles using Thesaurus and Predicate Patterns)

  • 양승현;김영섬;우요섭;윤덕호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제6권3호
    • /
    • pp.364-372
    • /
    • 2000
  • 하위범주화는 보어의 어휘 개념이 명시된 술어와 보어간 의존 관계를 정의하는 언어 정보로서 구문 및 의미 분석 등에 폭넓게 활용될 수 있는 기반 언어 자원이라는 데에 그 중요성이 있다. 본 논문에서는 표층문에서 통상 격표지로 표현되는 구문적 의존 관계뿐만 아니라, 보어가 갖는 의미역 정보가 부착되어 있으며 시소러스 개념 분류 체계와 연동 가능한 한국어 술어의 하위범주화 사전의 구축에 대해 설명하고 있다. 본 논문에서는 하위범주화 사전의 의미역 표현을 위해 총 25개의 의미역을 설정하고 있다. 이 의미역은 표층 격표지와 직접 연관되어 있기 때문에 통사적인 분석으로부터 직접 의미역 정보를 추출해서 의미 구조의 해석에 이용하는 것이 가능하다. 또한 명사 보어가 갖는 개념의 표현을 위해 상ㆍ하위어 관계를 갖는 12만 어휘 규모의 시소러스를 이용하고 있으며, 술어의 의존 관계 표현을 위해 동사, 형용사에 대해 각각 47, 17 개의 하위범주화 패턴을 이용하고 있다. 실용적 규모의 시소러스를 이용함으로써 문장에 나타난 명사의 시소러스 개념을 그대로 하위범주화 사전에 적용시켜 의미 정합 여부를 판단할 수 있는 실질적인 선택제약 체계를 구성할 수 있었고, 표층 격표지에 기초한 표준화된 술어 패턴을 이용함으로써 의미역의 결정 등에서 야기될 수 있는 비일관성을 방지하고 구축에 드는 비용을 절감할 수 있었다. 이상과 같은 방법으로 말뭉치에서 추출한 고빈도 술어 13,000 여개에 대해 하위범주화 사전을 구축하였으며, 적용 범위 평가 실험에 의하면 이 하위범주화 사전은 말뭉치에서 발견된 술어의 72.7%에 대해 하위범주화 정보를 제공할 수 있음을 확인하였다.

  • PDF

ISAAC :문장분석용 통합시스템 및 사용자 인터페이스 (ISAAC : An Integrated System with User Interface for Sentence Analysis)

  • 김곤;김민찬;배재학;이종혁
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.107-116
    • /
    • 2004
  • 본 논문에서 소개할 ISAAC(An Interface for Sentence Analysis & Abstraction with Cogitation)은 문장분석용 통합 사용자 인터페이스를 제공한다. 이 시스템에는 문장 분석 시 필요한 다양한 언어학적 도구와 자원이 통합되어 있다. 문장분석에 가용한 도구와 자원은 대부분 독립적으로 개발 축적된 것들이다. 이들을 활용한 문장분석의 경우, 단계적으로 얻어지는 문장분석 정보들을 문장분석가가 관리, 처리하기에는 어려움이 있다. 이에 본 논문에서는 가용 도구와 자원들을 통합하고, 각 기능들에 대해 사용자 중심의 일관된 인터페이스를 ISAAC이 제공하도록 하였다. 문장분석 처리과정은 총 14단계로 나눌 수 있었다. ISAAC에서는 이 단계들을 독립적인 기능을 가지는 4개의 모듈 - $\cicled1$문장의 통사구조 분석, $\cicled2$원형어휘 판별, $\cicled3$Roget 시소러스 범주정보 검색, $\cicled4$OfN(Ontology for Narratives) 범주정보 검색 - 로 처리하게 되어 있다. 따라서, ISAAC을 활용한 문장분석의 경우, 전체 14단계의 처리과정이 4개의 단계로 줄어든다. 이것은 문장분석가의 작업효율을 3.5배 이상 향상시킨 수 있음을 의미한다. 뿐만 아니라, 각 단계별 처리에 필요한 지루한 정보기록 이전작업을 ISAAC이 담당하게 함으로써 문장분석정보의 정확성도 높일 것으로 예상할 수 있다.

문장 감정 강도를 반영한 개선된 자질 가중치 기법 기반의 문서 감정 분류 시스템 (A Document Sentiment Classification System Based on the Feature Weighting Method Improved by Measuring Sentence Sentiment Intensity)

  • 황재원;고영중
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권6호
    • /
    • pp.491-497
    • /
    • 2009
  • 본 논문은 한국어 문서감정 분류에서 각 문장의 감정 정도의 차이를 고려하여 자질의 가중치를 계산하는 방법을 제안한다. 감정자질은 어휘 자원으로서 감정을 가지는 단어들의 집합이며, 학습데이터를 이용하여 이 감정자질의 카이제곱 통계량 값(${\chi}^2$ statistic)을 얻을 수 있다. 이렇게 얻어진 카이제곱 통계량 값으로 문서에서 출현한 각 문장의 감정강도를 수치화 할 수 있다. 각 문장의 감정강도는 문서에서 가장 강한 감정을 가진 문장에 근한 비율로 계산되며, 이 값을 TF-IDF 가중치 기법에 적용하여 최종적인 자질의 가중치를 결정하게 된다. 그리고 일반적으로 문서 분류에서 뛰어난 성능을 보여주는 지지벡터기계(Support Vector Machine)를 사용하여 기계학습을 수행한 후 성능을 평가한다. 성능평가에서 제안된 기법은 문장감정의 강도를 고려하지 않은 내용어(Content Word) 기반의 자질을 사용한 경우보다 약 2.0%의 성능향상을 얻었다.

저사양 기기를 위한 한국어 자동 띄어쓰기 시스템 (An Automatic Korean Word Spacing System for Devices with Low Computing Power)

  • 송영길;김학수
    • 정보처리학회논문지B
    • /
    • 제16B권4호
    • /
    • pp.333-340
    • /
    • 2009
  • 대부분의 기존 자동 띄어쓰기 시스템들은 많은 시스템 자원을 필요로 하기 때문에 상대적으로 낮은 컴퓨팅 파워를 가진 모바일 기기에 사용하기에는 적합하지 않다. 본 논문에서는 저사양 모바일 기기에 맞도록 메모리 사용량이 적고 수치 계산이 단순한 자동 띄어쓰기 시스템을 제안한다. 제안 시스템은 통계 기반 시스템과 규칙 기반 시스템으로 구성된 2단계 모델이다. 메모리 사용량을 줄이기 위해서 통계 기반 시스템이 음절 유니그램 기반의 개량된 은닉 마코프 모델을 사용하여 띄어쓰기 오류를 1차로 수정한다. 다음으로 정밀도 향상을 위해서 규칙 기반 시스템이 음절 바이그램 이상의 어휘 규칙을 이용하여 잘못 수정된 띄어쓰기 오류를 재보정한다. 실험 결과에 따르면 제안시스템은 1MB를 조금 넘는 메모리 사용하면서도 94.14%라는 비교적 높은 정밀도를 보였다.

구조화된 소셜 메타데이터를 활용한 이미지 자료의 시맨틱 검색에 관한 실험적 연구 (An Experimental Study on Semantic Searches for Image Data Using Structured Social Metadata)

  • 김현희;김용호
    • 한국문헌정보학회지
    • /
    • 제44권1호
    • /
    • pp.117-135
    • /
    • 2010
  • 본 연구는 이미지의 시맨틱 검색을 위해서 동등어, 동의어 및 관련어를 질의 확장시에 사용하여 태그를 통제한 구조화된 폭소노미 시스템의 모형을 제안하였다. 그런 다음 제안한 시스템의 효율성을 평가하기 위해서 실험을 통해서 이 시스템을 태그를 전혀 통제하지 않은 태그 기반 시스템과 검색 효율성(재현율과 정확률)과 만족도 측면에서 비교해 보았다. 이외에 검색 효율성이 질의 확장 방식에 따라서 어떤 차이를 보이는지 조사해 보았다. 실험 결과, 제안된 구조화된 폭소노미 시스템이 태그 기반 시스템 보다 재현율, 정확률 및 만족도에서 더 높게 나타났으며 그 차이도 통계적으로 유의미한 것으로 나타났다. 한편 질의 확장 방식에 따라서 재현율은 차이가 없었지만 정확률은 부분적으로 차이가 있는 것으로 나타났다. 본 연구 결과는 라이브러리 2.0 시대의 디지털 도서관 시스템에 적용되어 디지털 자원에 대한 접근성을 향상시킬 수 있을 것이다.

2019 개정 RDA 특징 분석에 관한 연구 (A Study on Analyzing the Features of 2019 Revised RDA)

  • 이미화
    • 한국도서관정보학회지
    • /
    • 제50권3호
    • /
    • pp.97-116
    • /
    • 2019
  • 본 연구는 2019년 RDA 개정에 따라 개정 RDA의 특징을 분석하고 이를 바탕으로 목록 측면에서 고려사항을 제안하고자 문헌연구를 실시하였다. 개정 RDA 분석을 통해 목록분야에서 고려사항으로 다음 3가지를 제시하였다. 첫째, 목록데이터를 시맨틱 웹 구축이 가능한 링크드데이터로 변환하려면 목록데이터 보완 및 어휘집 구축과 같은 고품질의 데이터 구축이 우선되어야 한다. 둘째, MARC 데이터를 링크드데이터로 완전하게 변환하기 전까지 MARC가 서지데이터의 유일한 인코딩 포맷이므로 개정 RDA에 반영된 LRM 및 링크드데이터의 새로운 개념을 MARC에서 수용할 수 있도록 이를 확장할 필요가 있다. 셋째, 개정 RDA에 포함된 개체 및 요소별로 다양한 조건과 옵션이 있고, 자료유형에 따라서도 입력 요소가 다르기 때문에 일관된 기술을 위해서는 정책 문서와 이에 적합한 응용프로파일이 구체적으로 개발되어야 한다. 본 연구를 시작으로 앞으로 MARC뿐만 아니라 BIBFRAME에서도 개정 RDA의 새로운 개념을 적용하기 위한 연구가 필요하며, 또한, 목록 규칙의 개정이 필요한 국가 및 도서관에서는 개정 RDA 규칙과 레지스트리를 이용할 수 있도록 RDA를 수용하는 방안을 고려해 볼 필요가 있다.

산림 치유 공간에서의 개인 감정 인지 효과에 관한 연구 (A Study on Personalized Emotion Recognition in Forest Healing Space - Focus on Subjective Qualitative Analysis and Bio-signal Measurement -)

  • 이양우;서용모;이정년;황민철
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제13권2호
    • /
    • pp.57-65
    • /
    • 2019
  • 본 연구는 산림 자원의 다양한 효과 중에서 정서적인 안정과 같은 심리적 요인에 대한 과학적 접근이다. 본 연구를 진행하기 위하여 산림 치유공간을 다양한 공간으로 설정하여 피실험자들을 대상으로 실험을 진행하였다. 본 실험에 참여한 피실험자들은 20대 대학생들로 평균 나이가 22±1.25세였다. 피실험자들은 지정된 각기 다른 산림치유공간에서 주관적 서열평가를 통해 감성 단어들에 대한 평가를 실시하였다. 또한 이들의 인식하는 감성에 대한 생체반응을 측정하여 실제로 인지하고 있는 감성적 상태를 확인하였다. 본 연구에 적용된 생체신호반응 실험으로는 심박이 나타내는 BMP, SDNN, VLF, LF, HF, Amplitude 및 PPI를 활용하였다. 본 실험의 결과는 통계적 처리를 위해여 Friedman 검증과 Wilcoxon 검증을 적용하여 측정하였다. 본 연구에서는 주관적 감성어휘별에 대해서는 '좋은', '맑은' 및 '불편한' 단어가 산림치유공간의 지점별로 통계적 유의성을 확인하였다. 또한 산림 치유공간 각 지점에서의 정량적 생체신호 측정결과는 SDNN, HF 및 Amplitude가 통계적으로 유의하게 나타났다. 본 연구는 산림치유공간의 다양한 지역적 공간에서 인간이 인지하는 감성적 차원을 측정하였다. 산림 공간에 있어서도 공간적 입지가 인간의 감성적 차원을 유도하는 분위기가 다르다는 것을 확인한 것이다. 본 연구의 결과를 기반으로 산림치유공간 및 산림 자원의 활용 분야에 대한 적용방향과 전략적 활용방안을 제시할 수 있다. 이는 감성 기반의 산린 치유에 대한 공간적 시설 및 물리적 요건들을 통해 시설을 이용하는 이용객들에게 가이드를 제공할 뿐만 아니라 개인 맞춤형 감성 공간 디자인적 측면으로도 활용이 가능하다.

인간언어공학에의 활용을 위한 이종 개념체계 간 사상 - 세종의미부류와 KorLexNoun 1.5 - (Mapping Heterogenous Ontologies for the HLP Applications - Sejong Semantic Classes and KorLexNoun 1.5 -)

  • 배선미;임경업;윤애선
    • 인지과학
    • /
    • 제21권1호
    • /
    • pp.95-126
    • /
    • 2010
  • 본 연구에서는 인간언어공학에서의 활용을 위해 매우 이질적인 세종전자사전의 의미부류(SJSC)와 KorLexNoun 1.5(KLN)의 상위노드 간의 사상을 목표로, '의미 입자(sense grain)가 작은 개념체계(fine-grained ontology)' 간 귀납적이며 상향적인 수동 사상 방법론을 제안하였다. 동시에 이종 자원 간의 사상에 있어 각 의미체계의 이질성 때문에 발생하는 여러 가지 문제점을 살펴보고, 그 해결방안도 제안하였다. 두 이종 개념체계 간의 사상 방법은 SJSC의 단말 노드와 KLN의 Least Upper Bound(LUB)를 기본단위로 하여, 첫째, 어휘 분포를 이용하여 사상 후보군을 결정하고, 둘째, 계층 관계와 정의문과 용례를 이용하여 후보군들 간의 정확한 의미구분을 하며, 셋째, 상 하위-자매노드에 SJSC의 적정술어 및 정의문을 적용하여 LUB의 단계를 결정하고, 넷째, 양 의미체계의 계층관계를 비교함으로써 SJSC의 단말 노드와의 사상 여부를 판단하며, 마지막으로 KLN의 오류 및 전문용어 후보군은 사상에서 제외하였다. 이와같이 본 연구에서는 단계별 사상 준거의 설정에 있어 각 의미체계에 기술되어 있는 다양한 언어정보를 적극 이용하였는데, 이는 세밀한 수동 사상의 장점이라 할 수 있다. 본 연구에서 제안한 방법으로 사상한 결과, SJSC의 474개의 단말 및 비단말 노드와 KLN의 신셋(synset) 간에는 중복을 제외하고 6,487개의 LUB가 사상되었으며, 각 LUB의 하위노드를 포함해서는 모두 88,255개의 KLN 신셋이 사상되어 전체적으로는 97.91%가 사상되었다. 본 연구의 결과는 정교한 한국어 통사 및 의미 분석에 활용될 수 있을 것이다.

  • PDF

조선시대 선생안 온톨로지 설계 (Ontology Design for the Register of Officials(先生案) of the Joseon Period)

  • 김사현
    • 동양고전연구
    • /
    • 제69호
    • /
    • pp.115-146
    • /
    • 2017
  • 본고는 조선시대 선생안의 디지털 아카이브를 위한 온톨로지(Ontology) 설계에 관한 연구이다. 선생안(先生案)은 조선시대 각 관청에서 소속 관원(官員)의 인적사항 및 인사이동을 기록한 일종의 인명부(人名簿)이다. 일반적으로 관원의 성명(姓名), 생년(生年), 자(字), 본관(本貫) 등의 인적사항 정보와 관직(官職), 제배일(除拜日), 도임일(到任日), 체임일(遞任日), 체임사유(遞任事由) 등의 인사이동 정보가 기록되어 있다. 현전(現傳)하고 있는 선생안은 국 내외 도서관 및 박물관에 소장되어 있으며 그 수는 176종으로 알려져 있다. 이 중에서 한국학중앙연구원 장서각에 소장된 47건의 선생안을 대상으로 선생안의 내용 및 구조를 검토하고, 선생안의 소장처, 선생안 기록 주체인 관청, 기록된 관직, 관원 등 관련 있는 주변의 내용을 담아낼 수 있는 온톨로지를 설계한다. 조선시대 선생안 온톨로지는 실물자료인 선생안 소장정보와 선생안에 기록된 내용의 특징을 반영해 관원, 관청, 인사이동에 초점을 맞추어 설계하였다. 온톨로지 설계는 대상자원을 클래스(Class)로 범주화 하고, 범주에 속하는 개체들(Individuals)은 공통의 속성(Attribute)를 갖도록 하였다. 그리고 각각의 개체들은 다른 개체와의 관계(Relation)를 명시적으로 표현할 수 있는 의미적인 관계어를 정의하였다. 클래스는 '선생안', '인물', '관청', '관직', '장소', '과거(科擧)', '기록', '개념' 등 8개로 범주화하였다. 관계, 속성의 설계는 기존에 설계되어 활용되고 있는 '더블린코어(Doublin Core)', '유로피아나데이터모델(Europeana Data Mode)', 'CIDOC-CRM', '과거 합격자 데이터베이스를 위한 데이터 모델' 등의 어휘를 참조하여 설계하였다. 기존 데이터모델에서 설계한 어휘를 사용한 경우에는 해당 데이터모델의 이름 공간(Namespace)을 사용하였으며, 필요한 경우 필자가 관계를 정의하였다. 설계한 온톨로지는 명릉선생안(明陵先生案)으로 구현 예시를 보이고, 하나의 선생안에서 다수의 선생안으로 대상을 확대하여 정보를 입력하였을 때 기대되는 효과와 활용 방안에 대해 모색해 보았다. 조선시대 선생안 온톨로지는 현전하는 선생안 176종 모두를 검토하여 설계된 것이 아니기 때문에 완벽한 온톨로지로써 기능하기에는 무리가 있다. 지속적으로 선생안의 정보가 입력되는 과정에서 온톨로지 모델의 수정 및 보완이 필요하며, 그 지향점은 선생안에 기록된 정보들을 체계적으로 정리하기 위한 것도 있지만, 선생안에서 확인되는 인물, 관직 등의 정보 요소가 이미 서비스 구축 되었거나, 향후 제작될 조선시대 인물에 관한 데이터베이스 혹은 아카이브와 연계될 수 있는 것도 고려해야 할 것이다. 조선시대 선생안 온톨로지로 입력된 정보는 조선시대 관청 운영과 인사시스템을 볼 수 있는 일면으로 활용되고, 이미 구축된 여타 조선시대와 관련된 데이터베이스와 연계되어 조선시대의 정치 경제 사회 문화를 종합적으로 이해하는 자료의 하나로 기능하기를 기대한다.