• 제목/요약/키워드: 어휘정보

검색결과 1,062건 처리시간 0.023초

표층 구문 타입을 사용한 조건부 연산 모델의 일반화 LR 파서 (Generalized LR Parser with Conditional Action Model(CAM) using Surface Phrasal Types)

  • 곽용재;박소영;황영숙;정후중;이상주;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권1_2호
    • /
    • pp.81-92
    • /
    • 2003
  • 일반화 LR(Generalized LR, 이하 GLR) 파싱은 선형 스택을 사용하는 전통적인 LR 파싱 방식의 한계를 극복하도록 만들어진 LR 파싱 기법의 하나로서, LR 기법에 여러 가지 매커니즘을 통합하여 자연어 파싱에 응용하는 작업의 토대가 되어 왔다. 본 논문에서는 기존의 확률적 LR 파싱 기법이 가지고 있는 문제를 개선한 조건부 연산 모델(Conditional Action Model)을 제안한다. 기존의 확률적 LR 파싱 기법은 그래프 구조 스택의 복잡성으로 인해 상대적으로 제한된 문맥 정보만을 사용하여 왔다. 제안된 모델은 부분 생성 파스의 표현을 위하여 표층 구문 타입(Surface Phrasal Type)을 사용하여 그래프 구조 스택에 들어 있는 구문 구조를 기술함으로써 좀 더 세분된 구조적 선호도를 파서에 반영시킬 수 있다. 실험 결과, 어휘를 고려하지 않고 학습한 조건부 연산 모델로 구현된 본 GLR 파서는 기존의 방식보다 약 6-7%의 정확도 향상을 보였으며, 본 모델을 통해 풍부한 스택 정보를 확률적 LR 파서의 구조적 중의성 해결에 효과적으로 사용할 수 있음을 보였다.

VAE를 이용한 의미적 연결 관계 기반 다중 문서 요약 기법 (Multi-Document Summarization Method Based on Semantic Relationship using VAE)

  • 백수진
    • 디지털융복합연구
    • /
    • 제15권12호
    • /
    • pp.341-347
    • /
    • 2017
  • 많은 양의 문서 데이터가 증가됨에 따라 사용자는 해당 문서를 이해하기 위한 요약된 정보를 필요로 한다. 그러나, 기존 문서 요약 연구 방법들은 지나치게 단순한 통계에 의존함으로써 문장의 모호성 및 의미 있는 문장 생성을 위한 다중 문서 요약 연구가 미흡한 실정이다. 본 논문에서는 의미적 연결 관계에 대한 파악 및 불필요한 정보를 처리하기 위한 전처리 과정을 거치며, 어휘 의미 패턴 정보를 기반으로 VAE를 이용하여 문장 간의 의미적 연결성을 높인 다중 문서 요약 기법을 제안하였다. 문장을 이루고 있는 단어 벡터들을 이용하여, 잠재된 변수로 생성된 압축된 정보와 속성 판별기로부터 학습을 한 후 문장을 재구성함으로써 의미적 연결 처리가 자연스러운 요약문을 생성하였다. 제안된 방법과 다른 문서 요약 방법을 비교했을 시 미세하지만 더 향상된 성능을 나타냈으며, 이는 의미적 문장 생성 및 연결성을 높일 수 있음을 증명하였다. 앞으로, 다양한 속성 설정 값을 가지고 실험하여 의미적 연결 관계를 확장할 수 있는 방법을 연구하고자 한다.

감성분석과 SVM을 이용한 인터넷 악성댓글 탐지 기법 (A Malicious Comments Detection Technique on the Internet using Sentiment Analysis and SVM)

  • 홍진주;김세한;박제원;최재현
    • 한국정보통신학회논문지
    • /
    • 제20권2호
    • /
    • pp.260-267
    • /
    • 2016
  • 인터넷을 통해 많은 정보를 얻고 많은 정보를 타인에게 제공하면서 개인의 삶의 양식에 큰 변화를 가져다주었다. 모든 사회 현상에는 양면성이 있듯이 인터넷 익명성을 이용하여 명예훼손, 인신공격, 사생활 침해등과 같이 악의적으로 이용하여 사회적으로 심각한 문제를 양산하고 있다. 인터넷 게시판의 악성댓글은 인터넷에서 발생하는 불법적인 언사나 행위와 관련하여 가장 대두되고 있는 문제이다. 이러한 문제를 해결하기 위해 많은 연구가 진행되고 있지만 악성댓글에 사용된 단어들은 변형이 많이 나타나기 때문에 기존 연구들은 이러한 변형된 악성어휘를 인식하는데 한계점이 존재한다. 이에 본 연구에서는 기존 연구의 한계점을 개선하여 악성댓글을 탐지하는 기법을 제안한다. 실험결과 87.8%의 정확도를 나타냈으며, 이는 기존 연구들에 비해 상당히 발전된 결과로 볼 수 있다.

도메인 온톨로지를 이용한 검색 시스템 설계 및 구현 (Design and Implementation of Search System Using Domain Ontology)

  • 강래구;정채영
    • 한국정보통신학회논문지
    • /
    • 제11권7호
    • /
    • pp.1318-1324
    • /
    • 2007
  • 지금까지의 상품 검색 방법으로는 찾고자하는 정보를 검색할 때 주로 단어의 빈도수나 어휘 정보를 이용하는 키워드 기반의 검색이 주로 쓰이고 있었다. 키워드 기반의 검색에서는 사용자의 질의와 관련이 없는 문서들까지도 같은 결과로 나타내 주고 이로 인해 사용자는 제시된 결과를 한번 더 수동적으로 검색해야하는 부담을 않게 되었다. 이러한 문제점을 해결하기 위해 온톨로지가 대두되었다. 본 논문에서는 온톨로지를 이용한 상품 검색 시스템을 직접 구축하여 분류별 검색을 통해 얼마나 정확한 검색을 하는지 실험하였다. 실험을 위해 전국적으로 On/Off라인 할인점을 운영 중에 있는 A할인점의 상품 데이터 약 40,000여개를 데이터 베이스로 구축하였고 User Interface 개발환경은 JSP와 PowerBuilder9.0을 사용하여 검색 시스템을 개발하여 실험하였다. 그 결과 본 논문에서 제안하고 설계한 상품 도메인 온톨로지를 이용한 검색 방법이 기존의 기반의 검색 방법보다 우수한 결과를 나타내고 있음을 입증하였다.

사회과학 분야 도서의 목차 텍스트에 대한 통계적 특성에 관한 연구 (A Study on the Statistical Characteristics for Table of Contents Text of the Books in Social Sciences Field)

  • 이용구
    • 정보관리학회지
    • /
    • 제36권2호
    • /
    • pp.255-273
    • /
    • 2019
  • 이 연구는 최근 접근 및 활용이 높아지고 있는 목차에 대해 품사 측면과 주제 측면에서 가지는 기술통계와 비교 분석을 수행하였다. 이를 위해 대학 도서관의 수서 목록에서 사회과학분야 도서를 추출하고 해당하는 도서에 대해 종합목록으로부터 DDC 분류기호를, 인터넷 서점으로부터 목차 정보를 추출하였다. 서명과 목차를 대상으로 형태소 분석하여 명사 중심의 어휘에 대해 기술통계와 빈도 분석을 실시하였다. 그 결과 형태소 측면에서 서명과 목차는 명사가 대략 절반가량 차지하며, 서명과 비교하여 목차는 50배 정도 더 많은 명사를 가지며, 목차에 출현한 명사 중에 목차만이 고유하게 가지는 비율이 95.2%에 달하는 것으로 파악되었다. 또한 목차는 사회과학 학문분야에 따라 길이가 차이가 나는 것으로 나타났다.

조선시대 선생안 온톨로지 설계 (Ontology Design for the Register of Officials(先生案) of the Joseon Period)

  • 김사현
    • 동양고전연구
    • /
    • 제69호
    • /
    • pp.115-146
    • /
    • 2017
  • 본고는 조선시대 선생안의 디지털 아카이브를 위한 온톨로지(Ontology) 설계에 관한 연구이다. 선생안(先生案)은 조선시대 각 관청에서 소속 관원(官員)의 인적사항 및 인사이동을 기록한 일종의 인명부(人名簿)이다. 일반적으로 관원의 성명(姓名), 생년(生年), 자(字), 본관(本貫) 등의 인적사항 정보와 관직(官職), 제배일(除拜日), 도임일(到任日), 체임일(遞任日), 체임사유(遞任事由) 등의 인사이동 정보가 기록되어 있다. 현전(現傳)하고 있는 선생안은 국 내외 도서관 및 박물관에 소장되어 있으며 그 수는 176종으로 알려져 있다. 이 중에서 한국학중앙연구원 장서각에 소장된 47건의 선생안을 대상으로 선생안의 내용 및 구조를 검토하고, 선생안의 소장처, 선생안 기록 주체인 관청, 기록된 관직, 관원 등 관련 있는 주변의 내용을 담아낼 수 있는 온톨로지를 설계한다. 조선시대 선생안 온톨로지는 실물자료인 선생안 소장정보와 선생안에 기록된 내용의 특징을 반영해 관원, 관청, 인사이동에 초점을 맞추어 설계하였다. 온톨로지 설계는 대상자원을 클래스(Class)로 범주화 하고, 범주에 속하는 개체들(Individuals)은 공통의 속성(Attribute)를 갖도록 하였다. 그리고 각각의 개체들은 다른 개체와의 관계(Relation)를 명시적으로 표현할 수 있는 의미적인 관계어를 정의하였다. 클래스는 '선생안', '인물', '관청', '관직', '장소', '과거(科擧)', '기록', '개념' 등 8개로 범주화하였다. 관계, 속성의 설계는 기존에 설계되어 활용되고 있는 '더블린코어(Doublin Core)', '유로피아나데이터모델(Europeana Data Mode)', 'CIDOC-CRM', '과거 합격자 데이터베이스를 위한 데이터 모델' 등의 어휘를 참조하여 설계하였다. 기존 데이터모델에서 설계한 어휘를 사용한 경우에는 해당 데이터모델의 이름 공간(Namespace)을 사용하였으며, 필요한 경우 필자가 관계를 정의하였다. 설계한 온톨로지는 명릉선생안(明陵先生案)으로 구현 예시를 보이고, 하나의 선생안에서 다수의 선생안으로 대상을 확대하여 정보를 입력하였을 때 기대되는 효과와 활용 방안에 대해 모색해 보았다. 조선시대 선생안 온톨로지는 현전하는 선생안 176종 모두를 검토하여 설계된 것이 아니기 때문에 완벽한 온톨로지로써 기능하기에는 무리가 있다. 지속적으로 선생안의 정보가 입력되는 과정에서 온톨로지 모델의 수정 및 보완이 필요하며, 그 지향점은 선생안에 기록된 정보들을 체계적으로 정리하기 위한 것도 있지만, 선생안에서 확인되는 인물, 관직 등의 정보 요소가 이미 서비스 구축 되었거나, 향후 제작될 조선시대 인물에 관한 데이터베이스 혹은 아카이브와 연계될 수 있는 것도 고려해야 할 것이다. 조선시대 선생안 온톨로지로 입력된 정보는 조선시대 관청 운영과 인사시스템을 볼 수 있는 일면으로 활용되고, 이미 구축된 여타 조선시대와 관련된 데이터베이스와 연계되어 조선시대의 정치 경제 사회 문화를 종합적으로 이해하는 자료의 하나로 기능하기를 기대한다.

전문어의 범용 공간 매핑을 위한 비선형 벡터 정렬 방법론 (Nonlinear Vector Alignment Methodology for Mapping Domain-Specific Terminology into General Space)

  • 김준우;윤병호;김남규
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.127-146
    • /
    • 2022
  • 최근 워드 임베딩이 딥러닝 기반 자연어 처리를 다루는 다양한 업무에서 우수한 성능을 나타내면서, 단어, 문장, 그리고 문서 임베딩의 고도화 및 활용에 대한 연구가 활발하게 이루어지고 있다. 예를 들어 교차 언어 전이는 서로 다른 언어 간의 의미적 교환을 가능하게 하는 분야로, 임베딩 모델의 발전과 동시에 성장하고 있다. 또한 핵심 기술인 벡터 정렬(Vector Alignment)은 임베딩 기반 다양한 분석에 적용될 수 있다는 기대에 힘입어 학계의 관심이 더욱 높아지고 있다. 특히 벡터 정렬은 최근 수요가 높아지고 있는 분야간 매핑, 즉 대용량의 범용 문서로 학습된 사전학습 언어모델의 공간에 R&D, 의료, 법률 등 전문 분야의 어휘를 매핑하거나 이들 전문 분야간의 어휘를 매핑하기 위한 실마리를 제공할 수 있을 것으로 기대된다. 하지만 학계에서 주로 연구되어 온 선형 기반 벡터 정렬은 기본적으로 통계적 선형성을 가정하기 때문에, 본질적으로 상이한 형태의 벡터 공간을 기하학적으로 유사한 것으로 간주하는 가정으로 인해 정렬 과정에서 필연적인 왜곡을 야기한다는 한계를 갖는다. 본 연구에서는 이러한 한계를 극복하기 위해 데이터의 비선형성을 효과적으로 학습하는 딥러닝 기반 벡터 정렬 방법론을 제안한다. 제안 방법론은 서로 다른 공간에서 벡터로 표현된 전문어 임베딩을 범용어 임베딩 공간에 정렬하는 스킵연결 오토인코더와 회귀 모델의 순차별 학습으로 구성되며, 학습된 두 모델의 추론을 통해 전문 어휘를 범용어 공간에 정렬할 수 있다. 제안 방법론의 성능을 검증하기 위해 2011년부터 2020년까지 수행된 국가 R&D 과제 중 '보건의료' 분야의 문서 총 77,578건에 대한 실험을 수행한 결과, 제안 방법론이 기존의 선형 벡터 정렬에 비해 코사인 유사도 측면에서 우수한 성능을 나타냄을 확인하였다.

양(quantity), 정도(degree), 가능세계 - 부사 '거의'의 어휘의미를 중심으로 - (Quantities, Degrees, and Possible Worlds - Lexical Semantics of Korean Adverb '거의(geoui)')

  • 김신회
    • 한국언어정보학회지:언어와정보
    • /
    • 제15권2호
    • /
    • pp.47-65
    • /
    • 2011
  • A Korean adverb '거의(geoui)' modifies predicates to generate complex predicates which have meanings of 'nearly' complete or typical properties of the modified predicates in quantities, degrees, and frequencies. The modified predicates 'complete' or 'typical' properties are referred counterfactually as standards for the generated predicates' meanings of deficiencies. These counterfactual standards can be formalized by a counterfactual conditional operator of the intensional semantics in Cresswell(1990). The deficiencies in the quantities, degrees, or frequencies of the properties can be expressed formally introducing a world-independent measure of comparison. The measure can be manufactured out of relations between intensional things at indices and their equivalence classes. The world-independent measure of comparison has a semantic structure under-specified in quantity, degree, and frequency, and seems very well-suited in describing lexical meaning of '거의(geoui)'. The lexical-semantic analysis of '거의(geoui)' shows explicitly the plausibility of the indispensable existence of the comparing measure which works across real and counterfactual worlds in natural language meaning. On the other hand, we examined Kim, young-hee(1985)'s proposal of a transition of quantificational meaning for Korean degree adverbs, where he tried to explain the quantificational meaning of Korean degree adverbs in general including '거의(geoui)' with several syntactic and semantic constraints of 'contextual deletion'. But it is shown that the quantificational meanings of the degree adverbs which Kim(1985) discussed are also explained better by their under-specified meanings in quantities, frequencies and degrees with the world-independent measure of comparison applied to their paradigmatic lexical constraint rather than Kim(1985)'s transition of meaning.

  • PDF

한국어 방송 음성 인식에 관한 연구 (A Study on the Korean Broadcasting Speech Recognition)

  • 김석동;송도선;이행세
    • 한국음향학회지
    • /
    • 제18권1호
    • /
    • pp.53-60
    • /
    • 1999
  • 이 논문은 한국 방송 음성 인식에 관한 연구이다. 여기서 우리는 대규모 어휘를 갖는 연속 음성 인식을 위한 방법을 제시한다. 주요 관점은 언어 모델과 탐색 방법이다. 사용된 음성 모델은 기본음소 Semi-continuous HMM이고 언어 모델은 N-gram 방법이다. 탐색 방법은 음성과 언어 정보를 최대한 활용하기 위해 3단계의 방법을 사용하였다. 첫째로, 단어의 끝 부분과 그에 관련된 정보를 만들기 위한 순방향 Viterbi Beam탐색을 하였으며, 둘째로 단어 의 시작 부분과 그에 관련된 정보를 만드는 역방향 Viterbi Beam탐색, 그리고 마지막으로 이들 두 결과와 확률적인 언어 모델을 결합하여 최종 인식결과를 얻기 위해 A/sup */ 탐색을 한다. 이 방법을 사용하여 12,000개의 단어에 대한 화자 독립으로 최고 96.0%의 단어 인식률과 99.2%의 음절 인식률을 얻었다.

  • PDF

XML 문서의 변환을 위한 온톨로지 갱신 기반 XML 스키마 매칭 (XML Schema Matching based on Ontology Update for the Transformation of XML Documents)

  • 이경호;이준승
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권7호
    • /
    • pp.727-740
    • /
    • 2006
  • 서로 다른 XML 스키마로 작성된 XML 문서간의 변환을 위해서는 두 스키마 사이의 의미적 연관관계를 계산하는 스키마 매칭 과정이 필수적이다. 본 논문에서는 XML 문서의 변환을 위한 효율적인 스키마 매칭 알고리즘을 제안한다. 제안된 알고리즘은 두 단계로 구성된다. 먼저 제안된 온톨로지와 어휘 유사도에 기반하여 단말노드 사이의 후보매칭을 계산한다. 또한 문맥 정보를 반영하는 제안된 경로 유사도 비교를 통해 후보매칭간계 중에서 최종 매칭 결과를 선택한다. 특히 제안된 방법은 기존 연구와 달리 사용자 피드백에 의해 점증적으로 갱신되는 온톨로지에 기반한다. 제안된 온톨로지는 IsA나 PartOf와 같은 다양한 관계를 표현할 수 있기 때문에 일대일 매칭은 물론이고 다대일 및 일대다 관계의 복합매칭을 계산할 수 있다. 제안된 알고리즘의 성능 평가를 위해 다양한 도메인의 XML 스키마를 대상으로 실험한 결과, 평균 97%의 정확률과 83%의 재현율을 나타내어 기존 연구보다 우수하였다. 특히 제안된 온톨로지의 갱신을 통하여 약 9%의 성능 향상을 확인할 수 있었다.