• 제목/요약/키워드: 계층적 언어모델

검색결과 83건 처리시간 0.025초

엘리먼트 기반 XML 문서검색의 성능에 관한 실험적 연구 (An Experimental Study on the Performance of Element-based XML Document Retrieval)

  • 윤소영;문성빈
    • 정보관리학회지
    • /
    • 제23권1호
    • /
    • pp.201-219
    • /
    • 2006
  • 이 연구에서는 가장 적합한 엘리먼트 기반 XML 문서검색 기법을 제시하기 위해 언어모델 검색 접근법으로 다이버전스 기법, 보정 기법 그리고 계층적 언어모델의 검색성능을 평가하는 실험을 수행하였다. 실험 결과, 가장 효율적인 검색 접근법으로 문서의 구조정보를 적용한 계층적 언어모델 검색을 제안하였다. 특히, 계층적 언어모델은 실제 검색에서 중요성을 가지는 검색순위 상위에서 뛰어난 성능을 보였다.

확장된 계층적 랜덤 그래프를 이용한 필기 한글 인식 (Handwritten Hangul Recognition using Extended Hierarchical Random Graph)

  • 김호연;김진형
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.200-207
    • /
    • 1997
  • 본 논문에서는 계층적 랜덤 그래프를 이용한 필기 한글 인식 방법론을 제안한다. 한글은 다른 문자와 달리 기본 자소의 조합으로 이루어진 문자로서 2차원 평면상에 표현된다. 이러한 한글의 특성과 필기된 한글에서 나타나는 다양한 변형을 통계적으로 모델링하기 위해서 계층 그래프를 이용하였다. 특히, 계층 그래프의 최 하위 계층에서는 필기된 획의 변형을 흡수할 수 있도록 확장된 랜덤 그래프를 적용하였다. 제안된 모델은 통계적 모델이기 때문에 필기 데이터베이스로부터 모델의 파라미터를 구할 수 있다는 장점이 있다. 실험에서 제안된 모델을 필기 한글 인식 문제에 적용하여 자소간 접촉된 문자나 어느 정도의 흘려 쓴 문자도 잘 인식할 수 있음을 보였다.

  • PDF

계층적 분류체계를 적용한 한국질병사인분류 예측 모델의 개선 (The improvement of Korean Standard Classification of Diseases prediction model by applying the hierarchical classification system)

  • 정근영;이주상;선주오;정석원;신현진;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.59-64
    • /
    • 2022
  • 한국표준질병사인분류(KCD)는 사람의 질병과 사망 원인을 유사성에 따라 체계적으로 유형화한 분류체계이다. KCD는 계층적 분류체계로 구성되어 있어 분류마다 연관성이 존재하지만, 일반적인 텍스트 분류 모델은 각각의 분류를 독립적으로 예측하기 때문에 계층적 정보를 반영하는 데 한계가 있다. 본 논문은 계층적 분류체계를 적용한 KCD 예측 모델을 제안한다. 제안 방법의 효과를 입증하기 위해 비교 실험을 진행한 결과 F1-score 기준 최대 0.5%p의 성능 향상을 확인할 수 있었다. 특히 비교 모델이 잘 예측하지 못했던 저빈도의 KCD에 대해서 제안 모델은 F1-score 기준 최대 1.1%p의 성능이 향상되었다.

  • PDF

퍼지추론에 의한 계층구조를 가진 품질의 정성적 평가 (Qualitative Evaluation of Quality with Hierarchical Structure Using Fuzzy Inference)

  • Kim, Jeong Man
    • 산업경영시스템학회지
    • /
    • 제20권43호
    • /
    • pp.37-46
    • /
    • 1997
  • 제품의 정성적 품질평가에서, 제품의 최종품질을 구성하는 다수의 특성에 대한 만족도가 언어로써 표현되어 소비자의 구매행동이란 의사결정으로 표출되는데, 이러한 주관적 평가에는 평가의 애매함(fuzziness)이 수반되므로 품질의 평가구조를 합리적으로 파악하기 위해서는 애매함의 존재를 고려에 넣지 않으면 안된다. 다수의 품질특성이 계층적(hierarchical)인 구조로 연결되어 최상위 품질특성으로 구성되며, 특성간의 중요도(relative importances)가 계층별로 결정되는 경우, 이들 개개의 특성에 대한 만족도의 평가로부터 어떤 구조적인 관계를 통해 그 제품에 대한 종합평가가 이루어지나, 개개의 특성에 대한 평가가 애매한 이상 최종 결과인 종합적 만족도도 애매한 것으로 된다. 즉, 평가모델의 구조도 평가의 패턴도 퍼지화되므로 이러한 평가에서 퍼지이론의 응용에 따른 효과를 가장 크게 기대할 수 있는 퍼지추론모델을 이용하여 계층간, 품질특성간의 퍼지관계와 특성의 중요도 및 언어변수(linguistic variables)의 형태로 주어지는 입력정보로써 품질구조를 명확히 하고, 패턴인식(pattern recognition)의 개념을 이용하여 평가자의 제품에 대한 평가결과를 언어로써 표현한다.

  • PDF

XPOS: 효율적인 질의 처리를 위한 XPath 기반의 OWL 저장 모델 (XPOS: XPath-based OWL Storage Model for Effective Query Processing)

  • 김진형;정동원;백두권
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권3호
    • /
    • pp.243-256
    • /
    • 2008
  • 최근 인터넷의 급속한 발달로 인해 웹 상의 정보 양이 엄청나게 증가하고 있다. 하지만 현재 웹 상의 정보들은 사람이 읽고 해석하기에만 편리하게 설계되어 원하는 정보에 대한 정확한 검색이 어려워지고 있다. 이러한 문제점을 해결하기 위해 시맨틱 웹이 제안되었으며, 이를 구축하기 위해서는 데이타에 의미를 부여하는 온톨로지 언어를 사용해야 한다. 대표적인 은톨로지 언어는 RDF, RDF-S, OWL 등이 있다. 이러한 언어들 중 OWL은 W3C에서 권고안으로 채택한 언어로써 다른 온톨로지 언어에 비해 풍부한 표현력과 형식적인 의미론을 지닌다. 또한 OWL 데이타는 클래스/프로퍼티들 간의 계층 구조 정보를 포함한다. 따라서, 시맨틱 웹 상에서 데이타의 효율적인 검색을 위해서는 계층적 구조를 고려한 효율적인 OWL 저장 모델이 필요하다. 이 논문에서는 OWL 데이타의 클래스/프로퍼티들 간 계층 정보를 XPath 형태로 포함하며, 직관적이고 효율적인 질의 처리가 가능한 저장 모델(XPOS Model) 및 시스템을 제안한다. 또한, 제안 모델, Sesame, XML 저장소 기반 저장 시스템을 질의 처리 측면에서 성능에 대한 비교 평가 결과를 보인다.

계층적 마스크 모델링을 이용한 언어 모델의 사후 학습 (Post-Training with Hierarchical Masked Language Modeling)

  • 전현규;정혜인;박서연;김봉수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.588-591
    • /
    • 2022
  • 최근 자연어 이해 및 생성에 있어서 사전학습 기반의 언어 모델이 널리 사용되고 있다. BERT, roBERTa 등의 모델이 있으며, 마스크 언어 모델링을 주요 과제로 하여 사전 학습을 한다. 하지만 MLM은 문법적인 정보를 활용하지 못하는 단점이 있다. 단 순히 무작위로 마스크를 씌우고 맞추기 때문이다. 따라서 본 연구에서는 입력 문장의 문법적 정보를 활용하는 방법을 소개하고, 이를 기반으로 사후 학습을 하여 그 효과를 확인해 본다. 공개된 사전학습 모델과 사후학습 모델을 한국어를 위한 벤치마크 데이터셋 KLUE에 대하여 조정학습하고 그 결과를 살펴본다.

  • PDF

다국어 음성인식을 위한 언어별 출력 계층 구조 Wav2Vec2.0 (Language Specific CTC Projection Layers on Wav2Vec2.0 for Multilingual ASR)

  • 이원준;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.414-418
    • /
    • 2021
  • 다국어 음성인식은 단일언어 음성인식에 비해 높은 난이도를 보인다. 하나의 단일 모델로 다국어 음성인식을 수행하기 위해선 다양한 언어가 공유하는 음성적 특성을 모델이 학습할 수 있도록 하여 음성인식 성능을 향상시킬 수 있다. 본 연구는 딥러닝 음성인식 모델인 Wav2Vec2.0 구조를 변경하여 한국어와 영어 음성을 하나의 모델로 학습하는 방법을 제시한다. CTC(Connectionist Temporal Classification) 손실함수를 이용하는 Wav2Vec2.0 모델의 구조에서 각 언어마다 별도의 CTC 출력 계층을 두고 각 언어별 사전(Lexicon)을 적용하여 음성 입력을 다른 언어로 혼동되는 경우를 원천적으로 방지한다. 제시한 Wav2Vec2.0 구조를 사용하여 한국어와 영어를 잘못 분류하여 음성인식률이 낮아지는 문제를 해결하고 더불어 제시된 한국어 음성 데이터셋(KsponSpeech)에서 한국어와 영어를 동시에 학습한 모델이 한국어만을 이용한 모델보다 향상된 음성 인식률을 보임을 확인하였다. 마지막으로 Prefix 디코딩을 활용하여 언어모델을 이용한 음성인식 성능 개선을 수행하였다.

  • PDF

한국어 형용사 의미계층의 전산적 추출 (The Computational Extraction of Semantic Hierarchies for Korean Adjectives)

  • 송상헌;최재웅
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.109-116
    • /
    • 2006
  • 자연 언어의 각 어휘는 서로 관계를 가지고 계층적 입체적 모델로 존재한다. 이러한 전제에서 출발한 연구 가운데 대표적인 것이 의미 계층이다. 본고에서는 한국어 형용사의 의미 계층을 추출하는 것을 목표로 하여, 형식적 객관적 방법론을 정립하고, 결과를 비교적 신속하고 정확하게 이끌어 낼 수 있는 전산적 처리 도입하였다. 우선 전체 구축에 필요한 절차를 세우고 각 단계에서 필요한 방법과 휴리스틱을 정리하였다. 이를 바탕으로 사전 뜻풀이말을 이용하여 반자동으로 작업하였으며, 일부 코퍼스를 활용하였다 최종 알고리즘으로는 Top-Down 방식을 택하였다. 이렇게 추출된 한국어 형용사 의미 계층은 226개의 최상위어에서 시작하여 총 3,792개의 표제어를 망라한다. 또한 수직적 계열 관계만을 명시했을 경우 나타날 수 있는 한계를 보완하기 위해, 동의어 반의어와 같은 수평적 의미 관계와 공기 명사와 같은 결합 관계 등을 함께 기술하였다. 한편 표제항을 뜻풀이말의 공기 명사를 이용하여 의미별로 분류하고 각 분류마다 별도의 의미 계층을 수립하였다.

  • PDF

네트워크 보안 관리를 위한 계층적 위임 모델 (Hierarchical Delegation Model for Network Security Management)

  • 이강희;송병욱;배현철;김장하;김상욱
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.238-240
    • /
    • 2004
  • 본 논문에서는 대규모 네트워크 보안관리를 위한 계층적인 위임 모델을 제시한다. 대규모 네트워크는 라우터, 방화벽, 침입 탐지 시스템, 웹 서버 등의 수많은 구성요소로 이루어진 네트워크들의 집합이며, 각 네트워크마다의 독립적인 지역 정책들로 관리되어 서로간의 협동이 이루어질 수 없기 때문에 이를 효과적으로 통제하고 일괄적으로 관리하기 위해 계층적인 위임 모델이 사용되어야 한다. 제시하는 모델의 중요 구성 요소로는 관리 서버. 정책 설정 고 수준 언어 고 수준 언어 컴파일러, 도메인 서버. 인터프리터, 정책 관리 데이터베이스가 있다. 관리 서버에서 정책 설정 고 수준 언어를 사용하여 세밀하고 정교한 정책을 작성할 수 있고, 이 정책을 고 수준 언어 컴파일러를 통하여 최하위 노드들에게 적절하고 간결한 형태로 만들어낸다. 각 도메인 서버는 이 결과를 하위의 도메인 서버나 인터프리터에게 전달하면서 Keynote 신뢰 관리 시스템을 이용하여 권한을 위임한다. 그리고 인터프리터는 정책을 라우터, 방화벽, 웹 서버 등의 하위 노드에 맞는 실제 룰로 변환하녀 상위 관리 서버에서 전달한 정책을 적용하게 된다. 정책을 적용한 결과를 상위로 전달하여 데이터베이스를 구축한 뒤 후에 작성된 정책이 기존의 정책과 충돌하는지 검사에 이용하고, 충돌한다면 협상 과정을 거쳐 정책에 순응할 수 있는 결과를 도굴하게 된다. 또한 네트워크에서 많은 새로운 형태들의 노드가 추가될 수 있는데, 각각의 인터프리터만 추가함으로서 다양한 하위 노드를 충족시킬 수 있는 확장성을 제공한다.

  • PDF

퍼지 언어적 관련도에 근거한 시소러스 모델 (Thesaurus Model based on Fuzzy Linguistic Relation Degree)

  • 최명복;김민구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.72-74
    • /
    • 1998
  • 정보검색 시스템에서 시소러스는 정보항목에 대한 용어들간의 관계를 계층적 구조로 나타낸다. 따라서 정보검색 시스템에서 시소러스의 사용은 이용자의 질의에 있는 탐색어와 관련된 정보항목들을 검색할 수 있기 때문에 정보검색 시스템의 검색효율을 크게 증가시킬 수 있다. 그러나 기존의 시소러스 모델들은 용어들간의 관련 정도를 무시하거나 정량적인 수치값으로 부여하기 때문에 인간의 주관성과 부정확성을 다루는데 적합하지 않다. 용어들간 의미의 밀접한 정도(Degree of Closeness)는 모호하고 부정확한 판단에 근거하는 인간의 정성적인 측정 단위이다. 그러므로 관련정도를 정량적으로 표현하는 것은 정성적 개념을 정확한 숫자 값으로 변환하는 것이기 때문에 인간의 정성적 측정 단위를 정확하고 용이하게 정량적으로 측도하여 반영한다는 것은 어렵다. 따라서 본 논문에서는 용어들간의 관련도를 정성적으로 부여한 시소러스 모델을 제안한다. 이 시소러스 모델에서는 색인어간의 관련도를 정성적으로 표현하기 위해 퍼지 집합 이론에 근거한 언어적 설명자들을 정의한다. 언어적 설명자들은 존재론적 문제가 고려되고 다분히 인식론적인 표현에 근거한다.

  • PDF