• 제목/요약/키워드: 사전기반

검색결과 3,191건 처리시간 0.029초

한.영 기계번역을 위한 중심어 기반 구 구조 변환 사전 (Head-based Pharse Structure Transfer Dictionary for Korean_English Machine Translation)

  • 이상조;박상규;김영택
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.157-162
    • /
    • 1994
  • 한국어로부터 자연스러운 영어 역어문장을 생성하기 위한 정보를 사전에 일관성있게 수록하는 방법을 제시하였다. 기계번역의 각 과정에서 필요한 정보는 가장 적당한 형태로 사전으로부터 제공되어야 하는 것이 일반적인 방법이다. 그러나 한국어는 어순의 부분적 자유성, 어미의 복잡한 활용규칙, 조사의 다양한 쓰임새로 인해 이러한 규칙들의 정보를 일관되게 사전에 수록하기가 어려운 실정이다. 본 논문에서는 한국어 문장과 역어 문장을 단어나 구 혹은 절등의 구성요소들의 다대다 매핑규칙을 찾고 이들 규칙을 적당한 형태로 사전에 수록하여야하는 어려움에서 벗어나 문장대 문장구조를 직접대응시켜 구구조단위로 분석된 형태의 부분 파서트리 형태의 트리구조를 역어와 함께 사전에 수록하므로써 사전정보를 손쉽게 구축, 유지하고자 하였다. 또 이들 정보를 추출해내는 알고리즘을 사용함으로써 주어진 한국어 문장에 대해 사전에 수록된 가장 자연스러운 형태의 역어문장을 생성할 수 있도록 하였다.

  • PDF

Graph Editor형식의 통합정보사전 개발 시스템 (A thesaurus development system with an embedded graphic editor)

  • 남동수;최용준;황도삼
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.341-344
    • /
    • 2000
  • 통합정보사전은 고도의 언어처리 및 이해를 목적으로 한 것이며, 체계적이고 과학적인 방법론을 이용하여 형태소, 구문, 의미정보 등 각종 정보가 통합된 전자사전으로, 이를 개발하는데는 막대한 개발시간과 노력을 필요로 한다. 이러한 특성 때문에 통합정보사전을 구축하기 위해서는 정보를 통합하고 관리하는 사전개발 시스템의 개발이 선행되어야 한다. 현재까지의 사전개발 시스템은 사전 항목을 정의하고, 정의된 항목에 표제어별 정보를 입력하는 시스템으로, 단순한 정렬 및 검색에 의한 표제어 찾기 및 편집을 지원하고 있다. 본 논문에서는 사전의 계층화된 항목정보를 트리 형식으로 나타내어 사전의 개발 및 구축작업을 효율적으로 지원하기 위한 통합정보사전 개발 시스템인 YDK3를 설계하고 구현하였다. 구현한 YDK3는 기존의 각종 사전의 다양한 사전정보를 입력하는 기본적인 기능 외에, 항목정보를 기반으로 한 graph editor형식의 사용자 인터페이스가 제공되어, 사전의 개발, 자료입력 및 검색을 보다 쉽게 할 수 있다는 특징이 있다.

  • PDF

메타 정보를 활용한 프롬프트 기반 도메인 특화 한국어 관계 추출 (Domain-specific Korean Relation Extraction system using Prompt with Meta-Information)

  • 김진성;김경민;손준영;소아람;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.369-373
    • /
    • 2022
  • 기존의 관계 추출 태스크에서의 많은 연구들은 사전학습 언어모델을 파인튜닝하여 뛰어난 성능을 달성해왔다. 하지만, 파인튜닝은 사전학습 시의 학습 기법과의 간극으로 인해 일반화 능력을 저해한다. 본 연구는 다운스트림 태스크를 사전학습의 Masked Language Modeling (MLM) 기법을 통해 해결하는 프롬프트 기반의 학습 기법을 활용하여, 특정 한국어 도메인에서의 관계 추출을 위한 프롬프트 기반 파인튜닝 방법론을 제안한다. 실험의 경우, 도메인의 특성이 뚜렷한 전통문화유산 말뭉치를 대상으로 실험을 진행하여 본 방법론의 도메인 적응력을 보이며, 메타 정보 즉, 개체 유형 및 관계 유형의 의미론적 정보를 일종의 지식 정보로 활용하여 프롬프트 기반 지식 주입의 효과성을 검증한다. 프롬프트에의 메타 정보의 주입과 함께 프롬프트 기반으로 파인튜닝된 모델은 오직 MLM 기법만을 이용하여 태스크를 수행하여 기존 파인튜닝 방법론 대비 파라미터 수가 적음에도, 성능 면에서 대부분 소폭 상승하는 경향을 보여줌으로써 그 효과성 및 효율성을 보인다.

  • PDF

한국어 지명 인식 처리를 위한 사전기반의 규칙 적용을 위한 세분화된 시스템 연구 (A Study on Recognition of Korean Place Names System on the Internet by Using the Rules of Dictionary Use)

  • 장혜숙;정규철;이진관;박기홍
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.301-304
    • /
    • 2005
  • 문서의 내용을 대표하는 용어를 추출하는데 있어서 반드시 선행되어야 할 작업이 개체명 인식이다. 개체명의 범주로는 인명, 지명, 단체명, 시간, 날짜등이 있다. 높은 신뢰도의 개체명 인식은 정보추출 시스템구축을 한 차원 높일 수 있을 것이다. 일반적인 개체명 인식이나 인명의 개체명 인식에 대한 연구는 활발하게 진행되어 왔다.. 그러나 세분화된 지명 인식의 연구는 다루어지지 않았다. 본 논문에서는 한국어 지명 인식 처리를 위한 사전기반의 세분화된 규칙 적용 시스템 연구방법을 제안하고자 한다.

  • PDF

코퍼스 기반 형용사 의의 분석: '크다'를 예로 (A Corpus-Based Sense Analysis of Adjectives: Focused on khuda)

  • 방찬성;오승태
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.156-163
    • /
    • 2006
  • 본 연구는 형용사 '크다'를 예로 들어 기존 사전의 의의 기술과 비교하여 실제 코퍼스에서 나타나는 의의를 비교 분석하고자 하였다. 기존 사전들이 기술하고 있는 '크다' 의 의의는 사전마다 다르게 기술되어 있으므로, 공통적인 의의들과 서로 차이가 나는 의의들을 구분하여 비교 제시한다. 이 중에서 조사된 실제 코퍼스를 근거로 하여, '크다'의 의의를 다섯 가지로 설정하였다. 이것은 코퍼스 기반의 의의 구분 방법이 기존의 사전적 구분법보다 더 많은 객관성을 부여해 주는 방법이라 할 수 있다.

  • PDF

사전 정보에 기반한 효율적인 자동색인기 설계 (A Design of Efficient Automatic Indexing based on Dictionary Information)

  • 진정환;김태완
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.547-550
    • /
    • 2001
  • 웹상에 공유되어진 문서의 내용을 대표하는 색인어 추출은 정보 검색 시스템의 질을 좌우한다. 한국어의 자유로운 복합명사나 띄어쓰기 규약, 사전 미등록 어휘 등으로 색인어 추출시 질의어와 색인어 사이의 형태상의 불일치(Syntactic Term Mismatch)가 발생하여 검색성능을 저하시키는 경우가 많다. 따라서 본 논문에서는 사전을 통한 형태소 해석을 통해 단위명사(Unit Noun)로 색인어를 추출하고 사전 미등륵어는 N-gram 기반 색인 방법을 이용하여 질의어와 색인어 사이의 부분 일치된 문서도 추출될 수 있는 방법을 제안하였으며, 색인어와 질의어 사이의 유사도 계산을 통해 문서의 우선순위를 정함으로써 색인기의 성능을 높이는 방법을 제안한다.

  • PDF

영상 기반 가상펜스의 사전 경보 영역 보정을 위한 근사화된 거리측정방법 (Approximate Distance Measuring Method for Pre-Alarm Area of Image Based on Virtual Fence)

  • 김재준;김도연
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1487-1490
    • /
    • 2015
  • 영상에서 실제 거리를 알 수 없는 상태에서 영상 기반 가상펜스 설계 시, 사전 경보 영역을 설계하기 위한 거리 맵을 제작하기 위해 영상에 색인(Index)을 입력하여 거리에 따른 영역을 나누고 영역에 대한 가중치를 설정하고, 사전 경보 영역이 실제 거리에 비례하여 설정 될 수 있는 방법을 제안한다. 본 연구에서 제안하는 방법과 스테레오 비전 기술이 융합하여 거리 맵을 제작할 시 가상펜스의 사전 경보 영역이 영상의 거리에 비례하게 설정 되어 가상펜스 시스템의 완성도를 높여줄 것으로 기대한다.

계층적 마스크 모델링을 이용한 언어 모델의 사후 학습 (Post-Training with Hierarchical Masked Language Modeling)

  • 전현규;정혜인;박서연;김봉수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.588-591
    • /
    • 2022
  • 최근 자연어 이해 및 생성에 있어서 사전학습 기반의 언어 모델이 널리 사용되고 있다. BERT, roBERTa 등의 모델이 있으며, 마스크 언어 모델링을 주요 과제로 하여 사전 학습을 한다. 하지만 MLM은 문법적인 정보를 활용하지 못하는 단점이 있다. 단 순히 무작위로 마스크를 씌우고 맞추기 때문이다. 따라서 본 연구에서는 입력 문장의 문법적 정보를 활용하는 방법을 소개하고, 이를 기반으로 사후 학습을 하여 그 효과를 확인해 본다. 공개된 사전학습 모델과 사후학습 모델을 한국어를 위한 벤치마크 데이터셋 KLUE에 대하여 조정학습하고 그 결과를 살펴본다.

  • PDF

딥러닝 모델(BERT)과 감정 어휘 사전을 결합한 음원 가사 감정 분석 (Analysis of Emotions in Lyrics by Combining Deep Learning BERT and Emotional Lexicon)

  • 윤경섭;오종민
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.471-474
    • /
    • 2022
  • 음원 스트리밍 서비스 시장은 지속해서 성장해왔다. 그중 최근에 가장 성장세가 돋보이는 서비스는 Spotify와 Youtube music이다. 두 서비스의 추천시스템은 사용자가 좋아할 만한 음악을 계속해서 추천해 줌으로써 많은 사랑을 받고 있다. 추천시스템 성능은 추천에 활용할 수 있는 변수(Feature) 수에 비례한다고 볼 수 있다. 최대한 많은 정보를 알아야 사용자가 원하는 추천이 가능하기 때문이다. 본 논문에서는 기존에 존재하는 감정분류 방법론인 사전기반과 딥러닝 BERT를 사용한 머신기반 방법론을 적절하게 결합하여 장점을 유지하면서 단점을 보완한 하이브리드 감정 분석 모델을 제안함으로써 가사에서 느껴지는 감정 비율을 분석한다. 감정 비율을 음원 가중치 변수로 사용하면 감정 정보를 포함한 고도화된 추천을 기대할 수 있다.

  • PDF

ELECTRA-CRFs 기반 한국어 개체명 인식기 (Korean Named Entity Recognition based on ELECTRA with CRFs)

  • 홍지연;김현우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.473-476
    • /
    • 2020
  • 개체명 인식에 적용된 대부분의 신경망 모델들에서 CRFs와 결합을 통해 성능 향상을 하였다. 그러나 최근 대용량 데이터로 사전 학습한 모델을 활용하는 경우, 기 학습된 많은 유의미한 파라미터들로 인해 CRFs의 영향력이 비교적 작아졌다. 따라서 본 논문에서는 한국어 대용량 말뭉치로 사전 학습한 ELECTRA 모델에서의 CRFs 가 개체명 인식에 미치는 영향을 확인해보고자 한다. 모델의 입력 단위로 음절 단위와 Wordpiece 단위로 사전 학습된 두 가지의 모델을 사용하여 미세 조정을 통해 개체명 인식을 학습하였다. 실험을 통해서 두 모델에 대하여 각각 CRFs 층의 유무에 따른 성능을 비교해 보았다. 그 결과로 ELECTRA 기반으로 사전 학습된 모델에서 CRFs를 통한 F1-점수 향상을 보였다.

  • PDF