• Title/Summary/Keyword: 사전 구축

Search Result 1,668, Processing Time 0.028 seconds

Bootstrapping-based Bilingual Lexicon Induction by Learning Projection of Word Embedding (부트스트래핑 기반의 단어-임베딩 투영 학습에 의한 대역어 사전 구축)

  • Lee, Jongseo;Wang, JiHyun;Lee, Seung Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.462-467
    • /
    • 2020
  • 대역사전의 구축은 저자원 언어쌍 간의 기계번역의 품질을 높이는데 있어 중요하다. 대역사전 구축을 위해 기존에 제시된 방법론 중 단어 임베딩을 기반으로 하는 방법론 대부분이 영어-프랑스어와 같이 형태적 및 구문적으로 유사한 언어쌍 사이에서는 높은 성능을 보이지만, 영어-중국어와 같이 유사하지 않은 언어쌍에 대해서는 그렇지 못하다는 사실이 널리 알려져 있다. 본 논문에서는 단어 임베딩을 기반으로 부트스트래핑을 통해 대역사전을 구축하는 방법론을 제안한다. 제안하는 방법론은 소량의 seed 사전으로부터 시작해 반복적인 과정을 통해 대역사전을 자동으로 구축하게 된다. 이후, 본 논문의 방법론을 이용해 한국어-영어 언어쌍에 대한 실험을 진행하고, 기존에 대역사전 구축 용도로 많이 활용되고 있는 도구인 Moses에 사용된 방법론과 F1-Score 성능을 비교한다. 실험 결과, F1-Score가 약 42%p 증가함을 확인할 수 있었으며, 초기에 입력해준 seed 사전 대비 7배 크기의 대역사전을 구축하였다.

  • PDF

코퍼스를 이용한 정보검색용 전자사전구축에 관한 연구

  • Nam, Yeong-Jun
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.430-440
    • /
    • 1996
  • 지능형 정보검색시스템이 효율적으로 운용되기 위해서는 여러개의 서브시스템이 필요하다. 특히, 시소러스와 색인 및 검색시스템용 전자사전은 중요한 지식베이스이다. 본 연구에서는 한글전자사전의 개발에 필요한 이론과 구축기술에 대해 조사하였다. 그 내용은 1)전자사전의 의미, 2)전자사전의 형태, 3) 전자사전개발을 위한 코퍼스 구축기술 및 방법이라는 이론적인 부분과 실제 과기원코퍼스2를 이용한 균형코퍼스를 설계하였다. 한편, 균형코퍼스를 이용한 기본적인 명사사전과 공기사전, 전문용어사전구축방법도 제시하였다.

  • PDF

Science and Technology Terminology Dictionary Building Process and Workbench Development in Defense Area (국방과학기술 전문용어 사전 구축을 위한 프로세스 및 워크벤치 개발)

  • Choi, Jung-Whoan;Park, Jeong-Ho;Kim, Kyung-Sun;Kim, Pyung
    • The Journal of the Korea Contents Association
    • /
    • v.12 no.8
    • /
    • pp.420-428
    • /
    • 2012
  • To improve the efficiency of business, it is important to standardize the meaning of terminology. And then, terminology dictionaries have been actively being built and used in various fields. In defense area, the publication of defense terminology dictionary is useful for information exchange of each army and distribution of standardized terminology. Defense agency for technology and quality(DTaQ) publishes terminology dictionary of defense science and technology on a three-year cycle. DTaQ tries to standardize the construction process of terminology dictionary and improve service efficiency by using terminology dictionary in defense area. This proposed method is based on the result of previous study about standardization of terminology dictionary. We suggest the practical steps including terminology dictionary constructing process, composition and role of organization, definition of headword, selection of target documents to be extracted terminology candidate, terminology extraction, generation of terminology candidate group, workbench registration, construction and validation of terminology dictionary. Thesaurus and workbench are developed to use and support terminology dictionary effectively.

Analysis of limitations using only adjectives sentiment word dictionary (형용사만을 사용한 의견어 사전의 한계점 분석)

  • Yu, WonHui;Ji, Hye-Seong;Yang, Yeong-Uk;Lim, HeuiSeok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.11a
    • /
    • pp.373-375
    • /
    • 2011
  • 최근 많은 연구가 되고 있는 오피니언 마이닝은 의견어 사전의 구축이 가장 기본적으로 선행되어야 하는 연구이다. 오피니언 마이닝의 의견어 사전 구축 연구는 영어를 중심으로 많은 연구가 진행 되었다. 하지만 형용사 위주의 의견어 사전 구축으로 많은 부분의 문제들이 해결되는 영어에 비해서 한국어는 여러 가지 품사와 문장구조를 고려하여 의견어 사전을 구축해야한다. 이것을 실험으로 밝히기 위하여 형용사로만 구성되어진 의견어 사전을 구축하고 영화평에 적용하여 분석해 봄으로써 형용사로만 구성되어진 의견어 사전의 한계점을 확인한다. 실험은 세종계획 말뭉치에서 나타나는 형용사로 구성된 의견어 사전을 구축하고 네이버 랩에서 제공하는 영화평을 형용사로 구성된 의견어 사전으로 의견 분석하여 시행하였다. 분석 결과 재현율 약 50%, 정확률 약 60%정도의 성능을 보였다.

Automatic Construction of Korean Unknown Word Dictionary using Occurrence Frequency in Web Documents (웹문서에서의 출현빈도를 이용한 한국어 미등록어 사전 자동 구축)

  • Park, So-Young
    • Journal of the Korea Society of Computer and Information
    • /
    • v.13 no.3
    • /
    • pp.27-33
    • /
    • 2008
  • In this paper, we propose a method of automatically constructing a dictionary by extracting unknown words from given eojeols in order to improve the performance of a Korean morphological analyzer. The proposed method is composed of a dictionary construction phase based on full text analysis and a dictionary construction phase based on web document frequency. The first phase recognizes unknown words from strings repeatedly occurred in a given full text while the second phase recognizes unknown words based on frequency of retrieving each string, once occurred in the text, from web documents. Experimental results show that the proposed method improves 32.39% recall by utilizing web document frequency compared with a previous method.

  • PDF

Development of Terminology Construction Tool for Disaster Safety Information Sharing (재난안전정보 공유를 위한 용어사전 구축도구 개발)

  • Kim, Tae-Young;Yang, Joogsik;Oh, Hyo Jung
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.546-549
    • /
    • 2018
  • 다양한 재난안전 유관기관으로부터 생산 및 관리되는 재난안전정보는 공유를 통해 재난관리업무를 보다 효율적이고 신속하게 수행할 수 있도록 도와준다. 그러나 재난안전정보 공유를 위해서는 우선 재난안전 분야에서 사용되는 용어의 표준화 및 체계화가 선행되어야 한다. 특히 다양한 분야에서 축척된 용어들을 모두 종합 검토하고 형상 관리하기 위해서는 별도의 구축도구가 필요하다. 본 논문에서는 재난안전정보 용어사전 구축도구를 통해 재난안전 분야의 용어를 입력하고 정제 및 검토하는 과정을 통하여 용어 표준화를 수행하고자 한다. 특히 본 논문에서 개발된 구축도구는 웹 기반 다중접속이 가능하도록 구현되었고, 하나의 표제어에 다양한 정의문이 할당되는 일대다 관계로 용어사전을 관리하고 있어 다양한 분야에서 혼재되어 있는 정의문들을 종합적으로 관리할 수 있다는 장점이 있다. 현재는 개발된 구축도구를 활용하여 재난안전정보 용어사전을 구축 중에 있으며, 차후 구축된 용어사전을 재난안전 분야 실무자 및 일반 이용자에게 제공하기 위한 활용도구 구축 연구가 추가적으로 진행될 계획이다.

  • PDF

Developing a Korean sentiment lexicon through label propagation (레이블 전파를 통한 감정사전 제작)

  • Park, Ho-Min;Cheon, Min-Ah;Nam-Goong, Young;Choi, Min-Seok;Yoon, Ho;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.91-94
    • /
    • 2018
  • 감정분석은 텍스트에서 나타난 저자 혹은 발화자의 태도, 의견 등과 같은 주관적인 정보를 추출하는 기술이며, 여론 분석, 시장 동향 분석 등 다양한 분야에 두루 사용된다. 감정분석 방법은 사전 기반 방법, 기계학습 기반 방법 등이 있다. 본 논문은 사전 기반 감정분석에 필요한 한국어 감정사전 자동 구축 방법을 제안한다. 본 논문은 영어 감정사전으로부터 한국어 감정사전을 자동으로 구축하는 방법이며, 크게 세 단계로 구성된다. 첫 번째는 영한 병렬말뭉치를 이용한 영한사전을 구축하는 단계이고, 두 번째는 영한사전을 통한 이중언어 그래프를 생성하는 단계이며, 세 번째는 영어 단어의 감정값을 한국어 단어의 감정값으로 전파하는 단계이다. 본 논문에서는 제안된 방법의 유효성을 보이기 위해 사전 기반 한국어 감정분석 시스템을 구축하여 평가하였으며, 그 결과 제안된 방법이 합리적인 방법임을 확인할 수 있었으며 향후 연구를 통해 개선한다면 질 좋은 한국어 감정사전을 효과적인 방법으로 구축할 수 있을 것이다.

  • PDF

Translation Dictionary Tuning System By using of Auto-Evaluation Method (자동 평가 방법을 이용한 번역 지식 튜닝 시스템)

  • Park, Eun-Jin;Jin, Yun;Kwon, Oh-Woog;Wu, Ying-Shun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.147-150
    • /
    • 2011
  • 본 논문에서는 병렬 말뭉치에서 오류가 있을 것으로 추정되는 문장을 자동 추출하여, 다수의 번역 사전 구축 작업자가 자동 번역시스템을 직접 사용하면서 번역 사전을 튜닝하는 방법에 대하여 제안하고자 한다. 작업자는 병렬 말뭉치의 대역문을 이용하여 자동 번역 결과의 BLEU를 측정하고, 사전 수정 전과 후의 BLEU 차이를 정량적으로 제시해 줌으로써 양질의 번역 사전을 구축하도록 하였다. 대량의 번역 사전이 이미 구축된 자동 번역시스템에서 추가적인 성능향상을 위해 대량의 말뭉치에서 미등록어, 번역패턴 등을 추출하여, 대량으로 구축하는 기존 방법에 비해 사전 구축 부작용이 적으며, 자동번역 성능향상에 더 기여하는 것을 실험을 통해 증명하였다. 이를 위해 본 논문에서는 중한 자동 번역시스템을 대상으로, 중국어 문장 2,193문장에 대해, 사전 구축 작업자 2명이 2주간 튜닝한 결과와 15만 말뭉치에서 추출한 미등록어 후보 2만 엔트리를 3명의 사전 구축 작업자가 미등록어 선별, 품사 및 대역어 부착한 결과 7,200 엔트리를 대상으로 자동평가를 실시하였다. 실험결과 미등록어 추가에 의한 BLEU 성능향상은 +3인데 반해, 약 2,000문장 튜닝 후 BLEU를 +12 향상시켰다.

  • PDF

A Synonym Dictionary Construction for Information Retrieval (정보 검색을 위한 동의어/유의어 사전 구축)

  • Lee, Tae-Woo;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.208-213
    • /
    • 2003
  • 본 논문에서는 많은 정보로부터 의미 있는 정보를 추출하기 위해 사용되는 정보 검색 시스템에서 이용이 가능한 동의어/유의어 사전을 구축하고 구축된 정보의 평가를 수행하였다. 사용한 자원으로는 미리 구축된 한-영 사전과 영-한사전을 이용하였다. 이들의 사용으로 다른 동의어사전과 달리 보다 많은 유의어 정보를 포함하는 이익을 얻었다. 본 논문의 시스템은 사전을 구축하기 위해 기본 자원을 이용하여 동의어/유의어 후보 목록들을 획득하고, 획득된 정보를 바탕으로 후보 목록의 빈도수와 사전의 위치 정보, 마지막으로 입력 명사 정보를 이용하여 동의어/유의어를 확정한다. 작성된 동의어/유의어사전은 한-영사전에 수록된 한국어 명사 64,630개를 대상으로 하였다. 작성된 사전을 문서 필터링 시스템에 추가하여 적용 전보다 성능이 향상됨을 확인하였다. 또한 질의 색인어 확장에 이용하여 보다 정답을 추출하는데 추가적으로 확장된 유의어 정보가 정답을 추출하는데 유용하게 사용됨을 확인하였다.

  • PDF

다차원 이진트리 기반의 한글 전자사전 구축기법

  • 김희철;신정훈;이용두;김영순
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 1998.03a
    • /
    • pp.221-227
    • /
    • 1998
  • 본 연구에서는 지금까지 한글 전자사전이 가지고 있는 과다한 검색 횟수, 비효율적인 주기억 장치 사용, 이미 구축된 사전에 새로운 단어에 대한 추가·삭제의 어려움에 대한 단점들을 개선하기 위하여 다차원 이진트리 구조의 한글 전자사전을 구현한다. 본 논문에서 구현된 한글 전자사전의 검색시간 성능평가를 위해 입력 키워드의 종류에 따라 실험1, 실험2로 나누어 성능평가를 한 결과, 실험 1에서는 구현된 사전의 단어를 입력 키워드로 사용하여 실험한 결과 제안한 사전구조가 검색 속도면에서 기존의 트라이 사전구조 보다 약 1.5배 성능향상을 보여주고 있으며 실험 2 결과도 다차원 이진트리 구조의 한글 전자사전이 트라이 구조의 한글 전자사전보다 약 2.3배의 성능향상을 보여주고 있다. 한편 사전 구축 시 필요한 주 기억 장치 용량에 대한 성능평가 결과는 트라이구조사전은 1.987Kbyte를 가지는 반면 제안한 다차원 이진트리 구조의 한글 전자사전은 1.136Kbyte를 가지므로 1.8배의 성능 향상을 보여주고 있다.