• Title/Summary/Keyword: 사전분석

Search Result 5,674, Processing Time 0.03 seconds

한국어 문장분석의 생성 어휘론적 접근

  • Choe, Byeong-Jin
    • Proceedings of the Korean Society for Language and Information Conference
    • /
    • 2000.06a
    • /
    • pp.92-100
    • /
    • 2000
  • 본 논문에서는 컴퓨터를 이용하여 문장을 분석하기 위해 통합기반문법이 구현된 PATR라는 문법형식을 살펴보고, 국어문장분석을 지원해 주는 사전을 계승메카니즘이 가능한 형태로 구축하여 사전의 효율적인 구성을 제시하고, 사전과 구문분석기사이의 인터페이스가 어떻게 가능할 수 있는 지를 보여주고자 한다.

  • PDF

An Efficient Dictionary for Syllable-based Korean Morphological Analyzer (음절 기반 형태소 분석을 위한 효율적인 사전 구성)

  • Kim, Nam-Churl;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.411-415
    • /
    • 1997
  • 형태소 분석기의 처리 속도는 분석 알고리즘과 형태소 사전의 탐색 기법에 따라 크게 좌우된다. 형태소 분석 성능의 향상을 위하여 많은 형태소 분석 방법이 제안되었으며, 음절 정보를 이용하는 형태소 분석기는 한국어 음절의 통계적 특성 정보를 이용함으로써, 분석 후보의 개수를 최대한 적게 하여 처리 속도를 향상시켰다. 본 논문은 형태소 분석시 발생하는 분석 후보들의 특성을 고려하여 사전 탐색 요구시 가장 많은 처리 시간을 필요로 하는 디스크 읽기 횟수를 줄일 수 있도록 음절별 블록 인덱싱한 사전 구성 방법을 제안한다. 이 방법은 형태소 사전을 첫 음절별로 블록화하고 인덱싱하여 3개의 추가적인 인덱스 테이블을 구축하는 사전 구성 방법으로, 인덱스 테이블을 모두 주기억장치에 적재하였을 때에는 평균 61.6%, 크기가 작은 두 개의 인덱스 테이블만 주기억장치에 적재하였을 때에는 평균 25%의 디스크 읽기 횟수를 줄일 수 있다.

  • PDF

A Domain Adaptive Sentiment Dictionary Construction Method for Domain Sentiment Analysis (도메인 별 감성분석을 위한 도메인 맞춤형 감성사전 구축 기법)

  • Kim, Dahae;Cho, Taemin;Lee, Jee-Hyong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2015.01a
    • /
    • pp.15-18
    • /
    • 2015
  • SNS의 확산으로 대중들은 제품, 서비스, 사회적 이슈 등 다양한 도메인에 대하여 자신의 기분이나 의견을 적극적으로 표현하고 있다. 이에 따라 SNS를 분석하여 제품의 수요, TV 시청률, 주가 등의 다양한 현상을 예측하는 데 있어 감성분석을 활용하는 연구가 활발히 진행되고 있다. 감성분석은 각 어휘에 대한 품사, 극성, 감성지수를 규정하고 있는 감성사전을 기반으로 이루어진다. 하지만 동일한 단어라도 도메인에 따라 중요도가 달라지기 때문에 도메인의 특성을 고려한 감성사전을 사용해야 할 필요성이 있다. 따라서 본 연구에서는 다양한 도메인에 대하여 각각의 특성에 맞게 더욱 정확한 감성분석을 할 수 있도록 도메인 맞춤형 감성사전을 구축하는 기법을 제안한다. 도메인 별로 긍 / 부정 평가에 있어 중요한 척도가 되는 단어들을 도메인 감성어휘로 선별하여 목록을 구축하고, 각 감성어휘의 중요도에 따라 도메인 감성지수를 새롭게 정의하였다. 실험 결과, 평가 도메인에 적합한 감성사전이 다른 도메인의 감성사전 및 범용 감성사전보다 우수한 성능을 보였다. 이를 통해 도메인 맞춤형 감성사전 구축기법의 효용성을 확인하였다.

  • PDF

Developing a Korean sentiment lexicon through BPE (BPE를 활용한 한국어 감정사전 제작)

  • Park, Ho-Min;Cheon, Min-Ah;Nam-Goong, Young;Choi, Min-Seok;Yoon, Ho;Kim, Jae-Kyun;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.510-513
    • /
    • 2019
  • 감정분석은 텍스트에서 나타난 저자 혹은 발화자의 태도, 의견 등과 같은 주관적인 정보를 추출하는 기술이며, 여론 분석, 시장 동향 분석 등 다양한 분야에 두루 사용된다. 감정분석 방법은 사전 기반 방법, 기계학습 기반 방법 등이 있다. 본 논문은 사전 기반 감정분석에 필요한 한국어 감정사전 자동 구축 방법을 제안한다. 본 논문은 영어 감정사전으로부터 한국어 감정사전을 자동으로 구축하는 방법이며, 크게 세 단계로 구성된다. 첫 번째는 한영 병렬 말뭉치를 이용한 한영 이중언어 사전을 구축하는 단계이고, 두 번째는 한영 이중언어 사전을 통한 한영 이중언어 그래프를 생성하는 단계이며, 세 번째는 영어 단어의 감정값을 한국어 BPE의 감정값으로 전파하는 단계이다. 본 논문에서는 제안된 방법의 유효성을 보이기 위해 사전 기반 한국어 감정분석 시스템을 구축하여 평가하였으며, 그 결과 제안된 방법이 합리적인 방법임을 확인할 수 있었으며 향후 연구를 통해 개선한다면 질 좋은 한국어 감정사전을 효과적인 방법으로 구축할 수 있을 것이다.

  • PDF

Construction of Partial Word Morpheme Dictionary based on Tagged Corpus and Korean Morphological Analysis (말뭉치 기반 부분 어절 기분석 사전의 구축과 형태소 분석)

  • Shin, Joon-Choul;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.67-72
    • /
    • 2011
  • 기존의 말뭉치 기반 한국어 형태소 분석 방법은 대용량의 어절 기분석 사전을 사용하여 분석하고, 그 사전에 없는 어절은 코드 변환, 형태소 분리, 원형 복원 규칙 적용 등을 거치는 복잡한 분석 방법을 통해 후보들을 생성했다. 이 복잡한 분석 방법은 제작과 유지보수, 실행 관점 모두에서 효율적이지 못하며 정확률을 낮추고 속도를 느리게 하는 요인이 된다. 이런 문제를 해결하기 위해 부분 어절의 기분석 사전을 구축하여 사용하는 방법이 연구되었다. 본 논문에서는 대용량의 분석 말뭉치를 통해 부분 어절의 기분석 사전을 구축하고 형태소 분석에 사용하는 방법을 제안한다. 세종 말뭉치로 실험한 결과 재현율이 99.05%였으며, 품사 및 동형이의어 태깅 정확률은 96.76%였다.

  • PDF

Suggestion on how to improve the pre-disaster impact system (사전재해영향성검토협의제도의 정책적 제언)

  • Lee, Myoung-Jin;Choi, Woo-Jung;Kim, Min-Jung
    • Proceedings of the Korean Society of Disaster Information Conference
    • /
    • 2017.11a
    • /
    • pp.317-318
    • /
    • 2017
  • 본 연구는 사전재해영향성 평가제도의 개선 방안을 제안하기 위해 환경영향성평가의 연혁 변화 및 DB 구축 시스템에 대해 살펴보았다. 또한 재해 사전 분석의 이론적 개념을 분석하여 사전재해영향성 평가제도의 이론적 개념을 살펴보았다. 이러한 결과를 바탕으로 사전재해영향성 평가의 문제점을 도출하고 개선방안을 제안하였다. 이러한 결과를 바탕으로 사전재해영향성 평가의 문제점을 도출하고 개선방안을 제안하였고, 또한 사전재해영향성평가 문제점을 환경영향성평가 비교 분석을 통해서 사전재해 영향성평가 개선방안을 제안하였다. 개선방안으로 첫째 정책적 개선안으로 행정계획 지침 분리, 소규모 개발 사업 간소화 등을 제안하였다. 둘째 기술적 개선안으로 통합관리시스템 개발, 사후재해영향성검토제 도입을 제안하였다.

  • PDF

Korean Parsing using Sejong Dictionary (세종전자사전을 활용한 한국어 구문분석)

  • Seong, Yeolwon
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.261-268
    • /
    • 2007
  • 본 논문에서는 세종전자사전의 정보를 활용하여 논항 결합의 정확도를 향상시키는 한국어 구문분석 모델을 제안한다. 구문분석 과정에서 노드간의 결합 가능성을 계산할 때, 세종전자사전 동사사전의 격틀 정보, 논항 제약 정보와 명사사전의 의미부류 정보를 활용하여 가산점을 부여하여 사전의 내용과 일치하는 결합이 선호되도록 하였다. 이 과정에서 구조적 오류를 해결할 수 있었고, 결합에 참여하는 동사와 명사의 의미 중의성도 해소할 수 있었다. 평균 13어절 길이의 실험용 문장 50개를 대상으로 실험한 결과, 35% 정도의 오류 감소 효과를 볼 수 있었다. 또한 구문분석 결과 정보를, 전자 사전에 기술된 정보의 완결성을 시험하고 보완하는 데에도 활용하였다.

  • PDF

Analyzing the Effect of Characteristics of Dictionary on the Accuracy of Document Classifiers (용어 사전의 특성이 문서 분류 정확도에 미치는 영향 연구)

  • Jung, Haegang;Kim, Namgyu
    • Management & Information Systems Review
    • /
    • v.37 no.4
    • /
    • pp.41-62
    • /
    • 2018
  • As the volume of unstructured data increases through various social media, Internet news articles, and blogs, the importance of text analysis and the studies are increasing. Since text analysis is mostly performed on a specific domain or topic, the importance of constructing and applying a domain-specific dictionary has been increased. The quality of dictionary has a direct impact on the results of the unstructured data analysis and it is much more important since it present a perspective of analysis. In the literature, most studies on text analysis has emphasized the importance of dictionaries to acquire clean and high quality results. However, unfortunately, a rigorous verification of the effects of dictionaries has not been studied, even if it is already known as the most essential factor of text analysis. In this paper, we generate three dictionaries in various ways from 39,800 news articles and analyze and verify the effect each dictionary on the accuracy of document classification by defining the concept of Intrinsic Rate. 1) A batch construction method which is building a dictionary based on the frequency of terms in the entire documents 2) A method of extracting the terms by category and integrating the terms 3) A method of extracting the features according to each category and integrating them. We compared accuracy of three artificial neural network-based document classifiers to evaluate the quality of dictionaries. As a result of the experiment, the accuracy tend to increase when the "Intrinsic Rate" is high and we found the possibility to improve accuracy of document classification by increasing the intrinsic rate of the dictionary.

Desambiguation Method based on a Lexicon of Typographical Units (`어절 정보 사전`을 이용한 형태소 분석의 중의성 (Ambiguity) 해결)

  • Nam, Jee-Sun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.75-82
    • /
    • 1997
  • 이글은 한국어 형태소 분석시 발생하는 중의성의 유형에 대해서 논의하고, 그와 같은 여러 유형의 중의성의 발생율을 감소시키기 위한 방법으로써 '어절 정보 사전 시스템'의 구축을 강조하였다. 한국어 문서에 대한 형태소 분석시 발생하는 중의성은, 영어나 유럽어와는 달리, 어휘 형성 정보 뿐아니라 어절 형성 정보, 구문 구조에 관한 부분적인 정보까지도 제공되어야 비로소 해소될 수 있는 경우가 많아 이와 같은 정보를 얻어내기 위해서는 체계적으로 고안된 범용의 사전 (Lexicon)이 필요하다. 여기에서는 접사가 동반되어 구성될 수 있는 '파생 명사(Affixed Noun)'들의 경우에 논의의 범위를 제한하였다. 실제로, 체계적으로 구성된 하나의 파생어 사전은. 주어진 어절에 대한 형태소 분절시 발생할 수 있는 엄청난 수의 중의적 가능성을 해소해 줄 수 있는데. 이와 같은 사전을 구축하기 위해서는 단순어와 접사 사전이 모듈화되어 완성되어야 한다. 같은 방법으로 모든 합성어 유형에 대한 사전이 구축되고, 그러한 기본 형태들에 대한 '변화형' 사전이 결합되면 어절 정보를 갖춘 대용량의 한국어 MRD의 구현이 가능해질 것이다.

  • PDF

At-site Low Flow Frequency Analysis Using Bayesian MCMC: I. Theoretical Background and Construction of Prior Distribution (Bayesian MCMC를 이용한 저수량 점 빈도분석: I. 이론적 배경과 사전분포의 구축)

  • Kim, Sang-Ug;Lee, Kil-Seong
    • Journal of Korea Water Resources Association
    • /
    • v.41 no.1
    • /
    • pp.35-47
    • /
    • 2008
  • The low flow analysis is an important part in water resources engineering. Also, the results of low flow frequency analysis can be used for design of reservoir storage, water supply planning and design, waste-load allocation, and maintenance of quantity and quality of water for irrigation and wild life conservation. Especially, for identification of the uncertainty in frequency analysis, the Bayesian approach is applied and compared with conventional methodologies in at-site low flow frequency analysis. In the first manuscript, the theoretical background for the Bayesian MCMC (Bayesian Markov Chain Monte Carlo) method and Metropolis-Hasting algorithm are studied. Two types of the prior distribution, a non-data- based and a data-based prior distributions are developed and compared to perform the Bayesian MCMC method. It can be suggested that the results of a data-based prior distribution is more effective than those of a non-data-based prior distribution. The acceptance rate of the algorithm is computed to assess the effectiveness of the developed algorithm. In the second manuscript, the Bayesian MCMC method using a data-based prior distribution and MLE(Maximum Likelihood Estimation) using a quadratic approximation are performed for the at-site low flow frequency analysis.