• 제목/요약/키워드: 어휘추출

검색결과 435건 처리시간 0.032초

Morphological Analyzer of Yonsei Univ., morany: Morphological Analysis based on Large Lexical Database Extracted from Corpus (연세대 형태소 분석기 morany: 말뭉치로부터 추출한 대량의 어휘 데이터베이스에 기반한 형태소 분석)

  • Yoon, Jun-Tae;Lee, Chung-Hee;Kim, Seon-Ho;Song, Man-Suk
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.92-98
    • /
    • 1999
  • 본 논문에서는 연세대학교 컴퓨터과학과에서 연구되어 온 형태소 분석 시스템에 대해 설명한다. 연세대학교 자연 언어 처리 시스템의 기본적인 바탕은 무엇보다도 대량의 말뭉치를 기반으로 하고 있다는 점이다. 예컨대, 형태소 분석 사전은 말뭉치 처리에 의해 재구성 되었으며, 3000만 어절로부터 추출되어 수작업에 의해 다듬어진 어휘 데이터베이스는 형태소 분석 결과의 상당 부분을 제한하여 일차적인 중의성 해결의 역할을 담당한다. 또한 복합어 분석 역시 말뭉치에서 얻어진 사전을 바탕으로 이루어진다. 품사 태깅은 bigram hmm에 기반하고 있으며 어휘 규칙 등에 의한 후처리가 보강되어 있다. 이렇게 구성된 형태소 분석기 및 품사 태거는 구문 분석기와 함께 연결되어 이용되고 있다.

  • PDF

Summary Generation of a Document with Out-of-vocabulary Words (어휘 사전에 없는 단어를 포함한 문서의 요약문 생성 방법)

  • Lee, Tae-seok;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.530-531
    • /
    • 2018
  • 문서 자동 요약은 주요 단어 또는 문장을 추출하거나 문장을 생성하는 방식으로 요약한다. 최근 연구에서는 대량의 문서를 딥러닝하여 요약문 자체를 생성하는 방식으로 발전하고 있다. 추출 요약이나 생성 요약 모두 핵심 단어를 인식하는 것이 매우 중요하다. 학습할 때 각 단어가 문장에서 출현한 패턴으로부터 의미를 인식하고 단어를 선별하여 요약한다. 결국 기계학습에서는 학습 문서에 출현한 어휘만으로 요약을 한다. 따라서 학습 문서에 출현하지 않았던 어휘가 포함된 새로운 문서의 요약에서 기존 모델이 잘 작동하기 어려운 문제가 있다. 본 논문에서는 학습단계에서 출현하지 않은 단어까지도 중요성을 인식하고 요약문을 생성할 수 있는 신경망 모델을 제안하였다.

  • PDF

A Product Review Analysis System using Rules and Statistical Information (규칙과 통계 정보에 기반을 둔 상품평 분석 시스템)

  • Kim, Minho;Choi, Hyunsoo;Kwon, Hyuk-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.257-259
    • /
    • 2013
  • 상품평은 구매 예정자의 의사 결정에 큰 도움을 준다. 그러나 하나의 상품에 관한 상품평의 수가 많고 의견도 다양하여 모든 상품평을 읽고 상품에 대한 직관적인 판단을 내리기가 어렵다. 본 논문에서는 하나의 상품에 대한 모든 상품평을 분석하고 각각의 속성별로 극성(긍정, 부정) 정보를 추출하여 구매 예정자에게 제공함으로써 해당 상품이 어떠한 평가를 받고 있는지 빠른 판단이 가능하게 한다. 한국어의 언어적 특징을 반영하여 속성별 어휘 자질을 추출하고 이를 바탕으로 상품의 속성별 극성을 판단한다. 또한, 기구축한 속성별 어휘 사전의 자료부족 문제로 말미암아 상품평을 분석할 수 없을 때는 전체 어휘의 극성정보를 이용하여 상품의 전체 극성을 판단한다.

Disambiguation of Korean Homonym Using Lexical Co-occurrencing Set and Thesaurus (어휘 공기 집합과 시소러스를 활용한 한국어 동형이의에 분별)

  • Lee, Wang-Woo;Choe, Ho-Seop;Kim, Jun-Su;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.152-157
    • /
    • 2003
  • 본 논문은 한국어 정보처리에서 발생하는 어휘 중의성 문제 중에 동형이의어 분별의 중의성을 해결하기 위하여, 유용한 구문 패턴을 바탕으로 사전 뜻풀이와 150만 어절의 말뭉치에서 어휘 공기 집합을 추출하여 동형이의어의 분별에 이용하였다. 특히, 용언류 동형이의어를 분별할 때에는 어휘 공기 집합의 자료 부족문제를 해결하기 위하여 시소러스를 이용한 어휘 공기 집합의 확장 방법을 제시한다. 시소러스 확장을 통한 분석에서 동형이의어의 분별이 실패할 경우 제한된 어절을 대상으로 통계적인 분석을 시도하여 동형이의어를 분별한다. 중의성이 높은 469개 동형이의어에 대하여 2가지 실험을 통해 각각 90.05%와 92.23%의 정확률을 얻을 수 있었다.

  • PDF

Improvement of Dynamic Time Warping Algorithm by Using Voice/Unvoiced/Silence Information (유성/무성/묵음 정보론 이용한 동적 시간 정합 알고리즘 개선)

  • Choi Min Seok;Han Hyun Bae;Hahn Min Soo
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 한국음향학회 1999년도 학술발표대회 논문집 제18권 1호
    • /
    • pp.40-43
    • /
    • 1999
  • 본 연구에서는 고립단어 인식시스템에 사용되고 있는 DTW(DynamicTimeWarping) 알고리즘의 계산량을 줄일 수 있는 방법을 제안한다. 일반적으로 고립단어 인식시 가장 인식률이 좋은 알고리즘은 DW라고 알려져 있으나, 인식대상어휘가 늘어나면 계산량이 비례해서 늘어나고 인식률이 저하되는 단점이 있으므로 일반적으로 200단어 이하의 어휘에만 사용되고 있다. 따라서 대상어휘를 감소시켜 계산량을 줄이기 위해 본 논문에서는 유성/무성/묵음 (V/U/S) 정보를 이용하여 코드워드를 구성하고 같은 코드워드에 해당되는 단어들을 추출해이들 만을 비교대상 어휘로 제한하므로서 DW 알고리즘을 적용할 대상 어휘수를 줄이는 방법을 사용하여 계산 속도를 향상시켰다 또한 입력 단어와 대상 단어와의 누적거리 계산 시 끝점 정보 뿐 만 아니라 유성/무성/묵음 경계 정보를 이용하여 piecewise DTW를 구현함으로서 탐색 영역을 축소함으로써 추가적인 계산량 감소가 가능하다. 따라서 상기 기법들을 이용하면 PC상에서도 DTW를 이용한 대어휘 고립단어 음성 인식기의 구현이 가능할 것이다.

  • PDF

Comparison of Emotional Words by Products (제품 유형별 표출되는 감성어휘 비교)

  • Jeong, Sang-Hoon
    • Science of Emotion and Sensibility
    • /
    • 제12권2호
    • /
    • pp.215-224
    • /
    • 2009
  • This research extracted emotional words for measuring user's emotions expressed while using a cellular phone and a web. And then the emotional words were compared to find out whether the difference in emotional words by the type of products. The results of this study suggest that the hardware-oriented products used for specific purpose such as cellular phone extracted a lot of emotional words related to 'Satisfaction in Usability' and 'Pleasure'. 'Satisfaction in Usability' are conceived satisfying in usability or practicality of product. 'Pleasure' are pleasant emotions expressed while using a product. However the emotional words related to 'Aesthetics' and 'Novelty' were omitted. 'Aesthetics' are expressed by product's appearance and by various visual information while using a product. 'Novelty' are expressed by something that is novel and new that has never been experienced. On the other hand the software-oriented products used rather to find something better and new information than to perform specific tasks such as web extracted a lot of emotional words related to 'Novelty'. Therefore, the results of this research have found evidence that it is desirable to make a set of subjective evaluation scale by the type of products. When making the subjective evaluation scale, it is important to use appropriate emotional words for the purpose of use and the characteristics of those products.

  • PDF

A study on Analysis of Human Sensibility Word in Water Bodies (수공간의 감성 어휘 분석에 관한 연구)

  • Kim, Jong-Pyo;Kim, Yong-Soo;Lim, Won-Hyeon
    • Science of Emotion and Sensibility
    • /
    • 제10권2호
    • /
    • pp.209-220
    • /
    • 2007
  • The purpose of this study is to investigate the words that represent the human sensibility for the water space. The selection of certain words for human sensibility valuation is very important things because of make standard for human sensibility valuation in water bodies. At the first step of the research, 129 words were collected from the subjects by imagination in group of specialist, studies on water space, studies on landscape valuation and studies on human sensibility valuation in out door environmental. At the second step, the suitability test was done and 39 words collected over an average 3.5 point. This words test was 5 point measure to similarity water bodies. At the third step, the factor analysis, cluster analysis, Multi Dimensional Scaling was performed on data, and 9 words were selected from the analysis. Finally, selected comfortable words for human sensibility valuation in water space is hands-on experience, natural, sensibility, harmony, clear, good-feeling, dynamic, free-heart, romantic. The significance of the present study is that it contributes the progress of uncovering the axis of the human sensibility by carefully selecting the words that represent the human sensibility.

  • PDF

An Effective Estimation method for Lexical Probabilities in Korean Lexical Disambiguation (한국어 어휘 중의성 해소에서 어휘 확률에 대한 효과적인 평가 방법)

  • Lee, Ha-Gyu
    • The Transactions of the Korea Information Processing Society
    • /
    • 제3권6호
    • /
    • pp.1588-1597
    • /
    • 1996
  • This paper describes an estimation method for lexical probabilities in Korean lexical disambiguation. In the stochastic to lexical disambiguation lexical probabilities and contextual probabilities are generally estimated on the basis of statistical data extracted form corpora. It is desirable to apply lexical probabilities in terms of word phrases for Korean because sentences are spaced in the unit of word phrase. However, Korean word phrases are so multiform that there are more or less chances that lexical probabilities cannot be estimated directly in terms of word phrases though fairly large corpora are used. To overcome this problem, similarity for word phrases is defined from the lexical analysis point of view in this research and an estimation method for Korean lexical probabilities based on the similarity is proposed. In this method, when a lexical probability for a word phrase cannot be estimated directly, it is estimated indirectly through the word phrase similar to the given one. Experimental results show that the proposed approach is effective for Korean lexical disambiguation.

  • PDF

The Detection and Correction of Context Dependent Errors of The Predicate using Noun Classes of Selectional Restrictions (선택 제약 명사의 의미 범주 정보를 이용한 용언의 문맥 의존 오류 검사 및 교정)

  • So, Gil-Ja;Kwon, Hyuk-Chul
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • 제18권1호
    • /
    • pp.25-31
    • /
    • 2014
  • Korean grammar checkers typically detect context-dependent errors by employing heuristic rules; these rules are formulated by language experts and consisted of lexical items. Such grammar checkers, unfortunately, show low recall which is detection ratio of errors in the document. In order to resolve this shortcoming, a new error-decision rule-generalization method that utilizes the existing KorLex thesaurus, the Korean version of Princeton WordNet, is proposed. The method extracts noun classes from KorLex and generalizes error-decision rules from them using the Tree Cut Model and information-theory-based MDL (minimum description length).

Classification of Vocabulary for Evaluation on Machine Noise at High Noisy Workshop (고소음 작업장 기계소음 평가를 위한 어휘의 유형화)

  • Yun, Jae-Hyun;Kim, Jae-Soo
    • Journal of Korean Society of Environmental Engineers
    • /
    • 제33권10호
    • /
    • pp.748-755
    • /
    • 2011
  • After the Industrialization of 1960s, while it has greatly contributed to the industrial development owing to acceleration of mechanization, but it is real situation that the countermeasure to noise damage generating at the loud noise workshop is scarcely made. Especially, the machine noise made at factory and workplace is so shocking and repeatedly reiterating terrible noise that most of the spot workers are forcedly imposing such dangers as the severe unpleasant feeling and hearing impairments. On such point of view, this research has attempted to extract the proper rating vocabulary in order for evaluation on machine noise made at the high noisy workshop, therefore it is considering that those extracted vocabularies could be utilized as the useful psycho-acoustic experiment for evaluation on machine noise, also for establishment of regulation standard in domestic high noisy workshop.