• Title/Summary/Keyword: 형태어휘

Search Result 242, Processing Time 0.024 seconds

Automatic Construction of Korean Two-level Lexicon using Lexical and Morphological Information (어휘 및 형태 정보를 이용한 한국어 Two-level 어휘사전 자동 구축)

  • Kim, Bogyum;Lee, Jae Sung
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.2 no.12
    • /
    • pp.865-872
    • /
    • 2013
  • Two-level morphology analysis method is one of rule-based morphological analysis method. This approach handles morphological transformation using rules and analyzes words with morpheme connection information in a lexicon. It is independent of language and Korean Two-level system was also developed. But, it was limited in practical use, because of using very small set of lexicon built manually. And it has also a over-generation problem. In this paper, we propose an automatic construction method of Korean Two-level lexicon for PC-KIMMO from morpheme tagged corpus. We also propose a method to solve over-generation problem using lexical information and sub-tags. The experiment showed that the proposed method reduced over-generation by 68% compared with the previous method, and the performance increased from 39% to 65% in f-measure.

Automatic Recognition of Korean Broadcast News Using Flexible Vocabulary Recognition Models (가변 어휘 인식 모델을 이용한 한국어 방송 뉴스 음성의 인식)

  • 유하진
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.70-73
    • /
    • 1998
  • 본 논문에서는 한국어 방송 뉴스 인식 시스템에 관하여 기술한다. 인식 실험 과정에서는 실제로 방송된 음성을 인식하였으나, 인식을 위한 음향 모델은 본 연구소에서 갭라한 고립단어 인식용 가변 어휘 인식모델을 이용하였다. 가변 어휘 인식기는 방송 음성의 연속 문장을 이용하지 않고, 음향학적으로 고르게 분포된 고립 단어를 이용하여 학습되었다. 본 연구에서는 한국어의 특성상 문장이 영어권과 같이 단어 단위가 아닌 어절로 나누어 지는 점을 고려하여, 다양한 형태의 사전 표제어를 대상으로 실험하였다. 또한 탐색과정의 초기단계에 장거리 언어모델을 사용함으로써 인식 오류를 줄일 수 있었다.

  • PDF

A Study on the Features of Communicative Languages by Frequency Information (자모 빈도에 의한 통신 언어의 특성 연구)

  • Kang, Seung-Shik;Kim, Bo-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.501-504
    • /
    • 2003
  • 인터넷 채팅과 문자 메시지 등 통신 환경에서 사용되는 어휘들은 일정한 규칙성과 방향성을 가지고 있을 것으로 추정된다. 통신 용어의 생성 규칙과 음운론적 변형 현상을 규명하기 위하여 통신 용어의 사용 빈도의 분석과 언어학적 접근 방법을 통하여 통신 언어의 생성 원인을 분석한다 통신 환경에서 변형되어 사용되는 어휘들의 표준어와 통신상에서 사용되는 어휘 형태에 대해 각각 초성, 중성, 종성 빈도를 계산하고 통신 용어와 표준의 자모 사용 비율 변화를 분석하여 통신 용어가 생성되는 원인을 분석하였다.

  • PDF

A Study on the Multiple Pronunciation Dictionary for Spontaneous Speech Recognition (대화체 연속음성인식을 위한 확장 다중발음 사전에 관한 연구)

  • Kang ByungOk
    • Proceedings of the KSPS conference
    • /
    • 2003.10a
    • /
    • pp.65-68
    • /
    • 2003
  • 본 논문에서는 대화체 연속음성인식 과정에서 사용되는 다중발음사전의 개념을 확장하여 대화체 발화에 빈번하게 나타나는 불규칙한 발음변이 현상을 포용하도록 한 확장된 발음사전의 방법을 적용하여 대화체 연속음성인식에서 인식성능의 향상을 가져오게 됨을 실험을 통해 보여준다. 대화체 음성에서 빈번하게 나타나는 음운축약 및 음운탈락, 전형적인 오발화, 양성음의 음성음화 등의 발음변이는 언어모델의 효율성을 떨어뜨리고 어휘 수를 증가시켜 음성인식의 성능을 저하시키고, 또한 음성인식 결과로 나타나는 출력형태가 정형화되지 못하는 단점을 가지고 있다. 이에 이러한 발음변이들을 발음사전에 수용할 때 각각의 대표어휘에 대한 변이발음으로 처리하고, 언어모델과 어휘사전은 대표어휘만을 이용해 구성하도록 한다. 그리고, 음성인식기의 탐색부에서는 각각의 변이발음의 발음열도 탐색하되 대표어휘로 언어모델을 참조하도록 하고, 인식결과를 출력하도록 하여 결과적으로 인식성능을 향상시키고, 정형화된 출력패턴을 얻도록 한다. 본 연구에서는 어절단위 뿐 아니라 의사형태소[2] 단위의 발음사전에도 발음변이를 포용하도록 하여 실험을 하였다. 실험을 통해 어절단위의 다중발음사전 구성을 통해 ERR 10.9%, 의사형태소 단위의 다중발음 사전의 구성을 통해 ERR 4.3%의 성능향상을 보였다.

  • PDF

Query Related Issue Detection using Related Term Extraction (연관 어휘 추출을 통한 질의어 관련 이슈 탐지)

  • Kim, Je-Sang;Kim, Dong-Sung;Jo, Hyo-Geun;Lee, Hyun-Ah
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.133-136
    • /
    • 2013
  • 근래 트위터와 페이스북 등의 SNS(Social Network Service)에서 일반 대중의 관심사나 트렌드 등의 이슈를 탐지하는 많은 연구가 이루어지고 있다. 본 논문에서는 검색어에 대한 연관 어휘 추출을 통해 검색어에 연관된 이슈나 화제를 트위터에서 추출하기 위한 방법을 제안한다. 본 논문에서는 연관성이 높은 단어는 서로 가깝게 발생할 것으로 기대하고, 단어 간 거리가 가까울수록, 공기빈도가 높을수록 커지는 단어연관도 계산법을 제안한다. 연관도 값이 임계치를 넘는 어휘를 연관 어휘로 보고 네트워크의 형태로 관련 이슈를 제시한다.

  • PDF

A Study on the Extraction of Formal Vocabularies related with Form Generation in Space Design (형태생성과 연관된 공간디자인의 형태어휘 추출)

  • Choi, Eun-Hee
    • Korean Institute of Interior Design Journal
    • /
    • v.16 no.6
    • /
    • pp.65-76
    • /
    • 2007
  • This research is progressed on the premise that there is a basic rule to organize a space in form generation process. In this study first, antecedent researches are inquired, and formal vocabularies related with form generation in space design are founded. Generally in the organizing process of spatial form designer could have selectively combined formal vocabularies consciously or unconsciously, and these formal vocabularies related with form generation are classified with 'formal elements' and 'spatial relationships'. First, as formal elements '2-dimensional line elements(rectilinear, oblique-linear, curvilinear)' are chosen. Second, formal vocabularies of 'spatial relationships' are 37 extracted from literatures related with architectural language or spatial language. Among them there are several vocabularies with similar or same meaning, they are unitized to representative one. Thereupon 20 vocabularies are finally selected as the formal vocabularies of 'spatial relationships', they are addition, subtraction, intersection, superimposition, juxtaposition, shifting, rotation, reflection, scaling, stretching, shear, bending, folding, distortion, articulation, deconstruction, symmetry, repetition, proportion, and asymmetry.

A Study on the Extraction of Emotional Words for Media Facade (내용분석 및 자유연상을 통한 미디어 파사드의 감성어휘 추출)

  • Lee, Seung-min;Bang, Kee-chun
    • Journal of Digital Contents Society
    • /
    • v.16 no.5
    • /
    • pp.741-748
    • /
    • 2015
  • The aim of this paper is to select a distinct vocabulary for understanding the media facade of user and to lay the foundation for a media facade emotional scale. Firstly, we assembled a set of emotional words that were sufficient to represent a general overview of korean emotions, collected from various literature studies. Secondly, we found emotional words from collecting user opinion on the Youtube website. Finally the emotional words were collected from phrase by using non-structural survey. The collected words were integrated according to standards and they were organized 39 pieces that can be used in the survey. As a result, we extracted 21 emotional words for measuring user's emotions expressed while watching media facade, such as 'novel', 'cool', 'awesome', 'gorgeous', 'exciting', 'amazing', 'wonderful,', 'showy', 'great,', 'intense', 'good', 'grand', 'colorful', 'unique', 'variety', 'new', 'fun', 'beautiful', 'luxurious,', 'mysterious', 'satisfactory'. And we categorized the 21 words to form 5 elements by using factor analysis such as 'surprise', 'attention', 'variety', 'aesthetics', 'interest'.

Automatic Pronunciation Generation System Using Minimum Morpheme Information (최소 형태소 정보를 이용한 자동 발음열 생성 시스템)

  • 김선희;안주은;김순협
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2003.11a
    • /
    • pp.216-219
    • /
    • 2003
  • 본 논문은 최소한의 형태소 정보를 이용한 자동 발음열 생성 시스템을 제안한다 일반적으로 발음열 생성 시스템은 입력된 문장에 대하여 형태소 단위로 분석한 다음, 각 형태소와 형태소의 결함 관계를 고려한 음운 규칙을 적용함으로써 상응하는 발음열을 생성한다. 지금까지의 연구는 이러한 발음열 생성시의 형태소 분석에 관하여 그 범위에 관한 연구 없이, 가능한 최대한의 분석을 상정하고 있다. 본 논문은 한국어 음운현상을 체계적인 텍스트 분석을 통하여 모든 형태론적 음운론적인 환경에서 가능한 모든 음운현상을 분류하여 발음열 생성시에 실제로 필요한 형태소 분석의 범위를 규명하는 것을 그 목적으로 한다. 음운 현상을 분석하기 위해 사용한 텍스트 자료로는 어휘가 중복되지 않으면서도 많은 종류의 어휘가 수록된 5만 여 어휘의 연세한국어사전과 2200 여 개의 어미와 조사를 수록한 어미조사사전을 이용하였다. 이와 같이 텍스트를 분석한 결과, 음운현상은 규칙적인 음운 현상과 불규칙적인 음운현상으로 나뉘는데, 이 가운데 형태소 정보가 필요한 형태음운규칙으로는 두 가지가 있으며, 이러한 형태음운규칙을 위한 형태소 분석의 범위로는 세세한 분류를 필요로 하지 않는 최소한의 정보로 가능함을 보인다. 이러한 체계적인 분석을 기반으로 제안하는 자동 발음열 생성 시스템은 형태음운규칙과 예외규칙, 그리고 일반음운 규칙으로 구성된다. 본 시스템에 대한 성능 실험은 PBS 1637 어절과 ETRI 텍스트 DB 19만 여 어절을 이용하여 99.9%의 성능결과를 얻었다.

  • PDF

Multi-level Mapping of Ontologies Based on Lexical and Structural Information (어휘와 구조 정보에 기반한 온톨로지의 다단계 매핑)

  • Hwang, Se-Chan;Kang, Sin-Jae
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.22 no.1
    • /
    • pp.42-48
    • /
    • 2012
  • Since the Semantic Web emerged, ontology has been widely used in web environment. Even ontologies belong to the same domain, they may contain same meaning different words, or different meaning same words according to their development background and the type of utilization. In order to share and reuse the ontologies, ontology mapping is required. This paper presents a ontology mapping method that consists of the initial process of multi-level mapping based on lexical information, and the second mapping process using the lexical results and structural similarity. Mapping performance was improved by additionally expanding structural information of blank nodes, which have no lexical information. Through experiments, our method achieved 86.38% in F1-measure.

The Effect of Sensibility on Motion (움직임에서의 감성 효과)

  • 임은영;한광희
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2002.05a
    • /
    • pp.236-240
    • /
    • 2002
  • 기존의 감성 연구들은 주회 배색이나 형태등과 관련된 정적인 장면 위주로 수행되었다. 기술의 발달로 역동적인 디스플레이가 가능해지면서 동적인 장면을 대상으로 한 감성연구의 필요성이 요구된다. 본 연구에서는 움직임과 관련된 감성어휘를 추출하여 감성 차원을 밝히고 움직임과 관련된 속성을 살펴보았다. 다양한 방법을 통해 수집된 감성어휘를 적절성 평가를 통해 70개로 정리한 뒤 요인분석을 통해 각 요인을 대표하는 19개의 기본 감성 어휘를 추출하였다. 움직임 패턴을 제시하면서 19개의 감성어휘를 기초로 움직임에서 의 감성을 평정하도록 하였다. 다차원 척도법을 이용하여 분석한 결과 움직임에 대한 감성 차원은 '적극적이다-소극적이다'의 차원과 ‘밝다-어둡다’의 두 차원으로 대부분 설명 될 수 있음을 확인하였다. 움직이는 속도와 진행 경로를 변화시키면서 두 가지 감성 차원에 따라 움직임에서의 감성을 평가하도록 하였다. 움직이는 속도와 곡선 경로의 진폭이 움직임에서의 감성 차원을 결정하는 중요한 요소로 작용하는 경향을 보였다.

  • PDF