• 제목/요약/키워드: word context

검색결과 358건 처리시간 0.025초

Analyzing Errors in Bilingual Multi-word Lexicons Automatically Constructed through a Pivot Language

  • Seo, Hyeong-Won;Kim, Jae-Hoon
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제39권2호
    • /
    • pp.172-178
    • /
    • 2015
  • Constructing a bilingual multi-word lexicon is confronted with many difficulties such as an absence of a commonly accepted gold-standard dataset. Besides, in fact, there is no everybody's definition of what a multi-word unit is. In considering these problems, this paper evaluates and analyzes the context vector approach which is one of a novel alignment method of constructing bilingual lexicons from parallel corpora, by comparing with one of general methods. The approach builds context vectors for both source and target single-word units from two parallel corpora. To adapt the approach to multi-word units, we identify all multi-word candidates (namely noun phrases in this work) first, and then concatenate them into single-word units. As a result, therefore, we can use the context vector approach to satisfy our need for multi-word units. In our experimental results, the context vector approach has shown stronger performance over the other approach. The contribution of the paper is analyzing the various types of errors for the experimental results. For the future works, we will study the similarity measure that not only covers a multi-word unit itself but also covers its constituents.

지지벡터기계를 이용한 단어 의미 분류 (Word Sense Classification Using Support Vector Machines)

  • 박준혁;이성욱
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.563-568
    • /
    • 2016
  • 단어 의미 분별 문제는 문장에서 어떤 단어가 사전에 가지고 있는 여러 가지 의미 중 정확한 의미를 파악하는 문제이다. 우리는 이 문제를 다중 클래스 분류 문제로 간주하고 지지벡터기계를 이용하여 분류한다. 세종 의미 부착 말뭉치에서 추출한 의미 중의성 단어의 문맥 단어를 두 가지 벡터 공간에 표현한다. 첫 번째는 문맥 단어들로 이뤄진 벡터 공간이고 이진 가중치를 사용한다. 두 번째는 문맥 단어의 윈도우 크기에 따라 문맥 단어를 단어 임베딩 모델로 사상한 벡터 공간이다. 실험결과, 문맥 단어 벡터를 사용하였을 때 약 87.0%, 단어 임베딩을 사용하였을 때 약 86.0%의 정확도를 얻었다.

생성적 적대 신경망(GAN)을 이용한 한국어 문서에서의 문맥의존 철자오류 교정 (Context-Sensitive Spelling Error Correction Techniques in Korean Documents using Generative Adversarial Network)

  • 이정훈;권혁철
    • 한국멀티미디어학회논문지
    • /
    • 제24권10호
    • /
    • pp.1391-1402
    • /
    • 2021
  • This paper focuses use context-sensitive spelling error correction using generative adversarial network. Generative adversarial network[1] are attracting attention as they solve data generation problems that have been a challenge in the field of deep learning. In this paper, sentences are generated using word embedding information and reflected in word distribution representation. We experiment with DCGAN[2] used for the stability of learning in the existing image processing and D2GAN[3] with double discriminator. In this paper, we experimented with how the composition of generative adversarial networks and the change of learning corpus influence the context-sensitive spelling error correction In the experiment, we correction the generated word embedding information and compare the performance with the actual word embedding information.

말소리장애 아동의 단어와 자발화 문맥의 음운오류패턴 비교 (A comparison of phonological error patterns in the single word and spontaneous speech of children with speech sound disorders)

  • 박가연;김수진
    • 말소리와 음성과학
    • /
    • 제7권3호
    • /
    • pp.165-173
    • /
    • 2015
  • This study was aim to compare the phonological error patterns and PCC(Percentage of Correct Consonants) derived from the single word and spontaneous speech contexts of the speech sound disorders with unknown origin(SSD). The present study suggest that the development phonological error patterns and non-developmental error patterns of the target children, in according to speech context. The subjects were 15 children with SSD up to the age of 5 from 3 years of age. This research use 37 words of APAC(Assessment of Phonology & Articulation for Children) in the single word context and 100 eojeol in the spontaneous speech context. There was no difference of PCC between the single word and the spontaneous speech contexts. Significantly different developmental phonological error patterns between the single word and the spontaneous speech contexts were syllable deletion, word-medial onset deletion, liquid deletion, gliding, affrication, fricative other error, tensing, regressive assimilation. Significantly different non-developmental phonological error patterns were backing, addtion of phoneme, aspirating. The study showed that there was no difference of PCC between elicited single word and spontaneous conversational context. And there were some different phonological error patterns derived from the two contexts of the speech sound disorders. The more important interventions target is the error patterns of the spontaneous speech contexts for the immediate generalization and rising overall intelligibility.

초등 수학 교과서의 문장제에 대한 실제적 맥락 관점에서의 분석 (An Analysis of the Word Problem in Elementary Mathematics Textbook from a Practical Contextual Perspective)

  • 강윤지
    • 한국수학교육학회지시리즈C:초등수학교육
    • /
    • 제25권4호
    • /
    • pp.297-312
    • /
    • 2022
  • 문장제는 학습자에게 다양한 문제해결의 경험을 제공하고 수학적 지식을 맥락에 적용할 수 있도록 안내하여 학습자의 수학 학습을 더욱 의미 있게 이끌 수 있다. 본 연구는 초등 수학 교과서의 문장제를 실제적 맥락 관점에서 살펴봄으로써 교과서 집필 및 교수 학습 과정에 대한 시사점을 제공하고자 하였다. 이를 위하여 초등 수학 교과서 내 수와 연산 영역의 문장제를 살펴보았으며 구체적인 대안을 모색하기 위하여 미국과 핀란드의 초등 수학 교과서를 참고하였다. 분석 결과, 초등 수학 교과서의 문장제에 부자연스러운 맥락이나 소재를 설정하는 경우, 인위적인 수를 삽입하거나 문장제의 언어적 표현 및 삽화가 명료하지 않게 제시되는 경우 등이 나타났다. 이러한 경우 학습자가 문장제의 맥락을 실생활과 별개의 것으로 인식하거나 문장제에서 요구하는 내용을 이해하여 문제를 해결하기 어려울 수 있다. 추후 교과서 집필 시 학습자를 고려하여 소재를 설정하고 삽화, 도식 등을 적극적으로 활용하며 문장 및 삽화를 더 명료하게 구성하는 등 실제적 맥락을 고려하여 다양한 형태의 문장제를 구성할 필요가 있다.

한국어 어휘 의미망(alias. KorLex)의 지식 그래프 임베딩을 이용한 문맥의존 철자오류 교정 기법의 성능 향상 (Performance Improvement of Context-Sensitive Spelling Error Correction Techniques using Knowledge Graph Embedding of Korean WordNet (alias. KorLex))

  • 이정훈;조상현;권혁철
    • 한국멀티미디어학회논문지
    • /
    • 제25권3호
    • /
    • pp.493-501
    • /
    • 2022
  • This paper is a study on context-sensitive spelling error correction and uses the Korean WordNet (KorLex)[1] that defines the relationship between words as a graph to improve the performance of the correction[2] based on the vector information of the word embedded in the correction technique. The Korean WordNet replaced WordNet[3] developed at Princeton University in the United States and was additionally constructed for Korean. In order to learn a semantic network in graph form or to use it for learned vector information, it is necessary to transform it into a vector form by embedding learning. For transformation, we list the nodes (limited number) in a line format like a sentence in a graph in the form of a network before the training input. One of the learning techniques that use this strategy is Deepwalk[4]. DeepWalk is used to learn graphs between words in the Korean WordNet. The graph embedding information is used in concatenation with the word vector information of the learned language model for correction, and the final correction word is determined by the cosine distance value between the vectors. In this paper, In order to test whether the information of graph embedding affects the improvement of the performance of context- sensitive spelling error correction, a confused word pair was constructed and tested from the perspective of Word Sense Disambiguation(WSD). In the experimental results, the average correction performance of all confused word pairs was improved by 2.24% compared to the baseline correction performance.

가변 크기 문맥과 거리가중치를 이용한 동형이의어 중의성 해소 (Word sense disambiguation using dynamic sized context and distance weighting)

  • 이현아
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제38권4호
    • /
    • pp.444-450
    • /
    • 2014
  • 의미 중의성 해소를 위한 대부분의 기존 연구에서는 문장의 특성에 상관없이 고정적인 크기의 문맥을 사용해 왔다. 본 논문에서는 중의성 해소에서 문장에 따라 가변적인 크기의 문맥을 사용하는 가변길이 윈도우와 단어간 거리를 사용한 의미분석 방법을 제안한다. 세종코퍼스의 형태의미분석 말뭉치로 학습하여 12단어 32,735문장에 대해 실험한 결과에서 제안된 방법이 용언에 대하여 92.2%의 평균 정확도를 보여 고정 크기의 문맥을 사용한 경우에 비해 향상된 결과를 보였다.

단어재인에 미치는 연상과 심상성의 영향 (Effects of Association and Imagery on Word Recognition)

  • 김민정;이승복;정범석
    • 인지과학
    • /
    • 제20권3호
    • /
    • pp.243-274
    • /
    • 2009
  • 단어재인에 영향을 미치는 세 변인으로 연상, 단어 사용빈도, 심상성을 들 수 있다. 본 연구는 심상성이 단어재인에 미치는 영향을 살펴보고 심상성의 효과를 설명하는 두 가지 이론(이중 부호화 이론, 맥락 가용성 모델)을 검증하고자 하였다. 대학생 실험 참가자에게 연상 강도와 심상성을 통제한 단어 쌍을 제시하고 어휘판단 과제를 수행하게 하였다. 세 실험에서 과제의 점화자극 제시시간을 각각 달리하여 점화자극 제시시간에 따라 변화하는 두 변인의 효과 및 상호작용 효과를 관찰하였다. 점화자극 제시시간이 가장 짧은(20ms) 실험 1에서는 심상성의 주효과만 통계적으로 유의미 하였으며, 연상 강도가 영향을 미치지 못한 단어재인의 초기시점부터 심상성의 효과가 나타남을 확인하였다. 실험 2에서는 점화자극 제시시간을 50ms로 하였다. 결과, 연상 강도의 주효과와, 심상성의 주 효과, 두 변인의 상호작용 효과가 모두 관찰되었다. 실험 3에서는 점화자극을 비교적 길게(450ms) 제시하였다. 결과, 연상 강도의 주효과만 유의미하게 나타났다. 세 실험에서 모두 전반적으로 이중 부호화 이론의 설명과 일치하는 결과를 얻었다. 이중 부호화 이론의 경우 독립적으로 나타나는 심상성의 효과(예: 실험 1, 2)만을 설명하고 있으며, 맥락 가용성 모델은 독립적으로 나타나는 의미맥락의 효과(예: 실험 3)만을 설명하고 있다. 따라서 두 변인이 단어재인에 미치는 시간적 맥락과 그 영향의 크기를 적절히 고려한 통합된 이론이 요구된다는 점을 논의하였다.

  • PDF

일반 및 말소리장애 아동의 탈비음화 오류패턴 (Denasalization error pattern for typically developing and SSD children)

  • 김민정
    • 말소리와 음성과학
    • /
    • 제7권2호
    • /
    • pp.3-8
    • /
    • 2015
  • Denasalization that nasals are replaced by stops is an unusual error pattern related to manner of articulation. The purpose of this study is to investigate the prevalence of denasalization and to scrutinize the nasal production according to phonological context for typically developing children and children with speech sound disorders(SSD). 220 typically developing children and 48 SSD children from 2~6 years of age were tested with a formal word test, and those who demonstrate denasalization were selected. In addition, the nasal production of SSD children with denasalization were analyzed for the correctness and the error types using the formal word test and spontaneous conversation. The results were as follows: (1) Denasalization was shown in below 10% of 2-3 years of age with typically developing children and in above 20% of 2-5 years of age with SSD. (2) The SSD children who demonstrate denasalization were categorized into 4 types according to the error context of nasals; nasal errors with all word positions, nasal errors with word-final and word-medial positions, nasal errors with word-medial position preceding vowels, and nasal errors with word-medial position preceding obstruents. These results indicate that denasalization is a clinically important error pattern, and word-medial position preceding obstruents is an essential context for denasalization in terms of Korean phonotactics.

단어 중의성 해소를 위한 SVM 분류기 최적화에 관한 연구 (A Study on Optimization of Support Vector Machine Classifier for Word Sense Disambiguation)

  • 이용구
    • 정보관리연구
    • /
    • 제42권2호
    • /
    • pp.193-210
    • /
    • 2011
  • 이 연구는 단어 중의성 해소를 위해 SVM 분류기가 최적의 성능을 가져오는 문맥창의 크기와 다양한 가중치 방법을 파악하고자 하였다. 실험집단으로 한글 신문기사를 적용하였다. 문맥창의 크기로 지역 문맥은 좌우 3단어, 한 문장, 그리고 좌우 50바이트 크기를 사용하였으며, 전역문맥으로 신문기사 전체를 대상으로 하였다. 가중치 부여 기법으로는 단순빈도인 이진 단어빈도와 단순 단어빈도를, 정규화 빈도로 단순 또는 로그를 취한 단어빈도 ${\times}$ 역문헌빈도를 사용하였다. 실험 결과 문맥창의 크기는 좌우 50 바이트가 가장 좋은 성능을 보였으며, 가중치 부여 방법은 이진 단어빈도가 가장 좋은 성능을 보였다.