• 제목/요약/키워드: word dictionary

검색결과 276건 처리시간 0.031초

한국 수화 아바타를 위한 수화 사전의 개선 방법 (Improvement of Sign Word Dictionary for Korean Sign Language Avatar)

  • 오영준;박광현;변증남
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.167-170
    • /
    • 2007
  • 본 논문에서는 수화 아바타가 실제 청각장애인처럼 자연스러운 수화 동작을 표현하면서 정확한 의사를 전달할 수 있도록 동음이의어에 대한 처리를 다룬다. 기존의 수화 사전에 품사 정보를 추가하고 한글 형태소 분석기를 활용하여 동음이의어를 구분할 수 있도록 수화 사전을 개선하는 방법을 제안한다.

  • PDF

A Pregroup Analysis of Japanese Causatives

  • Cardinal, Kumi
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2007년도 정기학술대회
    • /
    • pp.96-104
    • /
    • 2007
  • We explore a computational algebraic approach to grammar via pregroups. We examine how the structures of Japanese causatives can be treated in the framework of a pregroup grammar. In our grammar, the dictionary assigns one or more syntactic types to each word and the grammar rules are used to infer types to strings of words. We developed a practical parser representing our pregroup grammar, which validates our analysis.

  • PDF

워드 임베딩을 이용한 세종 전자사전 확장 (Extension Sejong Electronic Dictionary Using Word Embedding)

  • 박다솔;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.75-78
    • /
    • 2016
  • 본 논문에서는 워드 임베딩과 유의어를 이용하여 세종 전자사전을 확장하는 방법을 제시한다. 세종 전자사전에 나타나지 않은 단어에 대해 의미 범주 할당의 시스템 성능은 32.19%이고, 확장한 의미 범주 할당의 시스템 성능은 51.14%의 성능을 보였다. 의미 범주가 할당되지 않은 새로운 단어에 대해서도 논문에서 제안한 방법으로 의미 범주를 할당하여 세종 전자사전의 의미 범주 단어 확장에 대해 도움이 됨을 증명하였다.

  • PDF

비주얼 검색을 위한 위키피디아 기반의 질의어 추출 (Keyword Selection for Visual Search based on Wikipedia)

  • 김종우;조수선
    • 한국멀티미디어학회논문지
    • /
    • 제21권8호
    • /
    • pp.960-968
    • /
    • 2018
  • The mobile visual search service uses a query image to acquire linkage information through pre-constructed DB search. From the standpoint of this purpose, it would be more useful if you could perform a search on a web-based keyword search system instead of a pre-built DB search. In this paper, we propose a representative query extraction algorithm to be used as a keyword on a web-based search system. To do this, we use image classification labels generated by the CNN (Convolutional Neural Network) algorithm based on Deep Learning, which has a remarkable performance in image recognition. In the query extraction algorithm, dictionary meaningful words are extracted using Wikipedia, and hierarchical categories are constructed using WordNet. The performance of the proposed algorithm is evaluated by measuring the system response time.

DAWG에 의한 한글단어사전의 구성 및 실험 (Implementation and Exprimentation for Hangul Word Dictionary via DAWG)

  • 신성효;김상운
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.207-210
    • /
    • 1994
  • 한글 전자사전은 많은 양의 데이타를 저장할 수 있어야 하며, 빠른 검색 속도를 제공해야 한다. 기존의 트라이는 공통접두사만을 압축하기 때문에 사전의 크기가 방대하다는 단점이 있다. 본 논문에서는 DAWG(Directed Acyclic Word Graph)를 이용하여 공통접미사까지 압축하였고, 검색과 기억장소의 효율을 위하여, 링크드리스트 구조의 DAWG를 유형별 배열 구조로 바꾸었다. 전국의 각 학교 이름들을 대상으로 실험한 결과, 본 논문에서 제안한 DAWG를 이용한 배열 구조의 사전은 트라이와 비교하여 볼 때, 검색 연산의 성능은 동일하게 유지하면서 기억 장소의 효율과 압축율에서 효과적이었다. 또한, 트라이보다 주기억장치와 보조기억장치와의 블록 입출력횟수를 줄임으로써 전체 검색 시간을 낮출 수 있었다.

  • PDF

벅아이 코퍼스 오류 수정과 코퍼스 활용을 위한 프랏 스크립트 툴 (Error Correction and Praat Script Tools for the Buckeye Corpus of Conversational Speech)

  • 윤규철
    • 말소리와 음성과학
    • /
    • 제4권1호
    • /
    • pp.29-47
    • /
    • 2012
  • The purpose of this paper is to show how to convert the label files of the Buckeye Corpus of Spontaneous Speech [1] into Praat format and to introduce some of the Praat scripts that will enable linguists to study various aspects of spoken American English present in the corpus. During the conversion process, several types of errors were identified and corrected either manually or automatically by the use of scripts. The Praat script tools that have been developed can help extract from the corpus massive amounts of phonetic measures such as the VOT of plosives, the formants of vowels, word frequency information and speech rates that span several consecutive words. The script tools can extract additional information concerning the phonetic environment of the target words or allophones.

Text Mining and Sentiment Analysis for Predicting Box Office Success

  • Kim, Yoosin;Kang, Mingon;Jeong, Seung Ryul
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권8호
    • /
    • pp.4090-4102
    • /
    • 2018
  • After emerging online communications, text mining and sentiment analysis has been frequently applied into analyzing electronic word-of-mouth. This study aims to develop a domain-specific lexicon of sentiment analysis to predict box office success in Korea film market and validate the feasibility of the lexicon. Natural language processing, a machine learning algorithm, and a lexicon-based sentiment classification method are employed. To create a movie domain sentiment lexicon, 233,631 reviews of 147 movies with popularity ratings is collected by a XML crawling package in R program. We accomplished 81.69% accuracy in sentiment classification by the Korean sentiment dictionary including 706 negative words and 617 positive words. The result showed a stronger positive relationship with box office success and consumers' sentiment as well as a significant positive effect in the linear regression for the predicting model. In addition, it reveals emotion in the user-generated content can be a more accurate clue to predict business success.

현대 중국어의 삼음사(三音詞)와 현용 한국 삼음절(三音節) 한자어(漢字語)의 동형(同形) 동소어(同素語) 비교 연구 (A Comparative Study of the Trisyllabic Words with same form-morpheme and same meaning in Modern Chinese and the Trisyllabic Korean Words Written in Chinese Characters with same form-morpheme and same meaning)

  • 최금단
    • 비교문화연구
    • /
    • 제25권
    • /
    • pp.743-773
    • /
    • 2011
  • In this research, the writer has done a comparative analysis of 4,791 trisyllabic modern Chinese vocabularies from "a dictionary for trisyllabic modern Chinese word" and the corresponding Korean words written in Chinese characters out of 170,000 vocabularies hereupon that are collected in "new age new Korean dictionar y". Aa a result, we have the total 407 pairs of corresponding group with the following 3 types: 1) Chinese : Korean 3(2) : 3 syllable Chinese characters with completely same form-morpheme and same meaning, use, class (376pairs, 92.38% of 407), 2) Chinese : Korean 3 : 3 syllable Chinese characters with completely same form-morpheme and partly same meaning, use, class (18pairs, 4.42% of 407), 3)Chinese : Korean 3 : 3 syllable Chinese characters with completely same form-morpheme and different meaning, use, class (13pairs, 3.19% of 407).

온톨로지 구축 및 단어 의미 중의성 해소에의 활용 (Ontology Construction and Its Application to Disambiguate Word Senses)

  • 강신재
    • 정보처리학회논문지B
    • /
    • 제11B권4호
    • /
    • pp.491-500
    • /
    • 2004
  • 본 논문은 기존의 다양한 언어자원들을 이용하여 온톨로지를 구축하고, 이를 단어의미 중의성 해소에 활용하는 방법을 제시하고 있다. 온톨로지를 실용적으로 구축하기 위해서는 가도카와 시소러스의 개념 체계에 격 관계와 기타 의미관계와 같은 다른 의미관계를 추가하여 확장하는 방법을 선택하였다. 구축된 온톨로지를 단어 의미 중의성 해소에 활용하기 위해서는, 결합가 정보를 포함하고 있는 전자사전을 먼저 이용하여 단어의 의미를 결정하고, 결정하지 못한 단어의 의미는 온톨로지를 이용하여 결정하는 절차를 거친다. 이를 위해 온톨로지 내 개념들간의 상호정보가 말뭉치의 통계 정보에 근거하여 계산되는데, 이를 가중치로 간주하면 온톨로지는 가중치 그래프로 생각할 수 있으므로 개념간 경로를 통하여 개념간 연관도를 알아 볼 수 있다. 실제 기계번역 시스템에서 본 방법은 온톨로지를 사용하지 않은 방법보다 9%의 성능 향상을 가져오는 결과를 얻을 수 있었다.

영어 동사의 의미적 유사도와 논항 선택 사이의 연관성 : ICE-GB와 WordNet을 이용한 통계적 검증 (The Strength of the Relationship between Semantic Similarity and the Subcategorization Frames of the English Verbs: a Stochastic Test based on the ICE-GB and WordNet)

  • 송상헌;최재웅
    • 한국언어정보학회지:언어와정보
    • /
    • 제14권1호
    • /
    • pp.113-144
    • /
    • 2010
  • The primary goal of this paper is to find a feasible way to answer the question: Does the similarity in meaning between verbs relate to the similarity in their subcategorization? In order to answer this question in a rather concrete way on the basis of a large set of English verbs, this study made use of various language resources, tools, and statistical methodologies. We first compiled a list of 678 verbs that were selected from the most and second most frequent word lists from the Colins Cobuild English Dictionary, which also appeared in WordNet 3.0. We calculated similarity measures between all the pairs of the words based on the 'jcn' algorithm (Jiang and Conrath, 1997) implemented in the WordNet::Similarity module (Pedersen, Patwardhan, and Michelizzi, 2004). The clustering process followed, first building similarity matrices out of the similarity measure values, next drawing dendrograms on the basis of the matricies, then finally getting 177 meaningful clusters (covering 437 verbs) that passed a certain level set by z-score. The subcategorization frames and their frequency values were taken from the ICE-GB. In order to calculate the Selectional Preference Strength (SPS) of the relationship between a verb and its subcategorizations, we relied on the Kullback-Leibler Divergence model (Resnik, 1996). The SPS values of the verbs in the same cluster were compared with each other, which served to give the statistical values that indicate how much the SPS values overlap between the subcategorization frames of the verbs. Our final analysis shows that the degree of overlap, or the relationship between semantic similarity and the subcategorization frames of the verbs in English, is equally spread out from the 'very strongly related' to the 'very weakly related'. Some semantically similar verbs share a lot in terms of their subcategorization frames, and some others indicate an average degree of strength in the relationship, while the others, though still semantically similar, tend to share little in their subcategorization frames.

  • PDF