• 제목/요약/키워드: Word order

검색결과 1,015건 처리시간 0.023초

신조어를 인식할 수 있는 영어단어 게임시스템 (English Word Game System Recognizing Newly Coined Words)

  • 심동욱;박소영;김기섭;강한구;장준호;이대웅
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.521-524
    • /
    • 2009
  • 인터넷 환경의 급속하게 발전하면서 웹을 통하여 많은 학습 매체를 경험할 수 있다. 특히 영어 교육의 중요성이 강조되면서, 많은 영어 학습 관련 소프트웨어가 출시되었다. 그러나 기존 영어단어 교육용 시스템은 대부분 1명의 사용자가 게임을 진행하는 방식이며, 또한 'WIKIPEDIA'와 같은 신조어를 전혀 고려하지 못한다. 따라서 본 논문에서는 사용자에게 흥미와 즐거움을 유도하여 학습이 가능하도록 '스크레블'이라는 보드게임을 온라인으로 구현하였다. 제안하는 영어단어 교육용 게임시스템의 특징은 다음과 같다. 첫째, 제안하는 시스템은 인공지능을 바탕으로 한 가상의 사용자와 함께 단일 사용자 모드와 다중 사용자 모드를 모두 지원한다. 둘째, 제안하는 시스템은 NEVER 오픈 API사전을 이용하여 'WIKIPEDIA'와 같은 신조어에도 인식할 수 있다. 셋째, 매뉴얼 없이도 쉽게 게임을 즐길 수 있도록 사용자에게 익숙한 UI를 제공한다. 따라서 제안하는 시스템은 사용자에게 영어단어학습에 대한 흥미와 즐거움을 고취할 수 있다고 기대한다.

  • PDF

한글 단어 재인 시 음절 빈도가 글자 교환 효과에 미치는 영향 (The influence of the syllable frequency on transposed letter effect of Korean word recognition)

  • 이선경;이윤형;이창환
    • 인지과학
    • /
    • 제32권3호
    • /
    • pp.99-115
    • /
    • 2021
  • 본 연구는 로마자 알파벳 언어에서 일관되게 나타나는 글자 교환 효과와 관련된 혼동 현상이 한국어에서는 발견하기 어려운 사실에 근거하여 관련 소재(locus)를 탐색하고자 수행되었다. 한글 글자 교환에 대한 몇몇 연구에서는 음절이나 형태소 교환의 경우 혼동 효과가 유의미하게 있었지만 단순 글자의 교환에서는 혼동 효과가 미미하였다. 본 연구에서는 일련의 글자 교환 효과에 관한 기존 연구의 분석을 바탕으로 글자의 빈도가 조절변인일 수 있음에 착안하여 이를 검증하였다. 실험 결과, 한글 단어(예: 민주화)의 글자들을 교환하여 형성된 비단어에서 고빈도 음절이 포함되게 한 경우(예: 진무화) 유의미한 글자 교환 효과를 발견하였으나 저빈도 음절이 포함되게 한 경우(예: 경쟁력 → 졍갱력)에는 글자 교환 효과가 나타나지 않았다. 이는 음절 빈도라는 어휘 변인이 한글 글자 교환 효과에 간여하는 주요 변인일 수 있음을 시사하며 한글에서도 글자 수준에서의 교환 효과가 나타날 수 있음을 밝혔다.

Text Augmentation Using Hierarchy-based Word Replacement

  • Kim, Museong;Kim, Namgyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.57-67
    • /
    • 2021
  • 최근 딥 러닝(Deep Learning) 분석에 이질적인 데이터를 함께 사용하는 멀티모달(Multi-modal) 딥러닝 기술이 많이 활용되고 있으며, 특히 텍스트로부터 자동으로 이미지를 생성해내는 Text to Image 합성에 관한 연구가 활발하게 수행되고 있다. 이미지 합성을 위한 딥러닝 학습은 방대한 양의 이미지와 이미지를 설명하는 텍스트의 쌍으로 구성된 데이터를 필요로 하므로, 소량의 데이터로부터 다량의 데이터를 생성하기 위한 데이터 증강 기법이 고안되어 왔다. 텍스트 데이터 증강의 경우 유의어 대체에 기반을 둔 기법들이 다수 사용되고 있지만, 이들 기법은 명사 단어의 유의어 대체 시 이미지의 내용과 상이한 텍스트를 생성할 가능성이 있다는 한계를 갖는다. 따라서 본 연구에서는 단어가 갖는 품사별 특징을 활용하는 텍스트 데이터 증강 방안, 즉 일부 품사에 대해 단어 계층 정보를 활용하여 단어를 대체하는 방안을 제시하였다. 또한 제안 방법론의 성능을 평가하기 위해 MSCOCO 데이터를 사용하여 실험을 수행하여 결과를 제시하였다.

텍스트 마이닝 기법을 활용한 어깨 재활 연구분야 동향과 키워드 모델링 (The Research Trends and Keywords Modeling of Shoulder Rehabilitation using the Text-mining Technique)

  • 김준희;정성훈;황의재
    • 대한물리의학회지
    • /
    • 제16권2호
    • /
    • pp.91-100
    • /
    • 2021
  • PURPOSE: This study analyzed the trends and characteristics of shoulder rehabilitation research through keyword analysis, and their relationships were modeled using text mining techniques. METHODS: Abstract data of 10,121 articles in which abstracts were registered on the MEDLINE of PubMed with 'shoulder' and 'rehabilitation' as keywords were collected using python. By analyzing the frequency of words, 10 keywords were selected in the order of the highest frequency. Word-embedding was performed using the word2vec technique to analyze the similarity of words. In addition, the groups were classified and analyzed based on the distance (cosine similarity) through the t-SNE technique. RESULTS: The number of studies related to shoulder rehabilitation is increasing year after year, keywords most frequently used in relation to shoulder rehabilitation studies are 'patient', 'pain', and 'treatment'. The word2vec results showed that the words were highly correlated with 12 keywords from studies related to shoulder rehabilitation. Furthermore, through t-SNE, the keywords of the studies were divided into 5 groups. CONCLUSION: This study was the first study to model the keywords and their relationships that make up the abstracts of research in the MEDLINE of Pub Med related to 'shoulder' and 'rehabilitation' using text-mining techniques. The results of this study will help increase the diversifying research topics of shoulder rehabilitation studies to be conducted in the future.

딥러닝을 이용한 한국어 Head-Tail 토큰화 기법과 품사 태깅 (Korean Head-Tail Tokenization and Part-of-Speech Tagging by using Deep Learning)

  • 김정민;강승식;김혁만
    • 대한임베디드공학회논문지
    • /
    • 제17권4호
    • /
    • pp.199-208
    • /
    • 2022
  • Korean is an agglutinative language, and one or more morphemes are combined to form a single word. Part-of-speech tagging method separates each morpheme from a word and attaches a part-of-speech tag. In this study, we propose a new Korean part-of-speech tagging method based on the Head-Tail tokenization technique that divides a word into a lexical morpheme part and a grammatical morpheme part without decomposing compound words. In this method, the Head-Tail is divided by the syllable boundary without restoring irregular deformation or abbreviated syllables. Korean part-of-speech tagger was implemented using the Head-Tail tokenization and deep learning technique. In order to solve the problem that a large number of complex tags are generated due to the segmented tags and the tagging accuracy is low, we reduced the number of tags to a complex tag composed of large classification tags, and as a result, we improved the tagging accuracy. The performance of the Head-Tail part-of-speech tagger was experimented by using BERT, syllable bigram, and subword bigram embedding, and both syllable bigram and subword bigram embedding showed improvement in performance compared to general BERT. Part-of-speech tagging was performed by integrating the Head-Tail tokenization model and the simplified part-of-speech tagging model, achieving 98.99% word unit accuracy and 99.08% token unit accuracy. As a result of the experiment, it was found that the performance of part-of-speech tagging improved when the maximum token length was limited to twice the number of words.

온라인 쇼핑에서 소비자가 지각하는 공정성의 구조에 대한 탐색적 연구 (An Exploratory Study of Fairness Structure in the Context of the Online Shopping)

  • 김영균
    • 한국산업정보학회논문지
    • /
    • 제14권4호
    • /
    • pp.128-142
    • /
    • 2009
  • 공정성이슈는 마케팅 및 조직심리학 등의 경영학 관련 분야에서 폭넓게 연구되어 왔다. 본 연구의 목적은 공정성을 구성하는 하부 요인들의 구조를 탐색적으로 연구하고, 이들로 구성된 상위 요인의 공정성이 고객만족과 구전의도에 미치는 영향을 알아보는데 있다. 본 연구를 위해 61개 온라인 쇼핑몰업체에서 제품을 구매한 경험이 있는 소비자로부터 데이터를 수집하였다. 수집된 데이터는 LISREL 8.5를 이용한 구조방정식 모델을 통해 분석되었다. 공정성 요인은 기존의 분배, 절차, 상호작용 공정성 등의 세 가지 차원보다는 네 가지 차원(분배, 절차, 대인, 정보공정성)으로 구성되어 있는 것으로 나타났다. 또한 이들 네 가지 차원의 공정성은 상위의 전반적 공정성을 구성하고 이 전반적 공정성은 고객만족과 구전의도에 긍정적인 영향을 주는 것으로 나타났다. 온라인 쇼핑몰이 좀 더 긍정적인 고객만족과 구전의도를 얻기 위해서는 소비자가 지각하는 공정성의 차원을 좀 더 다양하고 다각적인 측면으로 접근해야 한다고 제안된다.

주경로 분석과 연관어 네트워크 분석을 통한 '구전(WoM)' 관련 연구동향 분석 (Analysis of Research Trends of 'Word of Mouth (WoM)' through Main Path and Word Co-occurrence Network)

  • 신현보;김혜진
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.179-200
    • /
    • 2019
  • 구전(Word-of-Mouth) 활동은 오래 전부터 기업의 마케팅 과정에서 중요성을 인식하고 특히 마케팅 분야에서 많은 주목을 받아왔다. 최근에는 인터넷의 발달에 따라 온라인 뉴스, 온라인 커뮤니티 등에서 사람들이 지식과 정보를 주고 받는 방식이 다양해지면서 구전은 후기, 평점, 좋아요 등으로 입소문의 양상이 다각화되고 있다. 이러한 현상에 따라 구전에 관한 다양한 연구들이 선행되어왔으나, 이들을 종합적으로 분석한 메타 분석 연구는 부재하다. 본 연구는 학술 빅데이터를 활용해 구전 관련 연구동향을 알아내기 위해서 텍스트 마이닝 기법을 적용하여 주요 연구들을 추출하고 시기별로 연구들의 주요 쟁점을 파악하는 기법을 제안하였다. 이를 위해서 1941년부터 2018년까지 인용 데이터베이스인 Scopus에서 'Word-of-Mouth'라는 키워드로 검색되는 총 4389건의 문헌을 수집하였고, 영어 형태소 분석과 불용어 제거 등 전처리 과정을 통해 데이터를 정제하였다. 본 연구는 학문 분야의 발전 궤적을 추적하는 데 활용되는 주경로 분석기법을 적용해 구전과 관련된 핵심 연구들을 추출하여 연구동향을 거시적 관점에서 제시하였고, 단어동시출현 정보를 추출하여 키워드 간 네트워크를 구축하여 시기별로 구전과 관련된 연관어들이 어떻게 변화되었는지 살펴봄으로써 연구동향을 미시적 관점에서 제시하였다. 수집된 문헌 데이터를 기반으로 인용 네트워크를 구축하고 SPC 가중치를 적용하여 키루트 주경로를 추출한 결과 30개의 문헌으로 구성된 주경로가 추출되었고, 연관어 네트워크 분석을 통해서는 시기별로 온라인 시대, 관광 산업 등 다양한 산업군 등 산업 변화가 반영돼 시대적 변화와 더불어 발전하고 있는 학술적 영역의 변화를 확인할 수 있었다.

Creation of the Conversion Table from Hangeul to the Roman Alphabet

  • Kim, Kyoung-Jing;Rhee, Sang-Burm
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2002년도 ITC-CSCC -1
    • /
    • pp.321-324
    • /
    • 2002
  • For a rule-based conversion of Hangout into the Roman alphabet rather than a word-for-word conversion, one must come up with a faultless model for the Korean standard pronunciation rules, which are the basis of the Romanization. It is on this foundation that the Korean-Roman alphabet conversion table can be created. For linguistic modeling using PetriNet, modeling boundary and notation of modeling can be defined. In order to describe PetriNet, which is a dynamic modeling tool, as a static one, one can model the standard Korean pronunciation rules and the Hangout-Roman alphabet notation by conversion into incident matrix Thus, this research attempts to develop a mathematical modeling tool for a natural language using PetriNet, and create a Korean-Roman alphabet conversion table.

  • PDF

주파수 영역에서의 고립단어에 대한 음성 특징 추출 (Speech Feature Extraction for Isolated Word in Frequency Domain)

  • 조영훈;박은명;강홍석;박원배
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 하계종합학술대회 논문집(4)
    • /
    • pp.81-84
    • /
    • 2000
  • In this paper, a new technology for extracting the feature of the speech signal of an isolated word by the analysis on the frequency domain is proposed. This technology can be applied efficiently for the limited speech domain. In order to extract the feature of speech signal, the number of peaks is calculated and the value of the frequency for a peak is used. Then the difference between the maximum peak and the second peak is also considered to identify the meanings among the words in the limited domain. By implementing this process hierarchically, the feature of speech signal can be extracted more quickly.

  • PDF

단어의 의미와 순서를 고려하는 문서색인방법을 이용한 CNN 기반 한글문서분류 (Classification of Korean Documents Based on CNN Using Document Indexing Method based on Word Meaning and Order)

  • 김남훈;양형정
    • 한국컴퓨터교육학회 학술대회
    • /
    • 한국컴퓨터교육학회 2017년도 하계학술대회
    • /
    • pp.41-45
    • /
    • 2017
  • 본 논문에서는 컨볼루션 신경망 네트워크(CNN:Convolution Neural Network)을 기반으로 단어의 의미와 순서를 고려하는 문서 색인 방법을 이용하여 한글 문서 분류 방법을 제안한다. 먼저 문서를 형태소 분석하여 어절 단위로 분리 한 후, 불용어를 처리 하고, 문서의 단어 의미를 고려하는 문서 표현하고, 문서의 단어 순서까지 고려하여 CNN의 입력으로 사용하였다. 실험결과 CNN 분류기를 기반으로 본 논문에서 제안하는 문서 색인 방법은 TF-IDF를 이용하는 방법보다 4.2%, Word2vec만 단독으로 사용하는 것보다 1.4%의 성능 상승을 이루었다. 이러한 결과를 통해 본 논문에서 제안하는 방법이 문서범주화 데이터 셋에서 문서 분류 성능향상에 영향을 미친다는 것을 확인하였다.

  • PDF