• Title/Summary/Keyword: Word order

검색결과 1,011건 처리시간 0.019초

종단 간 심층 신경망을 이용한 한국어 문장 자동 띄어쓰기 (Automatic Word Spacing of the Korean Sentences by Using End-to-End Deep Neural Network)

  • 이현영;강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권11호
    • /
    • pp.441-448
    • /
    • 2019
  • 기존의 자동 띄어쓰기 연구는 n-gram 기반의 통계적인 기법을 이용하거나 형태소 분석기를 이용하여 어절 경계면에 공백을 삽입하는 방법으로 띄어쓰기 오류를 수정한다. 본 논문에서는 심층 신경망을 이용한 종단 간(end-to-end) 한국어 문장 자동 띄어쓰기 시스템을 제안한다. 자동 띄어쓰기 문제를 어절 단위가 아닌 음절 단위 태그 분류 문제로 정의하고 음절 unigram 임베딩과 양방향 LSTM Encoder로 문장 음절간의 양방향 의존 관계 정보를 고정된 길이의 문맥 자질 벡터로 연속적인 벡터 공간에 표현한다. 그리고 새로이 표현한 문맥 자질 벡터를 자동 띄어쓰기 태그(B 또는 I)로 분류한 후 B 태그 앞에 공백을 삽입하는 방법으로 한국어 문장의 자동 띄어쓰기를 수행하였다. 자동 띄어쓰기 태그 분류를 위해 전방향 신경망, 신경망 언어 모델, 그리고 선형 체인 CRF의 세 가지 방법의 분류 망에 따라 세 가지 심층 신경망 모델을 구성하고 종단 간 한국어 자동 띄어쓰기 시스템의 성능을 비교하였다. 세 가지 심층 신경망 모델에서 분류 망으로 선형체인 CRF를 이용한 심층 신경망 모델이 더 우수함을 보였다. 학습 및 테스트 말뭉치로는 최근에 구축된 대용량 한국어 원시 말뭉치로 KCC150을 사용하였다.

과학의 본성 관련 문헌들의 단어수준 워드임베딩 모델 적용 가능성 탐색 -정성적 성능 평가를 중심으로- (The Study on Possibility of Applying Word-Level Word Embedding Model of Literature Related to NOS -Focus on Qualitative Performance Evaluation-)

  • 김형욱
    • 과학교육연구지
    • /
    • 제46권1호
    • /
    • pp.17-29
    • /
    • 2022
  • 본 연구의 목적은 NOS 관련 주제를 대상으로 컴퓨터가 얼마나 효율적이고 타당하게 학습할 수 있는지에 대하여 정성적으로 탐색하고자 한 연구이다. 이를 위해 NOS와 관련되는 문헌(논문초록 920편)을 중심으로 말뭉치를 구성하였으며, 최적화된 Word2Vec (CBOW, Skip-gram)모델의 인자를 확인하였다. 그리고 NOS의 4가지 영역(Inquiry, Thinking, Knowledge, STS)에 따라 단어수준 워드임베딩 모델 비교평가를 수행하였다. 연구 결과, 선행연구와 사전 성능 평가에 따라 CBOW 모델은 차원 200, 스레드 수 5, 최소빈도수 10, 반복횟수 100, 맥락범위 1로 결정되었으며, Skip-gram 모델은 차원수 200, 스레드 수 5, 최소빈도수 10, 반복횟수 200, 맥락범위 3으로 결정되었다. NOS의 4가지 영역에 적용하여 확인한 모델별 유사도가 높은 단어의 종류는 Skip-gram 모델이 Inquiry 영역에서 성능이 좋았다. Thinking 및 Knowledge 영역에서는 두 모델별 임베딩 성능 차이는 나타나지 않았으나, 각 모델별 유사도가 높은 단어의 경우 상호 영역 명을 공유하고 있어 제대로 된 학습을 하기 위해 다른 모델의 추가 적용이 필요해 보였다. STS 영역에서도 지나치게 문제 해결과 관련된 단어를 나열하면서 포괄적인 STS 요소를 탐색하기에 부족한 임베딩 성능을 지닌 것으로 평가되었다. 본 연구를 통해 NOS 관련 주제를 컴퓨터에게 학습시켜 과학교육에 활용할 수 있는 모델과 인공지능 활용에 대한 전반적인 시사점을 줄 수 있을 것으로 기대된다.

온라인 구전 커뮤니케이션: 온라인 쇼핑몰에서의 소비자 사용후기 작성동기 (Online Word-of-Mouth: Motivation for Writing Product Reviews on Internet Shopping Sites)

  • 김성희
    • 패션비즈니스
    • /
    • 제14권2호
    • /
    • pp.81-94
    • /
    • 2010
  • The online shopping environment has radically changed consumer shopping behavior. Without the actual physical shopping experience in a brick-and-mortar store, consumers make purchasing decisions over the Internet. They make an effort to obtain product information not only from online merchants, but also from previous purchasers in order to make an informed decision. Accordingly, customer comments are expected to have a significant impact on decisions to purchase goods and services online. This paper focuses on one type of electronic word-of-mouth, the online consumer review. It derives several motivations why customers post product reviews on shopping mall sites. Customer motives were identified through an in depth one-on-one interview with twenty female respondents conducted twice from June $17^{th}$ to September $11^{th}$, 2009. The interviews lasted between 40 and 60 minutes. The results showed that consumers write product reviews based on six motivations: to receive a reward or remuneration for writing a product review, to share information with other customers, to improve the quality of goods and services, to reduce customer dissatisfaction, to recommend products and services, and to derive pleasure.

The Guessing Model Revisited: A Case Study of a Korean Young Learner

  • Yim, Su Yon
    • 영어어문교육
    • /
    • 제17권3호
    • /
    • pp.273-290
    • /
    • 2011
  • This paper presents a case study involving one Korean primary school student and people around him in order to explore the reading process in English of a young Korean EFL learner and to investigate the social context in which his reading takes place. Six participants were included in the study (one primary school student and five adult participants). The student participant was asked to read a text in English and translate what he read into Korean and the teacher participants were asked to listen to the student's reading. Semi-structured interview was used to collect data from the student as well as five adult participants (his private tutor, his parent, his state school teacher, and two other state school teachers). The analysis reveals four characteristics of the way a young EFL learner approaches reading: word-by-word reading, disconnected word recognition, selective use of cues, and lack of awareness of difficulties. The four characteristics of Kilsu's reading suggest that reading can become a wild guessing game for young foreign learners, if they give selective attention to unimportant cues while reading. The pedagogical implications of this study are also discussed to help teachers designing reading lessons for young learners.

  • PDF

동시출현단어 분석을 이용한 보조공학 저널의 지적구조 분석 (An Analysis of the Intellectual Structure of Assistive Technology Journal Using Co-Word Analysis)

  • 양현규
    • 재활복지공학회논문지
    • /
    • 제11권1호
    • /
    • pp.15-20
    • /
    • 2017
  • 본 연구의 목적은 키워드에 대한 동시출현단어 분석을 사용하여 RESNA의 보조공학 저널의 연구 동향을 반영하는 지적구조를 파악하고 연구주제 영역의 구성을 제시하는데 있다. 이를 위해 Web of Science에서 2003년부터 2015년까지 보조공학 저널에 게재된 논문, 총 255편의 문헌을 수집하였고, 1,359개의 저자 키워드를 추출하였다. 보조공학 저널의 지적구조를 분석하기 위해 첫째, 군집분석을 실시하고 군집 5개를 결정하였다. 둘째, 다차원척도 지도에 군집 5개를 표시하고 지적구조를 제시하였다. 분석 결과는 지금까지의 보조공학 연구영역을 가늠하고, 향후 연구의 방향성을 탐색하는데 도움이 될 것으로 기대한다.

프리미엄 디지털 컨버전스 제품의 수용과 확산에 대한 연구: 사회적 가치의 조절효과를 중심으로 (Exploratory Study of Adoption and Diffusion of Premium Digital Convergence Product: Moderating Effecting of Social Value)

  • 송영희;허원무
    • 지식경영연구
    • /
    • 제12권1호
    • /
    • pp.53-76
    • /
    • 2011
  • This study aims to examine the effects of on premium convergence products buying behavior. This paper analyzed the positive attitude formation using the basic and extended TAM and also revealed how the positive premium convergence product attitude relate to relationship purchasing intention and word of mouth intention. The samples of 562 consumer indicate that the antecedents are consist of four dimension(perceived usefulness, perceived ease of use, social value) and attitude is developed into buying intention and word of mouth intention. We have reached the following conclusion about the antecedents and outcomes factors of customer attitude for the launch of premium convergence product. First, perceived usefulness, perceived delight, and social value had a positive effect on customer attitude but perceived ease of use did not. Second, we found that customer attitude had a positive effect on purchase intention and word-of mouth intention. Finally, interaction effect of perceived usefulness/perceived delight and social value had a positive effect on customer attitude. Our findings suggested that adoptian and diffusion of premium convergence product is influenced by several behavior factors. Managerially, our result emphasize that premium convergence products must satisfy not only the perceived usefulness/delight but also social value that consumers are seeking in order to be successful in the market. The theoretical and practical implications of these findings are discussed as well.

  • PDF

지식베이스를 이용한 임베디드용 연속음성인식의 어휘 적용률 개선 (Vocabulary Coverage Improvement for Embedded Continuous Speech Recognition Using Knowledgebase)

  • 김광호;임민규;김지환
    • 대한음성학회지:말소리
    • /
    • 제68권
    • /
    • pp.115-126
    • /
    • 2008
  • In this paper, we propose a vocabulary coverage improvement method for embedded continuous speech recognition (CSR) using knowledgebase. A vocabulary in CSR is normally derived from a word frequency list. Therefore, the vocabulary coverage is dependent on a corpus. In the previous research, we presented an improved way of vocabulary generation using part-of-speech (POS) tagged corpus. We analyzed all words paired with 101 among 152 POS tags and decided on a set of words which have to be included in vocabularies of any size. However, for the other 51 POS tags (e.g. nouns, verbs), the vocabulary inclusion of words paired with such POS tags are still based on word frequency counted on a corpus. In this paper, we propose a corpus independent word inclusion method for noun-, verb-, and named entity(NE)-related POS tags using knowledgebase. For noun-related POS tags, we generate synonym groups and analyze their relative importance using Google search. Then, we categorize verbs by lemma and analyze relative importance of each lemma from a pre-analyzed statistic for verbs. We determine the inclusion order of NEs through Google search. The proposed method shows better coverage for the test short message service (SMS) text corpus.

  • PDF

경관개념어 사용방향 설정(1) -송강, 노계, 고산의 시가에 나타나는 '景'을 중심으로 (A Study on the Use of "Concept" or the Word "Kyoung")

  • 정하광
    • 한국조경학회지
    • /
    • 제19권1호
    • /
    • pp.99-121
    • /
    • 1991
  • A purpose of this study is to identify the concept formation and classify the diverse concepts which related to Kyoung(景) in the Classical Korean Poems(Chong, Chol(鄭澈, 1536-1593), Pak, Inno(朴仁老, 1561-1642), Yun Sondo(尹善道, 1587-1671) on the Yi dynasty period and to construct the direction of the use of that concepts in the future. The results were as follows ; The type of landscape concept was 9 types and had the following frequencies in order ; Kyoung(景)(3), Pung-Kyoung(風景)(2), Kyoung-Chi(景致)(2), Yeo-Kyoung(麗景), Cheong-Kyoung(淸景), Jin-Kyoung(眞景)(1), Mo-Kyoung(暮景)(1), Ka-Kyoung(佳景)(1), Kyoung-Mul(景物). Types of landscape concepts in Yi dynasty period were classified into 9 according to the many characteristics ; personal situations, faith, religion, confucianism in the specific time of Yi dynasty. The most popular type of landscape concepts in general was Kyoung(景). The word, "Pung-Kyoung(風景)" was used in expressing personal thoughts and feelings in one's recollection in terms of landscape elements. The word, "Mo-Kyoung(暮 景)" was used in expressing specific time and the dejection in one's heart in that time. The words, "yeo-Kyoung(麗景)" and "Ka-Kyoung(佳 景)" was used in expressing the landscape elements. The nine concepts had a grest deal to do with defining and perpetuating a personal characteristics, the place and landscape elements, and a society's character in the Yi dynasty period.ty's character in the Yi dynasty period.

  • PDF

Irregular Pronunciation Detection for Korean Point-of-Interest Data Using Prosodic Word

  • Kim Sun-Hee;Jeon Je-Hun;Na Min-Soo;Chung Min-Hwa
    • 대한음성학회지:말소리
    • /
    • 제57호
    • /
    • pp.123-137
    • /
    • 2006
  • This paper aims to propose a method of detecting irregular pronunciations for Korean POI data adopting the notion of the Prosodic Word based on the Prosodic Phonology (Selkirk 1984, Nespor and Vogel 1986) and Intonational Phonology (Jun 1996). In order to show the performance of the proposed method, the detection experiment was conducted on the 250,000 POI data. When all the data were trained, 99.99% of the exceptional prosodic words were detected, which shows the stability of the system. The results show that similar ratio of exceptional prosodic words (22.4% on average) were detected on each stage where a certain amount of the training data were added. Being intended to be an example of an interdisciplinary study of linguistics and computer science, this study will, on the one hand, provide an understanding of Korean language from the phonological point of view, and, on the other hand, enable a systematic development of a multiple pronunciation lexicon for Korean TTS or ASR systems of high performance.

  • PDF

빈발단어집합을 이용한 NaiveBayes의 정확도 개선 (An Improvement of Accuracy for NaiveBayes by Using Large Word Sets)

  • 이재문
    • 인터넷정보학회논문지
    • /
    • 제7권3호
    • /
    • pp.169-178
    • /
    • 2006
  • 본 논문은 연관규칙탐사 기술에서 사용되는 빈발항목집합을 변형하여 문서분류의 문서에서 빈발단어집합을 정의하고, 이를 사용하여 문서분류 방법으로 잘 알려진 NaiveBayes에 적용하여 이 방법의 정확도를 개선한다. 이 기술의 적용을 위하여 하나의 문서는 여러 개의 문단으로 나뉘어졌으며, 각 문단에 나타나는 단어들의 집합을 트랜잭션화하여 빈발단어 집합을 찾을 수 있도록 하였다. 제안한 방법은 Al::Categorizer 프레임워크에서 구현되었으며 로이터-21578 데이터를 사용하여 그 정확도가 측정되었다. 문단에서의 라인수와 학습문서의 크기를 변화하면서 정확도를 측정하였다. 측정된 결과로부터 제안된 방법이 기존의 방법에 비하여 정확도를 개선한다는 사실을 알 수 있었다.

  • PDF