• Title/Summary/Keyword: 코퍼스 분석

Search Result 206, Processing Time 0.031 seconds

Comparison of Three POS Sets in Prosody Break Index Estimation (운율경계강도 예측을 위한 품사셋 비교 연구)

  • 엄기완
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.81-84
    • /
    • 1998
  • 본 논문에서는 문장의 문법 구조로부터 운율 경계 강도를 효율적으로 예측하기 위해서, 문법 정보의 세밀함에 따라 품사셋을 3단계로 설정하였다. 그리고 운율 경계 강도를 예측하는데 있어서 어떠한 품사셋이 최적인가를 알아보기 위해 150문장의 코퍼스를 구축하였으며, 세 종류의 품사셋에 대해 코퍼스를 수작업으로 품사분석을 하였다. 청취실험으로 결정한 운율 경계 강도를 바탕으로 확률론적인 모델링 방법을 사용하여 예측하는 실험을 하였다. 이러한 예측결과를 평가 비교하여 최적의 품사셋을 정하였다.

  • PDF

A Normalization and Modeling of Segmental Duration (음운지속시간의 정규화와 모델링)

  • 김인영
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.99-104
    • /
    • 1998
  • 한국어의 자연스러운 음성합성을 위해 280문장에 대하여 남성화자 1명이 발성한 문음성 데이터를 음운 세그먼트, 음운 라벨링, 음운별 품사 태깅하여 음성 코퍼스를 구축하였다. 이 문 음성 코퍼스를 사용하여 음운환경, 품사 뿐만 아니라 구문 구조에 이하여 음운으 lwlthrtlrks이 어떻게 변화하는가에 대하여 xhdrPwjrdfmh 분석하였다. 음운 지속시간을 보다 정교하게 예측하기 위하여, 각 음운의 고유 지속시간의 영향이 배제된 정규화 음운지속시간을 회귀트리를 이용하여 모델화하였다. 평가결과, 기존의 회귀트리를 이용한 음운지속시간 모델에 의한 예측오차는 87%정도가 20ms 이내 이었지만, 정규화 음운 지속시간 모델에 의한 예측 오차는 89% 정도가 20ms 이내로 더욱 정교하게 예측되었다.

  • PDF

A Corpus based Analysis of the Argument Structure of Korean Perception Verbs (코퍼스를 이용한 한국어 지각동사의 논항구조 분석)

  • Chung, Eu-Gene;Kang, Beom-Mo
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.316-323
    • /
    • 1999
  • 동사의 다의성은 결합되는 어휘에 따른 의미확장으로 설명된다. 본고에서는 한국어 지각동사의 기본의미가 갖는 논항관계를 바탕으로 코퍼스를 이용하여 다른 어휘와의 연여관계를 관찰함으로써 공기하는 어휘를 체계화시키고 기본의미와 의미확장의 실제 사용빈도를 조사하는데 그 의의가 있다.

  • PDF

Disambiguation on the Analysis of Korean Complex Nominals, Using Probabilistic CFG Parsing (확률적 CFG 파싱을 활용한 한국어 복합명사 구조 분석의 중의성 해소)

  • Kim, Dong-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.61-66
    • /
    • 2011
  • 본 논문은 한국어 복합명사 구조의 분석을 목적으로 한다. 연구는 이론 언어학뿐만이 아니라 정보처리, 정보검색과 같은 언어의 전산적 처리에서도 중요한다. 복합명사 구조는 크게 외심구조와 내심구조로 나뉘며 내심구조의 경우에 좌분지나 우분지 구조로 분석이 되어야 하는 중의성이 있다. 기존의 Lauer 모델은 사전적 정보에서 발견되는 확률 정보를 구조 정보에 연결하기 위한 모델로 의존모델과 인접모델을 제시하였다. 본 연구에서는 구조에 기반을 둔 확률정보를 결합하기 위한 확률적 CFG 파싱 방법을 활용하고자 하였다. 이를 위해서 실제 코퍼스상에서 발견되는 복합명사 패턴을 대상으로 구조적 분석을 화자 직관을 통해서 진행하고, 이를 다시 Lauer 모델과 확률적 CFG 파싱 방법 응용과 비교해 보았다. 결과적으로 화자 직관에 가장 일치한 예측을 하였으며, 구조에 대한 정보 해석이 가능하였다.

  • PDF

Korean Morphological Analysis and Part-Of-Speech Tagging with LSTM-CRF based on BERT (BERT기반 LSTM-CRF 모델을 이용한 한국어 형태소 분석 및 품사 태깅)

  • Park, Cheoneum;Lee, Changki;Kim, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.34-36
    • /
    • 2019
  • 기존 딥 러닝을 이용한 형태소 분석 및 품사 태깅(Part-Of-Speech tagging)은 feed-forward neural network에 CRF를 결합하는 방법이나 sequence-to-sequence 모델을 이용한 방법 등의 다양한 모델들이 연구되었다. 본 논문에서는 한국어 형태소 분석 및 품사 태깅을 수행하기 위하여 최근 자연어처리 태스크에서 많은 성능 향상을 보이고 있는 BERT를 기반으로 한 음절 단위 LSTM-CRF 모델을 제안한다. BERT는 양방향성을 가진 트랜스포머(transformer) 인코더를 기반으로 언어 모델을 사전 학습한 것이며, 본 논문에서는 한국어 대용량 코퍼스를 어절 단위로 사전 학습한 KorBERT를 사용한다. 실험 결과, 본 논문에서 제안한 모델이 기존 한국어 형태소 분석 및 품사 태깅 연구들 보다 좋은 (세종 코퍼스) F1 98.74%의 성능을 보였다.

  • PDF

Vocabulary Difference of South and North Korean English Textbook (남북한 영어교과서 어휘의 차이)

  • Kim, Jeong-ryeol
    • The Journal of the Korea Contents Association
    • /
    • v.20 no.1
    • /
    • pp.107-116
    • /
    • 2020
  • This paper aims to explore the vocabulary difference between South and North Korean English textbooks as a first step toward a unified vocabulary list. To this end, both South and North Korean English textbooks in 2000s and 2010s are digitized into a corpus of text files, and a vocabulary list is constructed based on the corpus with reference to its concordances for the vocabulary use and contexts using AntConc 3.5.7. The vocabulary list of North Korean English textbooks are compared and found in their differences of quantity and quality of the English vocabulary in English education. Both quantitative and qualitative differences are found in between South and North Korean English textbook corpus. Both South and North aim that students learn about 3,000 words throughout the English education. North Korean English textbook contains more special academic vocabulary while South Korean English textbook is constrained by a strict vocabulary control which does not allow such a flexibility. Differences of vocabulary and their use are caused by the capitalistic market economy of South and the socialists' planned economy of North. Differences are also attributed to the religious words and grammatical vocabulary appearance.

Dependency Structure Analysis System for Korean Using Automatically Acquired Transformation Rules (변환 규칙 학습기를 이용한 한국어 의존 구조 분석기)

  • Lee, Song-Wook;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.360-363
    • /
    • 1997
  • 코퍼스 속의 언어적 규칙을 직접적으로 사용하여 한국어 의존 구조를 분석하기 위해, 본 한국어 의존 구조 분석기는 의존 구조가 나타나 있는 코퍼스로부터 변환 규칙 학습기로 규칙을 자동적으로 학습하고 그 규칙을 적용함으로써 한국어 의존 구조를 분석한다. 이를 위해 기존의 연구된 구구조 문법의 규칙 틀과는 다른 한국어 의존 구조에 맞는 규칙 틀을 연구하였고 또 의존 구조에서 발생할 수 있는 교차구조(Crossing structure)를 방지하는 연산을 고안하였다.

  • PDF

Comparative Analysis of 4-gram Word Clusters in South vs. North Korean High School English Textbooks (남북한 고등학교 영어교과서 4-gram 연어 비교 분석)

  • Kim, Jeong-ryeol
    • The Journal of the Korea Contents Association
    • /
    • v.20 no.7
    • /
    • pp.274-281
    • /
    • 2020
  • N-gram analysis casts a new look at the n-word cluster in use different from the previously known idioms. It analyzes a corpus of English textbooks for frequently occurring n consecutive words mechanically using a concordance software, which is different from the previously known idioms. The current paper aims at extracting and comparing 4-gram words clusters between South Korean high school English textbooks and its North Korean counterpart. The classification criteria includes number of tokens and types between the two across oral and written languages in the textbooks. The criteria also use the grammatical categories and functional categories to classify and compare the 4-gram words clusters. The grammatical categories include noun phrases, verb phrases, prepositional phrases, partial clauses and others. The functional categories include deictic function, text organizers, stance and others. The findings are: South Korean high school English textbook contains more tokens and types in both oral and written languages. Verb phrase and partial clause 4-grams are grammatically most frequently encountered categories across both South and North Korean high school English textbooks. Stance is most dominant functional category in both South and North Korean English textbooks.

The pattern of use by gender and age of the discourse markers 'a', 'eo', and 'eum' (담화표지 '아', '어', '음'의 성별과 연령별 사용 양상)

  • Song, Youngsook;Shim, Jisu;Oh, Jeahyuk
    • Phonetics and Speech Sciences
    • /
    • v.12 no.4
    • /
    • pp.37-45
    • /
    • 2020
  • This paper quantitatively calculated the speech frequency of the discourse markers 'a', 'eo', and 'eum' and the speech duration of these discourse markers using the Seoul Corpus, a spontaneous speech corpus. The sound durations were confirmed with Praat, the Seoul Corpus was analyzed with Emeditor, and the results were presented by statistical analysis with R. Based on the corpus analysis, the study investigated whether a particular factor is preferred by speakers of particular categories. The most prominent feature of the corpus is that the sound durations of female speakers were longer than those of men when using the 'eum' discourse marker in a final position. In age-related variables, teenagers uttered 'a' more than 'eo' in an initial position when compared to people in their 40s. This study is significant because it has quantitatively analyzed the discourse markers 'a', 'eo', and 'eum' by gender and age. In order to continue the discussion, more precise research should be conducted considering the context. In addition, similarities can be found in "e" and "ma" in Japanese(Watanabe & Ishi, 2000) and 'uh', 'um' in English(Gries, 2013). afterwards, a study to identify commonalities and differences can be predicted by using the cross-linguistic analysis of the discourse.

Study on Research Trends in Airline Industry using Keyword Network Analysis: Focused on the Journal Articles in Scopus (키워드 네트워크를 이용한 항공관련 글로벌 연구동향 분석: 스코퍼스(Scopus)게재 논문을 중심으로)

  • Lee, Ju-Yang;Jang, Phil-Sik
    • Journal of the Korea Convergence Society
    • /
    • v.8 no.5
    • /
    • pp.169-178
    • /
    • 2017
  • In various research fields, it is important to identify the trends and meaningful patterns in large volumes of text data. We examined the research trends and patterns in global journal articles related to aviation and airlines from 1997 to 2016 using keyword network analysis. Keyword network models were constructed, and centrality (degree and betweenness) analysis was performed using 25,959 articles from the Scopus database. The results suggested that the recent research trends in aviation and airlines could be quantitatively described through keyword network analysis. The engineering and social science fields were the most relevant fields with keywords related to aviation and airlines. In addition, it was shown that betweenness centrality increased with the degree centrality of keywords. The results of this study could be applied to establish policies and suggest further research topics in the field of aviation and airlines based on empirical data.