• 제목/요약/키워드: Corpus Utility

검색결과 5건 처리시간 0.015초

꼬꼬마 : 관계형 데이터베이스를 활용한 세종 말뭉치 활용 도구 (KKMA : A Tool for Utilizing Sejong Corpus based on Relational Database)

  • 이동주;연종홈;황인범;이상구
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권11호
    • /
    • pp.1046-1050
    • /
    • 2010
  • 말뭉치는 언어학 분야에서 다양한 연구를 위한 기초자료로서 활용된다. 국내에서도 세종 21세기 계획 등을 통해서 몇몇 대용량 말뭉치가 구축되었으나, 다수의 사용자가 쉽게 활용할 수 있는 활용 도구에 대한 연구는 여전히 부족하다. 본 논문에서는 한국어 대용량 말뭉치 중 하나인 세종 현대 국어 말뭉치를 관계형 데이터베이스에 저장하여, 다양한 방법으로 활용할 수 있도록 지원하는 말뭉치 활용 도구에 대한 설계 및 구현 방법을 보인다. 웹 기반의 말뭉치 활용 시스템을 구축하였고, 실제로 언어학 연구자들에게 사용되고 있다.

Corpus of Eye Movements in L3 Spanish Reading: A Prediction Model

  • Hui-Chuan Lu;Li-Chi Kao;Zong-Han Li;Wen-Hsiang Lu;An-Chung Cheng
    • 아시아태평양코퍼스연구
    • /
    • 제5권1호
    • /
    • pp.23-36
    • /
    • 2024
  • This research centers on the Taiwan Eye-Movement Corpus of Spanish (TECS), a specially created corpus comprising eye-tracking data from Chinese-speaking learners of Spanish as a third language in Taiwan. Its primary purpose is to explore the broad utility of TECS in understanding language learning processes, particularly the initial stages of language learning. Constructing this corpus involves gathering data on eye-tracking, reading comprehension, and language proficiency to develop a machine-learning model that predicts learner behaviors, and subsequently undergoes a predictability test for validation. The focus is on examining attention in input processing and their relationship to language learning outcomes. The TECS eye-tracking data consists of indicators derived from eye movement recordings while reading Spanish sentences with temporal references. These indicators are obtained from eye movement experiments focusing on tense verbal inflections and temporal adverbs. Chinese expresses tense using aspect markers, lexical references, and contextual cues, differing significantly from inflectional languages like Spanish. Chinese-speaking learners of Spanish face particular challenges in learning verbal morphology and tenses. The data from eye movement experiments were structured into feature vectors, with learner behaviors serving as class labels. After categorizing the collected data, we used two types of machine learning methods for classification and regression: Random Forests and the k-nearest neighbors algorithm (KNN). By leveraging these algorithms, we predicted learner behaviors and conducted performance evaluations to enhance our understanding of the nexus between learner behaviors and language learning process. Future research may further enrich TECS by gathering data from subsequent eye-movement experiments, specifically targeting various Spanish tenses and temporal lexical references during text reading. These endeavors promise to broaden and refine the corpus, advancing our understanding of language processing.

한국인 표준 음성 DB 구축 (Developing a Korean Standard Speech DB)

  • 신지영;장혜진;강연민;김경화
    • 말소리와 음성과학
    • /
    • 제7권1호
    • /
    • pp.139-150
    • /
    • 2015
  • The data accumulated in this database will be used to develop a speaker identification system. This may also be applied towards, but not limited to, fields of phonetic studies, sociolinguistics, and language pathology. We plan to supplement the large-scale speech corpus next year, in terms of research methodology and content, to better answer the needs of diverse fields. The purpose of this study is to develop a speech corpus for standard Korean speech. For the samples to viably represent the state of spoken Korean, demographic factors were considered to modulate a balanced spread of age, gender, and dialects. Nine separate regional dialects were categorized, and five age groups were established from individuals in their 20s to 60s. A speech-sample collection protocol was developed for the purpose of this study where each speaker performs five tasks: two reading tasks, two semi-spontaneous speech tasks, and one spontaneous speech task. This particular configuration of sample data collection accommodates gathering of rich and well-balanced speech-samples across various speech types, and is expected to improve the utility of the speech corpus developed in this study. Samples from 639 individuals were collected using the protocol. Speech samples were collected also from other sources, for a combined total of samples from 1,012 individuals.

이상탐지 활용 전자집단민원 추정 방법론에 관한 탐색적 연구: 창원시 시민의 소리 사례를 중심으로 (An Exploratory Study of Collective E-Petitions Estimation Methodology Using Anomaly Detection: Focusing on the Voice of Citizens of Changwon City)

  • 정하영
    • 정보화정책
    • /
    • 제26권4호
    • /
    • pp.85-106
    • /
    • 2019
  • 최근 전자민원시스템에 집단민원을 제기하는 사례가 늘어나고 있으나 이에 대한 효율적인 관리시스템이 아직 마련되어 있지 않아 행정 업무량 증대와 사회적 갈등 양산 등의 부작용이 우려되고 있다. 이에 본 연구에서는 이상탐지와 코퍼스 언어학 기반의 내용분석을 활용한 전자 집단민원 추정 방법론을 제시하고자 하였다. 이를 위하여 1)집단민원의 개념에 대한 이론적 고찰과 2) 비모수적 비지도 학습에 기반 한 이상탐지를 활용한 전자 집단민원 추정과 3) n-gram 코사인 각도 거리를 활용한 민원의 내용 유사도 분석방법론을 제안하고 4) 창원시 시민의 소리에 대한 사례분석을 통하여 제시한 방법론의 유용성과 정책적 시사점, 향후 과제를 검토하였다.

모음 스펙트럼에 기반한 전후 비자음 조음위치 판별 (Classification of nasal places of articulation based on the spectra of adjacent vowels)

  • 윤지현;성철재
    • 말소리와 음성과학
    • /
    • 제15권1호
    • /
    • pp.25-34
    • /
    • 2023
  • 본 연구에서는 한국어 비음의 조음위치 변별을 위한 지표로서 모음 음향 특성의 활용 가능성을 타진하였다. 비음에 인접한 /ㅏ/ 모음 시료를 대용량 한국어 자연발화 말소리 자료에서 추출하여 모음 구간의 25%, 50%, 75% 시점에서 음향 매개변수를 측정하였다. 이 스펙트럼 및 지속시간 변수를 이용하여 판별분석을 수행하고 이를 바탕으로 선행 또는 후행 비자음의 조음위치 분류정확도를 추정하였다. 또한 조음위치 공조음(coarticulation)의 관점에서 순행적 공조음과 역행적 공조음의 영향을 확인하기 위하여 측정 대상 모음에 비음이 선행하는 경우와 후행하는 경우로 나누어 비교하였다. 분석 결과, 전후 비자음의 조음위치 분류정확도는 약 50%-60%로 나타났다. 모음의 음향 매개변수 측정값만으로 비음의 조음위치를 예측·분류하기에는 어려움이 있으나, 공조음 정도가 가장 약할 것으로 예상되는 모음 정중 구간에서 측정된 음향 변수만으로도 위와 같은 정확도를 얻었다는 점에서 비음 구간의 분석결과와 함께 모음 측정치를 활용함으로써 비음 조음위치 인식률 향상에 기여할 수 있을 것으로 기대한다. 한편 측정 대상 모음에 선행 또는 후행하는 비음 조건 간에 비교하였을 때, 후행 비음 조음위치의 분류정확도가 더 높게 나타났다는 점에서 역행적 조음위치 공조음의 영향이 더 클 가능성이 확인되었다.