• 제목/요약/키워드: informal text reading

검색결과 2건 처리시간 0.016초

편지글 읽기에 나타난 한국어 모음 /오/-/우/의 세대간 차이 (Cross-Generational Differences of /o/ and /u/ in Informal Text Reading)

  • 한정임;강현숙;김주연
    • 말소리와 음성과학
    • /
    • 제5권4호
    • /
    • pp.201-207
    • /
    • 2013
  • This study is a follow-up study of Han and Kang (2013) and Kang and Han (2013) which examined cross-generational changes in the Korean vowels /o/ and /u/ using acoustic analyses of the vowel formants of these two vowels, their Euclidean distances and the overlap fraction values generated in SOAM 2D (Wassink, 2006). Their results showed an on-going approximation of /o/ and /u/, more evident in female speakers and non-initial vowels. However, these studies employed non-words in a frame sentence. To see the extent to which these two vowels are merged in real words in spontaneous speech, we conducted an acoustic analysis of the formants of /o/ and /u/ produced by two age groups of female speakers while reading a letter sample. The results demonstrate that 1) the younger speakers employed mostly F2 but not F1 differences in the production of /o/ and /u/; 2) the Euclidean distance of these two vowels was shorter in non-initial than initial position, but there was no difference in Euclidean distance between the two age groups (20's vs. 40-50's); 3) overall, /o/ and /u/ were more overlapped in non-initial than initial position, but in non-initial position, younger speakers showed more congested distribution of the vowels than in older speakers.

Spark 프레임워크 기반 비정형 빅데이터 토픽 추출 시스템 설계 (A Design on Informal Big Data Topic Extraction System Based on Spark Framework)

  • 박기진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.521-526
    • /
    • 2016
  • 온라인상에서 다루어지는 비정형 텍스트 데이터는 대용량이면서 비구조적 형태의 특성을 가지고 있기 때문에, 기존 관계형 데이터 모델의 저장 방식과 분석 방법만으로는 한계가 있다. 더군다나, 동적으로 발생하는 대량의 소셜 데이터를 활용하여 이용자의 반응을 실시간으로 분석하기란 어려운 상황이다. 이에 본 논문에서는 대용량 비정형 데이터(문서)의 의미를 빠르고, 용이하게 파악하기 위하여 데이터 셋에 대한 사전학습 없이, 문서 내 단어 비중에 따라 자동으로 토픽(주제)이 추출되는 시스템을 설계 및 구현하였다. 제안된 시스템의 토픽 모델링에 사용될 입력 단어는 N-gram 알고리즘에 의하여 도출되어 복수 개의 단어도 묶음 처리할 수 있게 했으며, 또한, 대용량 비정형 데이터 저장 및 연산을 위하여 Hadoop과 분산 인메모리 처리 프레임워크인 Spark 기반 클러스터를 구성하여, 토픽 모델 연산을 수행하였다. 성능 실험에서는 TB급의 소셜 댓글 데이터를 읽어 들여, 전체 데이터에 대한 전처리 과정과 특정 항목의 토픽 추출 작업을 수행하였으며, 대용량 데이터를 클러스터의 디스크가 아닌 메모리에 바로 적재 후, 처리함으로써 토픽 추출 성능의 우수성을 확인할 수 있었다.