• 제목/요약/키워드: eojeol length

검색결과 9건 처리시간 0.024초

한국어 용언 어절 재인에 미치는 어휘 변인의 영향 -모어 화자와 고급 학습자의 예- (The Influence of Lexical Factors on Verbal Eojeol Recognition: Evidence from L1 Korean Speakers and L2 Korean Learners)

  • 김영주;이선진;이은하;남기춘;전현애;이선영
    • 한국어교육
    • /
    • 제29권3호
    • /
    • pp.25-53
    • /
    • 2018
  • This study examined the influence of lexical factors on verbal Eojeol recognition. To meet the goal, forty-five L2 Korean learners and twenty-two Korean native speakers took Eojeol decision tasks measured with the lexical factors such as 'number of strokes', 'number of consonants and vowels', 'number of syllables', 'number of morphemes', 'whole Eojeol frequency', 'root frequency', 'first-syllable-sharing frequency', and 'number of dictionary meanings.' As a result, 'whole Eojeol frequency' was the most effective factor to predict Eojeol recognition reaction time for native speakers and L2 learners, which supports the full-list model. Other lexical factors influencing Eojeol recognition reaction time in L2 learners were different following their proficiency level.

어린이 글 읽기에서 나타나는 안구 운동의 특징 (The characteristics of eye-movement during children read Korean texts)

  • 고성룡;윤소정;민철홍;최경순;고선희;황민아
    • 인지과학
    • /
    • 제21권4호
    • /
    • pp.481-503
    • /
    • 2010
  • 이 연구는 초등학교 3학년 아동들이 나이에 알맞은 동화와 설명글을 읽을 때 보이는 안구 운동의 전반 특징과 낱말/어절 수준에 따른 특징을 우리글에서 처음으로 알아보았다. 아동들은 동화를 읽을 때 어절을 대략 213ms 동안 보다가 글 방향으로 3.6자 눈을 움직였고, 설명문을 읽을 때는 214ms 동안 보다가 글 방향으로 3.3자 정도 눈을 움직였다. 동화와 설명글 모두에서 앞으로 가서 다시 읽는 눈 움직임은 전체의 약 31%정도를 차지했다. 이런 전반 양상과 더불어, 어절 수준에서 어절 길이, 낱말빈도, 착지점 효과를 살펴보았는데, 아이들은 동화와 설명 글 모두에서 긴 어절을 짧은 어절보다 오래 주시하였고, 성인 독자와 마찬가지로 눈을 어절 가운데 근처에 착지하려는 경향성을 보였다. 또한 반복되지 않은 어절들을 분석했을 때 설명글에서 빈도가 낮은 어절들은 길이에 따른 주시시간이 차이를 크게 보였고 빈도가 높은 어절들은 길이에 따른 차이를 거의 보이지 않았다.

  • PDF

운율 경계 정보를 이용한 HMM 기반의 한국어 음성합성 시스템 (An HMM-based Korean TTS synthesis system using phrase information)

  • 주영선;정치상;강홍구
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2011년도 하계학술대회
    • /
    • pp.89-91
    • /
    • 2011
  • In this paper, phrase boundaries in sentence are predicted and a phrase break information is applied to an HMM-based Korean Text-to-Speech synthesis system. Synthesis with phrase break information increases a naturalness of the synthetic speech and an understanding of sentences. To predict these phrase boundaries, context-dependent information like forward/backward POS(Part-of-Speech) of eojeol, a position of eojeol in a sentence, length of eojeol, and presence or absence of punctuation marks are used. The experimental results show that the naturalness of synthetic speech with phrase break information increases.

  • PDF

의존 구문 분석을 이용한 질의 기반 정답 추출 (Query-based Answer Extraction using Korean Dependency Parsing)

  • 이도경;김민태;김우주
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.161-177
    • /
    • 2019
  • 질의응답 시스템은 크게 사용자의 질의를 분석하는 방법인 질의 분석과 문서 내에서 적합한 정답을 추출하는 방법인 정답 추출로 이루어지며, 두 방법에 대한 다양한 연구들이 진행되고 있다. 본 연구에서는 문장의 의존 구문 분석 결과를 이용하여 질의응답 시스템 내 정답 추출의 성능 향상을 위한 연구를 진행한다. 정답 추출의 성능을 높이기 위해서는 문장의 문법적인 정보를 정확하게 반영할 필요가 있다. 한국어의 경우 어순 구조가 자유롭고 문장의 구성 성분 생략이 빈번하기 때문에 의존 문법에 기반한 의존 구문 분석이 적합하다. 기존에 의존 구문 분석을 질의응답 시스템에 반영했던 연구들은 구문 관계 정보나 구문 형식의 유사도를 정의하는 메트릭을 사전에 정의해야 한다는 한계점이 있었다. 또 문장의 의존 구문 분석 결과를 트리 형태로 표현한 후 트리 편집 거리를 계산하여 문장의 유사도를 계산한 연구도 있었는데 이는 알고리즘의 연산량이 크다는 한계점이 존재한다. 본 연구에서는 구문 패턴에 대한 정보를 사전에 정의하지 않고 정답 후보 문장을 그래프로 나타낸 후 그래프 정보를 효과적으로 반영할 수 있는 Graph2Vec을 활용하여 입력 자질을 생성하였고, 이를 정답 추출모델의 입력에 추가하여 정답 추출 성능 개선을 시도하였다. 의존 그래프를 생성하는 단계에서 의존 관계의 방향성 고려 여부와 노드 간 최대 경로의 길이를 다양하게 설정하며 자질을 생성하였고, 각각의 경우에 따른 정답추출 성능을 비교하였다. 본 연구에서는 정답 후보 문장들의 신뢰성을 위하여 웹 검색 소스를 한국어 위키백과, 네이버 지식백과, 네이버 뉴스로 제한하여 해당 문서에서 기존의 정답 추출 모델보다 성능이 향상함을 입증하였다. 본 연구의 실험을 통하여 의존 구문 분석 결과로 생성한 자질이 정답 추출 시스템 성능 향상에 기여한다는 것을 확인하였고 해당 자질을 정답 추출 시스템뿐만 아니라 감성 분석이나 개체명 인식과 같은 다양한 자연어 처리 분야에 활용 될 수 있을 것으로 기대한다.

초등학교 6학년 국어교과서의 어휘 통계조사 (Statistical Survey of Vocabulary in Korean Textbook for Elementary School 6th-Grade)

  • 김종영;김철수
    • 한국콘텐츠학회논문지
    • /
    • 제12권5호
    • /
    • pp.515-524
    • /
    • 2012
  • 본 연구는 초등학교 6학년 국어교과서 4종(6-1 읽기, 6-1 말하기 듣기 쓰기, 6-2 읽기, 6-2 말하기 듣기 쓰기)에 나타나는 어휘들에 대한 통계(전체 음절수, 음절종류, 음절 출현빈도, 어절 개수, 어절 종류, 어절 평균길이, 어절 출현빈도, 품사 등)를 조사하였다. 한글 음절수는 194,683개, 음절종류는 1,290개, 평균 음절 출현빈도는 150.9회이다. 어절 개수는 70,185개, 어절 종류는 22,647개, 어절 평균 출현빈도는 3.1회이다. 평균 음절 길이는 2.8음절이며, 가장 긴 어절은 10음절이다. 품사는 읽기 교과는 명사가 말하기 듣기 쓰기교과는 동사가 약간 많다.

7학년 국어교과서의 어휘 통계조사 -노미숙, 김태철 교과서를 중심으로- (Statistical Survey of Vocabulary in Korean Textbook for 7th-Grade -Focus on the No's and the Kim's Textbooks-)

  • 김철수
    • 한국콘텐츠학회논문지
    • /
    • 제14권4호
    • /
    • pp.491-499
    • /
    • 2014
  • 본 연구는 중학교 7학년 국어교과서 4종에 나타나는 어휘들에 대한 통계(음절 개수, 음절 종류, 음절 출현 빈도, 어절 개수, 어절 종류, 어절 평균 길이, 어절 출현 빈도 등)를 조사하였다. 전체 한글 음절 개수는 286,801개, 한글 음절 종류는 1,350개, 음절 평균 출현빈도는 212.4회이다. 어절 개수는 109,393개, 어절 종류는 29,356개, 어절 평균 출현빈도는 3.7회이다. 평균 음절 길이는 2.7음절이며, 한글 어절 중 가장 긴 어절길이는 8이다.

난이도가 다른 덩이글 읽기에서의 안구운동 양상 (Eye-movements in reading easy and difficult texts)

  • 윤낙영;고성룡
    • 인지과학
    • /
    • 제20권3호
    • /
    • pp.291-307
    • /
    • 2009
  • 본 연구에서는 대학생들이 어려운 글과 쉬운 글을 읽는 동안에 안구운동을 측정하였다. 비교 분석은 전반적인 수준과 어절 수준에서 이루어졌다. 전반적인 수준을 보면, 평균 고정시간은 어려운 글을 읽을 때가 217ms로 쉬운 글을 읽을 때의 190ms에 비해 길었고, 도약거리는 어려운 글을 읽을 때가 3.7자로 쉬운 글을 읽을 때의 4.8자에 비해 짧았다. 어절 수준에서는 어려운 글의 단일 고정시간(single fixation time: 227ms)과주시시간(gaze duration: 266ms)이쉬운글(각각195ms와 210ms)에서보다 더 길었다. 어려운 글과 쉬운 글 모두에서 단어 빈도 효과와 어절 길이 효과가 있었으며 빈도에 따른 고정시간의 차이와 길이에 따른 고정시간의 차이는 모두 어려운 글에서 더 크게 나타났다.

  • PDF

비교사 분할 및 병합으로 구한 의사형태소 음성인식 단위의 성능 (Performance of Pseudomorpheme-Based Speech Recognition Units Obtained by Unsupervised Segmentation and Merging)

  • 방정욱;권오욱
    • 말소리와 음성과학
    • /
    • 제6권3호
    • /
    • pp.155-164
    • /
    • 2014
  • This paper proposes a new method to determine the recognition units for large vocabulary continuous speech recognition (LVCSR) in Korean by applying unsupervised segmentation and merging. In the proposed method, a text sentence is segmented into morphemes and position information is added to morphemes. Then submorpheme units are obtained by splitting the morpheme units through the maximization of posterior probability terms. The posterior probability terms are computed from the morpheme frequency distribution, the morpheme length distribution, and the morpheme frequency-of-frequency distribution. Finally, the recognition units are obtained by sequentially merging the submorpheme pair with the highest frequency. Computer experiments are conducted using a Korean LVCSR with a 100k word vocabulary and a trigram language model obtained by a 300 million eojeol (word phrase) corpus. The proposed method is shown to reduce the out-of-vocabulary rate to 1.8% and reduce the syllable error rate relatively by 14.0%.

우리 문장 읽기에서 안구 운동의 특성: 어절 길이, 단어 빈도 및 착지점 관련 효과 (The characteristics of eye-movement in Korean sentence reading: cluster length, word frequency, and landing position effects)

  • 고성룡;윤낙영
    • 인지과학
    • /
    • 제18권4호
    • /
    • pp.325-350
    • /
    • 2007
  • 본 연구에서는 대학생 독자들이 48개의 평이한 문장을 읽을 때, 전반적인 안구 운동의 특성과 어절/단어 수준에서의 특성을 알아보았다 대학생 독자들은 어절을 대략 225ms 보다가 3.6자 정도 뛰어 다음 어절로 눈을 움직였다. 어절이 짧고 단어가 고빈도일 때는 어절을 건너뛰기도 하고, 앞으로만 읽어가는 것이 아니라 19% 정도 다시 되돌아가서 읽기도 했다. 물론 고정과 도약의 양상은 독자에 따라 개인차가 있었다. 이런 전반적인 양상과 더불어, 어절 수준에서 어절 길이, 단어 빈도 및 착지점 관련 효과를 살펴보았는데, 눈은 대체로 어절의 중앙에 자주 착지했으며, 가장자리에 착지했을 때가 중앙에 착지할 때보다 그 어절을 다시 더 고정했다. 또한 독자들은 단어가 고빈도인 어절을 저빈도인 어절보다 훨씬 빨리 읽었다.

  • PDF