• 제목/요약/키워드: 한국어 어절

검색결과 364건 처리시간 0.021초

동사 어휘의미망 평가를 위한 단어클러스터링 시스템의 활용 방안 (The Method of Using the Automatic Word Clustering System for the Evaluation of Verbal Lexical-Semantic Network)

  • 김혜경;윤애선
    • 한국문헌정보학회지
    • /
    • 제40권3호
    • /
    • pp.175-190
    • /
    • 2006
  • 최근 수년간 한국어를 위한 어휘의미망에 대한 관심은 꾸준히 높아지고 있지만. 그 결과물을 어떻게 평가하고 활용할 것인가에 대한 방안은 이루어지지 않고 있다. 본 논문에서는 단어클러스터링 시스템 개발을 통하여, 어휘의미망에 의해 확장되기 전후의 클러스터링을 수행하여 데이터를 서로 비교하였다 단어클러스터링 시스템 개발을 위해 사용된 학습 데이터는 신문 말뭉치 기사로 총 68.455.856 어절 규모이며, 특성벡터와 벡터공간모델을 이용하여 시스템A를 완성하였다. 시스템B는 구축된 '(-하)동사류' 3,656개의 어휘의미를 포함하는 동사 어휘의미망을 활용하여 확장된 것으로 확장대상정보를 선택하여 특성벡터를 재구성한다. 대상이 되는 실험 데이터는 '다국어 어휘의미망-코어넷'으로 클러스터링 결과 나타난 어휘의 세 번째 층위까지의 노드 동일성 석부로 정확률을 검수하였다. 같은 환경에서 시스템A와 시스템B를 비교한 결과 단어클러스터링의 정확률이 45.3%에서 46.6%로의 향상을 보였다. 향후 연구는 어휘의미망을 활용하여 좀 더 다양한 시스템에 체계적이고 폭넓은 평가를 통해 전산시스템의 향상은 물론. 연구되고 있는 많은 어휘의미망에 의미 있는 평가 방안을 확대시켜 나가야 할 것이다.

우리글 읽기에서 지각 폭 연구 (The perceptual span during reading Korean sentences)

  • 최소영;고성룡
    • 인지과학
    • /
    • 제20권4호
    • /
    • pp.573-601
    • /
    • 2009
  • 이 연구에서는 McConkie와 Rayner(1975)에서 소개된 움직이는-창(moving-window) 방법으로 우리글 읽기에서 지각 폭, 즉 한 고정에서 유용한 정보가 추출되는 범위에 대해 알아보았다. 실험 1에서는 창의 크기를 좌우 대칭인 3, 5, 7, 9, 11, 13, 15자로 조작하여 창이 없는 통제 조건과 수행을 비교했다. 분당 읽을 수 있는 어절의 수(읽기율)를 비교했을 때는 15자 조건은 통제 조건과 수행차이가 없었으나, 나머지 다른 조건들은 통제 조건보다 수행이 저조했다. 고정의 수에서는 15자 조건과 통제 조건은 차이가 없었고, 13자 조건은 통제 조건보다 고정의 수가 많은 경향을 보였고, 다른 조건들은 통제 조건보다 많았다. 빈칸을 한 자로 취급한 글자 도약 거리에서는 결과는 읽기율에서와 같았고, 화소에 기초한 화소 도약 거리에서는 결과 양상이 고정의 수에서와 동일했다. 고정시간에서도 다른 결과들과 비슷했는데, 15자, 13자 및 11자 조건들은 차이가 없었고, 9자 조건들은 통제 조건보다 짧은 경향을 보였으며, 나머지 다른 조건들은 통제 조건보다 대체로 짧았다. 실험 2에서는 지각 폭의 비대칭성을 알아보기 위해 고정 좌측의 창 크기를 0, 1, 2, 3, 4자로 조작하였다. 그 결과, 읽기율, 고정 수, 고정 시간 등에서 1자 조건만 통제 조건과 차이가 나타났고 도약 거리는 조건별로 차이가 나지 않았다. 이 연구에서는 우리글 읽기에서 처음으로 지각 폭의 크기를 여러 지표에서 나타나는 왼쪽으로 1자, 오른쪽으로 6-7자로 추정했다.

  • PDF

전화기 자판의 한글 입력 효율성 평가 모형 (A Model for evaluating the efficiency of inputting Hangul on a telephone keyboard)

  • 구민모;이만영
    • 정보처리학회논문지D
    • /
    • 제8D권3호
    • /
    • pp.295-304
    • /
    • 2001
  • 전화기 한글자판 표준안은 객관적인 기준에 따라 결정되어야 한다. 타건수와 운지거리는 객관적으로 수량화할 수 있어서 대부분의 자판 설계자들이 인정할 수 있는 기준이기 때문에, 본 연구자들은 타건수와 운지거리의 측면에서 전화기 자판의 한글 입력 효율성을 평가하는 모형을 개발하였다. 이 모형의 특징은 다음과 같다. 첫째, 타건속도로 평가하는 다른 모형들과는 달리 타건수의 측면에서 자판의 입력 효율성을 평가한다. 둘째, 타건수를 계산하기 위해서 별도의 말모둠 자료를 사용하지 않고, 1000만 어절 규모의 <고려대학교 한국어 말모둠 1>에서 조사된 연관출현빈도를 직접적으로 사용한다. 셋째, 다른 모형들은 자판에 배정된 기본자모를 대상으로 효율성을 평가하지만 이 모형에서는 67개의 전체 자모집합을 대상으로 타건수를 계산한다. 넷째, 완성키, 채움키 및 받침키와 같은 음절기능키를 사용하는 자판과 이러한 음절기능키를 사용하지 않는 자판을 비교하고 평가할 수 있다. 그러나, 전화기 한글자판의 입력 효율성을 입력 효율성을 정확하게 평가하기 위해서는 타건수와 운지거리뿐만 아니라 논리적인 평가자료와 실험실 연구 결과들도 고려해야 할 것이다.

  • PDF

인공지능 기반의 말더듬 자동분류 방법: 합성곱신경망(CNN) 활용 (AI-based stuttering automatic classification method: Using a convolutional neural network)

  • 박진;이창균
    • 말소리와 음성과학
    • /
    • 제15권4호
    • /
    • pp.71-80
    • /
    • 2023
  • 본 연구는 말더듬 화자들의 음성 데이터를 기반으로 하여, 인공지능 기술을 활용한 말더듬 자동 식별 방법을 개발하는 것을 주목적으로 진행되었다. 특히, 한국어를 모국어로 하는 말더듬 화자들을 대상으로 CNN(convolutional neural network) 알고리즘을 활용한 식별기 모델을 개발하고자 하였다. 이를 위해 말더듬 성인 9명과 정상화자 9명을 대상으로 음성 데이터를 수집하고, Google Cloud STT(Speech-To-Text)를 활용하여 어절 단위로 자동 분할한 후 유창, 막힘, 연장, 반복 등의 라벨을 부여하였다. 또한 MFCCs(mel frequency cepstral coefficients)를 추출하여 CNN 알고리즘을 기반한 말더듬 자동 식별기 모델을 수립하고자 하였다. 연장의 경우 수집결과가 5건으로 나타나 식별기 모델에서 제외하였다. 검증 결과, 정확도는 0.96으로 나타났고, 분류성능인 F1-score는 '유창'은 1.00, '막힘'은 0.67, '반복'은 0.74로 나타났다. CNN 알고리즘을 기반한 말더듬 자동분류 식별기의 효과를 확인하였으나, 막힘 및 반복유형에서는 성능이 미흡한 것으로 나타났다. 향후 말더듬의 유형별 충분한 데이터 수집을 통해 추가적인 성능 검증이 필요함을 확인하였다. 향후 말더듬 화자의 발화 빅데이터 확보를 통해 보다 신뢰성 있는 말더듬 자동 식별 기술의 개발과 함께 이를 통한 좀 더 고도화된 평가 및 중재 관련 서비스가 창출되기를 기대해 본다.