• 제목/요약/키워드: 음절수예측

검색결과 25건 처리시간 0.02초

KTS : 미등록어를 고려한 한국어 품사 태깅 시스템 (KTS : A Korean Part-of-Speech Tagging System with Handling Unknown Words)

  • 이상호
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.195-199
    • /
    • 1995
  • 자연언어 처리 시스템의 전단부인 형태소 분석 모듈은 해결해야 할 두 가지 문제를 갖고 있다. 하나는 형태소 분석기가 여러 개의 분석 결과를 출력하여 생기는 품사 중의성이고, 다른 하나는 주어진 문장에 미등록어가 사용되어 형태소 분석이 실패되었을 때이다. 본 논문에서는 이 문제들을 해결하는 한국어 품사 태깅 시스템 KTS를 소개한다. KTS는 주어진 어절에 대해 모든 가능한 분석을 하는 형태소 분석기, 미등록어를 예측하는 미등록어 추정 모듈, 음절 정보와 단서 형태소를 이용하여 미등록어 후보의 수를 줄이는 미등록어 후보 여과기, 그리고 미등록어의 출현을 모델안에 포함한 품사 태깅 모듈로 구성되어 있다. KTS 의 품사태깅 모듈에는 두가지 태깅 방법인 경로 기반 태깅과 상태 기반 태깅의 유일 출력과 다중 출력 기능이 모두 구현되어 있으며, 실험에 의하면, 미등록어가 포함되지 않은 어절에 대해서 89.12%, 미등록어가 포함된 어절에 대해서 68.63%의 정확률을 각각 나타내었다.

  • PDF

빈도 정보를 이용한 한국어 저자 판별 (Authorship Attribution in Korean Using Frequency Profiles)

  • 한나래
    • 인지과학
    • /
    • 제20권2호
    • /
    • pp.225-241
    • /
    • 2009
  • 본고에서는 빈도 정보를 이용한 저자 판별 (authorship attribution) 기법을 한국어에 적용한 연구를 소개한다. 그 대상으로는 정형화된 장르인 신문 칼럼을, 구체적으로는 조선일보에 연재 중인 4인 칼럼니스트들의 각 40개 칼럼, 총 160개 칼럼 텍스트를 선정하였다. 이들에 대하여 어절, 음절, 형태소, 각 단위 2연쇄 등의 다양한 언어 단위들의 빈도 정보들을 이용한 저자 판별을 시도한 결과, 형태소 빈도를 기반으로 하여 최고 93%를 넘는 높은 예측 정확도를 얻을 수 있었다. 또한, 저자 개인 문체간의 거리도 빈도 정보로써 계량적 표상이 가능함을 보일 수 있었다. 이로써 빈도 분석과 같은 통계적, 계량적 방법을 통하여 한국어 텍스트에 대한 성공적인 저자 판별과 개인 문체의 정량화가 가능하다는 결론을 내릴 수 있다.

  • PDF

The Unsupervised Learning-based Language Modeling of Word Comprehension in Korean

  • Kim, Euhee
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권11호
    • /
    • pp.41-49
    • /
    • 2019
  • 본 연구는 비지도 기계학습 기술과 코퍼스의 각 단어를 이용하여 한국어 단어를 형태소 분석하는 언어 모델을 구축하는데 목적을 둔다. 그리고 이 언어 모델의 단어 형태소 분석의 결과와 언어 심리 실험결과에서 얻은 한국어 언어사용자의 단어 이해/판단 시간이 상관관계을 갖는지를 규명하고자 한다. 논문에서는 한국어 세종코퍼스를 언어 모델로 학습하여 형태소 분리 규칙을 통해 한국어 단어를 자동 분리하는데 발생하는 단어 정보량(즉, surprisal(놀라움) 정도)을 측정하여 실제 단어를 읽는데 걸리는 반응 시간과 상관이 있는지 분석하였다. 이를 위해 코퍼스에서 단어에 대한 형태 구조 정보를 파악하기 위해 Morfessor 알고리즘을 적용하여 단어의 하위 단위 분리와 관련한 문법/패턴을 추출하고 형태소를 분석하는 언어 모델이 예측하는 정보량과 반응 시간 사이의 상관관계를 알아보기 위하여 선형 혼합 회귀(linear mixed regression) 모형을 설계하였다. 제안된 비지도 기계학습의 언어 모델은 파생단어를 d-형태소로 분석해서 파생단어의 음절의 형태로 처리를 하였다. 파생단어를 처리하는 데 필요한 사람의 인지 노력의 양 즉, 판독 시간 효과가 실제로 형태소 분류하는 기계학습 모델에 의한 단어 처리/이해로부터 초래될 수 있는 놀라움과 상관함을 보여 주었다. 본 연구는 놀라움의 가설 즉, 놀라움 효과는 단어 읽기 또는 처리 인지 노력과 관련이 있다는 가설을 뒷받침함을 확인하였다.

동영상 기반 자동 발화 심층 분석(SUDA) 어플리케이션 개발 (Development of the video-based smart utterance deep analyser (SUDA) application)

  • 이수복;곽효정;윤재민;신동춘;심현섭
    • 말소리와 음성과학
    • /
    • 제12권2호
    • /
    • pp.63-72
    • /
    • 2020
  • 본 연구는 동영상을 기반으로 일상생활에서 녹화한 아동 및 성인의 발화를 자동으로 분석해주는 SUDA(smart utterance deep analyser) 하이브리드 앱 개발에 관한 것이다. 특히, 아동과 부모가 원하는 시간 및 장소에서 상호작용하는 장면을 촬영하여 업로드할 수 있고 시간의 흐름에 따라 데이터를 계속 축적하여 이를 관찰하고 분석할 수 있도록 도울 수 있다. SUDA는 안드로이드폰, 아이폰, 태플릿 PC 기반에서 구동되며, 대용량의 동영상을 녹화 및 업로드할 수 있고, 사용자의 목적(일반인, 전문가, 관리자)에 따라 차별화된 기능을 제공할 수 있다. 전문가 모드에서는 자동화된 시스템과 협업하여 대상자의 발화를 말·언어적인 측면(비유창성, 형태소수, 음절수, 단어수, 말속도, 반응시간 등)에서 세부적으로 분석할 수 있다. 즉, SDUA 시스템이 대상자의 발화를 반자동으로 전사 및 분석하면, 언어치료사가 이를 검토하고, 보완하여 의사소통장애 진단과 중재 시 활용할 수 있다. 일반인(부모)의 경우, 전문가가 분석한 결과를 그래프 형태로 제공 받아 모니터링 할 수 있고, 관리자는 발화 분석, 영상삭제 등 전체 시스템을 관리할 수 있다. 본 시스템은 발화 분석의 반자동화로 치료사와 연구자의 부담을 줄여주고, 부모가 자녀의 발화를 기반으로 하여 말·언어발달에 대한 정보를 쉽고 다양하게 제공 받을 수 있다는 점에서 임상적 의의가 있다. 또한, 한국형 말더듬아동 진단 및 중재에 적용할 수 있는 종단데이터를 구축하고, 말더듬 회복 예측 요인들을 찾는 기초자료로 활용하고자 한다.

한글 글자 유형이 시각 폭과 읽기 능력에 미치는 영향 (Effect of syllable complexity on the visual span of Korean Hangul reading and its relation to reading abilities)

  • 최영은;김태훈
    • 인지과학
    • /
    • 제27권2호
    • /
    • pp.325-353
    • /
    • 2016
  • 읽기의 초기 단계에서 처리되는 글자의 정보량을 지칭하는 시각 폭은 개별 글자의 획수가 증가하거나 폰트의 종류, 고정된 지면에서 차지하는 잉크의 면적, 글자 간의 간격과 같은 복잡성 요인들에 의해 영향을 받는다. 한글은 자음과 모음들이 조합되는 독특한 알파벳-음절 표기법을 사용하는 글자 체계를 가지고 있어 영어나 중국어를 중심으로 한 결과들에 비해, 자모구성의 글자 유형에 따라서도 복잡성이 달라질 수 있다는 특수성이 있다. 본 연구에서는 세 글자 쌍 패러다임을 이용하여 글자의 유형에 따라 한글 읽기 시각 폭의 크기가 영향을 받는지 살펴보았다. 그리고 여러 글자 유형의 시각 폭 중 읽기 능력의 개인차를 예측하는 글자 유형을 확인해보고자 시각 폭과 읽기 폭, 읽기 유창성, 읽기 이해와의 상관도 살펴보았다. 실험결과, 글자 유형이 복잡해질수록 글자 재인 정확률이 감소하고 시각 폭이 줄어드는 경향이 관찰되었으나 자음+모음+자음의 형태가 자음+모음 형태보다 글자 재인율이 높고 시각 폭도 큰 것으로 나타나 자모조합의 복잡성에 따른 영향이 선형적이지 않고 다른 요인이 개입할 가능성이 관찰되었다. 자음만 제시한 조건과 CV조건의 글자 재인율은 읽기 이해와 정적 상관을 보여 향후 읽기 능력과 관련한 시각 폭 측정 시 사용할 수 있는 글자 유형으로 나타났다.