• 제목/요약/키워드: 한국어 문법

검색결과 345건 처리시간 0.028초

한국어 음가/ 한글 표기 변환을 위한 표준 규칙 제정 (Establishment of the ′Standard Hangul Phoneme into Character Conversion Rule′)

  • 이계영;임재걸
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2002년도 춘계학술발표논문집(상)
    • /
    • pp.128-132
    • /
    • 2002
  • 한글 표기를 음가로 변환하는 규칙을 역으로 적용하여 음가를 한글 표기로 전환시키는 표준 규칙을 고안하는 것이 본 연구의 목표다. 이러한 표준 규칙은 음성인식에 반드시 필요한 귀중한 자료가 된다. 음성 인식은 표준으로 기록된 음성의 패턴과 입력을 비교하여 가장 유사한 패턴을 찾는 방법을 사용한다. 이때 표준 음성 패턴이 띄어쓰기 단위라면 수백만 개의 표준 패턴이 수록되어야 한다. 이렇게 하면 표준 패턴을 위한 데이터베이스도 너무 커지고 비교회수도 너무 많아져서 실용화가 불가능하다. 그래서, 음절단위로 인식하는 것이 바람직하다. 음절단위로 인식하면 인식된 음가가 한글 표기 문법에 맞지 않으므로, 인식 결과를 출력할 때에는 음가를 그대로 출력하는 것이 아니라 한글표기로 변환하여 표기해야 한다 이때, 본 연구의 연구 결과인 표준규칙을 사용한다.

  • PDF

한국어에 나타나는 '진실' 표현 어휘의 담화표지 기능 연구 (A Corpus-based Study of the Truth-related Words in Korean Used as Discourse Markers)

  • 김태호;정선영
    • 비교문화연구
    • /
    • 제29권
    • /
    • pp.453-477
    • /
    • 2012
  • This study investigates how the truth-related words in Korean, which were originally noun or adverb with 'truth' related meaning, can be used as discourse markers with the functions such as 'emphatic marker', 'attention getter', or 'hesitation marker', and it argues that such functions of the discourse markers are the result of grammaticalization process. That is to say that the truth-related words have acquired new functions as discourse markers from their corresponding lexical items as a noun or an adverb through grammaticalization process. In this study, we demonstrate that the truth-related words tend to appear sentence-initially or sentence-medially when they are used as discourse markers. We also show that they are most likely to be used as emphatic marker because of the lexical meaning of the truth-related words. Finally, we state that truth-related words differ from one another in where they appear and what function they are used with.

서남방언의 '-을란지라' 구문 연구 (-eullanjira Construction of the Southwestern Dialect in Korea)

  • 김지은
    • 한국어학
    • /
    • 제74권
    • /
    • pp.1-24
    • /
    • 2017
  • This paper investigated -eullanjira sentence as a kind of construction of the Southwestern dialect in Korea. Five informants were selected to form the main corpus of -eullanjira. Through analyzing the corpus, its semantic, syntactic and morphological characteristics were figured out. Firstly, a view of construction grammar was adopted to capture the semantic and syntactic characteristics of -eullanjira. The construction of -eullanjira was established as "Xdo Yeullanjira Z". Syntactically, -do was found to be a common auxiliary particle, which allowed nouns, adverbs, verbs and adjectives to appear at the position of X, while only verbs and adjectives could appear at the position of Y. Subject-honorific, causative and passive prefinal endings could coexist with Y, while tense and modal prefinal endings could not. Z was an embedded clause, which had the semantic feature of [-DOUBT], meaning 'it should be done undoubtedly'. The formation of -eullanjira was next examined both diachronically and synchronically. It was found there was a conjuntive ending of Middle Korean, corresponding -eullanjira, namely, -landai. Finally, -eullanjira was newly analyzed as [[-eulla-]+[-n-ji-ra]].

단어 간 연관성 측정을 통한 문맥 철자오류 교정 (Context-sensitive Spelling Correction using Measuring Relationship between Words)

  • 최성기;김민호;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1362-1365
    • /
    • 2013
  • 한국어 텍스트에 나타나는 오류어의 유형은 크게 단순 철자오류와 문맥 철자오류로 구분할 수 있다. 이중 문맥 철자오류는 문맥의 의미 통사적 관계를 고려해야만 해당 어휘의 오류 여부를 알 수 있는 오류로서 철자오류 중 교정 난도가 가장 높다. 문맥 철자오류의 유형은 발음 유상성에 따른 오류, 오타 오류, 문법 오류, 띄어쓰기 오류로 구분할 수 있다. 본 연구에서는 오타 오류에 의해 발생하는 문맥 철자오류를 어의 중의성 해소와 같은 문제로 보고 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 방법을 제안한다. 미리 생성한 교정 어휘 쌍을 대상으로 교정 어휘 쌍의 각 어휘와 주변 문맥 간 의미적 연관성을 통계적으로 측정하여 문맥 철자오류를 검색하고 교정한다. 제안한 방법을 적용한 결과 3개의 교정 어휘 쌍 모두 90%를 넘는 정확도를 보였다.

실시간 동시통역 시스템 개발을 위한 통역 분절단위 연구 (A Study on Segmentation Unit for the Real-time Simultaneous Interpretation System)

  • 구영은;김지연;홍정표;홍문표;최승권
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.229-235
    • /
    • 2019
  • 동시통역에서는 번역이 즉각적으로 빠르게 이루어지면서 원천텍스트의 의미가 정확히 전달되는 것이 핵심이다. 따라서 실시간 동시통역 시스템의 개발을 위해서는 번역정확도와 번역속도가 균형적으로 최적을 이루는 지점에서 분절하는 방법론이 필요하다. 이를 위해 본 연구에서는 운율 정보, 문법·통사 규칙, 의미 단위, 담화구조 표지, 분절단위의 길이 등 다양한 언어학적 자질을 제시하였다. 또한 본 논문에서 제안한 방법론을 검증하는 실험을 진행하였으며 그 결과 영한 데이터는 82%, 한영 데이터는 90%의 정확도를 보였다.

  • PDF

아바타수어 서비스를 위한 한국수어 스크립트 기술 (A Script Format of Korean Sing Language for Animated Signing Avatar Service)

  • 이한규;최지훈;안충현
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.456-458
    • /
    • 2020
  • 한국수화언어(한국수어)는 농인들이 사용하는 언어이며, 농인이라 함은 청각장애를 가진 사람으로서 한국수어를 일상어로 사용하는 사람을 말한다. 수어를 하나의 언어로써 다른 언어로의 번역 또는 상호번역을 위하여 기계학습 기반의 기술이 연구개발 되고 있으나, 수어는 영상 기반의 언어이고 한국수어의 문법 및 사전체계의 구축이 진행 중인 이유로 한국수어의 번역기술은 상대적으로 다른 이종언어 간의 번역기술에 비하여 발전속도가 느리다. 본 논문에서는 한국어를 한국수어로 번역하여 표현하기 위하여 필요한 수어 스크립트 포맷 및 데이터 인터페이스 규격을 제안한다.

  • PDF

단어패턴 빈도를 이용한 단문 오피니언 문서 분류기법의 실험적 평가 (An Experimental Evaluation of Short Opinion Document Classification Using A Word Pattern Frequency)

  • 장재영;김일민
    • 한국인터넷방송통신학회논문지
    • /
    • 제12권5호
    • /
    • pp.243-253
    • /
    • 2012
  • 데이터 마이닝의 문서분류 기술에서 발전된 오피니언 마이닝은 이제 국외뿐만 아니라 국내 산업에서 중요한 관심분야로 자리잡아가고 있다. 오피니언 마이닝의 핵심은 문서에서 감정 단어를 추출하여 긍정/부정 여부를 얼마나 정확하게 판별하느냐를 평가하는 것이다. 국내에서도 이에 관련된 많은 연구가 이루어 졌으나 아직 실용적으로 적용할 만큼의 분류 정확도를 보이지 않고 있다. 한국어의 경우 비문법적 표현, 감정단어의 다양성 등으로 인해 문서의 극성을 판별하기가 쉽지 않기 때문이다. 본 논문에서는 문법적 요소를 최대한 배제하고 단어패턴의 빈도만을 고려한 새로운 오피니언 문서 분류기법을 제안한다. 제안된 방법에서는 문서를 단어들의 리스트로 추상화한 후, 패턴들의 빈도를 이용하여 기계학습 알고리즘을 적용한다. 이후에 적절한 스코어 함수를 적용하여 문서의 극성을 판별한다. 또한 제안된 기법의 정확도를 평가하기 위해서 실험결과를 제시한다.

접속 특성과 말마디 사전을 이용한 형태소 분석 (Morphological Analysis with Adjacency Attributes and Phrase Dictionary)

  • 임권묵;송만석
    • 한국정보처리학회논문지
    • /
    • 제1권1호
    • /
    • pp.129-139
    • /
    • 1994
  • 본 논문은 형태소의 접속 특성과 대형 말뭉치(corpus)로부터 추출된 중의성 말마 디의 인접 정보를 이용해서 한국어 형태소 분석기를 구현한다. 일반적으로 말마디는 형태소의 접속 특성과 결합규칙을 적용함으로써 하나의 결과로 분석될 수 있으나 중 의성 말마디는 가능한 결과들로부터 적절한 하나를 선택하기 위해서 인접말마디 정보 나 문법 정보 또는 문맥 정보 등이 요구된다. 그러나 문법 정보와 문맥정보는 구문 분석과 의미분석 단계를 거쳐야만 가능하기 때문에 여기서는 표층적인 정보로서 인접 말마디 정보를 이용한 중의성 해결을 시도하였다. 형태소의 접속 특성과 중의성 말마 디의 인접 정보를 사전에 수록함으로써 축약어와 불필요한 결과를 제시하는 말마디 그리고 중의성 말마디까지도 형태소 분석이 거의 가능하게 된다. 본 분석기의 효능은 정확하고 풍부한 정보를 사전에 효율적으로 수록함으로써 이룩될 것이며, 이를 위해 형태소 사전과 말마디 사전을 데이타베이스로 설계하고, 필요한 정보 들을 대형 말뭉 치로부터 추출하여 사전에 저장한다.

  • PDF

한국어에서 의존 구문분석을 위한 구묶음의 활용 (Exploiting Chunking for Dependency Parsing in Korean)

  • 남궁영;김재훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권7호
    • /
    • pp.291-298
    • /
    • 2022
  • 본 논문은 한국어에 대해서 구묶음을 수행한 후에 의존구조를 분석하는 방법을 제안한다. 의존구조 분석은 단어의 지배어를 결정하는 과정이다. 지배어를 정할 때, 문법적인 지배어를 정할 것인지 의미적인 지배어를 정할 것인지가 고질적인 문제이다. 일반적으로는 문법적인 지배어를 정하고 있다. 예를 들면 문장 "밥을 먹고 싶다"에서 어절 "먹고"의 지배어로 "싶다"를 정한다. 그러나 "싶다"는 보조용언으로 의미적으로 지배어가 될 수 없다. 이와 같은 방법으로 구문을 분석하면 의미분석을 위해서 또 다른 변환이 있어야 한다. 본 논문에서는 이런 문제를 다소 완화하기 위해서 구묶음을 수행한 후에 구문을 분석하는 방법을 제안한다. 구묶음은 문장을 구성성분 단위로 분할하는 과정이며 구성성분은 내용어 말덩이와 기능어 말덩이로 구성된다. 구묶음을 수행하면 구문 분석의 입력이 되는 문장 성분의 수가 줄어들므로 구문 분석 속도가 개선될 수 있으며, 문장에서 중심어를 중심으로 하나의 말덩이로 묶이므로 말덩이에 대해서만 그 의존 관계를 파악할 수 있어 구문 분석의 효율성을 높일 수 있다. 본 논문은 세종의존말뭉치를 사용해서 성능을 분석했으며 UAS와 LAS가 각각 86.48%와 84.56%였으며 입력의 노드 수도 약 22% 정도 줄일 수 있었다.

Head-Tail 토큰화 기법을 이용한 한국어 품사 태깅 (Korean Part-Of-Speech Tagging by using Head-Tail Tokenization)

  • 서현재;김정민;강승식
    • 스마트미디어저널
    • /
    • 제11권5호
    • /
    • pp.17-25
    • /
    • 2022
  • 기존의 한국어 품사 태깅 방식은 복합어를 단위 형태소들로 분해하여 품사를 부착하므로 형태소 태그가 세분화되어 있어서 태거의 활용 목적에 따라 불필요하게 복잡하고 다양한 어절 유형들이 생성되는 단점이 있다. 딥러닝 언어처리에서는 키워드 추출 목적으로 품사 태거를 사용할 때 복합조사, 복합어미 등 문법 형태소들을 단위 형태소로 분할하지 않는 토큰화 방식이 효율적이다. 본 연구에서는 어절을 형태소 단위로 토큰화할 때 어휘형태소 부분과 문법형태소 부분 두 가지 유형의 토큰으로만 분할하는 Head-Tail 토큰화 기법을 사용하여 품사 태깅 문제를 단순화함으로써 어절이 과도하게 분해되는 문제점을 보완하였다. Head-Tail 토큰화된 데이터에 대해 통계적 기법과 딥러닝 모델로 품사 태깅을 시도하여 각 모델의 품사 태깅 정확도를 실험하였다. 통계 기반 품사 태거인 TnT 태거와 딥러닝 기반 품사 태거인 Bi-LSTM 태거를 사용하여 Head-Tail 토큰화된 데이터셋에 대한 품사 태깅을 수행하였다. TnT 태거와 Bi-LSTM 태거를 Head-Tail 토큰화된 데이터셋에 대해 학습하여 품사 태깅 정확도를 측정하였다. 그 결과로, TnT 태거는 97.00%인데 비해 Bi-LSTM 태거는 99.52%의 높은 정확도로 품사 태깅을 수행할 수 있음을 확인하였다.