• 제목/요약/키워드: 띄어쓰기

검색결과 147건 처리시간 0.022초

ICT를 활용한 일본어 교육에서 문장 표기 형식이 영상문자 낭독 및 내용 파악에 미치는 효과 (The Effect of Orthography on Electronic Character Reading and Comprehending Ability in Japanese Education using ICT)

  • 강신철;김민기
    • 컴퓨터교육학회논문지
    • /
    • 제7권6호
    • /
    • pp.85-93
    • /
    • 2004
  • 본 연구에서는 프로젝션 TV와 컴퓨터 화면에 제시되는 일본어 영상문자 읽기 수업을 위한 적합한 화면 환경을 살펴보았다. 그리고 복수표기, 띄어쓰기 등 실제 일본 웹 사이트에 나타나는 일본어 표기 형식에 대한 사전 학습활동이 웹 문서의 내용 파악에 어떠한 영향을 미치는지를 실험을 통해 살펴보았다. 실험 결과 제7차 교육과정에 새롭게 추가된 일본 웹 문서의 독해 능력을 배양하기 위하여 두 가지 조치가 필요함을 알 수 있었다. 단기적으로는 실제 일본어 웹 사이트의 문서를 학습 자료로 활용할 필요가 있으며, 장기적으로는 현행 일본어 교과서의 표기 형식을 재검토할 필요가 있음을 확인할 수 있었다.

  • PDF

신경회로망을 이용한 제약 없이 쓰여진 필기체 문자열로부터 단어 분리 방법 (Segmentation of Words from the Lines of Unconstrained Handwritten Text using Neural Networks)

  • 김경환
    • 전자공학회논문지C
    • /
    • 제36C권7호
    • /
    • pp.27-35
    • /
    • 1999
  • 필기서술의 인식과 관련된 연구는 인식대상 영상이 바르게 분리된 인식단위를 포함한다는 전제로 진행되어 왔다. 그러나 실제적인 필기인식 시스템의 설계에 있어서, 다양한 필기방식으로 인해, 인식단위로의 분리가 선결되어야 할 문제이다. 본 논문에서는 제한없이 쓰여진 필기 문자열로부터 인식의 도움없이 독립된 단어를 분리하는 방법을 제안한다. 구성요소간 물리적인 거리에 의존하는 종래의 방법과 달리, 필기서술 자체로부터 필기자의 띄어쓰기와 관련된 특징들을 적극적으로 추출하고 이를 신경회로망을 사용하여 해석한다. 띄어쓰기와 관련된 정보는 문자 분리과정을 통해 분리된 문자 세그먼트의 높이와 세그먼트 중심선 사이의 간격들을 정규화하여 구한다. 연결요소간의 거리에 기반한 방법들과의 비교실험을 통해 제한한 방법의 유용성을 입증하였다.

  • PDF

구문형태소 단위를 이용한 음성 인식의 후처리 모델 (A Model for Post-processing of Speech Recognition Using Syntactic Unit of Morphemes)

  • 양승원;황이규
    • 한국산업정보학회논문지
    • /
    • 제7권3호
    • /
    • pp.74-80
    • /
    • 2002
  • 한국어 연속 음성 인식결과의 성능향상을 위해서 자연어 처리 기술을 이용한 후처리 기법이 사용된다. 그러나 자연어 처리 기법이 대부분 띄어쓰기가 있는 정형화된 입력 문장에 대한 분석을 수행하여 왔기 때문에 형태소 분석기를 직접 음성인식 결과의 향상에 사용하는 데에는 어려운 점이 많다. 본 논문에서는 띄어쓰기를 고려하지 않는 기능어 기반의 최장일치 형태소 해석 방법인 구문 형태소 단위의 분석을 이용한 음정인식 결과의 향상 모델을 제안한다. 제안된 모델을 통해 연속음성 인식 결과에서 자주 발생하는 용언과 보조 용언 및 의존 명사 사이의 음운들 사이의 구조적 정보를 활용함으로써 음성 인식 결과의 성능을 향상시키는 방법에 대해 기술한다.

  • PDF

예측 기반 형태소 분석기와 결합 독립 모형 기반 품사 태거 및 고속 명사 추출기 (A Predictive Morphological Analyzer, A Part-of-Speech Tagger Based on Joint Independence Model, and A Fast Noun Extractor)

  • 이상주;박봉래;김진동;류원호;이도길;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.145-150
    • /
    • 1999
  • 본 논문에서는 한국어 자연어 정보처리 기술 표준화를 위한 형태소 분석기 및 품사 태거 평가 대회(MATEC99)에 참여한 고려대학교의 형태소 분석기, 품사 태거, 그리고 명사 추출기를 설명하고 평가 결과를 기술한다. 형태소 분석기는 입력된 어절을 우에서 좌로 분석하며 각 상태에 대한 예측 정보를 활용하여 불필요한 분석 후보에 대한 탐색을 수행하지 않도록 한다. 품사 태거로는 띄어쓰기를 고려한 형태소 품사 2-그램 확률과 띄어쓰기를 고려한 형태소 어휘-품사 3-그램 어휘 확률을 이용하는 결합 독립 모형을 사용한다. 고속 명사 추출기는 고속의 FST 사전과 한국어 특성을 반영한 휴리스틱을 이용한다.

  • PDF

SNS 텍스트의 비정규토큰 분석 성능 향상을 위한 의존명사 내포 어형의 LGG 기반 패턴문법 사전 (LGG-based Phrase-Pattern Dictionaries of Non-Standard Tokens that contain Bound Nouns in Social Media Texts)

  • 최성용;신동혁;황창회;유광훈;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.394-399
    • /
    • 2018
  • 본 연구는 SNS 텍스트에서 형태소 분석기로 분석되지 않는 비정규토큰 유형 중 고빈도로 나타나는 의존명사 내포 어형의 형태소를 인식할 수 있는 LGG 기반 패턴문법 사전 구축과 그 성능을 평가하는 것을 목표로 한다. SNS 텍스트에서는 기존의 정형화된 텍스트와 달리, 띄어쓰기 오류로 인한 미분석어가 매우 높은 빈도로 나타나는데, 특히 의존명사를 포함한 유형이 20% 이상을 차지하며 가장 빈번한 것으로 나타났다. 이에 본 연구에서는 의존명사를 내포한 비정규토큰의 띄어쓰기 오류 문제를 효과적으로 처리하기 위해, 부분 문법 그래프(Local Grammar Graph: LGG) 프레임에 기반한 패턴문법 사전을 구축하였다. 이를 SNS 코퍼스에 적용하여 성능을 평가한 결과, 정확률 91.28%, 재현율 89%, 조화 평균 90.13%의 성능을 통해 본 연구의 접근 방법론의 유용성과 구축 자원의 실효성을 입증하였다.

  • PDF

스팸 문자 필터링을 위한 변형된 한글 SMS 문장의 정규화 기법 (A Normalization Method of Distorted Korean SMS Sentences for Spam Message Filtering)

  • 강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권7호
    • /
    • pp.271-276
    • /
    • 2014
  • 휴대폰에서 문자 메시지 전송 기능은 현대인들에게 매우 편리한 새로운 형태의 의사소통 방식이다. 반면에 문자 메시지 기능을 악용한 광고성 문자들이 너무 많이 쏟아져서 휴대폰 사용자들은 스팸 문자 공해에 시달리는 심각한 부작용을 낳게 되었다. 광고성 문자를 발송하는 사람들은 문자 메시지가 자동으로 차단되는 것을 회피하기 위해 한글 문장을 다양한 형태로 변형하거나 왜곡시키고 있으며, 이러한 문자 메시지를 자동으로 차단하기 위해서는 변형되거나 왜곡된 문장들을 정상적인 한글 문장으로 정규화하는 기술이 필수적이다. 본 논문에서는 변형되거나 왜곡된 광고성 문자 메시지를 정상적인 문장으로 정규화하고 정규화된 문장으로부터 자동 띄어쓰기 및 복합명사 분해 과정을 거쳐 키워드를 추출하기 위한 방법을 제안하였다.

한국어 띄어쓰기 모델에서 사용자 입력을 고려한 베이지언 파라미터 추정 (Bayesian Parameter Estimation Considering User-input for Korean Word Spacing Model)

  • 이정훈;홍금원;이도길;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.5-11
    • /
    • 2008
  • 한국어 띄어쓰기에서 통계적 모델을 사용한 기존의 연구들은 최대우도추정(Maximum Likelihood Estimation)에 기반하고 있다. 그러나 최대우도추정은 자료부족 시 부정확한 결과를 주는 단점이 있다. 본 연구는 이에 대한 대안으로 사용자 입력을 고려하는 베이지언 파라미터 추정(Bayesian parameter estimation)을 제안한다. 기존 연구가 사용자 입력을 교정 대상으로만 간주한 것에 비해, 제안 방법은 사용자 입력을 교정 대상이면서 동시에 학습의 대상으로 해석한다. 제안하는 방법에서 사용자 입력은 학습 말뭉치의 자료부족에서 유발되는 부정확한 파라미터 추정(parameter estimation)을 방지하는 역할을 수행하고, 학습 말뭉치는 사용자 입력의 불확실성을 보완하는 역할을 수행한다. 실험을 통해 문어체 말뭉치, 통신환경 구어체 말뭉치, 웹 게시판 등 다양한 종류의 말뭉치와 다양한 통계적 모델에 대해 제안 방법이 효과적임을 알 수 있다.

  • PDF

한국어 교재의 행 바꾸기 -띄어쓰기와 읽기 능력의 계발 - (Examining Line-breaks in Korean Language Textbooks: the Promotion of Word Spacing and Reading Skills)

  • 조인정;김단비
    • 한국어교육
    • /
    • 제23권1호
    • /
    • pp.77-100
    • /
    • 2012
  • This study investigates issues in relation to text segmenting, in particular, line breaks in Korean language textbooks. Research on L1 and L2 reading has shown that readers process texts by chunking (grouping words into phrases or meaningful syntactic units) and, therefore, phrase-cued texts are helpful for readers whose syntactic knowledge has not yet been fully developed. In other words, it would be important for language textbooks to avoid awkward syntactic divisions at the end of a line, in particular, those textbooks for beginners and intermediate level learners. According to our analysis of a number of major Korean language textbooks for beginner-level learners, however, many textbooks were found to display line-breaks of awkward syntactic division. Moreover, some textbooks displayed frequent instances where a single word (or eojeol in the case of Korean) is split between different lines. This can hamper not only learners' learning of the rules of spaces between eojeols in Korean, but also learners' development in automatic word recognition, which is an essential part of reading processes. Based on the findings of our textbook analysis and of existing research on reading, this study suggests ways to overcome awkward line-breaks in Korean language textbooks.

Bi-LSTM 보조 신경망 모델을 결합한 생성형 한국어 Inverse Text Normalization 모델 (Generative Korean Inverse Text Normalization Model Combining a Bi-LSTM Auxiliary Model)

  • 조정제;신동수;조경빈;한영섭;전병기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.716-721
    • /
    • 2023
  • Inverse Text Normalization(ITN) 모델은 음성 인식(STT) 엔진의 중요한 후처리 영역 중 하나이며, STT 인식 결과의 가독성을 개선한다. 최근 ITN 모델에 심층신경망을 활용한 연구가 진행되고 있다. 심층 신경망을 사용하는 대부분의 선행연구는 문장 내 변환이 필요한 부분에 토큰 태깅을 진행하는 방식이다. 그러나 이는 Out-of-vocabulary(OOV) 이슈가 있으며, 학습 데이터 구축 시 토큰 단위의 섬세한 태깅 작업이 필요하다는 한계점이 존재한다. 더불어 선행 연구에서는 STT 인식 결과를 그대로 사용하는데, 이는 띄어쓰기가 중요한 한국어 ITN 처리에 변환 성능을 보장할 수 없다. 본 연구에서는 BART 기반 생성 모델로 생성형 ITN 모델을 구축하였고, Bi-LSTM 기반 보조 신경망 모델을 결합하여 STT 인식 결과에 대한 고유명사 처리, 띄어쓰기 교정 기능을 보완한 모델을 제안한다. 또한 보조 신경망을 통해 생성 모델 처리 여부를 판단하여 평균 추론 속도를 개선하였다. 실험을 통해 두 모델의 각 정량 성능 지표에서 우수한 성능을 확인하였고 결과적으로 본 연구에서 제안하는 두 모델의 결합된 방법론의 효과성을 제시하였다.

  • PDF

전문용어사전 표제어 기술형식에 대한 연구 (A Study on the Entry Description Format of Glossaries)

  • 강정미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1999년도 제6회 학술대회 논문집
    • /
    • pp.39-42
    • /
    • 1999
  • 우리나라에서 학문분야별로 출판된 전문용어사전의 표제어 기술형식은 매우 상이하다. 이러한 특징은 여러 분야의 전문용어사전을 참조해야 하는 이용자에게 많은 불편을 초래할 뿐만 아니라 표준화된 전자사전에 대한 요구를 충족시키지도 어렵다. 본 연구에서는 전자사전 표준화의 일환인 전문용어사전의 표제어 기술형식 표준화를 위한 기초작업의 일부로서 현재까지 우리나라기서 출판된 전문 용어사전을 대상으로 표제어의 기술형식에 대하여 기술요소, 기술요소의 순서, 띄어쓰기, 다의성을 갖는 용어의 구분, 배열 등에 대하여 조사 분석하였다.

  • PDF