• 제목/요약/키워드: 띄어쓰기

검색결과 147건 처리시간 0.027초

자동 띄어쓰기 기반의 효율적인 영문 휴대폰 키패드 설계 (Design of Efficient Mobile Keypad Based on Automatic Word Spacing)

  • 김현민;김용혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(B)
    • /
    • pp.153-156
    • /
    • 2010
  • 휴대폰으로 영문을 입력하기 위해서는 일반적으로 멀티탭 (multitap) 방식을 사용한다. 멀티탭 방식은 원하는 알파벳을 입력하기 위해 키를 반복적으로 눌러줘야 한다. 본 논문은 키를 누르는 횟수를 줄일 수 있는 효율적인 키패드를 구한다. 기존의 멀티탭 기반의 휴대폰 키패드 설계와 자동 띄어쓰기 관련 연구를 조사한다. 그리고 자동 띄어쓰기 사용을 가정한 상태에서의 휴대폰 키패드를 설계하고 이를 비교한다. 키가 눌러진 총 횟수가 작을수록 효율적인 키패드인 것으로 평가했다. 알파벳 순서를 유지한 키패드 디자인과 유지하지 않은 디자인으로 나누고 8 ~ 12개의 키를 가지는 키패드에 대한 디자인을 각각 구했다. 평가를 위한 데이터로 실제 사용되는 영문 SMS 데이터를 구해 사용했다. 실험 결과 자동 띄어쓰기를 하지 않은 키패드보다 자동 띄어쓰기를 한 키패드의 성능이 약간 개선됨을 볼 수 있다.

  • PDF

중국인 한국어 학습자의 글쓰기에 나타난 띄어쓰기 오류 양상 및 지도 방향 (An Analysis of Korean Word Spacing Errors Made by Chinese Learners)

  • 왕원
    • 한국교육논총
    • /
    • 제40권1호
    • /
    • pp.59-79
    • /
    • 2019
  • 본 연구의 목적은 중국인 한국어 학습자들의 글쓰기 자료에 나타난 띄어쓰기 오류를 분석하고, 설문조사와 인터뷰 내용을 통해 오류 원인을 분석하여 중국인 학습자를 위한 띄어쓰기 교육 지도 방향을 제시하는 데 있다. 이를 위해 중국인 유학생의 글쓰기 자료 30편을 분석하였으며, 설문조사와 아울러 인터뷰를 실시하였다. 학습자들의 글쓰기 자료를 분석한 결과 총 148회 띄어쓰기 오류가 발견되었으며, 띄어 써야 하는데 붙여 쓴 오류(77.6%)는 붙여 써야 하는데 띄어 쓴 오류(22.4%)보다 훨씬 더 많이 나타났다. 붙여 쓴 오류 중 '명사+명사', '관형사(형)+의존명사'와 띄어 쓴 오류 중 '조사'의 오류 빈도수가 높게 나타났다. 이에 본고는 명사와 조사를 대상으로 연역적 측면과 귀납적 측면을 출발하여 띄어쓰기 지도 방향을 제시했다.

  • PDF

한국어 의학 문서에 대한 영문 MeSH 키워드의 자동 부여 - 띄어쓰기 변이 처리 효과를 중심으로 (Automatic English MeSH keywords assignment to Korean medical documents - spacing variant effect)

  • 이재성;김미숙;이영성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.82-89
    • /
    • 2004
  • 본 논문에서는 한국어 의학 논문의 요약문으로부터 자동 영문 MeSH 키워드 제안 시스템을 소개하고, 띄어쓰기 변이(spacing variant) 문제를 해결할 수 있는 방법을 제안한다. 띄어쓰기 변이란 표준 한글 맞춤법에 비해 다르게 띄어쓰기된 것을 말한다. 이를 위해 시소러스에는 생성 가능한 모든 띄어쓰기 변이 대신에 최대 띄어쓰기 어구만을 저장하고, 문서에서 K-MeSH 용어를 찾기 위해 음절단위 부분문자열 검색을 사용한다. 이 방법으로 한국어 의학 논문의 요약문에서 K-MeSH 용어를 추출한 후, TF-IDF 순위 함수를 이용하여 상위 10위내의 키워드를 저자가 선정한 영문 키워드와 비교한 결과 58%가 일치하였다. 이는 기존 방법에 비해 42%정도의 시소러스 크기가 축소되었고, 상위 10위내에서 영문 MeSH 키워드 추천 재현률이 약 7.8% 증가한 것으로 효과적인 방법임을 보여주었다.

  • PDF

종단 간 심층 신경망을 이용한 한국어 문장 자동 띄어쓰기 (Automatic Word Spacing of the Korean Sentences by Using End-to-End Deep Neural Network)

  • 이현영;강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권11호
    • /
    • pp.441-448
    • /
    • 2019
  • 기존의 자동 띄어쓰기 연구는 n-gram 기반의 통계적인 기법을 이용하거나 형태소 분석기를 이용하여 어절 경계면에 공백을 삽입하는 방법으로 띄어쓰기 오류를 수정한다. 본 논문에서는 심층 신경망을 이용한 종단 간(end-to-end) 한국어 문장 자동 띄어쓰기 시스템을 제안한다. 자동 띄어쓰기 문제를 어절 단위가 아닌 음절 단위 태그 분류 문제로 정의하고 음절 unigram 임베딩과 양방향 LSTM Encoder로 문장 음절간의 양방향 의존 관계 정보를 고정된 길이의 문맥 자질 벡터로 연속적인 벡터 공간에 표현한다. 그리고 새로이 표현한 문맥 자질 벡터를 자동 띄어쓰기 태그(B 또는 I)로 분류한 후 B 태그 앞에 공백을 삽입하는 방법으로 한국어 문장의 자동 띄어쓰기를 수행하였다. 자동 띄어쓰기 태그 분류를 위해 전방향 신경망, 신경망 언어 모델, 그리고 선형 체인 CRF의 세 가지 방법의 분류 망에 따라 세 가지 심층 신경망 모델을 구성하고 종단 간 한국어 자동 띄어쓰기 시스템의 성능을 비교하였다. 세 가지 심층 신경망 모델에서 분류 망으로 선형체인 CRF를 이용한 심층 신경망 모델이 더 우수함을 보였다. 학습 및 테스트 말뭉치로는 최근에 구축된 대용량 한국어 원시 말뭉치로 KCC150을 사용하였다.

한글 문장의 자동 띄어쓰기를 위한 어절 블록 양방향 알고리즘 (Eojeol-Block Bidirectional Algorithm for Automatic Word Spacing of Hangul Sentences)

  • 강승식
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권4호
    • /
    • pp.441-447
    • /
    • 2000
  • 자동 띄어쓰기는 띄어쓰기가 무시된 한글 문서의 자동색인이나 문자인식 시스템에서 줄바꿈 문자에 대한 공백 삽입 문제 등을 해결하는데 필요하다. 이러한 문서에서 공백이 삽입될 위치를 자동으로 찾아주는 자동 띄어쓰기 알고리즘으로 문장 분할 기법과 양방향 최장일치법을 이용한 어절 인식 방법을 제안한다. 문장 분할은 한글의 음절 특성을 이용하여 어절 경계가 비교적 명확한 어절 블록을 추출하는 것이며, 형태소 분석기를 이용한 양방향 최장일치법에 의해 어절 블록에 나타난 각 어절들을 인식한다. 4,500여 어절로 구성된 두 가지 유형의 문장 집합에 대하여 제안한 방법의 띄어쓰기 정확도를 평가한 결과 '공백 재현율'이 97.3%, '어절 재현율'이 93.2%로 나타났다.

  • PDF

자기 조직화 n-gram모델을 이용한 자동 띄어쓰기 (Self-Organizing n-gram Model for Automatic Word Spacing)

  • 태윤식;박성배;이상조;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.125-132
    • /
    • 2006
  • 한국어의 자연어처리 및 정보검색분야에서 자동 띄어쓰기는 매우 중요한 문제이다. 신문기사에서조차 잘못된 띄어쓰기를 발견할 수 있을 정도로 띄어쓰기가 어려운 경우가 많다. 본 논문에서는 자기 조직화 n-gram모델을 이용해 자동 띄어쓰기의 정확도를 높이는 방법을 제안한다. 본 논문에서 제안하는 방법은 문맥의 길이를 바꿀 수 있는 가변길이 n-gram모델을 기본으로 하여 모델이 자동으로 문맥의 길이를 결정하도록 한 것으로, 일반적인 n-gram모델에 비해 더욱 높은 성능을 얻을 수 있다. 자기조직화 n-gram모델은 최적의 문맥의 길이를 찾기 위해 문맥의 길이를 늘였을 때 나타나는 확률분포와 문맥의 길이를 늘이지 않았을 태의 확률분포를 비교하여 그 차이가 크다면 문맥의 길이를 늘이고, 그렇지 않다면 문맥의 길이를 자동으로 줄인다. 즉, 더 많은 정보가 필요한 경우는 데이터의 차원을 높여 정확도를 올리며, 이로 인해 증가된 계산량은 필요 없는 데이터의 양을 줄임으로써 줄일 수 있다. 본 논문에서는 실험을 통해 n-gram모델의 자기 조직화 구조가 기본적인 모델보다 성능이 뛰어나다는 것을 확인하였다.

  • PDF

문장 정보를 고려한 딥 러닝 기반 자동 띄어쓰기의 개념 및 활용 (Concept and Application of Deep learning-based Automatic Spacing)

  • 조원익;천성준;김지원;김남수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.181-184
    • /
    • 2018
  • 본 논문에서는, 한국어 활용에 있어 중의성을 해소해 주고 심미적 효과를 줄 수 있는 개념인 띄어쓰기를, 교정이 아닌 입력 보조의 관점에서 접근한다. 사람들에게 자판을 통한 텍스트 입력이 언어활동의 보편적인 수단이 되면서 가독성을 포기하고서라도 편의를 택하는 경우가 증가하게 되었는데, 본 연구에서는 그러한 문장들의 전달력을 높여 줄 수 있는 자동 띄어쓰기 및 그 활용 방안을 제시한다. 전체 시스템은 dense word embedding과 딥 러닝 아키텍쳐를 활용하여 훈련되었으며, 사용된 코퍼스는 비표준어 및 비정형을 포함하는 대화체 문장으로 구성되어 user-generate된 대화형 문장 입력의 처리에 적합하다.

  • PDF

음절 및 형태소 정보를 이용한 띄어쓰기 일관성 검사 (Word Spacing Consistency Check using Syllable and Morpheme Information)

  • 이재성
    • 한국콘텐츠학회논문지
    • /
    • 제10권5호
    • /
    • pp.10-19
    • /
    • 2010
  • 한국어 띄어쓰기 규칙은 경우에 따라 예외 조항이 있어 띄어 쓰거나 붙여 쓰는 것을 모두 허용하는 경우가 있다. 이러한 이중적 규칙에도 불구하고 같은 문서 내의 같은 어절이나 어구들은 일관성 있게 띄어쓰거나 붙여 쓰는 것이 문서 교정상 올바르다. 본 논문에서는 음절 정보 및 형태소 정보를 이용하여 비일관적으로 쓰인 띄어쓰기를 효과적으로 검사하는 방법을 제안하고 실험하여 평가하였다.

저사양 기기를 위한 한국어 자동 띄어쓰기 시스템 (An Automatic Korean Word Spacing System for Devices with Low Computing Power)

  • 송영길;김학수
    • 정보처리학회논문지B
    • /
    • 제16B권4호
    • /
    • pp.333-340
    • /
    • 2009
  • 대부분의 기존 자동 띄어쓰기 시스템들은 많은 시스템 자원을 필요로 하기 때문에 상대적으로 낮은 컴퓨팅 파워를 가진 모바일 기기에 사용하기에는 적합하지 않다. 본 논문에서는 저사양 모바일 기기에 맞도록 메모리 사용량이 적고 수치 계산이 단순한 자동 띄어쓰기 시스템을 제안한다. 제안 시스템은 통계 기반 시스템과 규칙 기반 시스템으로 구성된 2단계 모델이다. 메모리 사용량을 줄이기 위해서 통계 기반 시스템이 음절 유니그램 기반의 개량된 은닉 마코프 모델을 사용하여 띄어쓰기 오류를 1차로 수정한다. 다음으로 정밀도 향상을 위해서 규칙 기반 시스템이 음절 바이그램 이상의 어휘 규칙을 이용하여 잘못 수정된 띄어쓰기 오류를 재보정한다. 실험 결과에 따르면 제안시스템은 1MB를 조금 넘는 메모리 사용하면서도 94.14%라는 비교적 높은 정밀도를 보였다.

어절 내의 형태소 범주 패턴에 기반한 통계적 자동 띄어쓰기 시스템 (A Stochastic Word-Spacing System Based on Word Category-Pattern)

  • 강미영;정성원;권혁철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권11호
    • /
    • pp.965-978
    • /
    • 2006
  • 본 논문에서는 형태소 unigram과 한국어 어절을 형성하는 형태소 범주 패턴에 기반하여 어절을 인식하는 한국어 띄어쓰기 시스템을 구현하였다. 기존에 많이 연구된 통계 정보를 이용한 띄어쓰기 모델은 비교적 짧은 시간에 쉽게 구현할 수 있는 장점이 있지만, 한국어의 형태 유형론적 특성 때문에 발생하는 (ㄱ) 자료부족 문제와 (ㄴ) 메모리 크기 문제에 효과적으로 대처하지 못한다. 본 논문은 이 두 문제를 동시에 해결하기 위해 어절을 구성하고 있는 개별 형태소의 통계 정보와 그 형태소의 범주의 통계 정보를 기반으로 하여 띄어쓰기 후보 어절들을 추천한다. 임의의 후보 어절이 최종의 띄어쓰기 단위인 어절이 될 수 있는 확률은 (ㄱ) 해당 후보 어절 내의 각 형태소 확률과 (ㄴ) 해당 후보 어절을 구성하기 위해 그 형태소의 범주가 다른 형태소 범주와 함께 형성하는 패턴 내에서 차지하는 '범주가중치'를 고려하여 구한다. 해당 '범주가중치'는 (ㄱ) 말뭉치로부터 실제로 관찰된 어절의 확률과 (ㄴ) 후보 어절 내의 개별 형태소의 확률과 (ㄷ) 그 범주 가중치에 의해 추정된 어절 확률 사이의 평균 에러(error mean)가 최저가 되는 방향으로 학습하여 얻어진다.