• 제목/요약/키워드: 한글문자입력

검색결과 172건 처리시간 0.02초

Hough Transform을 이용한 한글 필기체 형식 분류에 관한 연구 (A Study on the Classification of Hand-written Korean Character Types using Hough Transform)

  • 구하성;고경화
    • 한국통신학회논문지
    • /
    • 제19권10호
    • /
    • pp.1991-2000
    • /
    • 1994
  • 본 논문에서는 필기체 문자 인식 시스템을 위하여 6형식 분류 알고리즘을 제안하였다. 입력 영상은 세선화 과정을 거친 후 잡음을 제거하는 절단화 과정을 거친 후 $64\times64$ 크기로 정규화하여 이용하였다. 6형식 분류는 신경회로망의 모델 중 다층 퍼셉트론의 학습알고리즘을 이용하여 대분류와 상세분류 과정에서 이루어진다. 특징값 추출은 부분적인 특정값으로는 Subblock Hough transform을 이용하였으며 전체적인 특징값으로는 표본화 Hough transfrom을 이용하였다. 실험은 10사람이 한 형식당 30번씩 쓴 1800자를 대상으로 하였으며 받침의 유무로 대분류한 후 각기 종모음과 횡모음의 유무로 상세분류하여 90%의 분류 성공율을 얻었다.

  • PDF

제한된 언어 자원 환경에서의 다국어 개체명 인식 (Multilingual Named Entity Recognition with Limited Language Resources)

  • 천민아;김창현;박호민;노경목;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.143-146
    • /
    • 2017
  • 심층학습 모델 중 LSTM-CRF는 개체명 인식, 품사 태깅과 같은 sequence labeling에서 우수한 성능을 보이고 있다. 한국어 개체명 인식에 대해서도 LSTM-CRF 모델을 기본 골격으로 단어, 형태소, 자모음, 품사, 기구축 사전 정보 등 다양한 정보와 외부 자원을 활용하여 성능을 높이는 연구가 진행되고 있다. 그러나 이런 방법은 언어 자원과 성능이 좋은 자연어 처리 모듈(형태소 세그먼트, 품사 태거 등)이 없으면 사용할 수 없다. 본 논문에서는 LSTM-CRF와 최소한의 언어 자원을 사용하여 다국어에 대한 개체명 인식에 대한 성능을 평가한다. LSTM-CRF의 입력은 문자 기반의 n-gram 표상으로, 성능 평가에는 unigram 표상과 bigram 표상을 사용했다. 한국어, 일본어, 중국어에 대해 개체명 인식 성능 평가를 한 결과 한국어의 경우 bigram을 사용했을 때 78.54%의 성능을, 일본어와 중국어는 unigram을 사용했을 때 각 63.2%, 26.65%의 성능을 보였다.

  • PDF

웹 기반하의 국어의 로마자 전사 표기 자동 변환 시스템 (Automatic translation system for hangul's romanization Based on the World Wide Web)

  • 김홍섭
    • 한국컴퓨터정보학회논문지
    • /
    • 제7권4호
    • /
    • pp.108-114
    • /
    • 2002
  • 국어의 로마자 표기법 기본원칙을 모르더라도 웹 상에서 한글단어, 문장, 문서를 문자열(String)로 입력받아 국어의 로마자 표기 자동변환이 가능하게 설계 및 구현하였다. 특히, 표음 중심의 전사(Transcription) 표기법의 기계적 변환을 위해 알고리즘(algorithm)화된 음운법칙을 적용하여 소리글자로 자동 변환 후 정부 표준안인 국어 로마자 표기법 테이블에서 대응 글자를 참조하여 기계화 코드 변환이 가능토록 자동변환 알고리즘 설계하였으며, 유니코드(Unicode)와 아스키(ASCII)테이블에서 잘 쓰이지 않는 코드를 반달표(ˇ)와 어깻점(')등 특수부호로 할당하여 글꼴을 제작하였다. 또한 예외어 사전관리를 통한 예외 처리 문제에 대한 해결 방안을 제시하였으며, UML표기와 C++ 언어를 이용하여 사용자 편리성과 구현에 대한 모델을 제안하였다.

  • PDF

한 손가락 문자 입력을 위한 한글 Soft-keyboard 배열에 관한 연구 (A Study of Korean Soft-keyboard Layout for One Finger Text Entry)

  • 공병돈;홍승권;조성식;명노해
    • 산업공학
    • /
    • 제22권4호
    • /
    • pp.329-335
    • /
    • 2009
  • Recently, the use of soft-keyboard is widespread and increases, because various handheld devices were developed such as PDA, navigation, mobile phones with enhanced competence of touchscreen. The use of soft-keyboard requires different characteristics compared to traditional hard-keyboard like QWERTY keyboard: no standard character layout, one finger entry, and cognitive processing time. In this study, therefore, the optimal soft-keyboard layout for one finger text entry in touchscreen environment was investigated among 6 keyboard layouts which were developed based on traditional characteristic of Korean text and the usage frequency of both vowels and consonants. As a result, the interface with Korean text invention order like 'ㄱㄴㄷㄹ' or 'ㅏㅑㅓㅕㅕ' was found to be better than the interface with usage frequency-based arrangement. Especially the vowels were most efficient when separated into two parts; located at the right-hand side and at right below the consonants. In conclusion, the keyboard layout with regard to the Korean text characteristic and the invention order was a more effective layout resulted from the minimum cognitive processing time.

말뭉치와 형태소 분석기를 활용한 한국어 자동 띄어쓰기 (Automatic Word Spacing Using Raw Corpus and a Morphological Analyzer)

  • 심광섭
    • 정보과학회 논문지
    • /
    • 제42권1호
    • /
    • pp.68-75
    • /
    • 2015
  • 본 논문에서는 띄어쓰기가 전혀 되어 있지 않은 문자열을 입력 받아 말뭉치에서 추출한 어절 정보를 이용하여 자동 띄어쓰기를 해 주는 방법론을 제안한다. 형태소 분석기도 사용되나 오류 수정이라는 제한적인 용도로만 사용된다. 성능 평가를 위해 1,000만 어절 규모의 세종 말뭉치에서 순수 한글 585만 어절을 발췌하여 10 개의 세트로 나누고 10 배수 교차 검증을 실시한 결과 98.06%의 음절 정확도와 94.15%의 어절 재현율을 얻었다. 또한, 개인용 컴퓨터에서 초당 25만 어절, 1.8 MB의 문서를 처리할 수 있을 정도로 빠르다. 제안된 방법의 정확도나 재현율은 어절 사전의 크기에 영향을 받기 때문에 보다 큰 말뭉치로 어절 사전을 구축하면 성능이 더욱 향상될 것으로 기대된다.

웹 기반하의 국어의 로마자 표기 자동 변환 시스템 설계 (Design of automatic translation system for hangul's romanization Based on the World Wide Web)

  • 김홍섭
    • 한국컴퓨터정보학회논문지
    • /
    • 제6권4호
    • /
    • pp.6-11
    • /
    • 2001
  • 국어의 로마자 표기법 기본원칙을 모르더라도 웹 상에서 한글단어, 문장, 문서를 문자열(String)로 입력받아 자동변환이 가능하게 설계하였다. 특히 표음 중심의 전사(Transcription) 표기법의 기계적 변환을 위해 알고리즘(algorithm)화된 음운법칙을 적용하여 소리글자로 자동 변환 후 정부 표준안인 국어 로마자 표기법 레이블에서 대응 글자를 참조하여 기계화 코드 변환이 가능토록 자동변환 알고리즘 설계하였으며, 아스키(ASCII)테이블에서 잘 쓰이지 않는 코드를 반달표(ˇ)와 어깻점(´)등 특수부호로 할당하여 글꼴을 제작하였다. 또한 예외어 사전관리를 통한 예외 처리 문제에 대한 해결 방안을 제시하였으며, UML표기와 C++ 언어를 이용하여 사용자 편리성과 구현에 대한 모델을 제안하였다.

  • PDF

국어 로마자 표기 자동 변환 시스템 설계 및 구현 (The design and implementation of automatic translation system for hangul's romanization)

  • 김홍섭
    • 한국컴퓨터정보학회지
    • /
    • 제2권1호
    • /
    • pp.45-54
    • /
    • 1995
  • 본 연구는 ASCII 코드중에서 잘 쓰이지 않는 코드를 반달점(ˇ)으로 할당, 글꼴을 제작하여, 사용자가 국어 로마자 표기법 기본원칙을 모르더라도 한글단어, 문장, 문서를 문자열(string)로 입력받아 알고리즘화된 음운법칙을 적용하여 소리글자로 자동 변환 후 현행 정부 표준안인 국어 로마자 표기법 테이블에서 대응 글자를 참조하여 기계화 코드 변환이 가능토록 설계하였으며, 예외어 처리, 화면색상 및 풀다운 팝업 메뉴 방식을 지원, 마우스 활용 방식을 채택, 사용자 편리성을 제공하였으며, 다양한 서체, 글꼴 확대 및 축소, 이단ㆍ혼합 인쇄기능 등을 고려 C언어를 이용하여 구현하였다.

  • PDF

Bi-Cross 사전 학습을 통한 자연어 이해 성능 향상 (The Bi-Cross Pretraining Method to Enhance Language Representation)

  • 김성주;김선훈;박진성;유강민;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.320-325
    • /
    • 2021
  • BERT는 사전 학습 단계에서 다음 문장 예측 문제와 마스킹된 단어에 대한 예측 문제를 학습하여 여러 자연어 다운스트림 태스크에서 높은 성능을 보였다. 본 연구에서는 BERT의 사전 학습 문제 중 다음 문장 예측 문제에 대해 주목했다. 다음 문장 예측 문제는 자연어 추론 문제와 질의 응답 문제와 같이 임의의 두 문장 사이의 관계를 모델링하는 문제들에 성능 향상을 위해 사용되었다. 하지만 BERT의 다음 문장 예측 문제는 두 문장을 특수 토큰으로 분리하여 단일 문자열 형태로 모델에 입력으로 주어지는 cross-encoding 방식만을 학습하기 때문에 문장을 각각 인코딩하는 bi-encoding 방식의 다운스트림 태스크를 고려하지 않은 점에서 아쉬움이 있다. 본 논문에서는 기존 BERT의 다음 문장 예측 문제를 확장하여 bi-encoding 방식의 다음 문장 예측 문제를 추가적으로 사전 학습하여 단일 문장 분류 문제와 문장 임베딩을 활용하는 문제에서 성능을 향상 시키는 Bi-Cross 사전 학습 기법을 소개한다. Bi-Cross 학습 기법은 영화 리뷰 감성 분류 데이터 셋인 NSMC 데이터 셋에 대해 학습 데이터의 0.1%만 사용하는 학습 환경에서 Bi-Cross 사전 학습 기법 적용 전 모델 대비 5점 가량의 성능 향상이 있었다. 또한 KorSTS의 bi-encoding 방식의 문장 임베딩 성능 평가에서 Bi-Cross 사전 학습 기법 적용 전 모델 대비 1.5점의 성능 향상을 보였다.

  • PDF

최대 블록화 방법을 이용한 묵자획 특징 추출에 관한 연구 (A Study on the Feature Extraction of Strokes using the Maximum Block Methode)

  • 김의정;김태균
    • 한국정보처리학회논문지
    • /
    • 제4권4호
    • /
    • pp.1141-1151
    • /
    • 1997
  • 본 논문에서는 오프라인 한자의 특징 추출을 위한 최대 블록화 방법(Maximum Block Method:MBM)을 제안한다. 최대 블록화란 처며 찾아진 화소로부터 블록을 점차 키워 나 아가감 으로서 입력문자의 골격선과 특징점을 추출하는 방법이다.기존의 세선화 방법 에서는 국소적인 잡음의 영향과 굴곡점, 누락점 등에서 발생되는 왜곡 현상이 특징 추출 을 어렵게 하는 단점이 있었다. 본 논문에서는 최대 블록 생성으로 인하여 잡음블록의 제거와 합성으로 직선과 사선획을 찾으므로서, 정확한 특징점 추출하는 앙법임을 입증 하였다. 실험 데이타로는 프린터 결과물, 중고등학교 한자 교과서와 기타 문서 등을 사용하였다. 한자 이외에도 한글 및 영, 숫자를 입력하여 실험한 결과, 인식의 전처리 과정인 골격선 추출과 획의 특징 추출에서 매우 효과적인 방법임을 확인하였다.

  • PDF

온라인 흘림체 한글 인식을 위한 곡률획 모델링 기법 (Curvature stroke modeling for the recognition of on-line cursive korean characters)

  • 전병환;김무영;김창수;박강령;김재희
    • 전자공학회논문지B
    • /
    • 제33B권11호
    • /
    • pp.140-149
    • /
    • 1996
  • 흘림체 필기 문자는 문자의 가능한 한도 펜의 움직임을 줄이려는 경제성의 원칙에서 비롯된다. 즉, 다음 획을 쓰기 위해 이동할 때 펜을 들지 않거나, 아예 이동을 생략하거나, 또는 연결된 두 획이 서로 닮아가면서 필기하기 쉬운 단순간 형태로 변화한다. 이러한 변화로 인해, 획이나 자소의 형태가 달라질 뿐만 아니라, 획간이나 자소간의 구분이 매우 어려워진다. 따라서 흘림체의 효과적인 인식을 위해서는 획이나 자소의 정확한 분할에 의존하지 않으면서, 일정한 단위로 분할하여 매칭할 수 있는 방법이 필요하다. 이 연구에서는 구조적인 형태의 단위로 분할하고 매칭하는 '곡률획 모델링 방법(curvature stroke modeling method)'을 제안한다. 곡률획(curvature stroke)은 필기의 회전 방향이 바뀌지 않는 부분획으로 정의되며, 곡률에 따라 선분, 호, 원 등의 형태를 갖는다. 흘려 써진 입력 획들을 곡률획의 나열로 변환하기 위해서는, 필기의 회전을 변화시키는 곳, 급격한 방향 변화를 일으키는 곳, 그리고 지나친 회전을 일으키는 곳 등을 분할한다. 각 참조 자소는 정자체로 입력하여 분할 과정에 의해 생성된 곡률획의 나열로 저장되어 있으며, 인식중에 융합과정을 수행함으로써 매칭을 위한 다양한 곡률획의 나열을 만들어낸다. 이때, 가상 획이 필기되거나 생략될 가능성도 고려한다. 인식의 기본 단위로 곡률획을 사용함으로써, 입력 문자의 불필요한 분할점들을 효과적으로 줄일 수 있고, 또한 자소간의 연결점을 찾기 어려운 경우에도 인접한 두 자소에 걸치는 참조 곡률획을 생성해내기 때문에 정확한 매칭이 가능해진다. 실험 결과, 83.60%의 제 1후보 인식률과 0.99초/자(CPU 클럭: 66MHz)의 처리 시간을 보였다./atom으로 추출되었다. 한편 별도의 추가적인 공정없이 일반적인 에피 성장법을 사용하여 고농도로 붕소가 도핑된 실리콘층 위에 부정합 전위가 없는 에피 실리콘을 성장시켰으며, 이 에피 실리콘의 결정성은 매우 양호한 것으로 밝혀졌다. 또 부정합 전위가 없는 에피 실리콘에 n+/p 게이트 다이오드를 제작하고 그 전압-전류 특성을 측정한 결과 5V의 역 바이어스에서 0.6nA/$cm^{2}$의 작은 누설 전류값을 나타내었다.이었다 5. 쌀의 알칼리 붕괴도는 밀양 맥후작산미가 가장 높았고 호남평야지산미가 가장 낮았는데 비해 아밀로그래프의 호화개시온도는 수원과 이리산미가 가장 낮았던 반면 밀양산미가 가장 높았다. 강하점도는 밀양산미가 가장 낮았고 다음이 이천산미가 낮았던데 비해 계화 및 이리산미가 가장 높았으며 치반점도는 이와 정반대의 경향을 나타내었다. 밥의 점성 /경도비율은 지역간 차이가 유의하지는 않았으나 남부평야산미가 중부평야산미에 비해 다소 떨어지는 경향이었다. 6. 식미와 관련이 있는 쌀 외관품질 및 이화학적 특성을 이용한 주성분 분석에서 전정보의 약 59% 설명이 가능한 제 1 및 제 2 주성분치상의 7개 품종별 6개 산지미의 분포로 보아 품종에 따라서 산지 반응이 달랐는데 대체로 자포니카와 통일형 품종군간 구분과 밀양, 중부평야 및 호남평야의 세 산지간 구분이 가능하였다. 산지내 품종간 미질변이는 남양간척지와 이리산미가 비교적 작았는데 수원산미는 이천과 남양산미의 미질변이를, 계화산미는 이리산미의 미질변이를 거의 포괄하였다.는 산불위험지역의 격자점(15km)내에 최소한 1대의 AWS 설치방안을 제시하였지만, 금후에는 15km내에서도 능선, 계곡 등 구체적인 위치확정을 위한 선행연구가 실시되어야할

  • PDF