• 제목/요약/키워드: 자소

검색결과 184건 처리시간 0.04초

트루타입의 합성 글립을 이용한 새로운 한글 폰트 생성법 (A Generating Method of Hangul Fonts using Composite Glyph of TrueType)

  • 정근호;김은회;최재영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.368-374
    • /
    • 1999
  • 한글 폰트는 조합형 폰트와 완성형 폰트로 구분된다. 조합형 폰트는 폰트를 제작하는 시간과 노력이 적게 필요하지만 폰트의 품질이 완성형 폰트보다 뒤떨어진다. 완성형 폰트는 조합형과 비교하여 우수한 품질을 가지지만 폰트 제작에 더 많은 시간과 노력을 요구한다. 특히 완성형 폰트는 폰트내의 중복된 자소들의 정보를 중복해서 저장하므로 폰트 저장에 필요한 공간이 더 많이 필요하다. 본 논문에서는 트루타입의 합성 글립(Composite Glyph)을 이용하여 중복된 자소를 최소화한 완성형 폰트를 구성하였다. 중복성을 최소화한 완성형 폰트는 기존 완성형 폰트와 유사한 고수준의 품질을 유지하면서 조합형 폰트와 유사하게 폰트 저장 공간의 크기를 절약할 수 있다.

  • PDF

한글 VECTOR 표기를 위한 최소정보 구성에 관한 연구 (A Study on Organizing the Least Informations for Vector-Drawing Korean Characters)

  • 김삼묘
    • 대한전자공학회논문지
    • /
    • 제14권2호
    • /
    • pp.32-38
    • /
    • 1977
  • 한글을 veccor 표기하는데 필요한 최소정보를 구성하기 위하여 한글 자소를 주어진 display raster상에 그리는 최단경로 및 시작점을 비교적 간단한 algorithm을 이용하여 찾았고, 이 경로를 따라 그리는데 필요한 vector제어 정보를 최소로 요하는 기본 vector군은 raster 거리의 1 및 3배의 크기를 갖는 vector들이며, 9개의 중자모음자를 포함한 33개의 한글 자소를 그리는데 필요한 총 vector 제어정보는 horizental format로 7 bits 463 words 즉 3,241 bits로 구성됨 수 있었다.

  • PDF

말뭉치를 기반으로 한 한국어 철자 교정기의 구현 (Korean Spelling Corrector Based on Corpus Analysis)

  • 이병훈;윤준태;송만석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.285-293
    • /
    • 1993
  • 대량의 말뭉치에서 나타나는 맞춤법 오류의 대부분은 타자수의 입력 실수로 인한 것이다. 맞춤법 오류의 유형은 크게 띄어 쓰기 오류, 철자 오류, 띄어 쓰기와 철자의 복합 오류의 세 가지로 나타난다. 이 중, 철자 오류를 표층 형태만으로 표준어 오류, 조사/어미 오류, 자소 대치 오류로 유형을 분류하였다. 본 논문은 300만 말뭉치에서 형태소 분석이 실패한 맞춤법 오류 어절 중에서 띄어 쓰기와 철자 오류를 분석하여, 각 오류 유형에 따른 교정 방법과 자소 대치 규칙 베이스를 이용한 교정 방법을 구현하였다. 또한 형태소 분석기를 거친 40만 어절 사전을 이용한 분석기로 기존의 형태소 분석기를 대치시켜 교정 어절을 검증하였고, 위의 사전에서 추출한 순위 결정 요소와 Heuristic 정보를 이용하여 각 후보 어절에 대한 가중치를 계산하고 가능성이 높은 교정 어절을 제시하는 시스템을 구현하였다.

  • PDF

한글의 구조적 특징을 이용한 인쇄체 한글인식을 위한 신경망 설계 (Neural Network design for Printed Hangul recognition using structural characteristic of Hangul)

  • 서원택;조범준
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 춘계학술발표대회논문집
    • /
    • pp.588-591
    • /
    • 2003
  • 본 논문에서는 한글의 구조적인 특징을 이용하여 이를 효과적으로 인식할 수 있는 신경망을 설계해보았고, 이를 이용하여 주민등록증에 있는 이름을 인식하는 시스템을 구성해 보았다. 본 시스템은 한글의 6형식에 따른 구조적인 특징을 효과적으로 구분하기 위해 형식을 구분하는 신경망을 먼저 구성하여 형식별로 분류한 뒤, 형식에 따라 자모음을 분리하여 각 형식에 따라 구성된 2차 신경망으로 입력을 하여 인식하는 구조로 설계되었다. 훈련용 데이터는 각 형식 별로 자소를 분리해서 얻은 영상들을 자소별 평균이미지로 만들어서 이를 조합하여 만든 글자로 사용하였다. 그래서 같은 형식의 같은 자음이라도 글자의 모양과 위치가 조금 다른 것에 대해서 강인한 훈련을 할 수 있었다. 또한 히스토그램의 국부 평균을 적용함으로써 잡음에 효과적으로 대응하였다. 100명의 주민등록증을 컴퓨터 카메라를 이용하여 입력 받아서 테스트한 결과 98.1%의 높은 인식률을 얻을 수 있었다.

  • PDF

이동 통신 전화기 자판을 위한 사용자 중심의 한글 입력 방법 (A User Friendly Hangul Input Method For Mobile Phone Keypad)

  • 김수겸;장용운;박재화;이두수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.659-662
    • /
    • 2004
  • 이동통신용 전화기의 숫자 자판에서 다수의 한글 자소가 한 개의 키에 할당되기 때문에 한글 입력에 많은 번거로움이 따른다. 본 논문에서는 이러한 번거로움을 최소화 하기위해서 모든 단자음과 단모음이 키에 모두 표시되도록 설계한 분산형 한글 자판 배열과 글자를 구성하는 자소를 필기순서에 따라 해당키를 한번씩만 눌러서 입력할 수 있도록 하는 사용자 중심의 새로운 한글 입력 방식을 제안한다. 다양한 실험을 통해서 제안된 방법이 기존의 방식들에 비해서 키누름 동작에 따르는 입력 효율이 높은 것을 확인했다.

  • PDF

딥러닝를 사용한 온라인 게임에서의 욕설 탐지 (Abusive Sentence Detection using Deep Learning in Online Game)

  • 박성희;김휘강;우지영
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제60차 하계학술대회논문집 27권2호
    • /
    • pp.13-14
    • /
    • 2019
  • 욕설은 게임 내 가장 큰 불쾌 요소 중 하나이다. 지금까지 게임 사용자들의 욕설을 방지하기 위해서 금칙어를 기반으로 필터링 해왔으나, 한국어 특성상 단어를 변형하거나 중간에 숫자를 넣는 등 우회할 방법이 다양하기 때문에 효과적이지 않다. 따라서 본 논문에서는 실제 온라인 게임 'Archeage'에서 수집된 채팅 데이터를 기반으로 딥러닝 기법 중 하나인 콘볼루션 신경망을 사용하여 욕설을 탐지하는 모델을 구축하였다. 한글의 자음, 모음을 분리하여 실험하였을 때, 87%라는 정확도를 얻었다. 한 글자씩 분리한 경우, 조금 더 좋은 정확도를 얻었으나, 사전의 수가 자소를 분리한 경우보다 10배 이상 늘어난 것을 고려해보면 자소를 분리한 것이 더 효율적이다.

  • PDF

이웃 각도 히스토그램 및 변형된 하우스도르프 거리를 이용한 'ㅁ', 'ㅇ' 자소 인식 (The Recognition of Grapheme 'ㅁ', 'ㅇ' Using Neighbor Angle Histogram and Modified Hausdorff Distance)

  • 장원두;김하영;차의영;김도현
    • 한국멀티미디어학회논문지
    • /
    • 제8권2호
    • /
    • pp.181-191
    • /
    • 2005
  • 한글 문자 인식에 있어서 ' ㅁ '과 ' ㅇ '의 오인식은 전반적인 인석성능의 저하를 가져오는 요소가 되고 있으나 이에 대한 연구가 미흡한 실정이다. 따라서, 본 논문에서는 'ㅁ'과 'ㅇ'을 효과적으로 인식하기 위한 새로운 특징 추출 방법을 제안하였다. 제안하는 방법은 변형된 하우스도르프 거리를 이용한 최적의 이웃 반경을 설정하고, 이 반경에 의해 이웃 픽셀과의 각도를 추출하여 두 자소를 구분하는 특징으로 사용하였다 실험을 통하여 분석한 결과 제안하는 특징 추출 방법은 기존의 방법들보다 적은 특징 개수를 사용하여 효율적으로 패턴을 인식할 수 있었으며 우수한 일반성 및 안정성을 나타내었다.

  • PDF

전화기 숫자 자판을 이용한 대화형 한글 문자 입력 방법 (An Interactive Hangul Text Entry Method Using The Numeric Phone Keypad)

  • 박재화
    • 정보처리학회논문지B
    • /
    • 제14B권5호
    • /
    • pp.391-400
    • /
    • 2007
  • 휴대용 단말기의 숫자 자판을 이용해서 보다 편리하게 한글을 입력할 수 있도록 하는 대화형 방식을 제시하였다. 사용자는 입력하고자 하는 글자의 해당 자소가 있는 키를 한 번씩 눌러 키 시퀀스를 발생시킨다. 인터페이스는 사용자가 입력한 키 시퀀스에 대해 조합 가능한 모든 글자를 발생 시키고 사용자는 발생된 글자 중에서 입력하고자 하는 글자를 선택하도록 한다. 이를 통해 기존의 방법에서 공통으로 사용되는 수동적이고 일차원적인 자소 중심의 인터페이스를 상호 작용이 가능한 입체적인 글자 중심의 방법으로 개선 가능하다. 이 방법은 최종 글자의 입력을 완료하기 위해 필요한 글자 선택의 과정이 부가적으로 필요하지만, 기존 방법의 가장 큰 단점인 멀티탭과 불분명한 음소의 결정을 위한 키 조작의 불편함을 근본적으로 없앨 수 있다. 또한 모든 글자의 입력이 필기 순서와 동일하게 기본 자소에 의해 입력이 가능함으로 사용자의 문자입력에 대한 복잡도를 감소시킬 수 있다. 제안된 방법의 장단점을 실험을 통해 기존의 방법과 비교하였다.

한국어의 정보이론적 연구 방향 (On Information Theoretical Research of the Korean Language)

  • 이재홍;이재학
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1992년도 제4회 한글 및 한국어정보처리 학술대회
    • /
    • pp.367-375
    • /
    • 1992
  • 한국어는 다른 언어와는 달리 초성, 중성, 종성의 자소가 모여서 한 음절을 이룬다. 음절을 이루는 자소는 그 발생의 확률적 성질에 따라 확률변수로 간주된다. 음절 안에서 자소간의 발생의 상관관계는 자소간 조건부 확률 및 엔트로피로 표시된다. 음절이 모여서 단어를 이루고 단어를 이루는 음절은 그 발생의 확률적 성질에 따라 확률변수로 간주된다. 한국어 단어안에서 음절간의 발생의 상관관계는 음절간 조건부 확률 및 엔트로피로 표시된다. 수 있다. 그런데 가능한 음절의 종류가 매우 많기 때문에 음절 발생의 상관관계를 표시하는 지표로서 음절간 조건부 확률 대신 초성, 중성, 종성 단위의 조건부 확률을 사용하는 것이 음절간의 발생의 상관관계를 표시하는데 효과적이다. 이러한 한국어의 정보이론적 연구를 위하여서는 기초자료로서 한국어 단어의 빈도분포가 필요하다. 한국어 단어의 빈도분포의 포괄적인 조사는 1956년의 "우리말 말수 사용의 잦기 조사"가 유일한 실정이다. 시간 경과에 따른 한국어의 정보이론적 특성 변화의 분석을 위하여서는 한국어 단어 빈도의 주기적인 조사가 필요하다. 한국어에서 초성, 중성, 종성단위의 정보이론적 연구결과는 한국어 음성인식 및 함성, 자연언어처리, 암호법, 언어학, 음성학, 한국어부호 표준화 연구등에 이용될 것으로 기대된다. 남북한의 언어는 분단이 지속됨에 따라 상호 이질화가 진행되고 있다. 이러한 이질화를 극복하려는 부분적인 노력으로 남북한 언어의 한국어 영문표기의 단일화 등이 있었다. 이러한 노력에 병행하여 남한과 북한의 언어에 대한 정보이론적 비교 연구도 있어야 할 것이다. 정보를 효과적으로 캐싱할 수 있도록 인접한 데이터를 클러스터링해서 브로드캐스팅하여 이동 호스트의 구성 시간(setup time)을 최소화하였다. 그리고, 맨하탄거리(Manhattan Distance)를 사용해서 위치 의존 질의에서 사용하는 데이타를 캐싱하고 질의를 처리하는 방법을 제안한다. 맨하탄 거리를 이용해서 캐싱하면 도로에 인접해서 위치한 데이타를 효과적으로 캐싱할 수 있다. 또한, 거리 계산 방법으로 맨하탄 거리를 사용하면 도심에서 실제 이동 거리와 비슷한 값을 알 수 있고, 직선 거리 계산식에 비해서 계산식도 간단하기 때문에 시스템 계산량도 줄일 수 있다. 기준으로 라이신 부산물은 어분 단백질을 40%까지 대체가 가능하였으며, 아울러 높은 라이신 부산물의 대체 수준에 있어서 사료효율과 단백질 전환효율을 고려한다면 아미노산 첨가(라이신과 아르지닌)와 중화 효과에 좋은 결과가 있을 것으로 사료된다.의한 적정 양성수용밀도는 각고 5~6cm 크기의 경우 10~15개체가 적합하였다. 수증별 성장은 15~20 m 수층에서 빨랐으며, 성장촉진과 폐사를 줄이기 위해서는 고수온이 지속되는 7~10월에는 20~30m수층으로 채롱을 내려 양성하고 그 외 시기에는 15 m층 내외가 좋은 것으로 나타났다. 상품으로 출하 가능한 크기 인 각고 10 cm이상, 전중량 140 g 내외로 성장시 키기까지는 채묘후 22개월이 소요되었고, 출하시기는 전중량 증가가 최대에 이르는 3월에서 4월 중순이 경제적일 것으로 판단된다.er 90 % of good relative dynamic modulus of elasticity due

  • PDF

Lexicon transducer를 적용한 conformer 기반 한국어 end-to-end 음성인식 (Conformer with lexicon transducer for Korean end-to-end speech recognition)

  • 손현수;박호성;김규진;조은수;김지환
    • 한국음향학회지
    • /
    • 제40권5호
    • /
    • pp.530-536
    • /
    • 2021
  • 최근 들어 딥러닝의 발달로 인해 Hidden Markov Model(HMM)을 사용하지 않고 음성 신화와 단어를 직접 매핑하여 학습하는 end-to-end 음성인식 방법이 각광을 받고 있으며 그 중에서도 conformer가 가장 좋은 성능을 보이고 있다. 하지만 end-to-end 음성인식 방법은 현재 시점에서 어떤 자소 또는 단어가 나타날지에 대한 확률에 대해서만 초점을 두고 있다. 그 이후의 디코딩 과정은 현재 시점에서 가장 높은 확률을 가지는 자소를 출력하거나 빔 탐색을 사용하며 이러한 방식은 모델이 출력하는 확률 분포에 따라 최종 결과에 큰 영향을 받게 된다. 또한 end-to-end 음성인식방식은 전통적인 음성인식 방법과 비교 했을 때 구조적인 문제로 인해 외부 발음열 정보와 언어 모델의 정보를 사용하지 못한다. 따라서 학습 자료에 없는 발음열 변환 규칙에 대한 대응이 쉽지 않다. 따라서 본 논문에서는 발음열 정보를 담고 있는 Lexicon transducer(L transducer)를 이용한 conformer의 디코딩 방법을 제안한다. 한국어 데이터 셋 270 h에 대해 자소 기반 conformer의 빔 탐색 결과와 음소 기반 conformer에 L transducer를 적용한 결과를 비교 평가하였다. 학습자료에 등장하지 않는 단어가 포함된 테스트 셋에 대해 자소 기반 conformer는 3.8 %의 음절 오류율을 보였으며 음소 기반 conformer는 3.4 %의 음절 오류율을 보였다.