• 제목/요약/키워드: 글자 빈도수

검색결과 38건 처리시간 0.039초

글자 빈도수와 바이그램을 이용한 스마트폰 영어 글자판 설계 (Design of Smart phone English Keypad using Frequency Information of Characters and Bigram)

  • 이중화;박유현;김병기
    • 한국산업정보학회논문지
    • /
    • 제17권5호
    • /
    • pp.43-51
    • /
    • 2012
  • 스마트 폰에서는 문서작성, 채팅, 웹 검색 등의 다양한 기능들이 제공되고 있으며, 이에 따라 스마트폰에서 글자를 입력하는데 사용하는 글자판의 중요성이 더욱 부각되고 있다. 그러나 기존의 스마트폰 영어 글자판에서는 글자들을 단순히 글자 순서대로 배치하고 있기 때문에 입력의 효율성이 매우 떨어진다. 따라서 본 논문에서는 영어 글자의 빈도수 정보와 바이그램을 사용하여 글자를 배치한 개선된 영어 글자판을 설계하였다. 또한 성능평가를 통해 제안하는 자판의 성능을 기존의 자판과 비교하여 제안하는 자판의 성능이 더 우수함을 보였다.

한글 스마트폰 글자판 설계 (Design of Hangeul Smartphone Keypad)

  • 이중화
    • 한국정보통신학회논문지
    • /
    • 제19권10호
    • /
    • pp.2359-2366
    • /
    • 2015
  • 최근 스마트폰에서 사용할 수 있는 많은 어플리케이션들이 개발되고 있으며 이에 따라 스마트폰에서 사용할 수 있는 글자판의 중요성이 더욱 부각되고 있다. 본 논문에서는 스마트폰용 글자판에 대한 기존 연구들을 기반으로 한글의 글자 특성을 고려하여 보다 효율적으로 한글을 입력할 수 있는 한글 스마트폰 글자판을 설계한다. 본 논문에서 제안하는 한글 스마트폰 글자판에서는 글쇠에 글자를 배치함에 있어서 한글 글자들의 빈도수와 자음과 모음간의 상관빈도수를 고려하여 글자 입력 시 자간 이동거리를 최소화함으로써 보다 빠르게 한글을 입력할 수 있도록 한다. 또한 본 논문에서는 글자판의 성능평가를 위한 평가 모델을 만들고 이를 통해 제안하는 자판과 기존의 자판들과의 성능 비교를 수행하여 제안하는 자판의 글자 입력 효율성을 검증한다. 성능평가 결과 본 논문에서 제안하는 글자판이 기존의 자판보다 우수한 성능을 보임을 알 수 있다.

한글 단어 재인 시 음절 빈도가 글자 교환 효과에 미치는 영향 (The influence of the syllable frequency on transposed letter effect of Korean word recognition)

  • 이선경;이윤형;이창환
    • 인지과학
    • /
    • 제32권3호
    • /
    • pp.99-115
    • /
    • 2021
  • 본 연구는 로마자 알파벳 언어에서 일관되게 나타나는 글자 교환 효과와 관련된 혼동 현상이 한국어에서는 발견하기 어려운 사실에 근거하여 관련 소재(locus)를 탐색하고자 수행되었다. 한글 글자 교환에 대한 몇몇 연구에서는 음절이나 형태소 교환의 경우 혼동 효과가 유의미하게 있었지만 단순 글자의 교환에서는 혼동 효과가 미미하였다. 본 연구에서는 일련의 글자 교환 효과에 관한 기존 연구의 분석을 바탕으로 글자의 빈도가 조절변인일 수 있음에 착안하여 이를 검증하였다. 실험 결과, 한글 단어(예: 민주화)의 글자들을 교환하여 형성된 비단어에서 고빈도 음절이 포함되게 한 경우(예: 진무화) 유의미한 글자 교환 효과를 발견하였으나 저빈도 음절이 포함되게 한 경우(예: 경쟁력 → 졍갱력)에는 글자 교환 효과가 나타나지 않았다. 이는 음절 빈도라는 어휘 변인이 한글 글자 교환 효과에 간여하는 주요 변인일 수 있음을 시사하며 한글에서도 글자 수준에서의 교환 효과가 나타날 수 있음을 밝혔다.

데이터베이스에서 한글 글자 단위 검색 기능 설계 및 구현 (The design and implementation of the search function of hangeul characters in database.)

  • 이호진;이중화
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2007년도 추계종합학술대회
    • /
    • pp.570-573
    • /
    • 2007
  • 본 논문에서는 한글의 글자 단위 검색 기능 구현에 있어서 한글의 빈도수 정보를 이용하여 보다 효율적으로 검색할 수 있는 방안을 제시한다. 또한 본 논문에서 제시하는 알고리즘을 적용하여 데이터베이스에서 한글 글자 단위 검색이 가능하도록 검색 기능을 구현하였다.

  • PDF

범주화 과제에서의 한글단어 빈도효과 (Hangul Word-Frequency in Semantic Categorization Task)

  • 조중열
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.351-358
    • /
    • 1999
  • 범주화과제를 사용한 두 실험에서 단어 빈도가 단어의 의미를 처리하는데 영향을 주는지를 알아보았다. 두 실험에서 사용된 자극은 두 글자의 한글이었는데, 실험 1에서는 사례와 목표자극은 두 번째 글자의 종성에서만 달랐고(예, 범주: 관직: 사례: 시장; 목표자극: 시작), 실험 2에서는 첫 번째 글자의 종성에서만 달랐다(예, 범주: 관직: 사례: 시장; 목표자극: 심장). 실험 1에서는 통제자극보다 저빈도 목표자극의 오반응이 더 많았고, 고빈도 사례의 반응시간이 더 길었다. 실험 2에서는 고빈도 사례-저빈도 목표자극 조건이 통제조건보다 반응시간이 더 길었다. 이 결과는 이중경로모형(Jared & Seidenberg, 1991)을 지지한다고 볼 수 있다. 이 결과들은 음운 정보와 시각 정보의 사용은 단어의 빈도에 의존하며, 특히 음운정보의 활성화는 필연적인 과정이 아니라 선택적인 것을 시사한다.

  • PDF

한글의 정보처리 및 통신용 부호 최적화를 위한 한국어 분석 (Analysis of Korean Language to Optimize the Hangul Character Coding for Information Processing and Communication)

  • 홍완표
    • 한국전자통신학회논문지
    • /
    • 제10권3호
    • /
    • pp.375-380
    • /
    • 2015
  • 본 논문은 정보처리 및 전송용으로 사용되는 한글의 부호화를 최적화할 수 있도록 하기 위하여 한국어를 연구하였다. 본 논문은 한국어 구성하고 있는 한글의 구성현황과 그 한글들에 대한 각각의 사용빈도를 분석하였다. 본 논문은 본 연구결과 분석된 한글의 구성현황을 한국 KS 문자 표준과 국제 문자표준인 유니코드로 부호화되어 있는 한글 문자와 비교하였다. 연구를 위해 사용된 한국어는 국립국어원의 "현대국어사용빈도조사결과"를 대상으로 하였다. 이 보고서에 수록된 한국어는 총 58.437개이다. 분석결과 한국어 총58,437국어를 구성하고 있는 한글은 총1,540개였다. 이 총1,540개 한국어 중에서 사용빈도가 가장 높은 글자는 "다"로서 전체 사용빈도의 15%였다. 사용빈도가 가장 낮은 글자는 "휫"으로서 전체사용빈도의 0.00003%였다. 한국어를 구성하고 있는 한글 글자수는 유니코드 한글문자 부호를 구성하고 있는 한글 수 보다 약 7.2배, KS X 1001 한글문자 부호를 구성하고 있는 한글 수보다 약 1.5배 적은 것으로 나타났다.

허프만 부호화를 이용한 영문 텍스트 압축 (English Text Compression using Huffman Coding)

  • 구자룡;최현호;정제창
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2016년도 추계학술대회
    • /
    • pp.69-71
    • /
    • 2016
  • 본 논문에서는 JPEG, MPEG 등 표준압축 기술에 사용되고 있는 무손실 압축 기법 중 Huffman coding 을 통해 영문 텍스트를 압축하고 압축률을 구해보았다. 각 글자를 Huffman coding 의 원리에 기초하여 빈도수에 따라 코드를 결정한다. 결정된 코드에 따라 영문 텍스트를 변환하여 압축을 진행한다. 본 연구에서는 MATLAB을 이용하여 영문 텍스트의 각 글자 빈도수를 구하였고 Huffman coding 과정을 수행하였다. 또한 영문 텍스트를 코드로 변환과정을 수행하여 아스키코드와 압축률을 비교하였다. Huffman coding 은 아스키코드만으로 이용하는 것보다 1.89:1 의 압축률을 나타내었다.

  • PDF

단어 구름과 동적 그래픽스 기법을 이용한 영어성경 텍스트 시각화 (English Bible Text Visualization Using Word Clouds and Dynamic Graphics Technology)

  • 장대흥
    • 응용통계연구
    • /
    • 제27권3호
    • /
    • pp.373-386
    • /
    • 2014
  • 단어 구름은 문자 텍스트 상의 복수개의 단어들을 대상으로 그 단어들의 출현 빈도에 비례하는 글자의 크기나 글자의 색깔로 중요도를 나타내는 텍스트 시각화 방법이다. 이 그림은 텍스트 상의 핵심단어를 재빨리 인지하고 단어들의 상대적 출현빈도수에 맞추어 배열하는 데 유용하다. 동적 그래픽스를 이용하여 텍스트 장들의 변화에 따른 핵심단어와 단어출현빈도의 패턴의 변하는 모습을 살필 수 있다. 행들이 텍스트 상의 장들이고 열들이 텍스트에 출현하는 단어들의 출현빈도수 순위들인 단어출현빈도행렬을 정의할 수 있고 이 행렬을 이용하여 단어출현빈도행렬그림을 그릴 수 있다. 동적 그래픽스를 이용하여 출현빈도수 순위의 변화에 따른 단어출현빈도행렬의 패턴의 변하는 모습을 살필 수 있다. 우리는 단어 구름과 동적 그래픽스 기법을 사용하여 영어성경 텍스트 시각화를 수행할 수 있다.

데이터전송효율을 고려한 유니코드의 한글글자마디에 대한 연구 (A Study on the Hangul Syllables of Unicode System considering Data Transmission Efficiency)

  • 홍완표
    • 한국전자통신학회논문지
    • /
    • 제10권1호
    • /
    • pp.39-46
    • /
    • 2015
  • 본 논문은 유니코드 한글글자마디부호를 사용할 때 스크램블링으로 인하여 회선부호기의 데이터 전송효율에 미치는 영향을 연구하였다. 회선부호기의 스크램블링은 원천부호의 문제를 해결하기 위한 것이다. 본 논문은 장거리전송에 사용되는 AMI회선부호화에 적용하는 국제표준방식인 HDB-3 스크램블링 방식을 토대로 하였다. 본 연구에 필요한 한글글자마디와 이에 대한 사용빈도는 국립국어원의 한국어자료를 분석한 데이터를 사용하였다. 연구결과 유니코드 한글글자마디에서 평균 24%의 스크램블링이 발생하였다. 유니코드 한글글자마디부호에 참고된 한글글자마디를 적용할 경우에 평균 27%의 스크램블링이 발생하였다. 유니코드 총 11,172개의 한글글자마디에서 스크램블링이 발생하지 않는 글자마디는 총 8,928개였다. 그러므로 참고된 한글글자마디 총1,540자를 스크램블링이 발생하지 않는 부호영역에 수용하여 스크램블링이 발생되지 않는 원천부호체계를 만드는 것이 가능하다는 결론을 도출하였다. 새로운 한글글자마디 부호체계를 적용할 경우, 27%의 스크램블링을 완전히 제거할 수 있다. 또한 물리계층의 회선 부호화기에서 발생하는 스크램블링을 표현계층에서 소프트웨어 적으로 수행하게 되어, 회선부호기의 데이터전송처리 효율을 최소 27%이상 제고시킬 수 있다.

우편번호 체계에서 사용중인 한글의 빈도수 조사 (A Frequency Measure of Hangul in Korean Zip Code)

  • 김민기;권영빈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.295-301
    • /
    • 1993
  • 제약이 없이 자유롭게 쓴 오프라인 필기체 한글을 인식하는 문제는 응용분야에 따른 도메인의 정보를 이용함으로써 보다 쉽게 접근할 수 있다. 본 연구는 오프라인 필기체 한글 인식을 위한 한 도메인으로 우편봉투를 대상으로 하였을 때, 우편번호가 할당된 지명과 건물명을 대상으로 글자의 종류와 빈도수를 통계 분석하였다. 분석 결과 가능한 한글 조합 11,172자중 403자만이 쓰이고 있음을 알았다. 이러한 정보는 자소 분할이 어려운 오프라인 필기체 한글 인식에 있어, 문자 단위 정합을 사용했을 때 인식속도 및 인식률 향상에 기여 할 것으로 생각된다.

  • PDF