• 제목/요약/키워드: character Frequency

검색결과 351건 처리시간 0.03초

한글의 정보처리 및 통신용 부호 최적화를 위한 한국어 분석 (Analysis of Korean Language to Optimize the Hangul Character Coding for Information Processing and Communication)

  • 홍완표
    • 한국전자통신학회논문지
    • /
    • 제10권3호
    • /
    • pp.375-380
    • /
    • 2015
  • 본 논문은 정보처리 및 전송용으로 사용되는 한글의 부호화를 최적화할 수 있도록 하기 위하여 한국어를 연구하였다. 본 논문은 한국어 구성하고 있는 한글의 구성현황과 그 한글들에 대한 각각의 사용빈도를 분석하였다. 본 논문은 본 연구결과 분석된 한글의 구성현황을 한국 KS 문자 표준과 국제 문자표준인 유니코드로 부호화되어 있는 한글 문자와 비교하였다. 연구를 위해 사용된 한국어는 국립국어원의 "현대국어사용빈도조사결과"를 대상으로 하였다. 이 보고서에 수록된 한국어는 총 58.437개이다. 분석결과 한국어 총58,437국어를 구성하고 있는 한글은 총1,540개였다. 이 총1,540개 한국어 중에서 사용빈도가 가장 높은 글자는 "다"로서 전체 사용빈도의 15%였다. 사용빈도가 가장 낮은 글자는 "휫"으로서 전체사용빈도의 0.00003%였다. 한국어를 구성하고 있는 한글 글자수는 유니코드 한글문자 부호를 구성하고 있는 한글 수 보다 약 7.2배, KS X 1001 한글문자 부호를 구성하고 있는 한글 수보다 약 1.5배 적은 것으로 나타났다.

공간 위치 변조에 의한 한글자소의 필터링 (On the Filtering of Hangul character Element with the Spatial Positioning Modulation)

  • 강대수;진용옥
    • 한국통신학회논문지
    • /
    • 제17권9호
    • /
    • pp.1029-1039
    • /
    • 1992
  • 본 논문은 한글인식 방법중 주파수 변환영역에서 행하는 필터링의 방법을 제시한 것이다. 한글 문자패턴을 2차원 변조처리하여 공간위치에 의존적인 한글자소의 위상문자적 특징을 주파수 영역으로 사상하였고, 이때 변조 주파수를 정규화함으로서 주파수 영역에서 문자의 크기를 정규화 한다. 또한 한글의 각 자소를 발생위치에 따라 분류하여 표준패턴으로 설정하고, 설정된 각 자소의 표준패턴을 자소필터로 사용하여 주파수 영역으로 사상된 문자패턴을 필터링하였다. 한글자소의 분별 파라미터로는 정규화된 상호상관함수와 필터링 결과로 부터 유도된 코히어런스 함수를 산출하여 분별기준을 설정하였으며, 그 결과로서 문자크기의 변화, 자소의 융착, 제한적인 자획의 유실이나 잡음의 혼입등의 요인이 발생하였음 경우에도 한글자소의 분별이 가능하였고 또한 표준패턴을 설정함에 따라 숫자, 영문자등의 분별에도 적용할 수 있었다.

  • PDF

Character based Hangeul search using Location-specific Character Frequency

  • Lee, Jung-Hwa;Lee, Jong-Min;Kim, Seong-Woo
    • Journal of information and communication convergence engineering
    • /
    • 제7권3호
    • /
    • pp.345-350
    • /
    • 2009
  • Hangul search functionality, including dictionary search is used in many Hangeul applications. Existing research of hangeul search method is the study of using hangeul syllable as a basic unit. However when you consider the characteristics of Hangul, the research of using hangeul character as a basic unit is needed. In this paper we propose the character based hangeul search method using the location-specific frequency information and verify the effectiveness of the proposed method through the experiments.

해저탐사에 적용되는 음파특성 (Underwater Acoustic Characteristics and Application to Seabed Survey)

  • 김성렬;이용국;정백훈
    • 한국석유지질학회:학술대회논문집
    • /
    • 한국석유지질학회 2005년도 제12차 학술발표회 초록집
    • /
    • pp.9-16
    • /
    • 2005
  • The electromagnetic (light) waves are limited to penetrate the media, ie, water and sea-bottom layers, due to high energy attenuation, but acoustic (sound) waves play as the good messenger to gather the underwater target information. Therefore the acoustic methods are applied to almost of ocean equipments and technology in terms of in-water and sub-bottom surveys, Generally the sound character is controlled by its frequency. In case that the sound source is low frequency, the penetration is high and the resolution is low. On the other hand, its character is reversed at the high frequency. The common character at the both of light and sound is the energy damping according to the travel distance increase.

  • PDF

웨이브렛 변환과 퍼지 군집화를 활용한 문자추출 (Character Extraction Using Wavelet Transform and Fuzzy Clustering)

  • 황중원;황재호
    • 대한전자공학회논문지SP
    • /
    • 제44권4호통권316호
    • /
    • pp.93-100
    • /
    • 2007
  • 웨이브렛 변환에 근거하여 디지털영상으로부터 문자를 처리하는 새로운 접근법을 제시한다. 대상은 각필(刻筆)문자 영상이다. 각필문자에는 형성된 결상에 유사성이 존속하며 배경부분과 함께 서로 다른 준위의 다해상도 특성들로 분해된다는 점을 착안하였다. 우선 Daubechies 웨이브렛을 적용하여 영상을 부대역들로 분해한다. 저주파 부대역은 분할처리와 FCM근거 퍼지 군집분리 및 면적기반 영역처리기법을 적용하여 문자특성을 추출한다. 고주파 부대역들에는 이동창을 설정하고, 이동창의 국부 에너지를 추정하여 고주파 특성들을 활성화한다. 이들 특성들은 조합되어 역웨이브렛 과정을 통해 본래 영상 상태로 복원되고 배경부분이 배제된 문자를 추출한다. 실험 결과는 제안된 기법의 효과를 보이고 있다.

해저지형${\cdot}$지층탐사에 적용되는 음파특성 (Acoustic Characteristics Applied to Seafloor and Sub-bottom Survey)

  • 김성렬;이용국;정백훈
    • 한국지구과학회:학술대회논문집
    • /
    • 한국지구과학회 2005년도 추계학술발표회 논문집
    • /
    • pp.42-50
    • /
    • 2005
  • The electromagnetic (light) waves are limited to penetrate the media, ie, water and sea-bottom layers, due to high energy attenuation, but acoustic (sound) waves play as the good messenger to gather the underwater target information. Therefore the acoustic methods are applied to almost of ocean equipments and technology in terms of in-water and sub-bottom surveys. Generally the sound character is controlled by its frequency. In case that the sound source is low frequency, the penetration is high and the resolution is low. On the other hand, its character is reversed at the high frequency. The common character at the both of light and sound is the energy damping according to the travel distance increase.

  • PDF

웨이브렛 변환을 이용한 필기체 한글 문자의 세선화 알고리즘 (Thinning algorithm of hand-printed korean character using wavelet transform)

  • 길문호;유기형;박정호;최재호;곽훈성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1998년도 하계종합학술대회논문집
    • /
    • pp.745-748
    • /
    • 1998
  • Recently, image and voice processing part is using wavelet transform. We propose thining algorithm using wavelet tranform. Wavelet transform consists of low frequency and high frequency in the spatial and frequency domain. After the wavelet decomposition, more than 90 percents of energy are contained in lowest frequency band. Therefor, for images with large difference of gray value between foreground and background like character images, we can more accurately in the lowest frequency band. Lowest frequency band has wavelet transform significant coefficient(WTS) that is required for the thinning algorithm we proposed Paper [3][5][7][8] can not separate consonants and vowels of korean characters. Becuase korean characters have structural feature. This paper can separate consonants and vowels. Simulation executed low frequency image and data compression can reduce 1/4$^{n}$ with level n. we can redcue time complexity 3/8.

  • PDF

AMI/HDB-3 회선부호화와 한·중·일 한자 유니코드 체계 고찰 (Consideration of CJK Joint Hanja Unicode when is used in AMI/HDB-3 Line Coding)

  • 태동진;홍완표
    • 한국전자통신학회논문지
    • /
    • 제8권7호
    • /
    • pp.1011-1015
    • /
    • 2013
  • 본 논문은 한중일통합 한자 유니코드 부호 집합체계가 원천부호화규칙에 위배되는 정도를 분석하였다. 본 연구에서는 한중일통합 한자의 유니코드 중에서 사용빈도 수가 높은 문자 150개를 대상으로 하여 연구하였다. 이 한중일통합 한자 150개 문자의 사용 빈도율은 한중일통합 한자 유니코드 전체 사용빈도율의 약 50%에 해당된다. 본 연구에서는 한중일통합 한자 유니코드를 AMI회선부호화 방식과 HDB-3 스크램블링 방식을 사용할 경우를 대상으로 하였다. 분석결과 150개의 문자중 원천부호화 규칙에 위배되는 문자는 총 77개 였다. 이들 문자들의 사용 빈도율에 의한 원천부호화 규칙 위배율은 약28%였다. 결과적으로 이 원천부호화 규칙에 위배되는 문자들을 사용빈도가 낮고 원천부호화 규칙에 부합되는 문자부호로 대체 할 때, 회선부호기에서의 회선부호 처리율을 약37%만큼 개선시킬 수 있음을 나타냈다.

멀티모달 인터페이스를 위한 음성 및 문자 공용 인식시스템의 구현 (An On-line Speech and Character Combined Recognition System for Multimodal Interfaces)

  • 석수영;김민정;김광수;정호열;정현열
    • 한국멀티미디어학회논문지
    • /
    • 제6권2호
    • /
    • pp.216-223
    • /
    • 2003
  • 본 논문에서는 음성과 온라인 문자를 단일시스템으로 인식할 수 있는 음성 문자 공용인식 시스템을 제안한다. 일반적으로 CHMM(Continuous Hidden Markov Model)은 음성인식과 온라인 문자인식을 위해 매우 유용한 도구로 잘 알려져 있으나, 인식을 위해서는 각각을 독립 시스템으로 구현하고 있어 추가적인 메모리와 계산량을 요구한다. 제안한 공용인식 시스템은 음성인식과 문자인식을 결합하기 위하여 이들을 동일한 CHMM모델로 구성한 후 상태단위로 지속정보를 제어하는 OPDP(One Pass Dynamic Programming) 알고리즘을 통하여 음성과 문자를 인식할 수 있는 확률 통계적 시스템을 구현하였다. 음성은 MFCC(Mel Frequency Cepstrum Coefficient) 파라미터, 문자는 위치 변화량 파라미터와 비트맵 파라미터를 사용하였으며, MLE(Maximum Likelihood Estimation) 추정법을 이용하여 음소와 자소를 결합한 115개의 3상태 9천이 CHMM모델을 구성하였다. 공용인식기의 실험결과 음소 인식률 51.65%, 음성 단어 인식률 88.6%, 자소 인식률 85.3%, 필기체 단어인식률 85.6%를 나타내어 공용인식의 유효함을 확인할 수 있었다.

  • PDF

캐릭터를 의류상품에 응용하기 위한 신세대 소비자 정보 분석 (Analysis of Young Adult Information Concentrating on the Significance of Application of Cartoon Characters on Garments)

  • 김칠순;조예진
    • 복식
    • /
    • 제51권4호
    • /
    • pp.31-42
    • /
    • 2001
  • The purpose of this study was to develop a large representative data base for character goods marketing strategy. The study was to determine character name awareness in relation to segmented distribution regions and such demographic variables as sex and age. The author also analyzed preferred design. A total of 360 questionnaires were distributed and 359 reliable ones were used for statistical analysis. A SAS statistical package including frequency tables and Chi square test and factor analysis and Kendall′s relation analyses was used. The results are as follow : character name awareness involves "character name decognition" based on asking subjects to identify character names from 50 given names. "Tele-tubbies" was found to be a dominant commercial character name as a result of the recognition test, and "Sailer-moon" was found to be a dominant animation character goods as a result of the recognition test. Character recognition was significantly different in the segmented distribution legions, three age groups and different sex groups. People considered design first in purchasing any character goods, and they considered color second in purchasing them. The most favored part of garment far character to be stitch to was the center front in the T-shirt/dress shirt, the center back in the Jumper/jacket, back pocket in the trousers/skirt. The results of a Chi-square test showed that preferred part in the trousers/skirt of character was related with age variables.

  • PDF