• 제목/요약/키워드: Korean numerals

검색결과 60건 처리시간 0.035초

데이터베이스 의미론을 이용한 한국어 구현 시론: 수사-분류사 구조를 중심으로 (A pilot implementation of Korean in Database Semantics: focusing on numeral-classifier construction)

  • 최재웅
    • 인지과학
    • /
    • 제18권4호
    • /
    • pp.457-483
    • /
    • 2007
  • 데이터베이스 의미론(Database Semantics, DBS)은 인간의 의사소통 방식에 대한 종합적인 이론 틀과 분석을 제공하고, 또한 이를 구체적인 컴퓨터 프로그램으로 구현하는 것을 목적으로 하고 있다. DBS의 두 가지 주요 특징으로는 문장 처리 알고리즘으로 좌연접 방식을 취한다는 점과 문장의 의미 내용을 표상하는 데이터베이스로 '어휘은행 (Word bank)를 취한다는 점을 들 수 있다. 본 연구에서는 DBS에 입각하여 한국어의 기본 현상에 대한 분석 및 구현을 시도한다. 우선 간단한 한국어 예를 통해 듣고, 추론하고, 말하는 단계가 어떻게 진행될 수 있는지를 보이고, 이어서 한국어의 특징적 현상중의 하나인 수사-분류사(classifier) 구조가 어떻게 분석되는지를 보임으로써, 영어와 독일어를 소재로 개발중인 DBS가 언어적 특성이 많이 다른 한국어 분석에도 활용될 가능성이 있음을 보인다. 또한 기존 연구에서 제시된 바 있는 좌연접 알고리즘에 대한 한국어 적용상의 문제점을 검토하면서 그에 대한 대안의 방향을 살펴보기로 한다.

  • PDF

다중 특징의 반복적 분석에 의한 퍼지 분류기의 설계 (Design of a Fuzzy Classifier by Repetitive Analyses of Multifeatures)

  • 신대정;나승유
    • 한국지능시스템학회논문지
    • /
    • 제6권3호
    • /
    • pp.14-24
    • /
    • 1996
  • 유전자 알고리즘을 이용한 다양한 특징의 분석이 필요한 퍼지 분류기의 설계방법을 제안한다. 본 논문에서 제안한 퍼지 분류기의 퍼지 논리를 이용한 분류 부분과 우전자 알고리즘을 이용한 규칙생성부분으로 구성된다. 유전자 알고리즘을 이용한 규칙 생성 부분에서는 최적의 퍼지 멤버쉽 함수를 결정하고, 각 특징이 규칙에 포함되는지 포함되지 않는지의 여부도 결정하게 된다. 또한 특정 대상에 대한 인식률을 분석하여 큰 오인식률을 갖는 부분에 세부 특징을 추가하는 방법과 문자열과 population의 최소크기, 인식률 개선을 위한 반복적 분석 방법을 사용한다. 제안된 퍼지 분류기의 적용 예로서, 아이리스 테이터와 갑상선 종양 세포, 그리고 필기된 숫자와 인쇄된 숫자의 인식을 든다. 필기된 숫자와 인쇄된 숫자의 인식을 위해서 각 숫자를 구조적인 정보가 동일한 그룹으로 분류한다. 본 논문에서 제안한 퍼지 분류기는 아이리스 데이터에 대해 98.67%의 인식률을 갑상선 종양 세포에 대해서 98.25%의 인식률을 필기된 숫자와 인쇄된 숫자에 대해서 96.3%의 인신룩을 얻었다.

  • PDF

은행 수납장표 자동인식을 위한 융합기반 필기 숫자 인식방법 (FUSION BASED RECOGNITION METHOD FOR HANDWRITTEN NUMERALS ON BANK SHEETS)

  • 전효세;소영성
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.449-451
    • /
    • 1999
  • 지금까지 많은 필기 숫자 인식 방법들이 제안되었지만 고도의 신뢰도가 요구되는 은행 수납 장표상의 숫자 인식에 적합한 방법은 아직 발표된 것이 미미한 실정이다. 본 연구에서는 세 개의 분류기의 결과를 융합하여 100%에 가까운 신뢰도를 낼 수 있는 필기숫자 인식 시스템을 제안하였다. Karhunen-Loeve Transform(KLT)를 통하여 특징을 추출하였으며 오류 역전파 신경망(BP), LVQ를 적용한 SOFM(SOFM-LVQ)과 Weignted Several Nearest Neighbor(WSNN)을 분류기로 사용하였다. 융합을 위해서는 다수결(Majority Voting)이 아닌 만장일치제(Unanimous Voting)을 적용하여 신뢰도를 높혔다. ETL-6 DB를 사용하여 실험하였으며 실험 결과 99.95%의 높은 신뢰도를 기록하였다.

  • PDF

오프라인 필기체 숫자인식을 위한 특징 비교 및 다수결 투표를 사용한 성능향상 방안 (Performance Comparison of Various Features for Off-line Handwritten Numerals Recognition and Suggestion for Improving Recognition rate for Using Majority Voting)

  • 권영일;하진영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.595-597
    • /
    • 2003
  • 오프라인 필기체 숫자 인식에서 다양한 변형을 잘 흡수 할 수 있는 효율적인 특징을 찾는 것은 중요한 일이며, 본 논문에서는 이를 위해 다양한 단일특징들을 구현 하였으며, 단일 특징만으로는 만족 할 만한 성능을 기대하기 어렵기 때문에 다양한 단일 특징을 복합특징으로 구성하였다. 또한 오프라인 필기체 숫자인식에서 좋은 성능을 발휘하는 것으로 알려진 신경회로망으로 학습을 하였으며, 인식의 성능을 개선시키기 위해 효과적인 특징을 조합하여 하나의 단일 신경회로망들을 구성하고 그것을 다시 복합신경회로망으로 구성하여 성능을 실험 함으로서 성능의 향상을 볼 수 있었고, 신경회로망에 더하여 성능을 개선시키기 위해 신경회로망을 보완 할 수 있는 다수결 투표 방법을 사용하였다. 본 논문에서는 신경회로망의 인식 결과를 비교 분석하여 최적의 특징을 찾아 낸 결과를 2차 다수결 투표를 사용하여 인식하는 방법을 제안한다. 제안된 방식의 성능을 검증하기 위해서 Concorida 대학교의 CENPARIMI 숫자 데이터 베이스를 가지고 인식을 수행 하였으며. 그 결과 97.40%의 정인식률과 0.75%의 오인식률 그리고 1.85%의 거부률을 보였다.

  • PDF

임베디드 TTS 시스템을 위한 아라비안 숫자의 문자 변환 (Grapheme-to-Phoneme Conversion of Arabic Numeral Expressions for Embedded TTS Systems)

  • 정영임;윤애선;권혁철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.442-444
    • /
    • 2005
  • 본 논문에서는 아라비안 숫자의 중의성을 효과적으로 제거하고 숫자 표현의 발음을 정확하게 문자화할 수 있는 임베디드 시스템용 경량화된 아라비안 숫자 읽기 시스템을 제안한다. 이를 위해 7 가지의 숫자 읽기 방식(Headings of Arabic Numerals RAN)을 분류하였고, 문자화 규칙을 설정하기 위해. (1) 문맥 자질, (2) 패턴 자질, (3) 휴리스틱 정보를 숫자 표현의 의미에 따라 분석하였다. 그리고 숫자의 문자화 시스템을 최적화하여 임베디드 시스템에 탑재하기 위해 (1) 형태소 분석 모듈의 분리, (2) 사전 압축, (3) 인명과 지명의 제거를 하였고, 이를 홍해 심각한 정확도 손실 없이 메모리 사용량과 처리 시간을 크게 줄일 수 있었다. 경량화된 mini-TAN 은 $96.9\~98.3\%$의 정확도를 보이며, 기존 상용 TTS 시스템에 비해서도 숫자 읽기의 처리에 있어 높은 정확도를 보인다.

  • PDF

Combining Different Distance Measurements Methods with Dempster-Shafer-Theory for Recognition of Urdu Character Script

  • Khan, Yunus;Nagar, Chetan;Kaushal, Devendra S.
    • International Journal of Ocean System Engineering
    • /
    • 제2권1호
    • /
    • pp.16-23
    • /
    • 2012
  • In this paper we discussed a new methodology for Urdu Character Recognition system using Dempster-Shafer theory which can powerfully estimate the similarity ratings between a recognized character and sampling characters in the character database. Recognition of character is done by five probability calculation methods such as (similarity, hamming, linear correlation, cross-correlation, nearest neighbor) with Dempster-Shafer theory of belief functions. The main objective of this paper is to Recognition of Urdu letters and numerals through five similarity and dissimilarity algorithms to find the similarity between the given image and the standard template in the character recognition system. In this paper we develop a method to combine the results of the different distance measurement methods using the Dempster-Shafer theory. This idea enables us to obtain a single precision result. It was observed that the combination of these results ultimately enhanced the success rate.

수 연산과정에서 ERP로 확인된 숫자어휘와 부호변환 과정 (Words for Numbers and Transcoding Processes Reflected by ERPs during Mental Arithmetic)

  • 김충명;김동휘
    • 한국산학기술학회논문지
    • /
    • 제11권2호
    • /
    • pp.689-695
    • /
    • 2010
  • 한글 숫자어휘의 부호변환 과정을 알아 봄에 있어, 수연산이 시행되는 동안 주어진 목표자극들 간의 연산결과가 일치하는지에 대한 과제를 ERP 실험방법에 의거 시행하였다. 평균진폭에 대한 실험 결과는 과제-의존적인 처리가 아닌 자극유형-의존적인 처리과정을 보여주었는데, 덧셈 및 곱셈과제에서의 한글 숫자어휘의 시간적인 뇌파개형은 아라비아 숫자에 대한 그것과 유사하게 나타났다. 이 처리과정에서의 유의미한 차이점은 300ms 부근에서 나타난 지연된 양성파형의 성분으로서, 이는 한글 숫자어휘의 아라비아 숫자로의 부호변환 과정으로 해석가능하다. 이 과정에 수반된 뇌영상을 분석한 결과, 두 조건에서 서로 다른 파형을 야기한 영역은 한글문자 처리에 관여하는 좌측 측두-두정영역으로 확인되었다. 이와 같은 결과는 수연산 과정의 개개 자극인 한글 숫자어휘의 내재적 수표상 방식이, 수개념으로의 직접적 접근이 아니라 일정한 부호변환 과정을 통한 도식화된 통로를 거치고 있음을 시사한다 할 수 있다.

한의 온톨로지 처방의 용량 단위 가공과 데이터베이스 스키마 설계 (Processing of dosage units and design of database schema for formulas in Korean medicine ontology)

  • 김상균;오용택;이명구
    • 대한한의학방제학회지
    • /
    • 제30권4호
    • /
    • pp.233-240
    • /
    • 2022
  • Objectives : This study aims to propose a processing method for dosage units of medicinal materials and the database schema to manage formula data in Korean medicine ontology. Methods : All dosage units of medicinal materials are collected from the seven textbooks that contain formula data of Korea medicine ontology. Dosages are converted to Arabic numerals and units that are frequently used are converted to representative units. Database schema is designed for processing and managing the formulas and medicinal materials with dosage units. Results : Seven representative units are selected out of 77 units. They will be used in the addition or subtraction of medicinal materials in a formula support system. The remaining units will be made available for references. Conclusions : EMR or chart programs used in clinical hospitals contain formula data that is already standardized. However, the formula data in Korean medicine literature and textbook is not refined, so it is necessary to process the dosages and units of medicinal materials to use in the formula support system. This result is a processing method to utilize the formula data of Korean medicine textbooks and it will be implemented this method in the established formula support system in the future.

아라비안 숫자를 동반한 중의적 기호의 자동전사: 온점, 쌍점, 빗금을 중심으로 (Automatic Transcription of Three Ambiguous Symbols Used with Arabic Numerals: Period, Colon and Slash.)

  • 윤애선;정영임;권혁철
    • 한국언어정보학회지:언어와정보
    • /
    • 제8권1호
    • /
    • pp.117-136
    • /
    • 2004
  • In this paper, we have proposed Auto- TSS, an automatic transcription module of three ambiguous symbols-period (.), colon (:) and slash (/)--using their linguistic contexts. Few previous studies have discussed the problems of ambiguities in reading those symbols into Korean alphabetic letters in order to improve the current Korean TTS (Text-To-Speech) systems. We have classified 9 different reading formulae of the three symbols, analyzed their left and right contexts, and investigated selection rules and distributions between the symbols and their contexts. Based on these linguistic features, 30 stereotyped patterns, 53 rules and 5 heuristics determining the types of reading formulae are investigated for Auto-TSS. This module works modularly in 4 steps. The pilot test was conducted with three test suites, which contain respectively 6,979, 3,491 and 2,450 morpheme clusters containing at least one of three ambiguous symbols and Arabic numeral(s). Encouraging results of 94.3%, 93.0%, 94.2% accuracy were obtained for the test suites. Our next phases are to develop a guessing routine for unknown contexts of the union symbols by using statistical information; to refine the proper nouns and terminology detecting module; and to apply Auto-TSS on a larger scale.

  • PDF

백진분류법설계 (Plan for Centesimal Classification (PCC))

  • 정필모
    • 한국문헌정보학회지
    • /
    • 제20권
    • /
    • pp.35-63
    • /
    • 1991
  • DDC, LCC, and CC can be said as the major schemes for mordern general library classification. Among these, DDC, since its publication in 1876, has been continuously studies and revised by many scholars and practitioners to publish 20th edition in 1989: LCC also has been studied and revised by the specialists in each subject, since 1904; and CC(first edition 1933) is now on the stage of 7th edition(1987). Even though studied, revised and developed by many classificationists, all these schemes maintain the general framework of the beginning, only with the partial revision and expansion to reflect the developments of the subjects. and antioipated tremendous amount of works resulted from reclassification also can be a reason that disturbs the full innovative revision of the scheme, because these are used in many libraries as a basic tools for the classification. But all these schemes mainly based on the state of the discipline at the time of their creation, the beginning of 20the century, and so in some aspect it is natural for them to have many problems. This study aims to investigate the problems in these major schemes, to find some ways to solve the problems, and to suggest the ideas for the basic design of a new modern library classification scheme. This plan is prepared to be applied to the situation of all countries equally without any revision. And in its notation, it uses two digits of Arabic numerals as centesimal, and so it is named provisionally to Plan for Centesimal Classification (PCC).

  • PDF