• Title/Summary/Keyword: 문자 검색

Search Result 287, Processing Time 0.023 seconds

A study on the Character Correction of the Wrongly Recognized Sentence Marks, Japanese, English, and Chinese Character in the Off-line printed Character Recognition (오프라인 인쇄체 문장부호, 일본 문자, 영문자, 한자 인식에서의 오인식 문자 교 정에 관한 연구)

  • Lee, Byeong-Hui;Kim, Tae-Gyun
    • The Transactions of the Korea Information Processing Society
    • /
    • v.4 no.1
    • /
    • pp.184-194
    • /
    • 1997
  • In the recent years number of commercial off-line character recognition systems have been appeared in the Korean market. This paper describes a "self -organizing" data structure for representing a large dictionary which can be searched in real time and uses a practical amount of memory, and presents a study on the character correction for off-line printed sentence marks, Japanese, English, and Chinese character recognition. Self-organizing algorithm can be recommenced as particularly appropriate when we have reasons to suspect that the accessing probabilities for individual words will change with time and theme. The wrongly recognized characters generated by OCR systems are collected and analyzed Error types of English characters are reclassified and 0.5% errors are corrected using an English character confusion table with a self-organizing dictionary containing 25,145 English words. And also error types of Chinese characters are classified and 6.1% errors are corrected using a Chinese character confusion table with a self-organizing dictionary carrying 34,593 Chinese words.ese words.

  • PDF

An Efficient Management Strategy of A Offline Second-Hand Bookstore With Camera Type OCR Technology (카메라형 광학식문자판독기술(OCR)을 활용한 오프라인 중고서점의 장서 디지털 데이터화 관리 방안 제안)

  • Koo, Ja Min;Ham, Seung Mo;Kim, Woo Je;Shim, Hyun Dong;Ryu, Ki Don
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.01a
    • /
    • pp.283-286
    • /
    • 2014
  • 본 논문에서는 카메라형 OCR (Optical Character Reader) 기술을 이용해 오프라인 중고서점의 효율적 장서관리 시스템을 구축하기 위한 디지털 데이터화 관리시스템 방안을 제안한다. OCR은 광학적으로 인식할 수 있는 문자를 컴퓨터가 읽을 수 있도록 하는 기술이다. 원리적으로 문자 한 개를 수십 개의 모눈으로 분할해 특정한 모눈의 흑백 또는 자획형상 특징에 의해 문자를 판독한다. 이 논문에서는 OCR 기술을 활용함으로써 디지털 데이터화의 효과는 물론 적용 환경의 개선효과를 기대해 볼 수 있는 오프라인 중고서점 시장을 목표로 했다. 오프라인 중고서점에서 보유하고 있는 장서의 디지털 데이터화는 기업형 중고서점과의 경쟁에 있어서도 생존을 위해 필요한 요소이다. 카메라형 OCR 기술을 활용한 장서 디지털 데이터화는 오프라인 중고서점 판매자가 도서재고 검색 및 판매 관리 효율을 높이도록 도와줄 뿐 아니라, 도서판매 유형, 소비자 분석과 수요 예측을 가능하게 한다. 또한 소비자에게 오프라인 중고서점에서 보유하고 있는 희귀 장서와 중고서적들을 검색해 구입할 수 있는 편의를 제공할 것이다. 오프라인 중고서점 판매를 촉진하고 활성화시킨다면 출판의 선순환적 구조를 만드는 데 기여할 것으로 예상된다.

  • PDF

Knowledge Graph-based Korean New Words Detection Mechanism for Spam Filtering (스팸 필터링을 위한 지식 그래프 기반의 신조어 감지 매커니즘)

  • Kim, Ji-hye;Jeong, Ok-ran
    • Journal of Internet Computing and Services
    • /
    • v.21 no.1
    • /
    • pp.79-85
    • /
    • 2020
  • Today, to block spam texts on smartphone, a simple string comparison between text messages and spam keywords or a blocking spam phone numbers is used. As results, spam text is sent in a gradually hanged way to prevent if from being automatically blocked. In particular, for words included in spam keywords, spam texts are sent to abnormal words using special characters, Chinese characters, and whitespace to prevent them from being detected by simple string match. There is a limit that traditional spam filtering methods can't block these spam texts well. Therefore, new technologies are needed to respond to changing spam text messages. In this paper, we propose a knowledge graph-based new words detection mechanism that can detect new words frequently used in spam texts and respond to changing spam texts. Also, we show experimental results of the performance when detected Korean new words are applied to the Naive Bayes algorithm.

Storing and Retrieving Motion Capture Data based on Motion Capture Markup Language and Fuzzy Search (MCML 기반 모션캡처 데이터 저장 및 퍼지 기반 모션 검색 기법)

  • Lee, Sung-Joo;Chung, Hyun-Sook
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.17 no.2
    • /
    • pp.270-275
    • /
    • 2007
  • Motion capture technology is widely used for manufacturing animation since it produces high quality character motion similar to the actual motion of the human body. However, motion capture has a significant weakness due to the lack of an industry wide standard for archiving and retrieving motion capture data. In this paper, we propose a framework to integrate, store and retrieve heterogeneous motion capture data files effectively. We define a standard format for integrating different motion capture file formats. Our standard format is called MCML (Motion Capture Markup Language). It is a markup language based on XML (eXtensible Markup Language). The purpose of MCML is not only to facilitate the conversion or integration of different formats, but also to allow for greater reusability of motion capture data, through the construction of a motion database storing the MCML documents. We propose a fuzzy string searching method to retrieve certain MCML documents including strings approximately matched with keywords. The method can be used to retrieve desired series of frames included in MCML documents not entire MCML documents.

Design of Information Search Integration Module Using Regular Expression and Correlation Analysis (정규식 구문과 상관 분석을 이용한 정보 검색 통합 모듈 설계)

  • Kong, Young-Jin;Park, Young-Gil;Kim, Bong-Hyun
    • Proceedings of the KAIS Fall Conference
    • /
    • 2012.05b
    • /
    • pp.708-711
    • /
    • 2012
  • 기존 패턴 및 데이터베이스 검색, 페이지 단위 문자열 검색기법은 단순 검색으로 오탐율이 많아 검색 결과에 대한 신뢰성이 떨어지고, 동일 조건을 다른 검색기법에 추가로 시행함으로 인해 자원 낭비 및 시간 낭비를 초래하고 있다. 따라서 본 논문에서는 정규식 구문 기법과 상관 분석 기법을 연동시킨 통합형 정보 검색을 설계하여 경제적인 효과와 신뢰성을 확보하는 보안형 정보 검색 시스템의 기반기술을 제안하고자 한다.

  • PDF

Scheme on Content-Based Retrieval using Multidimensional Shell-Based Algorithm (다차원 쉘 구조에 기반한 내용 기반 검색 기법)

  • 김유남;김정림;전승수;이건섭;설상훈
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.133-135
    • /
    • 2000
  • 최근 들어 인터넷의 급속한 발전과 엄청난 양의 멀티미디어 데이터가 다양한 형태로 생성, 제공되면서 이에 대한 서비스 및 관리 기법에 관한 문제가 주요 관심사로 대두되고 있다. 그 중에서도, 일반 인터넷 사용자들의 기본적인 요구로써 기존의 문자 기반 검색 서비스로써 제공될수 없는 내용 기반 검색 기법을 들 수 있다. 사용자가 원하는 영상 혹은 임의의 동영상에서의 한 장면을 빠르고 정확하게 찾는 검색 기법이 최근 들어 연구가 활발히 진행되고 있는 가운데, 본 논문에서는 이러한 내용 기반 검색을 가능하게 하는 하나의 기법으로써 다차원 쉘 구조를 이용한 동영상에서의 영상 검색 알고리즘을 소개한다. 또한, 이를 내용 기반 검색에서 주로 사용되는 색인 트리 구조의 검색 기법과의 비교를 통해 장, 단점을 비교 분석해 본다.

  • PDF

An Empirical Study of Base Pivot Choosing Method for Approximate Word Searching (근사 단어 검색 효율성 개선을 위한 기준 Pivot 선택방법 실험적 연구)

  • Yoon, Tai-Jin;Chung, Woo-Keun;Cho, Hwan-Gue
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.271-274
    • /
    • 2010
  • 한글 근사 단어 검색 시스템은 사용자의 오류를 포함한 검색 질의에 효과적으로 대응할 수 있는 방법이나 검색 속도가 매우 느려서 실제 사용에 큰 어려움이 있다. 일반적으로 DNA 검색에 사용하는 서열 정렬 기법을 사용할 경우 데이터 베이스의 모든 문자열과 비교가 이루어져야 하기 때문에 많은 검색 시간이 걸리게 된다. 이것을 해결하기 위해 우리는 편집거리가 metric space를 만족하는 성질을 이용한 한글 근사단어 검색 시스템을 사용하여 실제 서열정렬을 사용하여 비교가 필요한 후보 단어를 거르게 된다. 이 한글 근사 단어 검색 시스템에서 가장 중요한 것은 기준축의 역할을 하는 Base-Pivot의 선택 방법이다. 본 논문에서는 이 Base-Pivot의 효율적인 선택방법을 실험을 통해서 분석하도록 한다.

  • PDF

Robust Recognition of a Player Name in Golf Videos (골프 동영상에서의 강건한 선수명 인식)

  • Jung, Cheol-Kon;Kim, Joong-Kyu
    • 한국HCI학회:학술대회논문집
    • /
    • 2008.02a
    • /
    • pp.659-662
    • /
    • 2008
  • In sports videos, text provides valuable information about the game such as scores and information about the players. This paper proposed a robust recognition method of player name in golf videos. In golf, most of users want to search the scenes which contain the play shots of favorite players. We use text information in golf videos for robust extraction of player information, By using OCR, we have obtained the text information, and then recognized the player information from player name DB. We can search the scenes of favorite players by using this player information. By conducting experiments on several golf videos, we demonstrate that our method achieves impressive performance with respect to the robustness.

  • PDF

The Development of Travel Data Sharing System using the Optical Character Reader. (광학문자 인식을 이용한 여행 정보 공유 시스템의 개발)

  • Park, Ju-Hyeon;Lee, Hyun-Dong;Kim, Dong-Hyun;Cho, Dae-soo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.07a
    • /
    • pp.189-190
    • /
    • 2018
  • 최근에는 여행에 대한 각종 정보가 많이 공유되는 추세이다. 최근 사람들은 소셜 네트워크 서비스를 이용 중이거나 웹 서핑을 하는 도중에 기억하고 싶어 하는 여행지를 단순히 캡처 해놓거나 메모장에 기록해둔다. 이러한 방법은 시간이 지나 많은 데이터가 쌓이면 관리하기 어렵다는 문제가 존재한다. 본 논문에서는 사용자의 편리를 고려하여 사진의 텍스트를 광학식 문자 판독을 활용하여 출력하고 게시 글 형태로 저장할 수 있게 개발하였다. 명소의 위치 또한 자동완성 위치 검색 라이브러리를 통하여 편리 저장이 가능하다. 위치 데이터를 통해 향후 사용자가 근접하고 있는 여행지 또한 제공해줄 수 있도록 구현하였다. 이를 위하여 웹을 통해서 이용할 수도 있으며 실시간 검색과 알림 이벤트를 위해 웹 주소 입력 없이도 앱을 실행할 수 있는 프로그래시브웹 앱을 구현하였다.

  • PDF

Linear Property of SMS Network Clusters (문자메시지네트워크의 선형적 특성)

  • Han, Young-S.;Oh, Chang-K.;Park, Ji-Eun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10d
    • /
    • pp.165-169
    • /
    • 2006
  • 문자메시지 네트워크는 웹페이지 검색네트워크와는 위상적으로 많이 다르기 때문에 상이한 특성을 가지고 있음을 보였다. 네트워크가 성장함에 따라 강력한 허브를 구성하는 네트워크는 소수의 노드에 연결이 집중되는 특성을 가질 수 있다. 문자메시지 네트워크는 시간이 흐름에 따라서 네트워크의 밀도가 높아지는 속도가 높다는 특징을 가지고 있다. 두 개의 크기가 다른 문자메시지 네트워크에 대한 실험을 통하여 적어도 작은 집단 내의 메시지네트워크는 크기가 증가함에 따라서 허브의 집중도가 power law분포가 아닌 선형적인 특징을 가지고 있음을 보였다.

  • PDF