• 제목/요약/키워드: 이미지 검색기

검색결과 46건 처리시간 0.028초

음절 Bi-gram정보를 이용한 한국어 OCR 후처리용 자동 띄어쓰기 (Automatic Word-Spacing of Syllable Bi-gram Information for Korean OCR Postprocessing)

  • 전남열;박혁로
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.95-100
    • /
    • 2000
  • 문자 인식기를 가지고 스캔된 원문 이미지를 인식한 결과로 형태소 분석과 어절 분석을 통해 대용량의 문서 정보를 데이터베이스에 구축하고 전문 검색(full text retrieval)이 가능하도록 한다. 그러나, 입력문자가 오인식된 경우나 띄어쓰기가 잘못된 데이터는 형태소 분석이나 어절 분석에 그대로 사용할 수가 없다. 한글 문자 인식의 경우 문자 단위의 인식률은 약 90.5% 정도나 문자 인식 오류와 띄어쓰기 오류 등을 고려한 어절 단위의 인식률은 현저하게 떨어진다. 이를 위해 한극어의 음절 특성을 고려해서 사전을 기반하지 않고 학습이 잘된 말뭉치(corpus)와 음절 단위의 bi-gram 정보를 이용한 자동 띄어쓰기를 하여 실험한 결과 학습 코퍼스의 크기와 띄어쓰기 오류 위치 정보에 따라 다르지만 약 86.2%의 띄어쓰기 정확도를 보였다. 이 결과를 가지고 형태소 분서고가 언어 평가 등을 이용한 문자 인식 후처리 과정을 거치면 문자 인식 시스템의 인식률 향상에 크게 영향을 미칠 것이다.

  • PDF

캐리커처 실성 시스템을 위한 얼굴 특징 추출 연구 (Facial Features Detection for Facial Caricaturing System)

  • 이옥경;박연출;오해석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (하)
    • /
    • pp.1329-1332
    • /
    • 2000
  • 캐리커처 생성 시스템은 입력된 인물 사진을 세그먼테이션을 통하여 특징(이목구비)을 추출하고, 추출된 특징정보를 이용하여 기와 유사한 특징정보를 가지는 캐리커처 이미지를 검색하여 매핑시키는 시스템이다. 캐리커처 생성 시스템에 얼굴 특징정보 추출은 색상과 모양에 대한 정보를 이용한다. 본 논문은 캐리커처생성을 위한 인물 사진을 세그멘테이션 처리하여 부분 영역 특징정보를 추출하는데 그 목적이 있다. 이때 사용하는 이목구비의 특징정보를 위해 수직, 수평의 히스토그램이 주요하게 사용된다. 또한 인물 사진에서 위치정보를 이용하여 얼굴내의 이목구비를 확인하고, 추출하므로 정확한 정보를 이용할 수 있다.

  • PDF

음절 Bi-gram정보를 이용한 한국어 OCR 후처리용 자동 띄어쓰기 (Automatic Word-Spacing of Syllable Bi-gram Information for Korean OCR Postprocessing)

  • 전남열;박혁로
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.95-100
    • /
    • 2000
  • 문자 인식기를 가지고 스캔된 원문 이미지를 인식한 결과로 형태소 분석과 어절 분석을 통해 대용량의 문서 정보를 데이터베이스에 구축하고 전문 검색(full text retrieval)이 가능하도록 한다. 그러나, 입력문자가 오인식된 경우나 띄어쓰기가 잘못된 데이터는 형태소 분석이나 어절 분석에 그대로 사용할 수가 없다. 한글 문자 인식의 경우 문자 단위의 인식률은 약 90.5% 정도나 문자 인식 오류와 띄어쓰기 오류 등을 고려한 어절 단위의 인식률은 현저하게 떨어진다. 이를 위해 한국어의 음절 특성을 고려해서 사전을 기반하지 않고 학습이 잘된 말뭉치(corpus)와 음절 단위의 bigram 정보를 이용한 자동 띄어쓰기를 하여 실험한 결과 학습 코퍼스의 크기와 띄어쓰기 오류 위치 정보에 따라 다르지만 약 86.2%의 띄어쓰기 정확도를 보였다. 이 결과를 가지고 형태소 분석과 언어 평가 등을 이용한 문자 인식 후처리 과정을 거치면 문자 인식 시스템의 인식률 향상에 크게 영향을 미칠 것이다.

  • PDF

공익사업 보상증빙자료뷰어 개발을 위한 데이터 모델 설계 및 파일럿시스템 개발 (Data Model Design and Pilot Development for Viewing of Compensation Evidence Data in Public Service)

  • 서명배
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.1510-1511
    • /
    • 2011
  • 보상업무를 수행하는 정부 및 산하기관, 공사/공단, 보상전문기관 등에서 2000년대 중반부터 자체적으로 보상시스템을 개발하여 운영중에 있으나 보상시스템은 현재 진행중인 공사와 관련된 자료만 전자적으로 보관하고 있어 기 보상 완료된 자료는 여전히 수작업을 관리하고 있는 실정이다. 때문에 과거 보상자료와 관련된 민원을 응대하기 위해 서고에서 방대한 보상자료를 검색하기 위해 많은 시간을 소비하고 있을 뿐만 아니라, 보상자료 손 망실에 따른 민원인과의 소송에서 패하는 등 국고를 낭비하는 원인을 초래하기도 한다. 이에 과거보상자료의 손 망실에 따른 피해를 최소화하고 민원에 효율적으로 대응하기 위한 반드시 보관해야 할 주요 대장을 선별하고 이를 메타데이터와 결합하여 이미지를 조회할 수 있는 증빙서류뷰어(Viewer) 개발을 위해 주요대장정보를 발췌하여 데이터모델을 설계하고 이를 실증하기 위한 파일럿시스템을 개발하였다.

SQL/MM Part5를 지원하는 쿼리변환기의 설계 및 구현 (A Design and Implementation of a Query Interpreter for SQL/MM Part5)

  • 강기준;이부권;서영건
    • 디지털콘텐츠학회 논문지
    • /
    • 제6권2호
    • /
    • pp.107-112
    • /
    • 2005
  • 인터넷 기술의 발전으로 멀티미디어 데이터의 중요성과 활용도가 증가됨에 따라 데이터베이스에서 멀티미디어 데이터를 표현하고 처리하기 위한 연구가 필요하게 되었다. 관계형 데이터베이스에서는 멀티미디어 데이터를 저장하기 위한 단순히 저장구조만을 지원하지만 멀티미디어에 대한 데이터형, 표한 질의에 대한 지원은 미흡하다. 이러한 문제를 해결하기 위해 ISO/IEC에서 멀티미디어 데이터를 위해 SQL 멀티미디어(SQL/MM)을 표준화하였다. 그러나 SQL/MM은 객체 관계형 데이터베이스에서는 지원하지만 RDBMS에서는 지원하지 않는다. 따라서 본 논문에서는 RDBMS 중 하나인 MS-SQL 2000에서 SQL/MM 지원하기 위해 쿼리변환기를 제안하고 이를 이용한 이미지 검색 프로그램도 함께 보인다. 쿼리 변환기는SQL/MM을 SQL로 변환하는 기능 외에 이미지 중복 체크기능을 추가로 제공한다. 그리고 쿼리 변환기를 이용한 이미지 처리 프로그램은 RDBMS 기반의 기존시스템과 쉽게 통합 운영이 가능하다.

  • PDF

Clipping 기반의 무선 인터넷 사이트 구축용 변환 서버 구현 (Implementation of A Clipping-based Conversion Server for Building Wireless Internet Sites)

  • 조승호;차정훈
    • 정보처리학회논문지A
    • /
    • 제11A권2호
    • /
    • pp.165-174
    • /
    • 2004
  • 현재 유선 인터넷 컨텐츠와 비교할 때 무선 인터넷 컨텐츠가 크게 부족하여 유선 컨텐츠들을 무선 인터넷 컨텐츠로 변환시키고자 하는 요구가 높다. 본 연구의 변환 서버는 사용자 단말기로부터 요청을 자동적으로 인식하여 대상 URL 서버상의 원본 문서를 검색하여 이들을 중간 언어인 metaXML 문서로 생성하고 이를 사용자 단말기에 적합한 무선 마크업 언어 문서로 변환 출판한다. 또한, 본 변환 서버는 이미지 변환을 위하여 이미지 변환기와 기존 웹 페이지들의 재구성 저작 도구인 Clipper와 연동하여 동작한다. 대상 URL의 정적/동적 웹 페이지를 처리하는 변환 서버의 처리 능력에 대하여 성능 실험을 수행하였으며, 동적 문서에 대한 변환 실험 결과에 따르면, 변환 서버내 스레드 풀의 스레드 개수를 5개로 유지할 때 변환 서버가 가장 나은 처리량을 나타내었다.

크라우드 소싱 기반 딥러닝 선호 학습을 위한 쌍체 비교 셋 생성 (Generating Pairwise Comparison Set for Crowed Sourcing based Deep Learning)

  • 유기현;이동기;이창우;남광우
    • 한국산업정보학회논문지
    • /
    • 제27권5호
    • /
    • pp.1-11
    • /
    • 2022
  • 딥러닝 기술의 발전에 따라 학습을 통해 선호도 랭킹 추정을 하기 위한 다양한 연구 개발이 진행되고 있으며, 웹 검색, 유전자 분류, 추천 시스템, 이미지 검색 등 여러 분야에 걸쳐 이용되고 있다. 딥러닝 기반의 선호도 랭킹을 추정하기 위해 근사(approximation) 알고리즘을 이용하는데, 이 근사 알고리즘에서 적정한 정도의 정확도를 보장할 수 있도록 모든 비교 대상에 k번 이상의 비교셋을 구축하게 되며, 어떻게 비교셋을 구축하느냐가 학습에 영향을 끼치게 된다. 이 논문에서는 크라우드 소싱 기반의 딥러닝 선호도 측정을 위한 쌍체 비교 셋을 생성하는 새로운 알고리즘인 k-disjoint 비교셋 생성 알고리즘과 k-체이닝 비교셋 생성 알고리즘을 제안한다. 특히 k-체이닝 알고리즘은 기존의 원형 생성 알고리즘과 같이 데이터 간의 연결성을 보장하면서도 안정적인 선호도 평가를 지원할 수 있는 랜덤적 성격도 함께 가지고 있음을 실험에서 확인하였다.

교육용 PDA 컨텐츠 브라우저의 설계 및 구현 (Design and Implementation of a Browser for Educational PDA Contents)

  • 신재룡
    • 한국정보통신학회논문지
    • /
    • 제6권8호
    • /
    • pp.1223-1233
    • /
    • 2002
  • 최근 들어 언제 어디서나 손쉽게 사용할 수 있는 PDA를 기반으로 한 다양한 종류의 전자책(E-Book)들이 개발되고 있다. 이 전자책의 부피와 무게가 기존의 책에 비해 작기 때문에 휴대하기 편하다. 그리고 검색, 책갈피, 사전 기능과 칼라 이미지, 사운드, 동영상 재생 기능 등과 같은 다양한 기능이 제공됨에 따라 내용 전달이 손쉽다 이러한 장점들 때문에 전자책 관련 제품들이 많이 출시되고 있다. 그러나 교육용 컨텐츠 관련 상품은 극히 적은 실정이다. 그 이유는 교육용 컨텐츠의 경우 전자책의 일반적인 기능뿐만 아니라 문제풀이와 같은 추가적인 기능을 갖추어야 하기 때문이다. 따라서 교육용 컨텐츠를 위한 컨텐츠 브라우저와 편집기 개발이 현실적으로 필요한 상황이다. 이에 렬 논문에서는, 교육용 컨텐츠를 XML로 표현하고 문서 구조를 XML 스키마로 정의한다. 그리고 컨텐츠 작성용 편집기와 PDA 상에서 교육용 컨텐츠를 처리할 수 있는 브라우저를 설계하고 구현한다.

소셜 네트웍 환경에서의 얼굴 주석 시스템 (Face Annotation System for Social Network Environments)

  • 최권택;변혜란
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권8호
    • /
    • pp.601-605
    • /
    • 2009
  • 최근 사진 공유 기반의 소셜 네트웍 서비스의 발달로 수백만 명의 사람들이 인터넷 공간에서 온라인 커뮤니티 활동에 참여하고 있다. 본 논문에서는 이러한 소셜 네트웍 서비스 환경에서 얼굴 사진에 주석 정보를 부여하고 이를 검색할 수 있는 효과적인 방법론을 제안한다. 지속적으로 이용자와 이미지가 증가하는 방대한 데이터베이스를 취급해야하기 때문에 인식률 뿐만 아니라 계산 복잡도가 매우 낮아야 한다. 본 논문에 이러한 문제를 해결하기 위해 온라인 학습과 사회적 관계를 이용한 다중 분류기를 제안한다. 실험결과를 통해 제안된 방법은 보편적으로 사용되는 서포트 백터 머신과 비교해 향상된 인식률과 낮은 계산 복잡도를 보여줌으로써 사용자의 주석 횟수를 줄이고, 사용자에게 빠른 응답을 할 수 있음을 보여준다.

온라인 쇼핑몰에서 상품 설명 이미지 내의 키워드 인식을 위한 딥러닝 훈련 데이터 자동 생성 방안 (The way to make training data for deep learning model to recognize keywords in product catalog image at E-commerce)

  • 김기태;오원석;임근원;차은우;신민영;김종우
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.1-23
    • /
    • 2018
  • E-commerce 환경의 발전으로 소비자들은 다양한 상품들을 한 자리에서 폭 넓게 비교할 수 있게 되었다. 하지만 온라인 쇼핑몰에 올라와있는 상당량의 주요 상품 정보들이 이미지 형태이기 때문에 컴퓨터가 인지할 수 있는 텍스트 기반 검색 시스템에 반영될 수 없다는 한계가 존재한다. 이러한 한계점은 일반적으로 기존 기계학습 기술 및 OCR(Optical Character Recognition) 기술을 활용해, 이미지 형태로 된 키워드를 인식함으로써 개선할 수 있다. 그러나 기존 OCR 기술은 이미지 안에 글자가 아닌 그림이 많고 글자 크기가 작으면 낮은 인식률을 보인다는 문제가 있다. 이에 본 연구에서는 기존 기술들의 한계점을 해결하기 위하여, 딥러닝 기반 사물인식 모형 중 하나인 SSD(Single Shot MultiBox Detector)를 개조하여 이미지 형태의 상품 카탈로그 내의 텍스트 인식모형을 설계하였다. 하지만 이를 학습시키기 위한 데이터를 구축하는 데 상당한 시간과 비용이 필요했는데, 이는 지도학습의 방법론을 따르는 SSD 모형은 훈련 데이터마다 직접 정답 라벨링을 해줘야 하기 때문이다. 본 연구는 이러한 문제점을 해결하기 위해 '훈련 데이터 자동 생성 프로그램'을 함께 개발하였다. 훈련 데이터 자동 생성 프로그램을 통해 수작업으로 데이터를 만드는 것에 비하여 시간과 비용을 대폭 절감할 수 있었으며, 생성된 훈련용 데이터를 통해 모형의 인식 성능을 높일 수 있었다. 더 나아가 실험연구를 통해 자동으로 생성된 훈련 데이터의 특징별로 인식기 모형의 성능에 얼마나 큰 영향을 끼치는지 알아보고, 성능 향상에 효과적인 데이터의 특징을 분석하였다. 본 연구를 통해서 개발된 상품 카탈로그 내 텍스트 인식모형과 훈련 데이터 자동 생성 프로그램은 온라인 쇼핑몰 판매자들의 상품 정보 등록 수고를 줄여줄 수 있으며, 구매자들의 상품 검색 시 결과의 정확성을 향상시키는 데 기여할 수 있을 것으로 기대한다.