• 제목/요약/키워드: 문서 구조 인식

검색결과 133건 처리시간 0.025초

키워드 인식을 위한 한글 Pseudo 2D HMM의 동적 합성 방법 (Dynamic Synthesis of Pseudo 2D HMMs for Korean Characters in Key Character Recognition Tasks)

  • 조범준
    • 한국통신학회논문지
    • /
    • 제26권6B호
    • /
    • pp.820-827
    • /
    • 2001
  • 한글은 둘 또는 세 개의 자모가 사각형 영역 안에 적절히 배치된 구조로 되어 있다. 이와 같은 구성 방법에 따라 글자의 영상을 합성하고 이를 실시간에 Pseudo 2D HMM으로 변환하는 방법을 제안한다. 본 방법에 따라 실시간 합성된 모델과 추가의 필러(filler) 모델, 여백 모델을 문서 영상의 글자 영역에서 핵심어 검출에 적용하였다. 실험 결과 최소한의 설계 변수 조정으로도 오검출, 미검출률이 낮고 언어 모델 없이 숫자 89%, 한글 80%의 검출성능을 보였으며, 따라서 제안된 방법이 인쇄 문자 패턴의 실시간 모델링 및 키워드 검출에 효과가 있음을 보였다. 본 연구 결과는 내용 기반의 광학 문서 색인 등에 활용할 수 있다.

  • PDF

대화 코퍼스의 구축 및 주석 정보의 구조적 문서화 (Construction of Dialogue Corpus and Structured Documentation of Annotation Information)

  • 강창규;김영일;김봉완;이용주
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 추계학술발표대회(상)
    • /
    • pp.269-272
    • /
    • 2003
  • 음성인식의 연구 대상은 낭독음성에서 대화음성으로 발전해가고 있다. 이를 위해서는 대량의 대화코퍼스가 필요하다. 그러나 아직 충분한 양의 대화코퍼스가 구축되어 있지 못하며 코퍼스의 주석 정보 또한 복잡하고 다양하게 표현하고 있어 효율적인 활용이 어렵다. 따라서 본 논문에서는 대화 영역으로 텔래뱅킹 영역을 설정하고 대화코퍼스를 구축하여 구축된 대화코퍼스의 주석 정보를 XML(Extensible Markup Language)로 표준화할 수 있도록 DTD(Document Type Definition)를 정의하여 문서 구조화하였다.

  • PDF

전자상거래 인증서 보안 요구사항 연구

  • 송유진;김선호
    • 한국전자거래학회:학술대회논문집
    • /
    • 한국전자거래학회 1999년도 종합학술대회발표논문집
    • /
    • pp.211-225
    • /
    • 1999
  • ㆍ전자상거래에서 인증기술은 인터넷 등 개방형 네트워크 상에서 안전한 상거래를 보장해 주는 필수적인 보안수단으로 인식되고 있음 ㆍ선진 각국은 안전한 공개키 기반구조 확립을 위해 거래 당사자 및 거래 문서를 인증해 주는 인증시스템 구축이 활발히 진행되고 있음 ㆍ효율적으로 전자상거래 인증을 제공해 줄 수 있는 인증 시스템 기능 분석 및 인증서 활용분야별 보안 요구사항 정립에 대한 연구가 필요함 (중략)

  • PDF

규칙 정보를 이용한 은행 전표 상의 필기 한글 금액 인식 (Handwritten Korean Amounts Recognition in Bank Slips using Rule Information)

  • 지태창;이현진;김은진;이일병
    • 한국정보처리학회논문지
    • /
    • 제7권8호
    • /
    • pp.2400-2410
    • /
    • 2000
  • 한글 인식에 관한 기존의 연구는 한글 낱자 인식에 치우쳐 왔고, 실제 문서 인식 시스템 개발을 위한 연구는 거의 이루어지지 않았다. 그래서, 본 논문에서는 인식된 문자열의 오류 교정에 관한 연구로서 한글 금액열 인식기를 개발하였다. 한글 낱자 인식에서 문제가 되는 부분은 데이터의 방대함 때문에 발생한다. 컴퓨터상에서 표현될 수 있는 한글 낱자의 개수는 2000여 자 이상이다. 따라서, 기존의 연구들은 이러한 문제점을 해결하기 위해서 실생활에서 많이 쓰이는 낱자에 대해서만 실험을 했다. 하지만, 실험 대상 낱자의 개수를 1000여 자 정도로 줄였어도, 여전히 80%대 이하의 저조한 인식률을 보이고 있다. 이렇게 인식률이 저조한 범용 한글 낱자 인식기를 한글 금액 인식이라는 제한된 상황에서 사용하는 것은 적합하지 않다. 따라서, 본 연구에서는 한글 금액에 사용되는 16자의 한글 낱자만 인식할 수 있는 인식기를 제안하였다. 제안한 한글 낱자 인식기는 통계적 인식기를 사용한 다중 인식기 형태로 만들었고, 이를 통해 개별적인 특징으로 인한 인식률의 저하를 방지할 수 있다. 금액의 후처리는 한글 금액열 내에 내재되어 있는 금액에 대한 구조적인 규칙 정보를 이용하였다. 이 규칙을 이용하여 한글 금액의 후처리는 한글 금액열 내에 내재되어 있는 금액애 대한 구조적인 규칙 정보를 이용하였다. 이규칙을 이용하여 한글 금액의 인식 단위에 대한 인식 결과의 오류 보정을 할 수 있다. 실험 결과 제안한 한글 낱자 인식기의 1후보까지 인식률은 95.49%였고, 4후보까지 인식률은 99.72%였다. 그리고, 후처리기의 처리를 거친 금액열에 대해서는 신뢰도가 96.42%였다. 본 논문에서는 사용된 낱자의 개수가 적고, 구조안에 규칙 정보가 존재하는 한글 문자열의 경우에 제한된 글자를 인식하는 낱자 인식기와 오류를 교정할 수 있는 후처리기로 문자열 인식의 신뢰도를 향상시킬수 있는 방법을 제안하였다.

  • PDF

의료 문헌에서의 절차적 지식 추출을 위한 단위 절차 추출 연구 (Procedural Entity Extraction for Procedural Knowledge on Medline Abstracts)

  • 송사광;오흥선;최윤정;장혜주;맹성현;최성필;최윤수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.154-157
    • /
    • 2011
  • 본 연구는 2인의 전문의와 함께 의료 문헌의 초록을 분석하여 의료문서에서의 절차적 지식을 모델링하고 텍스트 마이닝 기법을 적용하여 절차적 지식을 추출하는 방법론에 대해 기술한다. 절차적 지식은 목적과 해법의 묶음으로, 해법은 다시 단위 절차 지식의 네트워크로 정의 하였고, 목적과 해법 정보 추출과 단위 절차 지식의 구성요소인 대상/행위/방법 개체를 인식하기 위해, 품사태깅, 구문분석, 술어-논항구조(Predicate-Argument Structure), 온톨로지 용어 매핑 정보 등에 기반한 기계학습 방법을 사용하였다. 실험을 위해 전문의와 함께 위함과 척추질환에 대한 1309 문서에 절차적 지식 태깅을 수행하였고, 이 문서 집합을 기반으로 목적/해법 추출 작업과 단위 절차 지식(대상질병/행위/적용방법) 추출 실험을 수행하여, 각각 82% 와 63%의 F-measure 값을 얻을 수 있었다.

웹을 위한 데이터베이스 통로의 분류체계 연구 (A Taxonomy on Database Gateways for WWW)

  • 정지문;이삼일;최성
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2000년도 추계학술대회
    • /
    • pp.297-301
    • /
    • 2000
  • 대규모 멀티미디어 데이타베이스 서비스 시스템은 월드와이드 웹(WWW : World Wide Web)의 대규모 멀티미디어 정보 서비스의 우수성과 데이타베이스 시스템의 방대한 데이타베이스 관리 기능을 상호 보완적으로 통합함으로써 구현할 수 있다. 데이타베이스 통로는 이러한 통합의 핵심적인 소프트웨어라 할 수 있다. 데이타베이스 통로의 필요성이 인식된 후로 현재 많은 상용 및 연구용 제품이 개발되어 왔다. 데이타베이스 통로의 구조는 데이타베이스 접속을 WWW 에 어떻게 연동시키는가에 따라 다양하게 나누어지고 구조에 따라 성능도 달라지게 된다. 데이타베이스 통로의 성능은 대규모 데이타베이스 서비스 시스템 구축에 매우 중요하다고 할 수 있다. 이 문서에서는 여러가지 데이타베이스 통로의 구조에 대하여 분류체계를 세우고, 각 구조에 대한 특징을 성능 및 기능에 대하여 연구하였다.

웹 서버 클러스터를 위한 효율적인 부하 분배 알고리즘 (An Efficient Load Balancing Algorithm for Web Server Cluster)

  • 김성수;정지영
    • 한국정보과학회논문지:정보통신
    • /
    • 제28권4호
    • /
    • pp.550-558
    • /
    • 2001
  • 최근 인터넷과 웹은 널리 사용되는 미디어로 인식되고 있으나 상대적으로 빈약한 성능과 낮은 가용도를 제공한다. 클러스터 구조는 고가용도와 고성능 그리고 확장성을 요구하는 웹 서비스나 정보시스템 같은 응용 분야에서 저 비용으로 유용하게 사용 가능하다. 본 논문에서는 고가용도 및 확장성을 제공하는 클러스터링 웹 서버를 대상으로 부하 분배기의 구조를 제안하고 문서 접근 확률과 문서 크기 정보를 이용한 부하 분배 알고리즘을 개발하여 성능을 최대화할 수 있도록 하였다. 특히 제안된 알고리즘은 각 서버 노드가 동일한 운영체제로 구성되지 않아도 되고 처리 용량이 서로 달라도 되며 기존의 알고리즘에 비해 캐쉬 적중률을 향상시킨다.

  • PDF

문서 말뭉치 기반 질의응답 시스템 (Text Corpus-based Question Answering System)

  • 김한준;김민경;장재영
    • 디지털콘텐츠학회 논문지
    • /
    • 제11권3호
    • /
    • pp.375-383
    • /
    • 2010
  • 질의응답시스템을 구축하는데 있어서 사용자 질의로 입력된 자연어 문장을 문법적 또는 의미적으로 완벽하게 분석하는 작업과 그 질의에 대한 정확한 답변을 찾아내는 작업은 쉬운 일이 아니다. 본 논문에서는 질의응답시스템 구축의 난제를 극복하기 위해, 문서 말뭉치에 기반하여 질의문을 자동 생성, 저장하여 이를 키워드로 검색하는 새로운 방식의 시스템을 제안한다. 질의문 생성을 위한 기본 아이디어는 수집 문서의 주요 문장에 대해 고유명사인식 기술을 활용하여 사람, 사물, 장소, 시간 등의 고유명사를 인식한 후, 각 고유명사에 해당하는 자연어 질의문을 생성하는 것이다. 질의문은 두가지 유형인 단순형 및 문장구조유지형 질의문으로 구분한다. 시스템은 이렇게 준비된 질의문 데이터베이스를 가지고 입력된 검색 키워드에 대하여 관련 질의문과 답변을 쉽게 얻을 수 있다. 본 연구의 관건은 생성된 질의문이 명확한 해답을 도출할 수 있는 의미있는 질의문을 생성하는 것이다. 이를 위해 본 연구에서는 질의문의 원천이 되는 평서문장을 선별하는 원칙과 선별된 평서문으로부터 의미있는 질의문을 생성하는 방법론을 제시한다.

2단계 은닉 마코프 모델을 이용한 논문 모집 공고의 자동 요약 (An Automatic Summarization of Call-For-Paper Documents Using a 2-Phase hidden Markov Model)

  • 김정현;박성배;이상조;박세영
    • 한국지능시스템학회논문지
    • /
    • 제18권2호
    • /
    • pp.243-250
    • /
    • 2008
  • 본 논문에서는 은닉 마코프 모델을 이용하여 논문 모집 공고에서 정보를 추출하는 시스템을 제안한다. 논문 모집 공고는 완전히 정형화된 형식을 가지지는 않지만, 내용의 출현 순서에 따른 흐름이 어느 정도 존재한다. 따라서 순차적인 데이터를 해석하는데 강점을 지닌 은닉 마코프 모델을 논문 모집 공고를 분석하는데 사용한다. 하지만, 논문 모집 공고를 은닉 마코프 모델로 직관적으로 모델링하면 정보 경계가 정확히 인식되지 않는 문제가 발생한다. 본 논문에서는 이 문제를 해결하기 위해 2-단계의 은닉 마코프 모델을 사용한다. 즉, 첫 번째 단계에서, 문서를 구로 모델링한 P-HMM(Phrase hidden Markov model)이 지역적으로 문서를 인식한다. 그리고 두 번째 단계에서 D-HMM(Document hidden Markov model)은 문서가 가진 전체적인 구조와 정보의 흐름을 파악한다. 웹에서 수집된 400개의 논문 모집 공고에 대한 실험 결과, F-measure 성능이 0.49를 보인다. 이는 직관적인 은닉 마코프 모델보다 F-measure로 0.15 정도 향상된 결과이다.

블록의 속성과 질감특징을 이용한 문서영상의 블록분류 (Block Classification of Document Images by Block Attributes and Texture Features)

  • 장영내;김중수;이철희
    • 한국멀티미디어학회논문지
    • /
    • 제10권7호
    • /
    • pp.856-868
    • /
    • 2007
  • 본 논문에서는 블록의 속성과 질감특징을 이용하여 효과적인 블록 분류 방법을 제안하였다. 제안한 방법에서는 먼저 명암도 문서영상을 이진화한 후, 평활화 기법을 적용하여 블록의 위치정보와 본 논문에서 사용할 특징 중에 하나인 각 블록의 내부에 있는 작은 블록들의 최대 높이 값을 구하였다. 이 위치정보들을 이용하여 문서영상을 각 블록으로 분할한다. 이 블록의 명암도 블록영상에서 문서의 속성이 잘 반영된 (0,1) 방향의 공간 명암도 의존 행렬을 구하여 7가지 질감특징을 구하였다. 먼저 블록의 속성을 최소거리 규칙(Nearest Neighbor Rule)에 입력하여 문자와 비문자 영역으로, 상세분류를 위하여 7가지 질감특징을 이용하여 큰 문자, 작은 문자, 표, 그래픽 및 사진 등으로 구분함으로써 문서인식을 위한 구조 해석뿐만 아니라 다양한 응용 분야에 효과적으로 이용될 수 있도록 하였다.

  • PDF