• 제목/요약/키워드: 문서 구조 인식

검색결과 133건 처리시간 0.029초

XML 기반의 통합형 전자 카탈로그 등록 시스템 (Integrated E-Catalog Registry System Based on XML)

  • 최일선;김창수;정회경
    • 한국정보통신학회논문지
    • /
    • 제7권6호
    • /
    • pp.1341-1350
    • /
    • 2003
  • 현재 B2B(Business-To-Business) 전자 상거래에서 사용되고 있는 전자 카탈로그 포맷과 처리 시스템은 각 기업별, 산업별로 다른 시스템 체계를 이용하여 구축되고 있다. 전자 상거래를 이용하는 B2B 기업들은 기업간 거래에 있어서 상호 운용성을 증대시키기 위한 표준 전자 카탈로그 포맷의 필요성을 인식하게 되었으며, 각각의 기업과 산업별로 구축되어 있는 전자 카탈로그 처리 시스템의 정보를 서로 교환 및 처리하기 위한 통합된 전자 카탈로그 시스템의 필요성이 대두되었다. 이에 본 논문에서는 상호 운용성을 증대시키기 위한 데이터 포맷인 XML(eXtensible Markup Language)로 전자 카탈로그 문서의 표준 문서포맷으로 제안하고, XML Schema를 이용하여 통합적으로 상품 정보를 처리 할 수 있는 전자 카탈로그 문서의 구조를 정의하였다 또한, XML로 정의된 전자 카탈로그 문서를 이용하여 각 기업들이 전자 마켓플레이스 거래에 사용할 수 있도록 검색, 등록 서비스를 제공하는 통합형 전자 카탈로그 레지스트리 등록 시스템을 설계 및 구현함으로써 전자 상거래 시 상호 운용성과 재사용성을 향상시킨 전자 카탈로그 문서와 통합된 전자 카탈로그 시스템에 대한 모델을 제시한다.

분산 환경을 고려한 OWL 문서의 저장 및 인덱싱 기법 (Storing and Indexing Schemes for OWL Documents in Distributed Environment)

  • 김용욱;김연희;임해철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.45-50
    • /
    • 2006
  • 정보의 단순한 연결뿐만 아니라 의미적인 연결 관계를 표현하는 시맨틱 웹에서 RDF와 RDFS만으로는 정보간의 다양한 의미적 관계를 나타내기가 힘들다. 따라서 정보간의 의미적 관계를 보다 명확하게 필요로 하는 분산 환경에서는 시맨틱 웹 언어의 표준으로 인식되고 있는 OWL로 표현된 시맨틱 웹 데이터를 위한 저장 구조가 필요하다. 따라서 본 논문에서는 분산 환경을 고려하여 OWL이 표현하는 다양한 의미적 관계를 이용한 질의 처리를 지원하는 저장 구조를 제안한다. 그리고 OWL에 정의된 클래스 간의 계층 관계를 이용한 질의의 효율적인 처리를 위한 인덱스 구조와 처리 전략을 제안한다.

  • PDF

임상 문서에서 서로 떨어진 개체명 간 전이 관계 표현을 위한 조건부무작위장 내 라벨 유도 기법 연구 (A label induction method in the conditional random fields expressing long distance transition between separate entities in clinical narratives)

  • 이왕진;최진욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.172-175
    • /
    • 2018
  • 환자의 병력을 서술하는 임상문서에서 임상 개체명들은 그들 사이에 개체명이 아닌 단어들이 위치하기 때문에 거리상으로 서로 떨어져 있고, 임상 개체명인식에 많이 사용되는 조건부무작위장(conditional random fields; CRF) 모델은 Markov 속성을 따르기 때문에 서로 떨어져 있는 개체명 라벨 간의 전이 정보는 모델의 계산에서 무시된다. 본 논문에서는 라벨링 모델에 서로 떨어진 개체명 간 전이 관계를 표현하기 위하여 CRF 모델의 구조를 변경하는 방법론을 소개한다. 제안된 CRF 모델 디자인에서는 모델의 계산효율성을 빠르게 유지하기 위하여 Markov 속성을 유지하는 1차 모델 구조를 유지한다. 모델은 선행하는 개체명의 라벨 정보를 후행하는 개체명 엔터티에게 전달하기 위하여 선행 개체명의 라벨을 뒤 따르는 비개체명 라벨에 전이시키고 이를 통해 후행하는 개체명은 선행하는 개체명의 라벨 정보를 알 수 있게 된다. 라벨의 고차 전이 정보를 전달함에도 모델의 구조는 1차 전이 구조를 유지함으로 n차 구조의 모델보다 빠른 계산 속도를 유지할 수 있게 된다. 모델의 성능 평가를 위하여 서울대학교병원 류머티즘내과에서 퇴원한 환자들의 퇴원요약지에 병력과 관련된 엔터티가 태깅된 평가 데이터와 i2b2 2012/VA 임상자연어처리 shared task의 임상 개체명 추출 데이터를 사용하였고 기본 CRF 모델들(1차, 2차)과 비교하였다. 피처 조합에 따라 모델들을 평가한 결과 제안한 모델이 거의 모든 경우에서 기본 모델들에 비하여 F1-score의 성능을 향상시킴을 관찰할 수 있었다.

  • PDF

문서영상에서 표 구성 직선과 데이터 추출 (The Extraction of Table Lines and Data in Document Image)

  • 장대근;김의정
    • 한국정보통신학회논문지
    • /
    • 제10권3호
    • /
    • pp.556-563
    • /
    • 2006
  • 문서 영상에서 표 영역을 분류하고 구조를 파악하려면 표를 구성하는 직선과 데이터를 추출할 수 있어야 한다. 그러나 영상 입력 장치의 오차나 영상축소로 인해 표를 구성하는 직선이 끊어지거나 길이가 변하며 직선에 노이즈나 문자가 붙어 표로부터 직선과 데이터의 정확한 추출이 어렵다. 본 논문에서 는 1차원 메디안 필터를 이용하여 표를 구성하는 수평선과 수직선을 추출한다. 1차원 메디안 필터는 필터링 방향의 직선을 추출하는 과정에서 노이즈와 필터링 방향에 수직한 직선을 제거할 뿐 아니라 직선의 끊어진 부분이 필터 탭 길이보다 짧은 경우 끊어진 부분을 연결한다. 또한 수직선을 추출하는 과정에서 직선에 붙어 있던 문자들을 분리함으로써 상용제품을 포함한 기존의 방법에 비해 표 영역 분류 및 구조 분석을 위한 직선과 데이터 추출이 우수한 방법을 제안한다.

딥러닝을 활용한 한글문장 OCR연구 (A Study on the OCR of Korean Sentence Using DeepLearning)

  • 박선우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.470-474
    • /
    • 2019
  • 한글 OCR 성능을 높이기 위해 딥러닝 모델을 활용하여 문자인식 부분을 개선하고자 하였다. 본 논문에서는 폰트와 사전데이터를 사용해 딥러닝 모델 학습을 위한 한글 문장 이미지 데이터를 직접 생성해보고 이를 활용해서 한글 문장의 OCR 성능을 높일 다양한 모델 조합들에 대한 실험을 진행했다. 딥러닝 모델은 STR(Scene Text Recognition) 구조를 사용해 변환, 추출, 시퀀스, 예측 모듈 각 24가지 모델 조합을 구성했다. 딥러닝 모델을 활용한 OCR 실험 결과 한글 문장에 적합한 모델조합은 변환 모듈을 사용하고 시퀀스와 예측 모듈에는 BiLSTM과 어텐션을 사용한 모델조합이 다른 모델 조합에 비해 높은 성능을 보였다. 해당 논문에서는 이전 한글 OCR 연구와 비교해 적용 범위를 글자 단위에서 문장 단위로 확장하였고 실제 문서 이미지에서 자주 발견되는 유형의 데이터를 사용해 애플리케이션 적용 가능성을 높이고자 한 부분에 의의가 있다.

  • PDF

트리 구조를 이용한 수식 인식 연구 (A Study on Equation Recognition Using Tree Structure)

  • 박병준;김현식;김완태
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권4호
    • /
    • pp.340-345
    • /
    • 2018
  • 수식은 일반 문장에 비해 복잡한 구조와 다양한 문자와 기호가 사용되어 단순한 키보드 입력만으로는 모든 문자 집합을 입력할 수 없어 한글이나 워드 같은 문서편집기 내에서도 자체적으로 구현된 수식 편집기를 사용하고 있다. 수식을 올바르게 표현하기 위해 구문을 해석할 수 있는 의미가 될 수 있는 사전 학습 정보가 필요하다. 문자가 입력되더라도 크기와 위치 서로간의 관계에 따라 다른 수식으로 표현될 수 있기 때문이다. 즉 표현될 위치와 크기 등 문자와 기호들 간의 상호관계를 고려하여 수식의 형태를 트리 모델로 표현한다. 문자인식 응용의 한 분야로 문자나 기호(부호)를 인식하는 기술을 이미 널리 알려졌지만, 수식을 입력과 해석하는 방법은 일반적인 텍스트에 비해 복잡한 분석 과정이 필요하다. 본 논문에서는 수식의 문자를 인식하고 표현되는 위치와 크기의 결정을 빠르게 해석하는 수식 인식기를 구현하였다.

인쇄체 한글 및 한자의 인식에 관한 연구 (A Study on the Printed Korean and Chinese Character Recognition)

  • 김정우;이세행
    • 한국통신학회논문지
    • /
    • 제17권11호
    • /
    • pp.1175-1184
    • /
    • 1992
  • 본 논문에서는 한자를 포함하는 한글 문서 인식을 위한 인쇄체 한글, 한자의 구분과 인식 방법에 대하여 연구하였다. 제안된 한글, 한자 구분 방법은 한글의 수직모음과 수평모음의 구조적 특징을 이용하였다. 한글은 6가지 형태로 분류하고 분류된 각 형태에 대하여 세선화 과정을 거치지 않고 모음 우선추출에 의한 자모분리를 행하고 분리된 자음에 대하여 변형된 교차거리 특징을 이용하여 인식하였다. 한자에 대해서는 획교차수의 평균치를 이용하여 전체 한자 대상문자에 대해 분류를 하였으며, 문자의 획교차수와 흑점비율 특징을 이용하여 인식하였다. 한글과 한자의 구분에서는 90.5%의 분류율을 얻었다. 한글인식에 있어서는 대상문자 명조체 2512자에 대하여 90.0%의 형태 분류율을 얻었다. 인식 결과 실험 데이타 1278자에 대하여 92.2%의 인식율을 얻었다. 한자인식에 있어서는 대상문자 4585자에 대하여 분류한 결과 최대밀집 구간은 124자로서 약 1/40 정도로 분류되었음을 알 수 있었고, 인식실험 결과 89.2%의 인식율을 얻었다.

  • PDF

시멘틱 웹 데이터를 위한 키워드 인덱싱 기법 (Indexing Scheme for keyword-based Query Processing on Semantic Web)

  • 신혜연;김연희;정균락;임해철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.51-55
    • /
    • 2006
  • 시맨틱 웹은 현재 웹의 확장된 개념으로 사람뿐만 아니라 컴퓨터 스스로가 데이터를 이해하고 처리할 수 있도록 정보에 의미를 부여하는 것이다. 시맨틱 웹 데이터를 기술하는 RDF를 통해 메타데이터를 표현하고 의미론적 추론이 가능하게 되었다. 따라서 기존에 일반 사용자가 쉽게 사용할 수 있는 키워드 검색 방법을 시맨틱 웹 데이터인 RDF/RDF 스키마에 적용함으로써 차세대 웹으로 인식되고 있는 시맨틱 웹을 일반 사용자도 쉽게 활용할 수 있도록 한다. 본 논문에서는 RDF 문서의 효율적인 검색을 위해 RDF 인스턴스와 RDF 스키마 정보를 저장하고, 키워드, 속성, 클래스 타입의 복합 조건 검색을 만족시키는 키워드 인덱스와 스키마 테이블 구조를 제안한다. 본 논문에서 제안한 구조는 다양한 조건들을 만족하는 리소스 정보의 빠르고 정확한 검색이 가능하도록 한다.

  • PDF

대화형 코퍼스의 설계 및 구조적 문서화에 관한 연구 (A Study in Design and Construction of Structured Documents for Dialogue Corpus)

  • 강창규;남명우;양옥렬
    • 한국콘텐츠학회논문지
    • /
    • 제4권4호
    • /
    • pp.1-10
    • /
    • 2004
  • 음성인식의 연구 대상은 낭독음성에서 대화음성으로 발전해가고 있다. 이를 위해서는 대량의 대화코퍼스가 필요하다. 그러나 아직 충분한 양의 대화코퍼스가 구축되어 있지 못하며 코퍼스의 주석 정보 또한 복잡하고 다양하게 표현하고 있어 효율적인 활용이 어렵다. 따라서 본 논문에서는 TEI를 기반으로 하여 대화 영역을 텔레뱅킹으로 설정하고 대화코퍼스를 구축하여 구축된 대화코퍼스의 주석 정보를 XML(extensible Markup Language)로 표준화할 수 있도록 DTD (Document Type Definition) 정의하고 저장 시스템을 설계하였다.

  • PDF

손 자세 인식을 이용한 MPEG-U 기반 향상된 사용자 상호작용 인터페이스 시스템 (MPEG-U based Advanced User Interaction Interface System Using Hand Posture Recognition)

  • 한국희;이인재;최해철
    • 방송공학회논문지
    • /
    • 제19권1호
    • /
    • pp.83-95
    • /
    • 2014
  • 최근 손과 손가락을 인식하는 기술은 HCI(human computer interaction)에서 자연스럽고 친숙한 환경을 제공하기 위한 기술로 주목 받고 있다. 본 논문에서는 깊이 카메라를 이용하여 손과 손가락의 모양을 검출 및 인식하는 방법을 제안하고, 그 인식 결과를 활용하여 다양한 기기와 상호연동 할 수 있는 MPEG-U 기반 향상된 사용자 상호작용 인터페이스 시스템을 제안한다. 제안하는 시스템은 깊이 카메라를 이용하여 손을 검출한 후, 손목의 위치를 찾아 최소 손 영역을 검출한다. 이어서 검출된 최소 손 영역으로부터 손가락 끝점을 검출 한 후, 최소 손 영역의 중심점과 손가락 끝점간의 뼈대를 만든다. 이렇게 만든 뼈대의 길이와 인접 뼈대간의 각도차를 분석하여 손가락을 판별한다. 또한, 제안하는 시스템은 사용자가 MPEG-U에서 정의하는 다양한 심벌들을 손 자세로 취하였을 때 제안 방법을 이용하여 손 자세를 인식하고, 인식 결과를 상호연동 가능한 MPEG-U 스키마 구조로 표현한다. 실험에서는 다양한 환경에서 제안하는 손 자세 인식 방법의 성능을 보인다. 또한, 제안 시스템의 상호연동성을 보이기 위해 인식 결과를 MPEG-U part2 표준에 맞는 XML 문서로 표현하고, MPEG-U 참조 소프트웨어를 이용하여 그 표현 결과에 대한 표준 부합성을 검증한다.