• 제목/요약/키워드: 문서분할

검색결과 177건 처리시간 0.023초

SVM 분류기를 이용한 문서 범주화 연구 (An Experimental Study on Text Categorization using an SVM Classifier)

  • 정영미;임혜영
    • 정보관리학회지
    • /
    • 제17권4호
    • /
    • pp.229-248
    • /
    • 2000
  • 문서 범주화에 이용되는 학습알고리즘 중에서 이원 패턴인식 문제를 해결하기 위해 제안된 SVM은 다른 분류기 보다 우수한 성능을 보이고 있다. 본 연구에서는 Reuters-21578 (ModApte 분할판)을 대상으로 SVM 분류기를 이용하여 단어빈도, 역문헌빈도, 문헌길이 정규화 공식을 자질에 대한 가중치로 적용하여 성능을 평가하고, 선형 SVM과 비선형 SVM의 분류 성능을 비교하였다. 또한 이원 분류기를 승자독식 방법과 쌍단위 분류방법에 의해 다원 분류기로 확정하여 실험한 후 이원 분류기와의 성능을 비교 분석하였다.

  • PDF

최단 경로 알고리즘을 이용한 접합 영문자 분할 (Minimum-cost Path Algorithm for Separating Touching English Characters)

  • 이득용;오일석
    • 전자공학회논문지
    • /
    • 제49권10호
    • /
    • pp.102-108
    • /
    • 2012
  • 본 논문은 명암 영상에서 최단 경로 알고리즘을 이용해 인쇄체 접합 문자를 비선형으로 분리하는 방법을 제안한다. 기존의 최단 경로 알고리즘은 특정한 형태의 접합문자를 분할하지 못하는 단점을 가지고 있다. 우리는 기존 알고리즘이 실패하는 상황을 분석하고, 분석 결과를 활용하여 기존 알고리즘이 사용하는 규칙의 문제점을 파악하였다. 그런 후 기존 알고리즘을 두 가지 방향에서 개선하였다. 첫째, 새로운 벌칙항을 추가하여 보다 정교한 경로를 추정하였다. 둘째, 경로 탐색 시 상향 탐색과 하향 탐색을 병행하고 보다 좋은 해를 선택하였다. 실험을 통해 제안하는 알고리즘이 기존 알고리즘에 비해 분할 성공률 면에서 3~4%정도 우수함을 입증하였다.

분산 정보 검색을 위한 신경망 에이전트 (Neural Net Agent for Distributed Information Retrieval)

  • 최용석
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권10호
    • /
    • pp.773-784
    • /
    • 2001
  • 웹과 같은 분산 정보 검색 환경에서 문서들의 많은 문서 데이터 베이스들에 자연스럽게 분할되어서 존재한다. 그러므로 이러한문서들의효율적인 검색을 위해서는 먼저 질의에 관련되는 문서들을 제공할것으로 판단되는 문서 데이타베이스를 찾아내고 다음으로 그 문서 데이타베이스에 질의를 줌으로써 분산 정보 검색을 수행해야한다. 본 논문에서는 이러한 효율적인 분산 정보 검색을 위한 신경망 에이전트를 제안한다. 신경망 에이전트는 질의 검색 예제들을 통하여 얻어진 질의에 대한 관련도 피드백 정보에 기반하여 역전파 알고리즘으로 분산 정보 검색 지식을 학습한다. 충분히 학습한 후의 신경망 에이전트는 주어진 질의에 대하여 관련 문서 데이타베이스들을 찾아내고 그 문서 데이타베이스들로부터 관련되는 문서들을 검색한다. 실험에서 제안된 신경망 에이전트 시스템을 구현하여 정보 검색 성능을 널리 알려진 기존의 분산 정보 검색 기법을 사용했을때 비교함으로써 신경망 에이전트의 유용성을 예증한다.

  • PDF

한글 문장의 자동 띄어쓰기를 위한 어절 블록 양방향 알고리즘 (Eojeol-Block Bidirectional Algorithm for Automatic Word Spacing of Hangul Sentences)

  • 강승식
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권4호
    • /
    • pp.441-447
    • /
    • 2000
  • 자동 띄어쓰기는 띄어쓰기가 무시된 한글 문서의 자동색인이나 문자인식 시스템에서 줄바꿈 문자에 대한 공백 삽입 문제 등을 해결하는데 필요하다. 이러한 문서에서 공백이 삽입될 위치를 자동으로 찾아주는 자동 띄어쓰기 알고리즘으로 문장 분할 기법과 양방향 최장일치법을 이용한 어절 인식 방법을 제안한다. 문장 분할은 한글의 음절 특성을 이용하여 어절 경계가 비교적 명확한 어절 블록을 추출하는 것이며, 형태소 분석기를 이용한 양방향 최장일치법에 의해 어절 블록에 나타난 각 어절들을 인식한다. 4,500여 어절로 구성된 두 가지 유형의 문장 집합에 대하여 제안한 방법의 띄어쓰기 정확도를 평가한 결과 '공백 재현율'이 97.3%, '어절 재현율'이 93.2%로 나타났다.

  • PDF

CC/PP와 어노테이션을 이용한 웹 문서의 트랜스코딩 (Transcoding Web Documents Using CC/PP and Annotation)

  • 김회모;송특섭;최윤철;이경호
    • 한국멀티미디어학회논문지
    • /
    • 제8권2호
    • /
    • pp.137-153
    • /
    • 2005
  • 본 논문에서는 웹 문서를 다양한 종류의 디바이스에 적합하도록 동적으로 변환하는 트랜스코딩 방법을 제안한다 이를 위하여 디바이스의 컨텍스트 정보를 표현하기 위한 웹 표준인 CC/PP 프로파일을 지원한다. 또한 보다 정교한 수준의 맞춤형 서비스를 지원하기 위하여 원본 컨텐츠에 대한 부가적인 정보를 기술할 수 있는 어노테이션을 정의한다. 한편 제한된 크기의 화면을 가진 모바일 디바이스를 위해서 웹 페이지는 다수의 작은 페이지로 분할된다. 제안된 방법은 분할된 다수의 페이지에 대한 계층적 정보인 네비게이션 맵 을 동적으로 생 성 한다. 다양한 웹 컨텐츠를 대상으로 실험 한 결과, 제 안된 방법은 네비게이션의 편의성과 트랜스코딩 성능의 두 가지 측면에서 우수하였다.

  • PDF

HL7 aECG를 이용한 생체신호 데이터 표현 및 저장 방법 (A Biosignal Data Representation and Storage Method using HL7 aECG)

  • 김태식;구흥서;김동준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.71-74
    • /
    • 2005
  • 유비쿼터스 헬스케어는 생체신호 측정기술과 생체신호 측정기의 소형화 경량화로 인해 의료분야의 획기적인 변화를 가져올 것으로 기대된다. 그러나 생체신호 측정 기술의 발전에 비해서 대부분의 생체신호 데이터는 각 시스템 고유의 데이터 포맷을 사용하기 때문에 사용범위가 제한되고 데이터 공유 및 호환에 어려움이 있어 구조적이며 시스템 독립적인 XML을 사용하여 생체신호 데이터를 표현하는 방법이 필요하다. 본 논문에서는 XML 기반의 HL7 Annotated ECG(HL7 aECG) 표준을 이용해서 생체신호 데이터를 표현하고 저장하는 방법을 제시한다. 제시된 방법은 ECG, 심음의 두채널 파형 정보를 포함한 바이너리 포맷을 HL7 aECG 문서로 표현하며, HL7 aECG 문서의 특성을 고려하여 비분할 저장 방식을 사용하고 효율적인 검색을 위해 메타데이터를 추출하여 관계형 테이블에 저장하는 분할 저장 방식을 병행하여 사용한다. 또한 저장된 메타데이터를 효율적으로 검색 및 관리하는 메타데이터 시스템을 설계하며 설계된 구조는 향후 다른 시스템과 연계의 가능성을 제공한다.

  • PDF

분산 XML 데이터베이스에서 질의 컴파일 시 카탈로그 관리 기법의 성능 평가 (Performance Evaluation of Catalog Management Schemes for Distributed XML Database at the Query Compile Time)

  • 장건업;홍의경
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.77-82
    • /
    • 2006
  • 최근 컴퓨팅 환경은 클라이언트-서버(client-server) 환경에서 웹(World Wide Web)을 기반으로 한 분산 컴퓨팅(distributed computint) 환경으로 변화하고 있다. 그에 따라 XML 문서의 사용과 XML 문서의 양이 급속하게 증가하였다. 언제 어디서나 쉽게 필요한 XML 문서에 접근해야하며, 이러한 응용을 위해 짧은 시간 내에 그 정보를 전달할 수 있어야 한다. 이에 따라 분산 환경에서의 XML 문서의 처리가 요구된다. XML 데이터를 분산 데이터베이스의 특성을 이용하여 저장, 관리, 질의하는 분산 XML 데이터베이스 시스템(Distributed XML Database System)의 사용의 필요성이 증가하고 있다. 이에 따라, 사이트의 자치성, 질의 최적화, 데이터의 투명성 등에 큰 영향을 미치는 분산 XML 데이터베이스 시스템에서의 카탈로그 관리 기법의 연구의 필요성이 증가하게 된다. 본 논문에서는 중앙 집중식 카탈로그와 완전 중복식 카탈로그, 분할식 카탈로그를 분산 XML 데이터베이스 시스템에서 CPU 비용, I/O 비용, 동시성 제어, 이단계 완료 프로토콜, 큐잉 지연 등을 모두 고려한 모델을 설계하였고, 이를 시뮬레이터로 구현하여 각 카탈로그 관리 기법들의 성능을 합리적인 환경 설정을 통해 시뮬레이션함으로써 카탈로그 관리 기법들의 성능을 평가하였다.

  • PDF

다중 LBP 피처를 이용한 지문 정보 마스킹 알고리즘 (Fingerprint Information Masking Algorithm By Using Multiple LBP Features)

  • 김진호
    • 한국콘텐츠학회논문지
    • /
    • 제17권12호
    • /
    • pp.281-288
    • /
    • 2017
  • 금융위원회는 2019년도까지 금융기관 및 공공기관 등에서 보유하고 있는 문서에서 지문 정보를 폐기 조치하라고 통보했다. 이를 위해 문서 영상에서 지문 정보를 검출하고 마스킹하기 위한 상용 솔루션들이 발표되고 있다. 본 논문에서는 문서 영상에 다양한 형태로 기록된 지문 후보들을 분할한 다음 인공신경망 분류기로 지문인지 여부를 판단할 때 지문의 특징이 잘 반영된 피처를 추출하기 위해 다중 LBP 피처를 설계하고 이를 이용해서 지문 정보를 마스킹하는 알고리즘을 제안하였다. 제안한 지문 정보 마스킹 알고리즘을 이용하여 금융권에서 보유하고 있는 3,497장의 문서 영상을 대상으로 지문 마스킹 실험을 수행한 결과 96.4%의 지문을 마스킹 할 수 있어서 본 알고리즘이 실제 지문 정보 마스킹 작업에 효과적으로 활용될 수 있음을 확인하였다.

분산 XML 저장 시스템에서 질의 컴파일 시 시스템 카탈로그 관리 기법의 성능 평가 (Performance Evaluation of System Catalog Management Schemes for Distributed XML Repository Systems at the Query Compilation Time)

  • 장건업;홍의경
    • 한국멀티미디어학회논문지
    • /
    • 제12권2호
    • /
    • pp.178-190
    • /
    • 2009
  • XML은 W3C(World Wide Web Consortium)에서 제안한, 인터넷 환경에서의 데이터 표현과 교환을 위한 표준 마크업 언어이다. 최근에는 XML 문서의 사용과 XML 문서의 양이 급속하게 증가하여 언제 어디서나 쉽게 필요한 XML 문서에 액세스할 수 있어야 한다. 이에 따라 분산 환경에서의 XML 문서의 처리가 요구되면서 분산 XML 저장 시스템(Distributed XML Repository System)이 개발되고 있다. 이를 위해 분산 XML 저장 시스템에서의 시스템 카탈로그 관리 기법에 대한 연구가 필요하다. 본 논문에서는 분산 XML 저장시스템에서 CPU 비용, I/O 비용, 동시성 제어, 이단계 완료 프로토콜, 큐잉 지연 등을 모두 고려하고, 합리적으로 매개변수를 설정하고 시뮬레이션을 수행함으로써 중앙 집중식 카탈로그, 완전 중복식 카탈로그, 분할식 카탈로그 관리 기법의 성능을 평가하였다.

  • PDF

SPIHT 기반 문서 부호화와 복호화 시스템의 성능 향상 (Improvement of SPIHT-based Document Encoding and Decoding System)

  • 장준;이호석
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권7_8호
    • /
    • pp.687-695
    • /
    • 2003
  • 본 논문은 문자가 포함된 영상에서 문자의 가독성은 유지하면서 영상을 압축하고 복원하는 효율적인 방법을 제시한다. 본 논문에서 제시하는 방법은 문서 분할, Quincunx 다운샘플링, (5/3) 웨이블릿 리프팅 그리고 서브밴드별 SPIHT(Set Partitioning In Hierarchical Trees) 부호화 방법을 기반으로 하여 구축되었다. 부호화 과정에서는 Quincunx 다운샘를링과 서브밴드 SPIHT 부호화 방법을 사용하여 부호화 수행 시간을 단축하였으며 산술 부호화를 적용하여 SPIHT 부호기의 비트스트림을 더욱 압축하였다. 실험에서는, 복원된 영상을 제시하여 시스템의 성능을 압축율과 PSNR을 비교하고 분석하였다. 실험에서는, 복원된 영상을 제시하여 시스템의 성능을 확인할 수 있도록 하였으며, 여러 가지 양자화를 적용하여 제안한 SPIHT에 기반한 문서 압축 시스템의 압축율과 PSNR을 비교하고 분석하였다.