• 제목/요약/키워드: 문서 처리 자동화

검색결과 115건 처리시간 0.023초

객체지향을 기반으로한 추상화 정보의 시각화 시스템에 대한 연구 (A Study on the Visual System of Object - Oriented Based on Abstract Information)

  • 김행곤;한은주;정연기
    • 한국정보처리학회논문지
    • /
    • 제4권10호
    • /
    • pp.2434-2444
    • /
    • 1997
  • 소프트웨어 산업이 발달됨에 따라, 텍스트 위주의 정보보다는 시각적 정보의 요구가 점차적으로 증가하게 되었다. 이로 인해, 실세계에 존재하는 다양한 원시 정보를 사용자가 원하는 시각적인 설계 표현으로 나타내기 위해 자동화된 툴이 필요하게 되었다. 본 논문에서는 추상 정보를 의미 분석을 통해 파싱을 하고, 시각화 구조의 매핑을 통해 시각적 언어를 추출하는 방법론 및 툴에 대해 논한다. 이 툴은 정규 규칙을 사용하여 관계적 구조로 표현하고, 이를 시각화 구조로 매핑하여 시각 정보를 제공한다. 원시코드의 추상 정보를 시각 정보로 변환하는 제안 툴인 VOLS(Visual Object Layout System)는 문서를 시각화하여 사용자에게 이해성을 향상시키며, 기존 원시코드의 유지보스 측면에서 사용자에게 도움을 제공한다.

  • PDF

한메일 FAQ의 개념적 검색을 위한 계층적 브라우징 시스템 (A Hierachical Browsing System for Conceptual Search of Hanmail FAQ)

  • 안준현;김현돈;조성배
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 제13회 춘계학술대회 및 임시총회 학술발표 논문집
    • /
    • pp.94-99
    • /
    • 2000
  • 컴퓨터의 보급과 함께 인터넷의 대중화로 많은 정보가 인터넷을 통해 제공되면서 많은 사람들이 정보통신 기반 서비스를 이용하게 되었다. 하지만 이런 서비스에 익숙하지 않은 사용자가 자신이 원하는 정보를 찾는 것은 그리 쉬운 일이 아니다. 그래서 ISP나 PC통신 업체들은 사용자들이 겪는 어려움을 해결해 주기 위한 서비스를 제공하고 있다. 그러나 사용자들의 엄청난 증가로 인해 이런 서비스를 유지하는데 많은 인력과 시간이 필요하게 되면서 질의 응답 자동화에 대한 필요성이 대두되었다. 본 논문에서는 ISP 업체 중 하나인 한메일넷의 자동 응답 시스템을 위한 FAQ 브라우징 시스템을 개발하였다. 기존의 많은 검색 서비스가 키워드들을 단순히 나열하고 이 키워드의 링크를 따라가면서 검색을 하게 하였으나 이 방식은 검색 대상에 대한 키워드 정보만을 제공하기 때문에, 문제에 대한 배경 지식이 적거나 검색 서비스 사용에 익숙치 않은 사용자가 이용하기에는 쉽지 않다. 본 시스템에서는 사용자에게 이차원상에 표현된 문서 지도를 제공해서 사용자가 쉽게 전체 검색 자료의 분포를 파악하고 검색하도록 하였다. 또한 단계별 검색이 가능하도록 해서 사용자가 효율적으로 검색할 수 있다.

  • PDF

Active SLA 기반 서비스 수준 협약의 자동화 (Automation of Service Level Agreement based on Active SLA)

  • 김상락;강만모;배재학
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권4호
    • /
    • pp.229-237
    • /
    • 2013
  • 최근 SOA와 클라우드 컴퓨팅 기반의 IT 서비스에 대한 수요가 증가하면서 서비스 당사자들 간에 SLA(Service Level Agreement, 서비스 수준 협약)에 대한 관심이 증대되고 있다. 통상 SLA는 자연어로 작성된 종이 계약서이다. 상업용 SLA 관리 툴에서 사용하는 SLA는 절차적 언어를 사용하여 계약서 내용을 애플리케이션 안에 암시적으로 구현된다. 이는 SLA 자동화 작업을 어렵게 한다. 또한 계약시스템에 대한 유지관리를 어렵게 하고 새로운 계약 요구사항을 적용하기 위해서는 소스 코드에 대한 광범위한 수정 작업이 뒤따른다. SLA 유지관리 과정에서 발생하는 문제의 근본 원인은 동일한 SLA가 문서형과 실행형으로 이원화 되어 있다는 것이다. 본 논문에서는 이러한 현행 SLA 관리의 문제점을 개선하기 위해서 능동형 SLA(ASLA : Active Service Level Agreement)를 기반으로 하는 능동형 SLM(ASLM : Active Service Level Management) 시스템을 제안한다. 이 시스템에서는 이원화된 SLA 처리 및 관리 과정이 능동형 SLA(ASLA)의 도입으로 일원화될 수 있음을 보였다.

고전언어에서의 어휘 의미망 구축을 위한 전문용어 추출 자동화 방안 (Automated Approaches for Extracting Specialized Terminology in Building Semantic Networks for Classical Languages)

  • 백영윤;박용범
    • Journal of Platform Technology
    • /
    • 제12권1호
    • /
    • pp.85-90
    • /
    • 2024
  • 지식이나 정보를 찾는 경우 아날로그적인 인쇄된 책이나 출판물 등등의 종이로 기록된 매체보다는 디지털적으로 구현되는 웹을 이용하는 방법이 증가하고 있다. 이러한 현상은 고전적인 종이 사전 보다 디지털 사전을 사용하는 것이 더 효과적이고 시간을 절약할 수 있다는 인식이 증가되고 있다. 따라서 이러한 어휘를 구성하는 어휘 의미망 구축은 언어학계와 전산언어학, 자연어 처리 전공자들에게 있어서 중요한 문제로 떠오르고 있다. 이를 위해 언어학자들은 어휘의 의미와 개념을 구조화하여 분류할 수 있는 방법을 찾기 위해 수많은 연구가 진행되었다. 이러한 연구에서 어휘 의미망을 구성하기 위한 전문용어는 일반어와 같이 중요한 요소이다. 하지만 이러한 과정에서 전문용어를 찾고 축적하는 과정에서 여전히 종이로 된 사전 문서나 디지털로 된 방대한 자료를 사람이 직접 확인하고 그 중에서 전문용어를 추출하고 정리하는 과정을 수작업으로 거치고 있다. 본 논문에서는 이러한 인적 작업의 오류를 보완하기 위해서 디지털로 된 자료에서 사용자가 원하는 전문용어를 추출할 수 있는 자동화된 프로그램을 제안한다.

  • PDF

온톨로지와 토픽모델링 기반 다차원 연계 지식맵 서비스 연구 (A Study on Ontology and Topic Modeling-based Multi-dimensional Knowledge Map Services)

  • 정한조
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.79-92
    • /
    • 2015
  • 미래 핵심 가치 기술 발굴 및 탐색을 위해서는 범국가적인 국가R&D정보와 과학기술정보의 연계 융합이 필요하다. 본 논문에서는 국가R&D정보와 과학기술정보를 온톨로지와 토픽모델링을 사용하여 연계 융합하여 지식베이스를 구축한 방법론을 소개하고, 이를 기반으로 한 다차원 연계 지식맵 서비스를 소개한다. 국가R&D정보는 국가R&D과제와 참여인력, 해당 과제에 대한 성과 정보, 논문, 특허, 연구보고서 정보들을 포함한다. 과학기술정보는 논문, 특허, 동향 등의 과학기술연구에 대한 기술 문서를 일컫는다. 본 논문에서는 지식베이스에서의 지식 처리 및 관리의 효율성을 높이기 위해 Lightweight 온톨로지를 사용한다. Lightweight 온톨로지는 국가R&D과제 참여자와 성과정보, 과학기술정보를 과제-성과 관계, 문서-저자 관계, 저자-소속기관 관계 등의 단순한 연관관계를 이용하여 국가R&D정보와 과학기술정보를 융합한다. 이러한 단순한 연관관계만을 이용함으로써 지식 처리의 효율성을 높이고 온톨로지 구축 과정을 자동화한다. 보다 구체적인 Concept 레벨에서의 온톨로지 구축을 위해 토픽모델링을 활용한다. 토픽모델링을 활용하여 국가R&D정보와 과학기술정보 문서들의 토픽 주제어를 추출하고 각 문서 간 연관관계를 추출한다. 일반적인 Concept 레벨에서의 Fully-Specified 온톨로지를 구축하기 위해서는 거의 100% 수동으로 해야 하기 때문에, 많은 시간과 비용이 소모된다. 본 연구에서는 이러한 수동적인 온톨로지 구축이 아닌 자동화된 온톨로지 구축을 위해 토픽모델링을 활용한다. 토픽모델링을 활용하여 온톨로지 구축에 필요한 문서와 토픽 키워드 간의 관계, 문서 간 의미 상 연관관계를 자동으로 추출한다. 마지막으로, 이와 같이 구축된 지식베이스의 트리플(Triple) 정보를 활용하여, 연구자들의 공동저자관계, 문서간의 공통주제어관계 등을 연구자, 주제어, 기관, 저널 등의 다차원 연관관계를 방사형 네트워크 형식을 이용하여 시각화한 지식맵 서비스들을 소개한다.

두자 접촉 숫자열의 분할 자유 인식 (Segmentation-free Recognition of Touching Numeral Pairs)

  • 최순만;오일석
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권5호
    • /
    • pp.563-574
    • /
    • 2000
  • 숫자열 인식은 문서 처리 자동화에서 매우 중요하다. 기존 방법들은 숫자열을 낱자 단위로 분할하는 단계와 분할된 숫자들을 인식하는 두 단계로 이루어져 있다. 그러나 이들 방법으로는 접촉 유형의 수많은 변형 때문에 만족할 만한 결과를 얻을 수 없다. 본 논문은 두자 접촉 숫자열의 분할-자유 인식 방법을 제안한다. 이 접근 방법에서는 두자 접촉 숫자열을 하나의 패턴으로 간주하여, 총 100개(‘00’, ‘01’, ‘02’, ..., ‘98’, ‘99’) 부류를 대상으로 인식한다. NIST 데이타베이스의 숫자열 필드에서 두자 접촉한 숫자열을 추출하여 실험하였다. 부류수가 방대한 경우 나타나는 기존 신경망 인식기의 한계 때문에, 모듈러 신경망을 사용하였으며 인식 실험을 통하여 우수성을 입증하였다.

  • PDF

XML/EDI기반 전자입찰 시스템을 위한 비즈니스 흐름 관리기의 설계 및 구현 (Design and Implementation of Business Flow Management System for XML/EDI based Electronic Bidding System)

  • 윤선희
    • 한국컴퓨터산업학회논문지
    • /
    • 제4권10호
    • /
    • pp.751-760
    • /
    • 2003
  • 미래의 기업은 B to B기반의 전자거래 형태로 실현된다. B to B모델의 기본 개념은 작업 프로세스, 구성원과 지원 환경으로 구성된다. 작업 프로세스는 정보 프로세스, 기술과 표준과 관련되며 작업 프로세스의 요소는 디지털 데이터 교환, 데이터 공유 및 협업 작업으로 이루어 진다. 본 논문에서는 인터넷 상에서 B to 13 모델의 전자거래를 위한 구성요소인 작업 처리를 위한XML 기반 비즈니스 흐름관리기를 설계 및 구현한다. 본 논문에서 제안하는 비즈니스 흐름관리기는 인터넷상에서 전자거래 시스템을 구축하기 위한 추매관리, 입찰관리 및 조달관리를 포함하는 전자입찰 시스템의 자동화를 실현시킨다. XML은 데이터의 공유 및 교환을 위한 표준화된 문서로써 사용 가능하며 독립적인 플랫폼을 제공한다.

  • PDF

패턴 부트스트랩핑을 이용한 특허 문헌에서의 시맨틱 트리플 추출 (Extracting Semantic Triples from Patent Documents Using Pattern Bootstrapping)

  • 정창후;전홍우;최윤수;송사광;최성필;조민희;정한민
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2012년도 춘계 종합학술대회 논문집
    • /
    • pp.281-282
    • /
    • 2012
  • 문서에 존재하는 중요한 개체를 인식하고 그것들 간의 관계를 식별하는 시맨틱 트리플 추출은 문헌 분석의 기반이 되는 중요한 작업이다. 본 논문에서는 특허 문헌에서 이러한 시맨틱 트리플을 추출하는 방법에 대해서 설명한다. 특허 문헌의 효과적인 자동 분석을 위하여 문장 내의 다양한 구문적 변형을 인식하여 하나의 정규화된 의미 형태로 표현해주는 술어-논항 구조 기반의 패턴을 사용하였고, 패턴의 자동화된 확장을 위하여 부트스트랩핑 방법을 적용하였다. 이러한 방법은 소규모의 시드 데이터를 활용하여 특정의미 관계를 갖는 패턴을 자동으로 확장하고 최종적으로는 유의미한 트리플을 추출하는 방법으로 다량의 이진 관계 집합을 처리해야 할 때 아주 유용한 방법이다. 시스템 적용을 통하여 특허 문헌에 적합한 38개의 연관관계 집합을 생성하였고, 32,608개의 유의미한 트리플을 추출하였다.

  • PDF

질의응답 시스템에서 형태소임베딩 모델과 GRU 인코더를 이용한 문장유사도 측정 (Measuring Sentence Similarity using Morpheme Embedding Model and GRU Encoder for Question and Answering System)

  • 이동건;오교중;최호진;허정
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.128-133
    • /
    • 2016
  • 문장유사도 분석은 문서 평가 자동화에 활용될 수 있는 중요한 기술이다. 최근 순환신경망을 이용한 인코더-디코더 언어 모델이 기계학습 분야에서 괄목할만한 성과를 거두고 있다. 본 논문에서는 한국어 형태 소임베딩 모델과 GRU(Gated Recurrent Unit)기반의 인코더를 제시하고, 이를 이용하여 언어모델을 한국어 위키피디아 말뭉치로부터 학습하고, 한국어 질의응답 시스템에서 질문에 대한 정답을 유추 할 수 있는 증거문장을 찾을 수 있도록 문장유사도를 측정하는 방법을 제시한다. 본 논문에 제시된 형태소임베딩 모델과 GRU 기반의 인코딩 모델을 이용하여 문장유사도 측정에 있어서, 기존 글자임베딩 방법에 비해 개선된 결과를 얻을 수 있었으며, 질의응답 시스템에서도 유용하게 활용될 수 있음을 알 수 있었다.

  • PDF

웹 뉴스의 기사 추출과 요약 (Text Extraction and Summarization from Web News)

  • 한광록;선복근;유형선
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권5호
    • /
    • pp.1-10
    • /
    • 2007
  • 뉴스 콘텐츠 등 웹을 통해 제공되는 많은 정보들은 불필요한 클러터를 많이 포함하고 있다. 이러한 클러터들은 문서의 요약, 추출, 검색과 같은 자동화된 정보처리 시스템의 구축을 어렵게 한다. 본 논문에서는 웹 뉴스 콘텐츠를 추출하고 이를 요약하는 시스템을 구축하고자 한다. 추출 시스템은 HTML로 된 뉴스 콘텐츠를 입력받아 DOM 트리와 유사한 요소 트리를 구축하며, 이 요소 트리에서 HTML 태그의 하이퍼링크 속성을 갖는 클러터를 제외하면서 본문을 추출한다. 추출 시스템을 통해 추출된 본문은 요약시스템으로 전달되어 핵심 문장이 추출된다. 요약 시스템은 공기관계 그래프를 이용하여 구성한다. 본 논문에서 구현한 시스템을 통해 추출된 요약 문장은 SMS와 같은 메시지 서비스를 통하여 PDA이나 모바일 폰 등에 전송될 수 있을 것으로 기대된다.

  • PDF