• 제목/요약/키워드: Document Analysis

검색결과 1,195건 처리시간 0.028초

의학학술지종합정보시스템(MEDLIS)의 원문제공서비스 이용 분석과 평가 (Use Analysis and Evaluation of MEDLIS(MEDical Library Information System) Document Delivery Service)

  • 장혜란;김정아
    • 한국문헌정보학회지
    • /
    • 제46권3호
    • /
    • pp.233-250
    • /
    • 2012
  • MEDLIS 원문제공 서비스의 발전과 현황 그리고 문제점을 파악하여 개선방안을 제시하기 위하여 이용분석을 수행하였다. 2001년부터 2011년까지 축적된 트랜잭션 데이터를 분석한 결과, 이용량의 지속적 감소, 기관유형별 불균형한 기여도, 기간호에 대한 높은 의존성, 주제별 이용격차, 비교적 낮은 성공률, 다양한 실패요인이 식별되었다. 연구결과에 기초하여, 서비스 품질향상을 위한 종합목록데이터베이스의 유지 관리, 효과적 검색을 위한 기술적 지원, 기간호 공동보존 대책, 그리고 이용활성화를 위한 교육과 홍보 및 회원 확대 등을 제언하였다.

팩스 문서 위·변조 방지를 위한 패턴 분석 기반의 팩스 송신처 검증 기법 (Fax Sender Verification Technique Based on Pattern Analysis for Preventing Falsification of FAX Documents)

  • 김영호;최황규
    • 디지털콘텐츠학회 논문지
    • /
    • 제15권4호
    • /
    • pp.547-558
    • /
    • 2014
  • 최근 일반기업, 공공기관, 금융기관 등에서 수신된 팩스 문서를 사용하여 업무처리를 하는 과정에서 각종 위 변조 폐해 사례가 빈번하게 발생하고 있다. 이는 팩스로 수신한 문서만으로는 위 변조 여부를 확인할 수 없어 발생하는 결과로 이에 대한 대책이 시급한 실정이다. 본 논문에서는 수신된 팩스 문서만을 사용하여 팩스 문서의 위 변조 여부를 확인하기 위한 팩스 송신처 검증 기법을 제안한다. 제안된 기법은 송신측 팩스단말과 수신측 팩스단말간의 통신 시그널 패턴 분석과 수신된 팩스 문서 이미지의 속성패턴을 확인하여 수신된 문서가 지정된 송신처에서 보낸 팩스인지를 검증할 수 있는 기법이다. 본 논문은 제안된 기법을 실제 팩스 시스템에 적용하여 위 변조 방지 효과가 있음을 실험 결과를 통해 확인하였다.

XML 문서 관리를 위한 능동 규칙 언어 (Active Rule Language for XML Document Management)

  • 황정희;류근호
    • 정보처리학회논문지D
    • /
    • 제10D권1호
    • /
    • pp.33-44
    • /
    • 2003
  • XML은 웹 데이터의 표현과 정보교환을 위한 표준이다. XML의 급격한 사용증가로 인하여 XML 저장 관리 시스템 및 XML 문서의 변화에 자동으로 대응할 수 있는 규칙기반의 기술개발에 대한 연구가 활발히 진행되고 있다. 능동 규칙은 사건, 조건, 조치로 구성되며 데이터베이스의 상태 변화에 자동으로 대응할 수 있는 특성이 있으므로 이러한 요구를 충족시킨다. 따라서 이 논문에서는 XML 문서를 자동으로 관리하기 위한 XML 기반의 능동 규칙 언어를 제안하고 이 규칙언어로 정의되는 능동 규칙에 대한 종료 분석 방법을 제시한다. 아울러 XML 문서의 능동적 관리를 위한 규칙의 적용 사례를 제시하고 분석 방법의 효율성에 대해 검증한다.

그룹웨어의 현황 분석 Ⅰ (Groupware Current Status Analysis Ⅰ)

  • 김선욱;김봉진
    • 산업공학
    • /
    • 제10권3호
    • /
    • pp.75-93
    • /
    • 1997
  • Unlike individual applications, it is extremely hard to obtain user requirements for group systems, since there exists very complicated dynamics in group. This may result in spreading a great amount of products with a broad range of contents. Thus, this study presents a comparative analysis of groupware products. As a result, these products have been categorized into three areas which include cooperation/document management systems, collaborative writing systems, and decision-making/meeting systems. While the systems reviewed here focus on the cooperation/document management systems, the other two areas will be dealt in details in part Ⅱ. The first area ends up with two large categories such as proprietary groupware products and intranet groupware products. However, it has been observed that there is a natural convergence between these two categories. Consequently, the comparative analysis has been performed in terms of functions provided on the two categories and a combined category. Each group of the functions has been divided into three parts which consist of basic functions, quasi-basic functions, and others. Such a decision has been made based on the frequency rate of the functions provided in the products. With a more strict rule, the basic functions comprise electronic mail, sanction, bulletin board, document management, scheduling, security, Web browser, and Internet connectivity. This study also provides a framework for integrated functional model of groupware systems. The basic functions are merged into the model. However, the model is so flexible that it can partially include the quasi-functions in addition to the basic functions. In the future, it is expected that a large number of products will stem from the modification of the functional model.

  • PDF

MBTI 조직성격유형화에 따른 기업분류: 기업리뷰 빅데이터를 활용하여 (Firm Classification based on MBTI Organizational Character Type: Using Firm Review Big Data)

  • 이한준;신동원;안병대
    • 아태비즈니스연구
    • /
    • 제12권3호
    • /
    • pp.361-378
    • /
    • 2021
  • Purpose - The purpose of this study is to classify KOSPI listed companies according to their organizational character type based on MBTI. Design/methodology/approach - This study collected 109,989 reviews from an online firm review website, Jobplanet. Using these reviews and the descriptions about organizational character, we conducted document similarity analysis. Doc2Vec technique was hired for the analysis. Findings - First, there are more companies belonging to Extraversion(E), Intuition(N), Feeling(F), and Judging(J) than Introversion(I), Sensing(S), Thinking(T), and Perceiving(P) as organizational character types of MBTI. Second, more companies have EJ and EP as the behavior type and NT and NF as the decision-making type. Third, the top-3 organizational character type of which firms have among 16 types are ENTJ, ENFP, and ENFJ. Finally, companies belonging to the same industry group were found to have similar organizational character. Research implications or Originality - This study provides a noble way to measure organizational character type using firm review big data and document similarity analysis technique. The research results can be practically used for firms in their organizational diagnosis and organizational management, and are meaningful as a basic study for various future studies to empirically analyze the impact of organizational character.

용어 사전의 특성이 문서 분류 정확도에 미치는 영향 연구 (Analyzing the Effect of Characteristics of Dictionary on the Accuracy of Document Classifiers)

  • 정해강;김남규
    • 경영과정보연구
    • /
    • 제37권4호
    • /
    • pp.41-62
    • /
    • 2018
  • 다양한 소셜 미디어 활동과 인터넷 뉴스 기사, 블로그 등을 통해 유통되는 비정형 데이터의 양이 급증함에 따라 비정형 데이터를 분석하고 활용하기 위한 연구가 활발히 진행되고 있다. 텍스트 분석은 주로 특정 도메인 또는 특정 주제에 대해 수행되므로, 도메인별 용어 사전의 구축과 적용에 대한 중요성이 더욱 강조되고 있다. 용어 사전의 품질은 비정형 데이터 분석 결과의 품질에 직접적인 영향을 미치게 되며, 분석 과정에서 정제의 역할을 수행함으로써 분석의 관점을 정의한다는 측면에서 그 중요성이 더욱 강조된다. 이렇듯 용어 사전의 중요성은 기존의 많은 연구에서도 강조되어 왔으나, 용어 사전이 분석 결과의 품질에 어떤 방식으로 어떤 영향을 미치는지에 대한 엄밀한 분석은 충분히 이루어지지 않았다. 따라서 본 연구에서는 전체 문서에서의 용어 빈도수에 기반을 두어 사전을 구축하는 일괄 구축 방식, 카테고리별 주요 용어를 추출하여 통합하는 용어 통합 방식, 그리고 카테고리별 주요 특질(Feature)을 추출하여 통합하는 특질 통합 방식의 세 가지 방식으로 사전을 구축하고 각 사전의 품질을 비교한다. 품질을 간접적으로 평가하기 위해 각 사전을 적용한 문서 분류의 정확도를 비교하고, 각 사전에 고유율의 개념을 도입하여 정확도의 차이가 나타나는 원인을 심층 분석한다. 본 연구의 실험에서는 5개 카테고리의 뉴스 기사 총 39,800건을 분석하였다. 실험 결과를 심층 분석한 결과 문서 분류의 정확도가 높게 나타나는 사전의 고유율이 높게 나타남을 확인하였으며, 이를 통해 사전의 고유율을 높임으로써 분류의 정확도를 더욱 향상시킬 수 있는 가능성을 발견하였다.

문서 영상 내 테이블 영역에서의 단어 추출 (Word Extraction from Table Regions in Document Images)

  • 정창부;김수형
    • 정보처리학회논문지B
    • /
    • 제12B권4호
    • /
    • pp.369-378
    • /
    • 2005
  • 문서 영상은 문서 구조 분석을 통하여 텍스트, 그림, 테이블 등의 세부 영역으로 분할 및 분류되는데, 테이블 영역에 있는 단어는 다른 영역의 단어보다 의미가 있기 때문에 주제어 검색과 같은 응용 분야에서 중요한 역할을 한다. 본 논문에서는 문서 영상의 테이블 영역에 존재하는 문자 성분을 단어단위로 추출하는 방법을 제안한다. 테이블 영역에서의 단어 추출은 실질적으로 테이블을 구성하는 셀 영역에서 단어를 추출하는 것이기 때문에 정확한 셀 추출 과정이 필요하다. 셀 추출은 연결 요소를 분석하여 테이블 프레임을 찾아내고, 교차점 검출은 전체가 아닌 테이블 프레임에 대해서만 수행한다. 잘못 검출된 교차점은 이웃하는 교차점과의 관계를 이용하여 수정하고, 최종 교차점 정보를 이용하여 셀을 추출한다. 추출된 셀 내부에 있는 텍스트 영역은 셀 추출 과정에서 분석한 문자성분의 연결 요소 정보를 재사용하여 결정하고, 결정된 텍스트 영역은 투영 프로파일을 분석하여 문자연로 분리된다. 마지막으로 분리된 문자열에 대하여 갭 군집화와 특수 기호 검출을 수행함으로써 단어 분리를 수행한다. 제안 방법의 성능 평가를 위하여 한글 논문 영상으로부터 추출한 총 In개의 테이블 영상에 대해 실험한 결과, $99.16\%$의 단어 추출 성공률을 얻을 수 있었다.

비할당 영역 데이터 파편의 문서 텍스트 추출 방안에 관한 연구 (A Study on Extracting the Document Text for Unallocated Areas of Data Fragments)

  • 유병영;박정흠;방제완;이상진
    • 정보보호학회논문지
    • /
    • 제20권6호
    • /
    • pp.43-51
    • /
    • 2010
  • 디지털 포렌식 관점에서 디스크의 비할당 영역의 데이터를 분석하는 것은 삭제된 데이터를 조사할 수 있다는 점에서 의미가 있다 파일 카빙(Carving) 을 이용하여 비할당 영역의 데이터를 복구할 경우 일반적으로 연속적으로 할당된 완전한 파일은 복구 기능하지만, 비연속적으로 할당되거나 완전하지 않은 형태의 단편화된 데이터 파편(Fragment)은 복구하기 어렵다. 하지만 데이터 파편은 많은 양의 정보를 포함하고 있기 때문에 이에 대한 분석이 필요하다. Microsoft Word. Excel, PowerPoint, PDF 문서 파일은 텍스트와 같은 정보들을 압축된 형태로 저장하거나 문서 내부에 특정 형식을 이용하여 저장한다. 앞서 언급한 문서 파일의 일부분이 데이터 파편에 저장되어 있을 경우 해당 데이터 파편에서 데이터의 압축 여부를 판단하거나 문서 내부 형식을 이용하여 텍스트 추출이 가능하다. 본 논문에서는 비할당 영역 데이터 파편에서 특정 문서파일의 텍스트를 추출하는 방안을 제시한다.

문서 클러스터링을 위한 학술지 논문의 구조적 초록 활용성 연구 (Usability Analysis of Structured Abstracts in Journal Articles for Document Clustering)

  • 최상희;이재윤
    • 정보관리학회지
    • /
    • 제29권1호
    • /
    • pp.331-349
    • /
    • 2012
  • 구조적 초록은 학술 논문의 주제를 표현하는 역할을 하여 학술 논문을 처리하는데 중요한 요소로 인식되어왔다. 이 연구에서는 구조적 초록을 구성하는 세부 필드의 속성을 4개로 분석하고 초록의 구조를 활용하여 문서 클러스터링에 적용할 수 있는 가능성을 고찰고자 하였다. 구조적 초록의 필드 속성을 문서 클러스터링에 적용한 결과 클러스터링 기법간의 편차가 있었으나 연구 목적이 제공하는 정보량에 비해 주제성이 커서 클러스터링 성능에 가장 큰 영향을 미치고 있는 것으로 나타났다. 또한 분석 결과 특정 필드에 특화되어 출현하는 필드 종속적인 단어가 발생하는 것으로 나타나 필드 종속적인 단어를 배제하고 집단내 평균연결 기법을 적용하였을 때는 클러스터링의 성능이 개선되는 것으로 분석되었다.

역인덱스 기반 상향식 군집화 기법을 이용한 대규모 학술 핵심어 분석 (Analysis of Massive Scholarly Keywords using Inverted-Index based Bottom-up Clustering)

  • 오흥선;정유철
    • 한국산학기술학회논문지
    • /
    • 제19권11호
    • /
    • pp.758-764
    • /
    • 2018
  • 특허(patent), 학술 논문(scholarly paper)과 연구 보고서(research report)와 같은 디지털 문서(digital document)에는 주제(topic)를 요약하는 저자 키워드(author keyword)가 있다. 서로 다른 문서가 동일한 키워드를 공유하고 있다면 두 문서가 동일한 주제의 내용을 기술하고 있을 가능성이 매우 높다. 문서 군집화(document clustering)는 비슷한 주제를 가지는 문서들을 비지도 학습 방법(unsupervised learning)을 이용하여 같은 군집으로 그룹(group)화 하는 것이다. 문서 군집화는 다양한 분석에 이용되지만 대용량의 문서 데이터에 적용하기 위해서는 많은 계산량이 필요함으로 쉽지 않다. 이러한 경우, 문서의 내용을 이용하는 것보다 문서의 키워드를 이용하여 군집화하면 더욱 효율적으로 대용량의 데이터를 연결할 수 있다. 기존의 상향식 군집화 방법(bottom-up hierarchical clustering)은 대용량의 키워드 군집화(keyword clustering)를 수행하는데 있어서 많은 시간이 필요하다는 문제점이 있다. 본 논문에서는 정보검색(information retrieval)에서 널리 사용되는 역인덱스(inverted-index) 구조를 상향식 군집화에 적용한 효율적인 군집화 방법을 제안하고, 제안 방법을 대용량의 키워드 데이터에 적용하였으며, 그 결과를 분석하였다.