• 제목/요약/키워드: Document Order

검색결과 777건 처리시간 0.038초

텍스트 마이닝에서 심층 신경망을 이용한 문서 분류 (Document classification using a deep neural network in text mining)

  • 이보희;이수진;최용석
    • 응용통계연구
    • /
    • 제33권5호
    • /
    • pp.615-625
    • /
    • 2020
  • 문서-용어 빈도행렬은 그룹정보가 존재하는 문서들의 용어를 추출한 것으로 일반적인 텍스트 마이닝에서의 자료이다. 본 연구에서는 연구 분야 성격에 따른 문서 분류를 위해 문서-용어 빈도행렬을 생성하고, 전통적인 용어 가중치 함수인 TF-IDF와 최근 잘 알려진 용어 가중치 함수인 TF-IGM을 적용하였다. 또 용어 가중치가 적용된 문서-용어 가중행렬에 문서분류 정확도 향상을 위해 핵심어를 추출하여 문서-핵심어 가중행렬을 생성하였다. 핵심어가 추출된 행렬을 바탕으로, 심층 신경망을 이용해 문서를 분류하였다. 심층 신경망에서 최적의 모델을 찾기 위해 매개변수인 은닉층과 은닉노드수를 변화해가며 문서 분류 정확도를 확인하였다. 그 결과 8개의 은닉층을 가진 심층 신경망 모델이 가장 높은 정확도를 보였으며 매개변수 변화에 따른 모든 TF-IGM 문서 분류 정확도가 TF-IDF 문서 분류 정확도보다 높은 것을 확인하였다. 또한 개별 범주에 대한 문서 분류 분석 결과를 서포트 벡터 머신과 비교했을 때 심층 신경망이 대부분의 결과에서 더 좋은 정확도를 보임을 확인하였다.

확장된 질의 처리를 위해 경로간 의미적 유사도를 고려한 XML 문서 순위화 기법 (A Ranking Technique of XML Documents using Path Similarity for Expanded Query Processing)

  • 김현주;박소미;박석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권2호
    • /
    • pp.113-120
    • /
    • 2010
  • 정보기술의 표준으로 사용되고 있는 XML환경에서 방대한 양의 데이터에 대한 사용자의 질의를 효율적이고 정확하게 처리하기 위한 연구가 이슈화되고, 특히 웹 환경에서의 XML문서들은 용어적, 구조적인 측면에서 다양한 형태로 존재하고 있다. 이러한 특성을 갖는 XML 문서들을 대상으로 사용자가 특정한 정보를 얻고자 한다면, 사용자의 질의가 가진 용어 및 구조적 특성과 정확히 일치하지 않는 문서의 정보에 대해서 추가적인 기법이 필요하다. 본 논문은 이와 같은 경우에도 동일한 용어 및 구조를 사용하던 환경에서와 마찬가지로 최상위 순위로 정보를 검색할 수 있는 기법을 제시한다. 또한 정확히 일치하지 않는 문서의 경우에 대해서도 사용자 질의 측과의 경로간 의미적 유사성을 측정하여 사용자 질의와 의미적으로 유사한 경로를 가진 순으로 문서들을 순위화하여 제공한다. 제안된 기법은 실험을 통하여 기존의 기법보다 세밀하고 정확한 검색 결과를 도출함을 보인다.

전자정부내 의미기반 기술 도입에 따른 기능 및 정책 연구 (Research on Function and Policy for e-Government System using Semantic Technology)

  • 장영철
    • 한국산업정보학회논문지
    • /
    • 제13권5호
    • /
    • pp.22-28
    • /
    • 2008
  • 본 논문에서는 전자정부 시스템의 대 국민 사용성과 효율성을 증진시키기 위한 의미기반 문서 분류 방법(CoWDC)을 제시한다. 기존 의미기반 문서분류 방법에서 많은 양의 키워드들의 계층적 컨셉들을 이용하는 것을 지양하고 사용자들이 사용하는 키워드들 간의 관계를 중심으로 문서를 분류한다. 즉, 문서의 컨텍스트(context)에 근거하여 깊고 정확한 의미를 키워드 간 관계를 분석하여 적은 양의 정보로 효율적인 문서분류를 하게 된다. 이를 위해 제안한 CoWDC(Concept Wright Document Classification) 시스템은 기존의 시소러스/온톨로지의 의존도를 줄이고 키워드 관계, 관계의 경중 고려, 상하위 개념으로 변환 등을 통한 실험과 평가가 이루어졌다. 전자정부 시스템의 구조 및 특징 분석을 통해 CoWDC 실험 결과는 대국민 서비스 향상을 위해 매우 필요함을 인지하고 이를 접목하기 위한 기술적, 정책적 제언을 제시하였다. CoWDC를 통해 의미기반 검색기술의 우수함을 입증하였고 이는 전자정부 시스템의 지식베이스 구축, 운영체제의 운용, 시소러스의 구성 등의 과정에서 체계적으로 통합 운영되어야 한다.

  • PDF

문헌의 내용단위구조에 의한 전문검색시스템의 타당성 고찰 (A Study on the Feasibility of Full-Text Information Retrieval System Based on Document Content Structure)

  • 이병기
    • 한국문헌정보학회지
    • /
    • 제32권1호
    • /
    • pp.129-154
    • /
    • 1998
  • 전통적인 전문검색시스템은 전문색인방식을 취하고 있기 때문에 접근점이 많다는 장점이 있으나, 대량의 문헌이 검색되어 부적합 문헌이 검색될 가능성이 높고, 정보요구 상황이나 목적에 따라서 본문의 특정 부분만을 지정하여 탐색할 수 없다는 단점이 있다. 따라서 본고에서는 전문데이터베이스의 본문을 내용단위로 구조화해야 할 이론적 타당성을 검토하였으며, 선행연구에 나타난 학술논문의 내용단위구조를 비교 분석하여 내용단위요소를 추출하고, 실제 한국어로 작성된 180여건의 학술논문에 적용 검토함으로써 표준적인 학술논문의 내용구조 모델을 개발하였다. 그 결과 문헌의 내용단위구조는 이용자의 정보요구 상황이나 목적과 밀접하게 관련되어 있기 때문에 전문데이터베이스 구축이나 전문검색시스템의 설계시에 내용단위로 구조화해야할 필요성을 도출하였다.

  • PDF

MS 워드의 RSID 분석을 통한 문서파일 이력 추적 기법 연구 (Study on History Tracking Technique of the Document File through RSID Analysis in MS Word)

  • 전지훈;한재혁;정두원;이상진
    • 정보보호학회논문지
    • /
    • 제28권6호
    • /
    • pp.1439-1448
    • /
    • 2018
  • MS 워드를 포함한 다양한 전자 문서파일은 계약서 위조, 영업기밀 유출 등의 각종 법적 분쟁에서 주요 쟁점이 되고 있다. MS 워드 2007 이후부터 사용되는 OOXML(Office Open XML) 포맷의 파일 내부 메타데이터에는 고유의 RSID(Revision Identifier)가 저장되어 있다. RSID는 문서의 내용을 생성/수정/삭제 후 저장할 때마다 해당 단어, 문장, 또는 문단에 부여되는 고유한 값으로, 내용 추가/수정/삭제 이력, 작성 순서, 사용된 문서 어플리케이션 등의 문서 이력을 추정할 수 있다. 본 논문에서는 사용자의 행위에 따른 RSID의 변경 사항으로 원본과 사본 구별, 문서파일 유출 행위 등을 조사하는 방법론을 제시한다.

제한된 문서 영상에서 패턴 분절과 구분 처리에 관한 연구 (A Study on the Pattern Segmentation and Classification in Specially Documentated Imaged)

  • 옥철호;허도근;진용옥
    • 한국통신학회논문지
    • /
    • 제14권6호
    • /
    • pp.663-674
    • /
    • 1989
  • 본 논문은 문서자동 처리시스템의 구현을 위하여 문서영상의 패턴 분절과 구분처리 방법에 대하여 기술하였다. 가우스 분포함수의 1차 미분 연산자에 의한 윤곽선 추출과 체인 코드법에 의한 영상 분절, 2차 적률과 2차원 Rf 거리 (변환 영역)등에 의한 패턴 구분을 행하였다. 제한된 영상에 대하여 적용한 결과 문자 영역이나 지문, 사진, 도장 등 도형정보 영역을 잘 구분할 수 있음을 알았으며 사용된 알고리즘의 유용성을 검증할 수 있었다.

  • PDF

단일 카테고리 문서의 다중 카테고리 자동확장 방법론 (A Methodology for Automatic Multi-Categorization of Single-Categorized Documents)

  • 홍진성;김남규;이상원
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.77-92
    • /
    • 2014
  • 텍스트에 대한 사용자의 접근성을 향상시키기 위해, 이들 문서는 정해진 기준에 따라 카테고리로 분류되어 제공되고 있다. 과거에는 카테고리 분류 작업이 수작업으로 수행되었지만, 문서 작성자에게 분류를 맡기는 경우 분류 정확성을 보장할 수 없고 관리자가 모든 분류를 담당하는 경우 많은 시간과 비용이 소요된다는 어려움이 있었다. 이러한 한계를 극복하기 위해 카테고리를 자동으로 식별할 수 있는 문서 분류 기법에 대한 연구가 활발하게 수행되었다. 하지만 대부분의 문서 분류 기법은 각 문서가 하나의 카테고리에만 속하는 경우를 가정하고 있기 때문에, 하나의 문서가 다양한 주제를 갖는 실제 상황과 부합하지 않는다는 한계를 갖는다. 이를 보완하기 위해 최근 문서의 다중 카테고리 식별을 위한 연구가 일부 수행되었으나, 이들 연구는 대부분 이미 다중 카테고리가 부여되어 있는 문서에 대한 학습을 통해 분류 규칙을 생성하므로 단일 카테고리만 부여되어 있는 기존 문서의 다중 카테고리 식별에는 적용할 수 없다는 제약을 갖는다. 따라서 본 연구에서는 이러한 제약을 극복하기 위해, 카테고리, 토픽, 문서간 관계 분석을 통해 단일 카테고리를 갖는 문서로부터 추가 주제를 발굴하여 이를 다중 카테고리로 자동 확장시킬 수 있는 방법론을 제안하였다. 실험 결과 원 카테고리가 식별된 총 24,000건의 문서 중 23,089건에 대해 카테고리를 확장시킬 수 있었다. 또한 정확도 분석에서 카테고리의 특성에 따라 카테고리 분류 정확도가 상이하게 나타나는 현상을 발견하였다. 본 연구는 단일 카테고리로 분류된 문서에 대해 다중 카테고리를 추가로 식별하여 부여함으로써, 규칙 학습 과정에서 다중 카테고리가 부여된 문서를 필요로 하는 기존 다중 카테고리 문서 분류 알고리즘의 활용성을 매우 향상시킬 수 있을 것으로 기대한다.

조선 문서행이체제에 반영된 국왕의 위상 (King's Status Reflected in The Joseon Dynasty's Document transmission System)

  • 이형중
    • 기록학연구
    • /
    • 제66호
    • /
    • pp.203-227
    • /
    • 2020
  • 본 논문은 조선시대 문서행이체제의 일반적인 원칙을 따르지 않았던 일부 예외 사례를 중심으로, 조선 문서행이체제상에서 국왕이라는 존재가 어떠한 영향력을 행사하였는지를 살펴보기 위해 작성되었다. 조선의 문서행정체계에서는 관청 간 지위 고하에 따라 발신기관이 사용할 수 있는 문서식이 법으로 규정되어 있었다. 그러나 이 원칙이 통용되지 않은 사례들이 확인되는데, 병조(兵曹)와 승정원 및 규장각의 문서행이체제 등이 그러하다. 병조는 군정(軍政)을 담당하는 정2품의 실무기관이며, 승정원은 조선 건국 초기부터 존재한 국왕의 비서조직으로서 국왕의 보좌와 왕명의 출납을 담당한 정3품의 아문이다. 규장각은 정조대에 일종의 왕실 도서관이자 국왕의 보좌기구로서의 역할을 행하기 위해 설치된 종2품의 아문이다. 병조는 군사(軍事)와 관계된 사안에 한해서는 직품이 동일한 서울과 지방 군사기구에 대해서도 문서행정체계상의 상급 기관으로서 간주되었다. 또한 승정원과 규장각은 상급기관을 대상으로 동등 이하에 보내는 문서식인 관문을 사용할 수 있었으며, 상급기관이 오히려 이들에게 동등 이상에 보내야 하는 첩정식을 사용해야 했다. 이들 기관이 문서행이체제상에서 이와 같은 특수성을 누릴 수 있었던 이유는 조선이 국왕을 중심으로 한 행정체계를 구축하였기 때문이다. 병조는 국왕이 직접 행사하는 군권을 위임받아 시행하는 기구였으며 승정원과 규장각은 국왕의 보좌와 왕명의 출납을 관장하는 기관이기에, 일반적인 관청과 달리 품계에 따른 문서식에 구애받지 않았던 것이다. 즉 조선은 관청 간 문서행이체제의 원칙이 있었음에도 불구하고 국왕이라는 존재에 근거한 예외사항을 운영하였으며, 이는 조선 문서행이체제가 기본적으로 국왕을 정점으로 한 유교관료체제하에서 운영된 것이었음을 드러내는 것이라 하겠다.

하이퍼텍스트를 이용한 품질문서 관리시스템 구축 사례 (Development of Quality Document Management System Using Hypertext)

  • 정현석;남호수;박동준;김호균
    • 품질경영학회지
    • /
    • 제28권3호
    • /
    • pp.104-113
    • /
    • 2000
  • In this paper, we present a useful system to manage the quality documents, using the concept of hypertext in HANGUEL wordprocessor, In order to develop this system, we classify all manuals, procedures and forms into files. A relationship chart of these files is constructed and files are hyperlinked according to this chart. We apply this quality document management system using hyper- text to a small precision manufacturing firm by analyzing its all kinds of quality documents. We confirm that this system effectively reduces the handling time of quality documents and supports revising task of quality documents with consistency.

  • PDF

고한어(古漢語) 연구와 <사기(史記)>문헌(文獻) 정리 (The Study of Ancient Chinese and arrange SHI-JI document)

  • 서원남
    • 비교문화연구
    • /
    • 제35권
    • /
    • pp.269-291
    • /
    • 2014
  • China has countless ancient books that contain thousand years of continuously recorded history across every generation. It is essential to organize the ancient cultural literature in order to better communicate. The study of ancient Chinese literature recently has become a subject of priority. Shi-Ji, one of the representative documents, is used for record keeping because of its experience with ancient Chinese historic materials and artifacts. This draft of Shi-ji is based on ancient Chinese research methods with the purpose to explore the character, phonology, syntax, exegesis and collation of historical value.