• Title/Summary/Keyword: 문서 이해

Search Result 370, Processing Time 0.03 seconds

Understanding Documents With Chemical Structures Using Image Segmentation (영상 분할을 활용한 화학 구조 문서 이해)

  • Yang, Haeyoon;Cho, Nam Ik
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.06a
    • /
    • pp.1297-1300
    • /
    • 2022
  • Document layout analysis는 문서 이미지의 구조와 구성요소를 파악하는 기술이다. 기존 딥러닝을 사용한 학습 기반 방법에는 각 구성 요소를 검출하는 detection 기반 방식이 많으나 이는 다양한 형식의 문서 이미지에 확장될 수 있는 가능성이 낮다는 한계가 존재한다. 특히, 다양한 모양과 크기의 화학 구조를 포함하는 화학 문서 이미지에 적용하기 어렵다. 본 논문에서는 영상분할을 활용하여 화학 구조 문서를 이해하는 연구를 진행하였다. 기존의 블록 단위로 레이블링된 벤치마크와 다르게 객체 단위로 레이블링한 학습 데이터를 가지고 DeepLabv3 구조의 네트워크를 학습하여 화학 문서 이미지를 효과적으로 분할하였다. 객체 단위 레이블링과 영상 분할을 사용한 방식이 문서 이해 및 화학 구조 검출에 준수한 성능을 보이는 것을 확인하였고 이 방식이 다양한 형식의 문서 이미지에 확장될 수 있음을 보였다.

  • PDF

A dynamic web document ranking system for ICT teachers (ICT 교사를 위한 다이나믹 웹문서 랭킹시스템)

  • Lee, Mi-Sun;Chun, Seok-Ju
    • 한국정보교육학회:학술대회논문집
    • /
    • 2007.08a
    • /
    • pp.322-327
    • /
    • 2007
  • 2005년 12월 개정된 정보통신기술교육 지침에 따르면 컴퓨터의 과학적인 요소를 '정보처리이해' 단계에서 도입하였다. 자료구조와 알고리즘, 프로그래밍의 기초를 교육하도록 개정하였는데 현장 교사들이 그 내용을 잘 이해하지 못하고 있어 교육하기에 많은 어려움이 있다. 본 연구는 '정보처리이해' 과정을 가르치는데 도움이 되는 구체적인 웹문서를 검색 수집 정리 분류하여 ICT교사들에게 제공한다. 또한 ICT교사들이 참조한 웹문서에 대해 활용도를 평가하고 높은 점수의 웹문서를 상위에 링크시키는 다이나믹한 랭킹 시스템에 관한 설계이다.

  • PDF

Text Undestanding System for Summarization (텍스트 이해 모델에 기반한 정보 검색 시스템)

  • Song, In-Seok;Park, Hyuk-Ro
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.1-6
    • /
    • 1997
  • 본 논문에서는 인지적 텍스트 이해 모형을 제시하고 이에 기반한 자동 요약 시스템을 구현하였다. 문서는 정보의 단순한 집합체가 아닌 정형화된 언어 표현 양식으로서 단어의 의미적 정보와 함께 표현 양식, 문장의 구조와 문서의 구성을 통해 정보를 전달한다. 요약 목적의 텍스트 이해 및 분석 과정을 위해 경제 분야 기사 1000건에 대한 수동 요약문을 분석, 이해 모델을 정립하였고. 경제 분야 기사 1000건에 대한 테스트 결과를 토대로 문장간의 관계, 문서의 구조에서 요약 정보 추출에 사용되는 정보를 분석하였다. 본 텍스트 이해 모형은 단어 빈도수에 의존하는 통계적 모델과 비교해 볼 때, 단어 간의 관련성을 찾아내고, 문서구조정보에 기반한 주제문 추출 및 문장간의 관계를 효과적으로 사용함으로서 정보를 생성한다. 그리고 텍스트 이해 과정에서 사용되는 요약 지식과 구조 분석정보의 상관관계를 체계적으로 연결함으로서 자동정보 추출에서 야기되는 내용적 만족도 문제를 보완한다.

  • PDF

Generative Evidence Inference Method using Document Summarization Dataset (문서 요약 데이터셋을 이용한 생성형 근거 추론 방법)

  • Yeajin Jang;Youngjin Jang;Harksoo Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.137-140
    • /
    • 2023
  • 자연어처리는 인공지능 발전과 함께 주목받는 분야로 컴퓨터가 인간의 언어를 이해하게 하는 기술이다. 그러나 많은 인공지능 모델은 블랙박스처럼 동작하여 그 원리를 해석하거나 이해하기 힘들다는 문제점이 있다. 이 문제를 해결하기 위해 설명 가능한 인공지능의 중요성이 강조되고 있으며, 활발히 연구되고 있다. 연구 초기에는 모델의 예측에 큰 영향을 끼치는 단어나 절을 근거로 추출했지만 문제 해결을 위한 단서 수준에 그쳤으며, 이후 문장 단위의 근거로 확장된 연구가 수행되었다. 하지만 문서 내에 서로 떨어져 있는 근거 문장 사이에 누락된 문맥 정보로 인하여 이해에 어려움을 줄 수 있다. 따라서 본 논문에서는 사람에게 보다 이해하기 쉬운 근거를 제공하기 위한 생성형 기반의 근거 추론 연구를 수행하고자 한다. 높은 수준의 자연어 이해 능력이 필요한 문서 요약 데이터셋을 활용하여 근거를 생성하고자 하며, 실험을 통해 일부 기계독해 데이터 샘플에서 예측에 대한 적절한 근거를 제공하는 것을 확인했다.

  • PDF

XML Document Keyword Weight Analysis based Paragraph Extraction Model (XML 문서 키워드 가중치 분석 기반 문단 추출 모델)

  • Lee, Jongwon;Kang, Inshik;Jung, Hoekyung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.21 no.11
    • /
    • pp.2133-2138
    • /
    • 2017
  • The analysis of existing XML documents and other documents was centered on words. It can be implemented using a morpheme analyzer, but it can classify many words in the document and cannot grasp the core contents of the document. In order for a user to efficiently understand a document, a paragraph containing a main word must be extracted and presented to the user. The proposed system retrieves keyword in the normalized XML document. Then, the user extracts the paragraphs containing the keyword inputted for searching and displays them to the user. In addition, the frequency and weight of the keyword used in the search are informed to the user, and the order of the extracted paragraphs and the redundancy elimination function are minimized so that the user can understand the document. The proposed system can minimize the time and effort required to understand the document by allowing the user to understand the document without reading the whole document.

Document Understanding using Partial Matching Method (부분 매칭을 이용한 서식 이해에 관한 연구)

  • 변영철;윤성수;김경환;최영우;이일병
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.443-445
    • /
    • 1999
  • 여러 가지 유형의 서식 문서를 자동으로 처리하려면 서식을 이해하는데 필요한 항목 영상을 추출하기에 앞서 서식을 분류(classification)해야 한다. 서식을 분류함에 있어서 서식 영상 전체를 다룰 경우 상당한 시간이 걸릴 수 있다. 왜냐하면 일반적으로 서식 문서 영상의 크기는 일반 문자 영상에 비해 상당히 클 뿐만 아니라 대상 서식 문서의 유형도 많아질 수 있기 때문이다. 본 연구에서는 이러한 문제를 해결하기 위한 방법으로서 DP 매칭에 의한 부분 매칭 방법을 제안하고자 한다. 실험 결과, 제안하는 방법은 서식 문서의 전체가 아닌 일부 영역만을 비교함으로써 인식 시간과 인식률 면에서 서식 문서를 효과적으로 처리할 수 있었다.

  • PDF

Efficient Web Document Search based on Users' Understanding Levels (사용자의 이해수준에 따른 효율적인 웹문서 검색)

  • Shim, Sang-Hee;Lee, Soo-Jung
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.15 no.1
    • /
    • pp.38-46
    • /
    • 2009
  • With the rapid increase in the number of Web documents, the problem of information overload is growing more serious in Internet search. In order to ease the problem, researchers are paying attention to personalization, which creates Web environment fittingly for users' preference, but most of search engines produce results focused on users' queries. Thus, the present study examined the method of producing search results personalized based on a user's understanding level. A characteristic that differentiates this study from previous researches is that it considers users' understanding level and searches documents of difficulty fit for the level first. The difficulty level of a document is adjusted based on the understanding level of users who access the document, and a user's understanding level is updated periodically based on the difficulty of documents accessed by the user. A Web search system based on the results of this study is expected to bring very useful results to Web users of various age groups.

Web-based XML Document Generation Supporting Java Byte Code Understanding (웹 기반의 Java 바이트 코드의 이해를 지원하는 XML 문서 생성)

  • 나강숙;이재현;유철중;장옥배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.585-587
    • /
    • 2000
  • 본 논문은 웹 기반의 Java 바이트 코드의 이해를 지원하는 XML(eXtensible Markup Language)문서를 생성하는 것을 목적으로 한다. 기존 XML 문서는 사용자가 임의로 태그를 생성하여 확장할 수 있는 장점이 있는 반면에 프로그램에 대한 태그의 정적인 정보만을 제공하는 단점이 있다. 따라서 정적인 정보만을 제공하는 XML 문서에 Java 바이트 코드를 Javap로 역어셈블(disassemble)하여 얻을 수 있는 메소드 호출의 동적인 정보를 추가할 필요가 있다. 본 논문은 이러한 Java 바이트 코드에 대해 동적.정적인 정보가 포함되어 있는 XML 문서를 웹 상에서 클라이언트에게 다운로드(down load)할 수 있는 기능을 제공하여 Java 프로그램의 이해도를 증진시키는데 그 의의가 있다.

  • PDF

Implementation and Design of the Annotation Interface in Multi-User Environment (다중 사용자 환경에서 Annotation 인터페이스의 설계 및 구현)

  • 이현찬;고승규;임순범;최윤철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.562-564
    • /
    • 2002
  • 사람은 누구나 책이나 문서를 읽을 매 중요한 부분에 강조, 헤선 인명을 위한 행위로 표시를 하거나 글을 입력한다. 이렇게 입력된 부가 정보를 Annotation이라고 한다[7]. 차후 이 부분에 대한 참조를 할 때 생성한 Annotation을 이용하면 책이나 문서에 대한 이해도를 높일 수 있다 결과 Annotation은 한번 사용하고 그치는 정보가 아닌 재사용할 수 있는 정보임을 의미한다[1,2,3] 따라서 이러한 Annotation 기능을 웹 문서에 적용하게 되면 종이문서에서 얻을 수 있는 장점뿐만 아니라 웹 환경의 특징인 공유[5], 검색[4], 재편집 등의 기능을 얻을 수 있다. 이에 관한 Annotation 연구가 많이 있지만, 여러 Annotation들 간의 무의미만 출력 근서 , 문서와 Annotation 간의 위치 관계, Annotation 출력으로 인한 문서 구조 변경 등의 문제점으로 사용자들이 쉽게 사용및 이해할 수 있는 Annotation 인터페이스에 대한 연구가 부족한 실정이다 그러므로 본 논문에서는 Annotation들 간의 의미적 관계와 적절한 Annotation의 우선 접근을 위해 계층적 Annotation 구조론 제안하고. Annotation 출력으로 인한 문서 변경 문제를 해결하기 위해 문서와 인접한 위치에 Annotation을 출력하되 Annotation을 사용자가 원하는 위치로 이동시킬 수 있는 유동적 Annotation 인터페이스를 제안한다

  • PDF

Shifting from paper to Digital Records - Preservation?

  • Cloonan, Michele V.
    • Journal of Korean Society of Archives and Records Management
    • /
    • v.2 no.2
    • /
    • pp.137-147
    • /
    • 2002
  • 전자문서의 보존은 보존관리인들에게 새로운 과제를 가져다 주었으며, 오늘날처럼 정보를 파악하기 힘든 적은 없었다. 문서가 일단 매체로 전환되면 수 백년 혹은 수 천년까지 영속할 수 있었으나, 전자문서는 사라질 위기에 있어서 물리적으로는 이용할 수 없고 법적으로는 적합하지 않아 받아들여질 수 없는데, 이러한 현상이 나타나는 원인은 매체가 더 이상 쓰이지 않는다든가, 기술력이 시대에 뒤떨어져 쓰이지 않는 다든가, 표준이나 안내지침이 부족하거나, 보존관리인들의 전자문서관리와 보존을 위한 계획안을 마련하지 못한다는 등의 이유때문이라고 할 수 있다. 종이자료와 달리, 전자매체는 물리적인 객체로 보존될 수 없고, 전자문서는 단지 문서를 재생할 능력을 보존할 뿐이다. 그리하여 전자문서의 적절한 관리가 문서보존에 더 할 수 없이 중요하게 되었으며 전자정보관리의 초창기인 지금 우리가 최신의 문화유산이 지닌 잠재력과 함정을 모두 이해하기 힘들기 때문에 이를 완전히 이해할 때까지 완전한 보존해야 할 것이다.