• 제목/요약/키워드: 문서 이해

검색결과 372건 처리시간 0.029초

영상 분할을 활용한 화학 구조 문서 이해 (Understanding Documents With Chemical Structures Using Image Segmentation)

  • 양혜윤;조남익
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.1297-1300
    • /
    • 2022
  • Document layout analysis는 문서 이미지의 구조와 구성요소를 파악하는 기술이다. 기존 딥러닝을 사용한 학습 기반 방법에는 각 구성 요소를 검출하는 detection 기반 방식이 많으나 이는 다양한 형식의 문서 이미지에 확장될 수 있는 가능성이 낮다는 한계가 존재한다. 특히, 다양한 모양과 크기의 화학 구조를 포함하는 화학 문서 이미지에 적용하기 어렵다. 본 논문에서는 영상분할을 활용하여 화학 구조 문서를 이해하는 연구를 진행하였다. 기존의 블록 단위로 레이블링된 벤치마크와 다르게 객체 단위로 레이블링한 학습 데이터를 가지고 DeepLabv3 구조의 네트워크를 학습하여 화학 문서 이미지를 효과적으로 분할하였다. 객체 단위 레이블링과 영상 분할을 사용한 방식이 문서 이해 및 화학 구조 검출에 준수한 성능을 보이는 것을 확인하였고 이 방식이 다양한 형식의 문서 이미지에 확장될 수 있음을 보였다.

  • PDF

ICT 교사를 위한 다이나믹 웹문서 랭킹시스템 (A dynamic web document ranking system for ICT teachers)

  • 이미선;전석주
    • 한국정보교육학회:학술대회논문집
    • /
    • 한국정보교육학회 2007년도 하계학술대회
    • /
    • pp.322-327
    • /
    • 2007
  • 2005년 12월 개정된 정보통신기술교육 지침에 따르면 컴퓨터의 과학적인 요소를 '정보처리이해' 단계에서 도입하였다. 자료구조와 알고리즘, 프로그래밍의 기초를 교육하도록 개정하였는데 현장 교사들이 그 내용을 잘 이해하지 못하고 있어 교육하기에 많은 어려움이 있다. 본 연구는 '정보처리이해' 과정을 가르치는데 도움이 되는 구체적인 웹문서를 검색 수집 정리 분류하여 ICT교사들에게 제공한다. 또한 ICT교사들이 참조한 웹문서에 대해 활용도를 평가하고 높은 점수의 웹문서를 상위에 링크시키는 다이나믹한 랭킹 시스템에 관한 설계이다.

  • PDF

텍스트 이해 모델에 기반한 정보 검색 시스템 (Text Undestanding System for Summarization)

  • 송인석;박혁로
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.1-6
    • /
    • 1997
  • 본 논문에서는 인지적 텍스트 이해 모형을 제시하고 이에 기반한 자동 요약 시스템을 구현하였다. 문서는 정보의 단순한 집합체가 아닌 정형화된 언어 표현 양식으로서 단어의 의미적 정보와 함께 표현 양식, 문장의 구조와 문서의 구성을 통해 정보를 전달한다. 요약 목적의 텍스트 이해 및 분석 과정을 위해 경제 분야 기사 1000건에 대한 수동 요약문을 분석, 이해 모델을 정립하였고. 경제 분야 기사 1000건에 대한 테스트 결과를 토대로 문장간의 관계, 문서의 구조에서 요약 정보 추출에 사용되는 정보를 분석하였다. 본 텍스트 이해 모형은 단어 빈도수에 의존하는 통계적 모델과 비교해 볼 때, 단어 간의 관련성을 찾아내고, 문서구조정보에 기반한 주제문 추출 및 문장간의 관계를 효과적으로 사용함으로서 정보를 생성한다. 그리고 텍스트 이해 과정에서 사용되는 요약 지식과 구조 분석정보의 상관관계를 체계적으로 연결함으로서 자동정보 추출에서 야기되는 내용적 만족도 문제를 보완한다.

  • PDF

문서 요약 데이터셋을 이용한 생성형 근거 추론 방법 (Generative Evidence Inference Method using Document Summarization Dataset)

  • 장예진;장영진;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.137-140
    • /
    • 2023
  • 자연어처리는 인공지능 발전과 함께 주목받는 분야로 컴퓨터가 인간의 언어를 이해하게 하는 기술이다. 그러나 많은 인공지능 모델은 블랙박스처럼 동작하여 그 원리를 해석하거나 이해하기 힘들다는 문제점이 있다. 이 문제를 해결하기 위해 설명 가능한 인공지능의 중요성이 강조되고 있으며, 활발히 연구되고 있다. 연구 초기에는 모델의 예측에 큰 영향을 끼치는 단어나 절을 근거로 추출했지만 문제 해결을 위한 단서 수준에 그쳤으며, 이후 문장 단위의 근거로 확장된 연구가 수행되었다. 하지만 문서 내에 서로 떨어져 있는 근거 문장 사이에 누락된 문맥 정보로 인하여 이해에 어려움을 줄 수 있다. 따라서 본 논문에서는 사람에게 보다 이해하기 쉬운 근거를 제공하기 위한 생성형 기반의 근거 추론 연구를 수행하고자 한다. 높은 수준의 자연어 이해 능력이 필요한 문서 요약 데이터셋을 활용하여 근거를 생성하고자 하며, 실험을 통해 일부 기계독해 데이터 샘플에서 예측에 대한 적절한 근거를 제공하는 것을 확인했다.

  • PDF

XML 문서 키워드 가중치 분석 기반 문단 추출 모델 (XML Document Keyword Weight Analysis based Paragraph Extraction Model)

  • 이종원;강인식;정회경
    • 한국정보통신학회논문지
    • /
    • 제21권11호
    • /
    • pp.2133-2138
    • /
    • 2017
  • 기존의 XML 문서나 다른 문서는 단어를 중심으로 분석이 진행되었다. 이는 형태소 분석기를 활용하여 구현이 가능하나 문서 내에 기재되어 있는 많은 단어를 분류할 뿐 문서의 핵심 내용을 파악하기에는 어려움이 있다. 사용자가 문서를 효율적으로 이해하기 위해서는 주요 단어가 포함되어 있는 문단을 추출하여 사용자에게 보여주어야 한다. 본 논문에서 제안하는 시스템은 정규화 된 XML 문서 내에 키워드를 검색하고 사용자가 입력한 키워드들이 포함되어 있는 문단을 추출하여 사용자에게 보여준다. 그리고 검색에 사용된 키워드들의 빈도수와 가중치를 사용자에게 알려주고 추출한 문단의 순서와 중복 제거 기능을 통해 사용자가 문서를 이해하는데 발생할 수 있는 오류를 최소화하였다. 제안하는 시스템은 사용자가 문서 전체를 읽지 않고 문서를 이해할 수 있게 하여 문서를 이해하는데 필요한 시간과 노력을 최소화할 수 있을 것으로 사료된다.

부분 매칭을 이용한 서식 이해에 관한 연구 (Document Understanding using Partial Matching Method)

  • 변영철;윤성수;김경환;최영우;이일병
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.443-445
    • /
    • 1999
  • 여러 가지 유형의 서식 문서를 자동으로 처리하려면 서식을 이해하는데 필요한 항목 영상을 추출하기에 앞서 서식을 분류(classification)해야 한다. 서식을 분류함에 있어서 서식 영상 전체를 다룰 경우 상당한 시간이 걸릴 수 있다. 왜냐하면 일반적으로 서식 문서 영상의 크기는 일반 문자 영상에 비해 상당히 클 뿐만 아니라 대상 서식 문서의 유형도 많아질 수 있기 때문이다. 본 연구에서는 이러한 문제를 해결하기 위한 방법으로서 DP 매칭에 의한 부분 매칭 방법을 제안하고자 한다. 실험 결과, 제안하는 방법은 서식 문서의 전체가 아닌 일부 영역만을 비교함으로써 인식 시간과 인식률 면에서 서식 문서를 효과적으로 처리할 수 있었다.

  • PDF

사용자의 이해수준에 따른 효율적인 웹문서 검색 (Efficient Web Document Search based on Users' Understanding Levels)

  • 심상희;이수정
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권1호
    • /
    • pp.38-46
    • /
    • 2009
  • 웹 문서 수가 급격히 증가함에 따라 인터넷을 검색할 때마다 발생하는 정보의 과부하 문제가 심각하게 부각되었다. 이러한 문제를 경감시키기 위해 사용자의 선호도에 부합하는 웹 환경을 조성하여 주는 등의 개인화 작업이 주목을 받고 있으나, 대부분의 검색 엔진은 사용자 질의어에만 초점을 두어 응답결과를 산출하고 있다. 이에 본 논문에서는 사용자의 이해수준에 따른 개인화된 검색 결과를 추출하는 방식에 대해 연구한다. 기존 연구와 차별화된 특징은 사용자 이해 수준을 고려하여 그에 맞는 난이도의 문서들이 우선적으로 검색되게 하는 것이다. 문서에 접근한 사용자들의 이해수준을 바탕으로 문서난이도를 변경시켜 주고, 사용자의 이해수준은 사용자가 접근한 문서 난이도를 바탕으로 주기적으로 변경시켜, 문서 난이도와 사용자 이해수준이 상호 연계되며 변경되도록 하였다. 본 논문의 결과를 적용한 웹 검색 시스템은 다양한 연령충의 웹 사용자들에게 매우 유익한 결과를 가져다 줄 것이다.

웹 기반의 Java 바이트 코드의 이해를 지원하는 XML 문서 생성 (Web-based XML Document Generation Supporting Java Byte Code Understanding)

  • 나강숙;이재현;유철중;장옥배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (A)
    • /
    • pp.585-587
    • /
    • 2000
  • 본 논문은 웹 기반의 Java 바이트 코드의 이해를 지원하는 XML(eXtensible Markup Language)문서를 생성하는 것을 목적으로 한다. 기존 XML 문서는 사용자가 임의로 태그를 생성하여 확장할 수 있는 장점이 있는 반면에 프로그램에 대한 태그의 정적인 정보만을 제공하는 단점이 있다. 따라서 정적인 정보만을 제공하는 XML 문서에 Java 바이트 코드를 Javap로 역어셈블(disassemble)하여 얻을 수 있는 메소드 호출의 동적인 정보를 추가할 필요가 있다. 본 논문은 이러한 Java 바이트 코드에 대해 동적.정적인 정보가 포함되어 있는 XML 문서를 웹 상에서 클라이언트에게 다운로드(down load)할 수 있는 기능을 제공하여 Java 프로그램의 이해도를 증진시키는데 그 의의가 있다.

  • PDF

다중 사용자 환경에서 Annotation 인터페이스의 설계 및 구현 (Implementation and Design of the Annotation Interface in Multi-User Environment)

  • 이현찬;고승규;임순범;최윤철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.562-564
    • /
    • 2002
  • 사람은 누구나 책이나 문서를 읽을 매 중요한 부분에 강조, 헤선 인명을 위한 행위로 표시를 하거나 글을 입력한다. 이렇게 입력된 부가 정보를 Annotation이라고 한다[7]. 차후 이 부분에 대한 참조를 할 때 생성한 Annotation을 이용하면 책이나 문서에 대한 이해도를 높일 수 있다 결과 Annotation은 한번 사용하고 그치는 정보가 아닌 재사용할 수 있는 정보임을 의미한다[1,2,3] 따라서 이러한 Annotation 기능을 웹 문서에 적용하게 되면 종이문서에서 얻을 수 있는 장점뿐만 아니라 웹 환경의 특징인 공유[5], 검색[4], 재편집 등의 기능을 얻을 수 있다. 이에 관한 Annotation 연구가 많이 있지만, 여러 Annotation들 간의 무의미만 출력 근서 , 문서와 Annotation 간의 위치 관계, Annotation 출력으로 인한 문서 구조 변경 등의 문제점으로 사용자들이 쉽게 사용및 이해할 수 있는 Annotation 인터페이스에 대한 연구가 부족한 실정이다 그러므로 본 논문에서는 Annotation들 간의 의미적 관계와 적절한 Annotation의 우선 접근을 위해 계층적 Annotation 구조론 제안하고. Annotation 출력으로 인한 문서 변경 문제를 해결하기 위해 문서와 인접한 위치에 Annotation을 출력하되 Annotation을 사용자가 원하는 위치로 이동시킬 수 있는 유동적 Annotation 인터페이스를 제안한다

  • PDF

Shifting from paper to Digital Records - Preservation?

  • Cloonan, Michele V.
    • 한국기록관리학회지
    • /
    • 제2권2호
    • /
    • pp.137-147
    • /
    • 2002
  • 전자문서의 보존은 보존관리인들에게 새로운 과제를 가져다 주었으며, 오늘날처럼 정보를 파악하기 힘든 적은 없었다. 문서가 일단 매체로 전환되면 수 백년 혹은 수 천년까지 영속할 수 있었으나, 전자문서는 사라질 위기에 있어서 물리적으로는 이용할 수 없고 법적으로는 적합하지 않아 받아들여질 수 없는데, 이러한 현상이 나타나는 원인은 매체가 더 이상 쓰이지 않는다든가, 기술력이 시대에 뒤떨어져 쓰이지 않는 다든가, 표준이나 안내지침이 부족하거나, 보존관리인들의 전자문서관리와 보존을 위한 계획안을 마련하지 못한다는 등의 이유때문이라고 할 수 있다. 종이자료와 달리, 전자매체는 물리적인 객체로 보존될 수 없고, 전자문서는 단지 문서를 재생할 능력을 보존할 뿐이다. 그리하여 전자문서의 적절한 관리가 문서보존에 더 할 수 없이 중요하게 되었으며 전자정보관리의 초창기인 지금 우리가 최신의 문화유산이 지닌 잠재력과 함정을 모두 이해하기 힘들기 때문에 이를 완전히 이해할 때까지 완전한 보존해야 할 것이다.