• 제목/요약/키워드: 문서표현

검색결과 1,136건 처리시간 0.035초

문서의 키워드 추출에 대한 신경망 접근 (Neural Based Approach to Keyword Extraction from Documents)

  • 조태호;서정현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.317-319
    • /
    • 2000
  • 문서는 자연어로 구성된 비정형화된 데이터이다. 이를 처리하기 위하여 문서를 정형화된 데이터로 표현하여 저장할 필요가 있는데, 이를 문서 대용물(Document Surrogate)라 한다. 문서 대용물은 대표적으로 인덱싱 과정에 의해 추출된 단어 리스트를 나타낸다. 문서 내의 모든 단어가 내용을 반영하지 않는다. 문서의 내용을 반영하는 중요한 단어만을 선택할 필요가 있다. 이러한 단어를 키워드라 하며, 기존에는 단어의 빈도와 역문서 빈도(Inverse Document Frequency)에 근거한 공식에 의해 키워드를 선택하였다. 실제로 문서내 빈도와 역문서 빈도뿐만 아니라 제목에 포함 여부, 단어의 위치 등도 고려하여야 한다. 이러한 인자를 추가할 경우 이를 수식으로 표현하기에는 복잡하다. 이 논문에서는 이를 단어의 특징으로 추출하여 특징벡터를 형성하고 이를 학습하여 키워드를 선택하는 신경망 모델인 역전파의 접근을 제안한다. 역전파를 이용하여 키워드를 판별한 결과 수식에 의한 경우보다 그 성능이 향상되었음을 보여주고 있다.

  • PDF

긴 문서를 위한 BERT 기반의 End-to-End 한국어 상호참조해결 (Korean End-to-End Coreference Resolution with BERT for Long Document)

  • 조경빈;정영준;이창기;류지희;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.259-263
    • /
    • 2021
  • 상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 상호참조해결에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후, 멘션 탐지와 상호참조해결을 동시에 진행하는 end-to-end 모델이 주로 연구되었으나, 512 토큰 이상의 긴 문서를 처리하기 위해서는 512 토큰 이하로 문서를 분할하여 처리하기 때문에 길이가 긴 문서에 대해서는 상호참조해결 성능이 낮아지는 문제가 있다. 본 논문에서는 512 토큰 이상의 긴 문서를 위한 BERT 기반의 end-to-end 상호참조해결 모델을 제안한다. 본 모델은 긴 문서를 512 이하의 토큰으로 쪼개어 기존의 BERT에서 단어의 1차 문맥 표현을 얻은 후, 이들을 다시 연결하여 긴 문서의 Global Positional Encoding 또는 Embedding 값을 더한 후 Global BERT layer를 거쳐 단어의 최종 문맥 표현을 얻은 후, end-to-end 상호참조해결 모델을 적용한다. 실험 결과, 본 논문에서 제안한 모델이 기존 모델과 유사한 성능을 보이면서(테스트 셋에서 0.16% 성능 향상), GPU 메모리 사용량은 1.4배 감소하고 속도는 2.1배 향상되었다.

  • PDF

XML 문서를 위한 효율적인 색인구조의 설계 (A Design of an Efficient Index Organization for XML Documents)

  • 안선하;박경환
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2000년도 춘계학술발표논문집
    • /
    • pp.292-295
    • /
    • 2000
  • XML은 메타언어로써 구조적인 문서를 생성할 수있게 하며 이러한 구조적인 문서는 내용 기반검색,질의등의 처리가 가능하다는 것이다. XML문서의 논리적 구조를 표현하는 방법은 사용자 정의 문서타입(DTD)과 XML Schema 의 두가지 방식이 있으며, XML Schema 는 사용자 정의문서타입(DTD)에 비해 다양한 데이터 타입, namespace, Open-ended 데이터 모델등을 지원하여 문서의 구조 정의를 훨씬 더 유연하고 명시적이게 하게 하는 장점이있다. 본 논문에서는 XML 문서 검색을 위해 XML Schemadp 기반하여 내용 검색과 구조 검색을 효율적으로 지원하는 인덱스 구조를 제안한다. 요소들의 정의에 따르면 계층관계를 표현하기위한 구조정보와 XML 문서 인스턴스에서 나타나는 각 요소들의 순서정보를 요소의 ID로 사용함으로써 임의의 요소를 효율적으로 접근할 수 있게 한다.

  • PDF

종자 어휘를 이용한 자질 추출과 지지 벡터 기계(SVM)을 이용한 문서 감정 분류 시스템의 개발 (A Sentiment Classification System Using Feature Extraction from Seed Words and Support Vector Machine)

  • 황재원;전태균;고영중
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.938-942
    • /
    • 2007
  • 신문 기사 및 상품 평은 특정 주제나 상품을 대상으로 하여 글쓴이의 감정과 의견이 잘 나타나 있는 대표적인 문서이다. 최근 여론 조사 및 상품 의견 조사 등 다양한 측면에서 대용량의 문서의 의미적 분류 및 분석이 요구되고 있다. 본 논문에서는 문서에 나타난 내용을 기준으로 문서가 나타내고 있는 감정을 긍정과 부정의 두 가지 범주로 분류하는 시스템을 구현한다. 문서 분류의 시작은 감정을 지닌 대표적인 종자 어휘(seed word)로부터 시작하며, 자질의 선정은 한국어 특징상 감정 및 감각을 표현하는 명사, 형용사, 부사, 동사를 대상으로 한다. 가중치 부여 방법은 한글 유의어 사전을 통해 종자 어휘의 의미를 확장하여 각각의 가중치를 책정한다. 단어 벡터로 표현된 입력 문서를 이진 분류기인 지지벡터 기계를 이용하여 문서에 나타난 감정을 판단하는 시스템을 구현하고 그 성능을 평가한다.

  • PDF

XML DTD(Document Type Definition) 편집기의 설계 및 구현 (A Design and Implementation of An DTD Editor)

  • 지석진;박정환;장우영;임두욱;신동규;신동일
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.237-239
    • /
    • 2000
  • 인터넷의 비약적인 발전, 네트웍 인프라의 향상으로 인해 인터넷을 이용한 문서 처리는 날로 증가하고 있으며, 이 기종간의 문서 정보 교환 역시 계속해서 증가하고 있다. 또한 문서의 표현 방법 및 문서량의 증대로 사용자의 요구는 계속 다양해져 가고 있다. 기존의 웹에서 사용되고 있는 HTML(Hyper-Text Markup Language)의 경우 그 표현력의 한계 때문에 사용자가 직접 구조적인 문서를 생성할 수가 없었다. 이에 W3C에서 XML (eXtensible Markup Language)을 발표하여 사용자가 직접 논리적인 문서의 작성하는 것이 가능하도록 했다. 이러한 XML 문서의 논리적인 구조를 표현하기 위해서는 문서의 원형을 정의할 수 있는 DTD(Document Type Definition)가 필요하며, 본 논문은 이러한 XML 문서의 원형을 정의하기 위해 필요한 DTD를 보다 효율적이며 쉽게 작성할 수 있는 DTD 편집기의 구현 및 설계에 대하여 논술한다.

  • PDF

구조분석 에이전트를 사용한 웹사이트의 평가 (Web Site Evaluation Using Structure Analysis Agents)

  • 정윤경;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.143-145
    • /
    • 2000
  • 인터넷이 보편화되면서 그에 따른 정보량도 급증하고 있다. 웹문서량이 많아짐에 따라 웹문서를 구조를 이용하여 저장, 분석하는 연구가 활발히 이루어지고 있다. 본 논문에서는 웹사이트를 사용자가 평가하기 위해 계층적인 웹문서들의 관계를 사이트맵으로 구성하며 웹문서 내의 계층구조를 추출, 저장하고 그래픽적으로 표시하였다. 이를 위해 웹문서 내의 계층구조를 위해 W3기관의 공용으로 사용되는 Tidy 라이브러리를 이용하여 URL에 대한 HTML 문서를 얻고 이를 XML로 변환하였다. 변환된 XML 결과로 이진트리를 구성하고 계층구조를 표현하였다. 웹문서들의 사이트맵은 그래프형식과 계층구조형식으로 표현했는데 그래프형식을 이용하여 사이트맵의 연결구조를 파악할 수 있게 하였으며, 계층구조를 이용하여 웹문서간의 계층구조에 따른 정보를 얻을 수 있었다. 사이트맵을 구성하기 위해 URL들의 구조를 인접리스트로 저장하였으며, 방향성 그래프형식을 이용하였다. 또한 웹문서 구조를 계층적으로 구성하기 위해 웹문서의 그래프형식에 대해 BFS(Breadth First Search)방식을 이용했다. 또한 계층적 사이트맵을 이용한 평가항목을 이용하여 증권사이트에 대해 실험하였다. 실험을 통해 본 시스템이 웹사이트 평가에 유용성함을 입증하였다.

  • PDF

생물의료분야의 온톨로지 용어의 논리적 표현 기법 (Logical representation of ontological terminologies in biomedical domain)

  • KIm, Jung-Jae;Lee, Jin-Bok;Min, Hye-Jin;Jung, Ji-Yong;Park, Jong-C.
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2003년도 제2차 연례학술대회 발표논문집
    • /
    • pp.79-85
    • /
    • 2003
  • 본 논문은 대량의 생물의료분야 문서에서 단백질 이름을 자동으로 인식하고 각 단백질의 특성을 문서에서 자동으로 파악하여 기존의 온톨로지와 연계시키는 방법을 제안한다. 온톨로지 용어가 문서에서 다양한 형태로 발견되기 때문에, 이들을 논리적 표현으로 자동 변환하고, 문서에서 단백질의 특성을 설명하는 문장들을 추출 및 분석하여 온톨로지 용어의 논리적 표현과 비교하였다. 문서에서 단백질 특성을 인식할 때, 약어 처리 및 조응 현상 해결 등의 자연언어처리 기법을 이용하는 방법을 제안하였다.

  • PDF

높은 검색 효과를 위한 다른 특성을 갖는 가중치 기법의 이용 (Using Different Properties of Weighting Schemes for High Retrieval Effectiveness)

  • 이준호
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1995년도 제2회 학술대회 논문집
    • /
    • pp.33-36
    • /
    • 1995
  • 질의 또는 문서에 대한 상이한 표현 방법 또는 상이한 검색 기법은 서로 다른 집합의 문서들을 검색함이 알려져 왔다. 최근 이러한 특성을 이용하여 다양한 표현 방법 또는 검색 기법을 결합함으로써 보다 높은 검색 효과를 얻을 수 있음이 입증되었다. 본 논문에서는 질의와 문서에 대한 하나의 표현과 하나의 검색 기법하에서 서로 다른 특성을 갖는 가중치 기법을 결합함으로써 보다 높은 검색 효과를 얻을 수 있음을 기술한다. 문서의 형태를 분류하고 가중치기법의 특성을 기술한 후, 이를 기반으로 하여 서로 다른 특성을 갖는 가중치 기법은 서로 다른 형태의 문서를 검색함을 설명한다. 또한 실험을 통하여 서로 다른 특성을 갖는 가중치 기법을 결합함으로써 보다 높은 검색 효과를 얻을 수 있음을 입증한다.

  • PDF

XML 데이터의 갱신을 지원하는 확장된 SQL (An Extended SQL for Updating XML data)

  • 조영주;강지훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.82-84
    • /
    • 2002
  • XML은 자기 서술적인 표현 언어라는 중요한 장점을 가지고 있기 때문에 인터넷 관련 응용들에서 정보의 표현 및 문서 교환의 표준으로 빠른 속도로 자리잡아 가고 있다. 본 논문에서는 SQL에 XPath 표현 중 일부를 추가하여 SQL을 확장함으로써 XML 문서에 대한 질의를 가능하게 하였고, 또한 SQL의 CRUD(Create, Read. Update, Delete) 기능을 그대로 사용함으로써 XML 문서의 변경이 가능한 XML 질의를 위한 새롭게 확장된 SQL을 제안하였다. 그리고 폭 넓게 사용되고 있는 ORDBMS 환경에서 XML 색인 정보를 자동 생성 관리하는 XML 저장 관리기 및 확장된 SQL 처리기를 설계하고 구현하였다. 본 논문에서 제안하는 확장된 SQL 처리기는 XML 원문 자체의 보관을 원칙으로 하여 완벽한 문서 복구 등에 따르는 부담을 제거하였고, XML 저장 문서에 대한 원본성 및 무결성을 쉽게 유지할 수 있도록 하였으며, 색인 정보를 자동 생성 관리함으로써 파일 처리 시간과 XML 트리 운행 시간 및 XPath 파싱 처리 시간을 줄였다. 또한, “path”라는 키워드를 추가로 관리함으로써 ORDBMS 환경에서 XML 질의를 위한 SQL 변환 과정에서 PATH의 깊이 만큼 조인이 중첩되는 문제를 배제하여 조인이 발생할 가능성을 줄이는 방법을 제시하였다.

  • PDF

EBKS에 적용한 전자책 Annotation 모델링 (eBook Annotation Modeling Applied on EBKS)

  • 고승규;이현찬;최윤철;임순범
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2001년도 추계학술발표논문집
    • /
    • pp.607-610
    • /
    • 2001
  • 기존의 전자책 환경에서 종이책과 구별되는 특징은 네트웍을 통한 저자와 독자, 출판사간의 인터랙티브(interactive)한 정보 교환이 가능하다는 점이다. 이러한 교환은 기존의 종이책에서 사용하는 Annotation을 이용하면 가능하다. Annotation이란 원본 문서에 부가적으로 추가되는 정보를 의미한다. 그러므로 Annotation과 원본 문서는 밀접한 관계를 갖는데 기존의 Annotation 모델링은 원본 문서를 고려하지 않고 Annotation만을 별개로 모델링하였다. 이에 본 논문에서는 Annotation을 보다 효과적으로 활용하기 위하여 annotation과 원본 문서를 동시에 표현하는 모델링에 대해 제안한다. 그리고 본 모델링은 전자책 표준인 EBKS에 기반하며, 모델링 결과를 웹 자원을 기술하는 표준인 RDF를 이용하여 표현한다.

  • PDF