• 제목/요약/키워드: 문서 특성 추출

검색결과 177건 처리시간 0.027초

EM 알고리즘을 이용한 전문용어의 자동 추출 (Automatic Term Recognition Through EM Algorithm)

  • 오종훈;김재호;최기선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.487-489
    • /
    • 2003
  • 전문용어란 전문분야의 개념이 언어적으로 표현된 형태이다. 전문분야마다 분야 특성 적인 개념이 사용되므로, 전문용어는 전문분야를 특성화하는 단위로 사용된다. 따라서 전문분야문서에 대한 자연언어처리에서 전문용어를 효과적으로 처리하는 것은 매우 중요하다. 전문용어 추출은 분야 특성적인 전문용어를 해당 분야 문서에서 파악하는 작업을 말한다. 본 논문에서는 기계학습방법을 이용한 전문용어 자동 추출 기법을 제안한다. 본 논문의 기법은 전문분야 사전과 전문분야 문서를 이용하여 문서에서 나타나는 전문용어의 특성을 파악하고 이를 이용하여 전문용어를 추출한다. 본 논문의 기법은 70,000단어 수준의 영어 의학분야 300개 문서에 대하여 약 77%의 정확률로 전문용어를 추출하였다.

  • PDF

한글 형태소 및 키워드 분석에 기반한 웹 문서 분류 (Web Document Classification Based on Hangeul Morpheme and Keyword Analyses)

  • 박단호;최원식;김홍조;이석룡
    • 정보처리학회논문지D
    • /
    • 제19D권4호
    • /
    • pp.263-270
    • /
    • 2012
  • 최근 초고속 인터넷과 대용량 데이터베이스 기술의 발전으로 웹 문서의 양이 크게 증가하였으며, 이를 효과적으로 관리하기 위하여 문서의 주제별 자동 분류가 중요한 문제로 대두되고 있다. 본 연구에서는 한글 형태소 및 키워드 분석에 기초한 문서 특성 추출 방법을 제안하고, 이를 이용하여 웹 문서와 같은 비구조적 문서의 주제를 예측하여 문서를 자동으로 분류하는 방법을 제시한다. 먼저, 문서 특성 추출을 위하여 한글 형태소 분석기를 사용하여 용어를 선별하고, 각 용어의 빈도와 주제 분별력을 기초로 주제 분별 용어인 키워드 집합을 생성한 후, 각 키워드에 대하여 주제 분별력에 따라 점수화한다. 다음으로, 추출된 문서 특성을 기초로 상용 소프트웨어를 사용하여 의사 결정 트리, 신경망 및 SVM의 세 가지 분류 모델을 생성하였다. 실험 결과, 제안한 특성 추출 방법을 이용한 문서 분류는 의사 결정 트리 모델의 경우 평균 Precision 0.90 및 Recall 0.84 로 상당한 정도의 분류 성능을 보여 주었다.

기계학습과 규칙 기반 접근 방법을 결합한 의미 있는 표 구분과 헤드 영역 추출 (Extracting Web-Table Information Using Decision Tree and Rule Based Approach)

  • 정성원;박대원;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.5-11
    • /
    • 2004
  • 일반적으로 HTML문서는 크게 내용과 구조로 이루어져 있다. HTML은 일반 문서와 달리 태그라는 것으로 문서에 추가 정보를 주며, 문서의 내용을 더욱 명확하게 한다. 따라서 태그를 이용하면 일반 문서보다 정보를 쉽게 구별하고 추출할 수 있다. 이러한 여러 가지 태그들 중에서 본 연구는 표를 중점적으로 연구한다. 표는 행과 열을 이용하여 어떤 사실을 조직하여 전달하는 것으로, 다른 구조적 특성들 보다 정보를 조직하는데 매우 유용하며, 글로 기술할 많은 분량을 간단히 줄이는 역할을 한다. 이와 같은 표의 특성에 주목하여 표에서 정보를 추출하는 분야를 기존 연구자들은 Web Table Mining 명명하였다. 본 연구는 기존 연구자들이 간과한 표의 구조적인 특성을 이용하여 전체 인터넷 문서에 적용할 수 있는 방법과 함께, 표에서 의미 있는 정보 추출을 위한 단계적인 모형을 제시한다.

  • PDF

정보통합을 통한 생물/의학 분야 전문용어의 자동 추출 (Recognizing Biomedical Terminologies through Integration of Heterogeneous Information)

  • 오종훈;최기선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.775-777
    • /
    • 2004
  • 전문용어란 전문분야의 개념이 언어적으로 표현된 형태이다. 전문분야마다 분야 특성적인 개념이 사용되므로, 전문용어는 전문분야를 특성화하는 단위로 사용된다. 따라서 전문분야문서에 대한 자연언어처리에서 전문용어를 효과적으로 처리하는 것은 매우 중요하다. 전문용어 추출은 분야 특성적인 전문용어를 해당 분야 문서에서 파악하는 작업을 말한다. 본 논문에서는 기계학습방법을 이용한 전문용어 자동 추출 기법을 제안한다. 본 논문의 기법은 전문분야 사전과 전문분야 문서를 이용하여 문서에서 나타나는 전문용어의 특성을 파악하고 이를 이용하여 전문용어를 추출한다. 본 논문의 기법은 GENIA 2.01 문서에 대하여 86%의 정확률과 90%의 재현율을 나타내었다. 또한 기존연구보다 최고 21%의 성능향상을 나타내었다.

  • PDF

자동 지표화를 위한 감성공학 분야 코퍼스 분석- 전문적 문서의 특성 정보 추출 (Analysis of Human Sensibility Ergonomic Corpora for Automatic Indexation - Extraction of informative features -)

  • 배희숙;김관웅;곽현민;이상태
    • 한국감성과학회:학술대회논문집
    • /
    • 한국감성과학회 2002년도 추계학술대회 논문집
    • /
    • pp.53-58
    • /
    • 2002
  • 본 논문은 감성공학 데이터의 지속적인 지표화를 위해 과정의 자동화를 제안하며 자동 지표화가 문서의 자동 요약과 유사하다는 점에 착안하여 문서 자동분류, 정보유형 추출, 특성언어 추출 및 문장 재구성이라는 단계별 기술의 기초가 되는 정보유형 및 핵심어, 그리고 특성표현을 통한 정보문 추출 방법에 대해 연구하였다. 감성공학 코퍼스 분석을 통한 본 연구는 감성공학 분야에서의 지식 관리 시스템과 자동 요약 시스템에 활용될 수 있다.

  • PDF

SVM기반 정보기술 문서분류를 위한 특성 선택 및 추출 기법 (Feature Selection and Extraction for Document Classifier for If documents based on SVM)

  • 강윤희
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2001년도 추계산학기술 심포지엄 및 학술대회 발표논문집
    • /
    • pp.75-78
    • /
    • 2001
  • 본 논문에서는 웹 문서의 자동 분류를 위한 특성 선택 및 추출기법을 기술한다. 최근 인터넷의 급속한 성장과 보급으로 전자우편과 웹을 통해 제공되어지는 정보의 양이 기하급수적으로 증가함에 따라 효율적인 문서 분류의 필요성이 증가하고 있다. 본 논문에서는 웹 디렉토리 내의 문서로부터 추출된 용어 집합을 기반으로 SVM을 사용하여 학습한 후 문서 분류를 수행한다. 본 실험의 문서는 정보통신 분야 디렉토리 서비스 시스템인 itfind로부터 수집된 문서를 대상으로 하였으며 3가지 시나리오에 따라 실험을 수행하여 각 시나리오 별로 재현율/정확율 및 오분류율을 성능 요소로 계산하였다. 본 실험은 학습 벡터 구성과정에서 잡음에 의해 다른 클래스의 문서 분류에 미치는 영향을 평가하여 SVM을 기반으로 한 문서 분류 기법이 강건함을 보였다.

범주 대표어의 가중치 계산 방식에 의한 자동 문서 분류 시스템 (Automatic Document Classification by Term-Weighting Method)

  • 이경찬;강승식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.475-477
    • /
    • 2002
  • 자동 문서 분류는 범주 특성 벡터와 입력 문서 벡터의 유사도 비교에 의해 가장 유사한 범주를 선택하는 방법이다. 문서 분류 시스템을 구현하기 위하여 각 범주의 특성 벡터를 정보 검색 시스템의 역파일 형태로 구축하였으며, 용어 가중치를 계산하는 방법을 달리하여 문서 분류 시스템의 정확도를 실험하였다. 실험 문서는 일간지의 신문기사들을 무작위로 추출한 문서 집합을 대상으로 하였으며, 정보 검색 모델에서 보편적으로 사용되는 TF-lDF 방식이 변형된 방식에 비해 더 나은 성능을 보였다.

  • PDF

타입 정보 추출을 통한 질의 가능 XML 압축 (A Queriable XML Compression Through An Extraction of Type Information)

  • 박명제;민준기;정진완
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (A)
    • /
    • pp.554-556
    • /
    • 2003
  • 인터넷에서 널리 사용되는 HTML은 현재 데이터베이스 시스템과 같은 저장소 대신, 전형적인 파일 시스템에 저장되는 경우가 대부분이다. 마찬가지로 최근에 인터넷 상에서의 데이터 교환 및 표현의 표준으로 부각되는 XML 역시 파일 시스템에 저장되는 경우가 많다. 하지만, XML 문서의 비정규적인 구조와 장황성 때문에. 디스크 공간이나 네트워크 대역폭이 정규적인 구조의 데이터에 비해 비효율적이다. 따라서. 이를 해결하고자. XML 문서의 압축에 관한 연구가 진행되었다. 하지만. 최근에 연구된 XML 압축 기법들은 압축한 XML 문서에 대한 질의를 지원하지 않거나, 질의를 지원하더라도 XML 문서의 데이터 값들의 특성을 고려하지 않고 단순히 기존의 압축 방법을 통해 XML 문서를 압축한다. 그러므로 본 연구에서는 압축한 XML 문서에 대한 질의를 효율적으로 지원하는 XML 압축 기법을 제안한다. 본 연구에서는 태그를 Dictionary 압축으로 압축하며 태그 별로 데이터 값들의 타입을 추출하여 추출한 타입에 적절한 압축 방법으로 데이터 값을 압축한다. 또한, 제안하는 압축 기법의 구현 및 성능 평가를 통하여. 구현한 시스템이 실생활에 사용되는 XML 문서들을 효율적으로 압축하며 향상된 질의 성능을 제공하는 것을 보인다.

  • PDF

뉴스 기사 키워드 추출을 위한 구묶음 주석 말뭉치 구축 (Chunking Annotation Corpus Construction for Keyword Extraction in News Domain)

  • 김태영;김정아;김보희;오효정
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.595-597
    • /
    • 2020
  • 빅데이터 시대에서 대용량 문서의 의미를 자동으로 파악하기 위해서는 문서 내에서 주제 및 내용을 포괄하는 핵심 단어가 키워드 단위로 추출되어야 한다. 문서에서 키워드가 될 수 있는 단위는 복합명사를 포함한 단어가 될 수도, 그 이상의 묶음이 될 수도 있다. 한국어는 언어적 특성상 구묶음 개념이 적용되는 데, 이를 통해 주요 키워드가 될 수 있는 말덩이 추출이 가능하다. 따라서 본 연구에서는 문서에서 단어뿐만 아니라 다양한 단위의 키워드 묶음을 태깅하는 가이드라인 정의를 비롯해 태깅도구를 활용한 코퍼스 구축 방법론을 고도화하고, 그 방법론을 실제로 뉴스 도메인에 적용하여 주석 말뭉치를 구축함으로써 검증하였다. 본 연구의 결과물은 텍스트 문서의 내용을 파악하고 분석이 필요한 모든 텍스트마이닝 관련 기술의 기초 작업으로 활용 가능하다.

  • PDF

태그 서열 위치와 경사 부스팅을 활용한 한국어 웹 본문 추출 (Korean Web Content Extraction using Tag Rank Position and Gradient Boosting)

  • 모종훈;유재명
    • 정보과학회 논문지
    • /
    • 제44권6호
    • /
    • pp.581-586
    • /
    • 2017
  • 웹 문서를 자동으로 수집하면 대량의 정보를 손쉽게 모을 수 있다. 이러한 정보 수집 과정을 위해 웹 문서에서 메뉴, 광고 등 불필요한 정보를 제거하고 본문을 자동으로 추출할 필요가 있다. 특히 한국어 웹문서는 영어권과 달리 메타데이터가 포함된 경우가 드물고 디자인이 복잡하여 한국어 웹에 맞는 자동 본문 추출 방법이 필요하다. 기존의 본문 추출 방법은 주로 본문 블록의 문자적, 구조적 특성을 활용한다. 시각적 특성을 처리하기 위해서는 렌더링, 이미지 처리 등에 많은 계산이 필요하기 때문이다. 이 논문에서는 HTML에서 태그 위치를 준-시각적 특성으로 활용한 새로운 본문 추출 방법을 제시한다. 태그 위치는 텍스트의 길이에 따라 가변적이기 때문에 태그 서열 위치라는 특성을 개발하였고, 이를 경사 부스팅과 함께 이용하면 정확한 본문 추출이 가능함을 보인다. 본 논문의 연구 결과는 텍스트 분석에 필요한 양질의 문서 자료를 다양한 형태의 웹페이지에서 자동으로 수집하는 데에 쓰일 수 있다.