• 제목/요약/키워드: 자질추출

검색결과 218건 처리시간 0.053초

Topic Signature와 동시 출현 단어 쌍을 이용한 문서 범주화 (Text Categorization using Topic Signature and Co-occurrence Features)

  • 배원식;한요섭;차정원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.262-267
    • /
    • 2008
  • 본 논문에서는 문서 내에서 동시에 출현하는 단어 쌍을 자질 추출 단위로 하는 문서 범주화 시스템에 대하여 기술한다. 자질 추출 단위를 단어 쌍으로 정의한 것은 문서에서 빈번하게 동시에 출현하는 단어들은 서로 연관관계가 높으며, 단어 하나보다는 연관관계가 높은 단어들의 쌍이 특정 범주의 문서에서만 나타날 확률이 높아지므로 문서 분류 능력을 높이는데 좋은 요인으로 작용할 수 있을 것이라는 가정 때문이다. 그리고 문서 요약 분야에서 제안된 Log-likelihood Ratio를 기반으로 하는 Topic Signature Term Extraction 방법을 사용하여 자질 추출을 하고, Naive Bayes 분류기를 이용하여 문서를 분류한다. 본 연구는 Reuters-21578 문서 집합을 이용한 성능평가에서 좋은 결과를 보였으며, 이는 앞으로의 연구에도 기여할 수 있을 것이라 기대한다.

  • PDF

웹 문서 클러스터링에서의 자질 필터링 방법 (Feature Filtering Methods for Web Documents Clustering)

  • 박흠;권혁철
    • 정보처리학회논문지B
    • /
    • 제13B권4호
    • /
    • pp.489-498
    • /
    • 2006
  • 색인전문가에 의해 분류된 웹문서들을 통계적 자질 선택방법으로 자질을 추출하여 클라스터링을 해 보면, 자질 선택에 사용된 데이터셋에 따라 성능과 결과가 다르게 나타난다. 그 이유는 많은 웹 문서에서 문서의 내용과 관계없는 단어들을 많이 포함하고 있어 문서의 특정을 나타내는 단어들이 상대적으로 잘 두드러지지 않기 때문이다. 따라서 클러스터링 성능을 향상시키기 위해 이런 부적절한 자질들을 제거해 주어야 한다. 따라서 본 논문에서는 자질 선택에서 자질의 문서군별 자질값뿐만 아니라, 문서군별 자질값의 분포와 정도, 자질의 출현여부와 빈도를 고려한 자질 필터링 알고리즘을 제시한다. 알고리즘에는 (1) 단위 문서 내 자질 필터링 알고리즘(FFID : feature filtering algorithm in a document), (2) 전체 데이터셋 내 자질 필터링 알고리즘(FFIM : feature filtering algorithm in a document matrix), (3)FFID와 FFIM을 결합한 방법(HFF:a hybrid method combining both FFID and FFIM) 을 제시한다. 실험은 단어반도를 이용한 자질선택 방법, 문서간 동시-링크 정보의 자질확장, 그리고 위에서 제시한 3가지 자질 필터링 방법을 사용하여 클러스터링 했다. 실험 결과는 데이터셋에 따라 조금씩 차이가 나지만, FFID보다 FFIM의 성능이 좋았고, 또 FFID와 FFIM을 결합한 HFF 결과가 더 나은 성능을 보였다.

질의응답시스템을 위한 문서의 품질 평가 (Document Quality Evaluation for Question Answering System)

  • 이형규;김민정;신중휘;이정태;윤여찬;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.177-182
    • /
    • 2008
  • 본 논문에서는 질의응답시스템에서 응답 추출 대상 문서로 사용할 적절한 문서를 찾는 방법으로 기계 학습 기반의 문서 품질 평가 기법을 사용한다. 본 논문에서는 기존 연구와 달리 객관적인 정보를 많이 포함하고 있는 문서를 선별하는 목적으로 문서 품질 평가를 위한 유용한 자질들을 제안한다. 본 논문에서 정의한 정보성 자질은 정보의 양을 측정하는 자질과 정보의 객관성을 측정하는 자질로 구성된다. 실험 결과, 기존 문서 품질 평가 연구에서 주로 사용된 자질들만 사용한 경우와 새로운 자질들을 추가한 경우를 비교하였을 때, 1.5배 정도 높은 평균 정확률을 보였다. 제안하는 자질들 중에는 정보성 자질이 매우 유용한 자질이었고, 가독성 자질은 비교적 낮은 성능을 보였다. 문서의 여과 실험 결과, 96.4%의 재현율을 유지하면서 전체 문서 집합 중, 60%에 해당하는 저품질 문서를 여과할 수 있었다.

  • PDF

시각 자질을 이용한 의미 있는 테이블 검출 (Discriminating Meaningful Tables Using Visual Features)

  • 이재안;박성배;손정우;이상조
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.1332-1335
    • /
    • 2009
  • 웹 상에서의 정보추출은 방대한 데이터를 기반으로 널리 사용되고 있다. 테이블은 웹 페이지에서 요약된 정보를 보여주는 유용한 수단이기 때문에 테이블로부터의 정보추출은 일반적인 웹 데이터의 정보추출에 비해 중요하다. 하지만 웹 페이지에 나타난 테이블은 유의미한 정보를 가지는 의미 있는 테이블과 웹 페이지의 형태의 보정을 위한 장식 테이블로 나누어진다. 따라서 웹 페이지에서 의미 있는 테이블을 구분하고 정보를 검출하는 것은 웹 상에 나타난 정보를 활용하기 위한 중요한 단계이다. 본 논문은 웹 페이지에 나타난 테이블들 중 유의미한 정보를 내포하고 있는 의미 있는 테이블을 검출할 수 있는 방법을 제안한다. 이를 위해 본 논문에서는 브라우저를 통해 보여지는 테이블의 위치적 중요도를 반영하는 새로운 자질을 정의하고, 이를 기존 자질과 결합하여 활용함으로써 시각 자질의 유용성을 평가한다. 실험을 통해 본 논문에서 제안한 방법이 기존 방법들에 비해 우수한 성능을 보임을 알 수 있었다.

텍스트 구성요소 판별 기법과 자질을 이용한 문서 요약 시스템의 개발 및 평가 (Development and Evaluation of a Document Summarization System using Features and a Text Component Identification Method)

  • 장동현;맹성현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권6호
    • /
    • pp.678-689
    • /
    • 2000
  • 논 본문은 문서의 주요 내용을 나타내는 문장을 추출함으로써 요약문을 작성하는 자동 요약 기법에 대해 기술하고 있다. 개발한 시스템은 문서 집합으로부터 추출한 어휘적, 통계적 정보를 고려하여 요약 문장을 작성하는 모델이다. 시스템은 크게 두 부분, 학습과정과 요약과정으로 구성이 된다. 학습 과정은 수동으로 작성한 요약문장으로부터 다양한 통계적인 정보를 추출하는 단계이며, 요약 과정은 학습 과정에서 추출한 정보를 이용하여 각 문장이 요약문장에 포함될 가능성을 계산하는 과정이다. 본 연구는 크게 세 가지 의의를 갖는다. 첫째, 개발된 시스템은 각 문장을 텍스트 구성 요소의 하나로 분류하는 텍스트 구성 요소 판별 모델을 사용한다. 이 과정을 통해 요약 문장에 포함될 가능성이 없는 문장을 미리 제거하는 효과를 얻게 된다. 둘째, 개발한 시스템이 영어 기반의 시스템을 발전시킨 것이지만, 각각의 자질을 독립적으로 요약에 적용시켰으며, Dempster-Shafer 규칙을 사용해서 다양한 자질의 확률 값을 혼합함으로써 문장이 요약문에 포함될 최종 확률을 계산하게 된다. 셋째, 기존의 시스템에서 사용하지 않은 새로운 자질 (feature)을 사용하였으며, 실험을 통하여 각각의 자질이 요약 시스템의 성능에 미치는 효과를 알아보았다.

  • PDF

트위터 문서에서 시간 및 리트윗 분석을 통한 핵심 사건 추출 (Extracting Core Events Based on Timeline and Retweet Analysis in Twitter Corpus)

  • ;이경순
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제1권1호
    • /
    • pp.69-74
    • /
    • 2012
  • 인터넷 사용자들은 어떠한 이슈에 대해 소셜 네트워크 서비스를 통해 빠르고 간결하게 다른 사람들과 지속적인 커뮤니케이션을 원한다. 사회적 이슈에 대해 어떠한 사건이 일어나게 되면 그날의 트윗 글과 리트윗 개수에 영향을 미치게 된다. 본 논문에서는 트위터 자료에서 사회적인 핵심 사건을 추출하기 위해 시간 분석과 감성 자질 및 리트윗 정보를 이용하는 방법을 제안한다. 제안 방법의 유효성을 검증하기 위해 비교실험으로 어휘 빈도수를 이용하여 핵심 사건을 추출하는 방법, 어휘 빈도수와 감성 자질을 함께 이용한 방법, 시간 분석을 반영하기 위해 카이제곱만을 이용한 방법과 제안 방법인 어휘 빈도수, 감성 자질, 리트윗 및 카이제곱을 함께 이용한 방법으로 성능을 비교하였다. 성능 평가를 위해서는 추출된 사건리스트에서 상위 10개 결과에서 정확도를 계산하였는데, 제안 방법이 94.9%의 성능을 보였다. 실험을 통해 제안한 방법이 핵심 사건 추출에 효과적인 방법임을 알 수 있다.

자질 가중치의 재조정을 통한 감정 분류 (Sentiment Classification Using Feature Reweighting)

  • 서형원;김형철;김재훈;이공주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.145-150
    • /
    • 2009
  • 이 논문은 한글 뉴스 기사의 댓글에 대한 감정 분류 방법을 제안한다. 제안된 방법은 기계학습을 이용하는데 본 논문에서는 자질의 가중치를 재조정하는 좀 색다른 방법을 제안한다. 일반적으로 댓글은 독자들이 특정 기사에 대해서 어떠한 감정을 가지고 있는지를 파악하는 중요한 단서가 된다. 그런데 독자들의 감정은 가사에 어떤 분야에 속하느냐에 영향을 받는다. 예를 들면 정치 기사는 부정적인 댓글은 많이 포함하고 있으며 인물 기사는 긍정적인 기사를 많이 포함한다. 이 논문은 이와 같은 댓글의 속성을 이용해서 기사의 원문과 기사의 분야 정보를 이용하여 가중치를 조정한다. 제안된 시스템의 성능을 평가하기 위해 신문 기사와 댓글을 수집하여 감정 말뭉치를 구축하였으며 감정자질을 추출하기 위해 감정 사전을 구축하였다. 제안된 시스템의 $F_1$ 척도는 92.2%였으며 원문의 감정 단어와 분야 정보가 댓글의 감정을 분류하는데 중요한 자질임을 알 수 있었다.

  • PDF

감정자질과 커널모델을 이용한 영화평 평점 예측 시스템 (A Rating System on Movie Reviews using the Emotion Feature and Kernel Model)

  • 허향란;정형일;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.37-41
    • /
    • 2011
  • 본 논문에서는 최근 많은 관심을 받고 있는 Opinion Mining으로서 사용자들의 자연어 형태의 영화평 문장을 분석하여 자동으로 평점을 예측하는 시스템을 제안한다. 제안 시스템은 영화평 분석에 적합한 어휘 자질, 감정 자질, 가치 자질 및 기타 자질들을 추출하고, 10점 척도의 영화평의 평점을 10개의 범주로 가정하여, 커널모델인 다중 범주 Support Vector Machine (SVM) 모델을 이용하여 높은 성능으로 영화평의 평점을 범주 분류한다.

  • PDF

자질 선택 기법을 이용한 한국어 화행 결정 (Decision of the Korean Speech Act using Feature Selection Method)

  • 김경선;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권3_4호
    • /
    • pp.278-284
    • /
    • 2003
  • 화행(speech act)이란 화자의 발화를 통해 나타나는 화자의 의도를 가르키며 자연어로 된 발화를 이해하고 이에 대한 응답을 생성하기 위해 중요한 요소이다. 본 논문에서는 한국어 화행 결정의 성능을 높이기 위해 두 단계 방법을 제안한다. 첫 번째 단계는 형태소 분석결과만을 이용하여 추출된 문장자질과 이전 화행을 이용하여 추출된 문맥자질 중 정보량이 높은 자질을 선택하는 단계이다. 이 단계에서는 형태소 분석 시스템을 사용하여 전체 자질을 구성하고 문서분류 분야의 자질 선택에서 높은 성능을 보인 카이제곱 통계량을 이용하여 효과적인 자질 선택한다. 두 번째 단계는 선택된 자질과 신경망을 이용하여 화행을 분석하는 단계이다. 본 논문에서 제시한 방법은 형태소 분석 결과만을 이용하여 자동적으로 화행을 결정할 수 있는 가능성을 제시하였으며 효과적인 자질 선택을 통해 자질의 수를 감소시키고 정보량이 높은 자질을 사용하여 속도와 성능을 향상 시켰다 본 논문은 제안된 시스템을 실제 영역에서 수집되어 전사된 10,285개의 발화와 17개의 화행으로 이루어진 대화 코퍼스에 대해 실험하였다. 본 논문은 이 코퍼스에서 8,349개 발화를 학습 코퍼스로 사용하여, 실험 코퍼스의 1,936개 발화에 대해 1,709개에 대해 정확한 화행을 제시하여, 88.3%의 정확도를 보였다. 이는 자질 선택을 하지 않았을 때 보다 약 8%가 증가된 결과이다.

문서 요약 기법을 이용한 자동 문서 범주화 (Automatic Text Categorization Using Text Summarization Techniques)

  • 박진우;고영중;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.138-145
    • /
    • 2001
  • 자동 문서 범주화란 문서의 내용에 기반하여 미리 정의되어 있는 범주에 문서를 자동으로 분류하는 작업이다. 문서 분류를 위해서는 문서들을 가장 잘 표현할 수 있는 자질들을 정하고, 이러한 자질들을 통해 분류할 문서를 표현해야 한다. 기존의 연구들은 문장간의 구분 없이, 문서 전체에 나타난 각 자질의 빈도수를 이용하여 문서를 표현 한다. 그러나 하나의 문서 내에서도 중요한 문장과 그렇지 못한 문장의 구분이 있으며, 이러한 문장 중요도의 차이는 각각의 문장에 나타나는 자질의 중요도에도 영향을 미친다. 본 논문에서는 문서에서 사용되는 중요 문장 추출 기법을 문서 분류에 적용하여, 문서 내에 나타나는 각 문장들의 문장 중요도를 계산하고 문서의 내용을 잘 나타내는 문장들과 그렇지 못한 문장들을 구분하여 각 문장에서 출현하는 자질들의 가중치를 다르게 부여하여 문서를 표현한다. 이렇게 문장들의 중요도를 고려하여 문서를 표현한 기법의 성능을 평가하기 위해서 뉴스 그룹 데이터를 구축하고 실험하였으며 좋은 성능을 얻을 수 있었다.

  • PDF