• 제목/요약/키워드: Document-Classification

검색결과 448건 처리시간 0.027초

The Classification and Age Determination of Ballpoint Pen Inks in Questioned Documents

  • Kim, Nam Yee;Park, Sung Woo;Doble, Philip;Roux, Claude
    • 분석과학
    • /
    • 제17권3호
    • /
    • pp.271-277
    • /
    • 2004
  • The aim of this study was to investigate questioned documents written with blue or black ballpoint pen on paper by nondestructive technique. In this work, 21 blue and 22 black ballpoint pen inks which were purchased on different brands were analyzed by using Microspectrophotometry (MSP). The reflectance spectra were obtained from these ink samples and their shapes and the wavelength of the maximum intensity were compared. In the blue and black ballpoint pen inks, the discriminating powers (DP) were 0.85 and 0.61, respectively. The changes of the reflectance intensity at their wavelength of maximum intensity and their shapes appeared according to the exposure time to sunshine in a laboratory, especially in the blue ballpoint pen inks. Therefore it is possible to distinguish ink entries on the same paper with the relative age in case of questioned letters written with blue ballpoint pen.

한국어 문서 감정분류를 위한 감정 자질 가중치 강화 기법 (A Weight Boosting Method of Sentiment Features for Korean Document Sentiment Classification)

  • 황재원;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.201-206
    • /
    • 2008
  • 본 논문은 한국어 문서 감정분류에 기반이 되는 감정 자질의 가중치 강화를 통해 감정분류의 성능 향상을 얻을 수 있는 기법을 제안한다. 먼저, 어휘 자원인 감정 자질을 확보하고, 확장된 감정 자질이 감정 분류에 얼마나 기여하는지를 평가한다. 그리고 학습 데이터를 이용하여 얻을 수 있는 감정 자질의 카이 제곱 통계량(${\chi}^2$ statics)값을 이용하여 각 문장의 감정 강도를 구한다. 이렇게 구한 문장의 감정 강도의 값을 TF-IDF 가중치 기법에 접목하여 감정 자질의 가중치를 강화시킨다. 마지막으로 긍정 문서에서는 긍정 감정 자질만 강화하고 부정 문서에서는 부정 감정 자질만 강화하여 학습하였다. 본 논문에서는 문서 분류에 뛰어난 성능을 보여주는 지지 벡터 기계(Support Vector Machine)를 사용하여 제안한 방법의 성능을 평가한다. 평가 결과, 일반적인 정보 검색에서 사용하는 내용어(Content Word) 기반의 자질을 사용한 경우 보다 약 2.0%의 성능 향상을 보였다.

  • PDF

주식 관련 기사 분류 및 긍정 부정 판단을 통한 종목 추천 시스템 (Stocks Recommending System through Classifying News Articles by Positive or Negative Decision)

  • 이유준;박정우;전민재;최준수;한광수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.107-109
    • /
    • 2013
  • 주식 시장에서 거래되고 있는 증권은 MACD(Moving Average Convergence Divergence), Stochastic 등의 보조 지표를 이용하는 기술적 분석을 통하여 매수/매도 시점을 결정한다. 주식 시장의 객관적인 자료를 통하여 분석하는 기술적 분석 방법은 주식 시장 외적인 요소를 반영하는데 있어 한계점이 존재한다. 본 논문에서는 기술적 분석 방법에 기사를 종목별로 분류하고 기사의 긍정 및 부정을 판별하는 문서 분류 기법을 적용하여 주식 외적인 요소를 반영하는 시스템을 제안한다.

  • PDF

혼용문서에서의 유사문자 분류 (The Similar Character Classification in the Mixed Document)

  • 문경애;지수영;오원근
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.485-492
    • /
    • 1993
  • 본 논문에서는 혼용문서에서 문자들의 유사성으로 인해 발생하는 오인식문자를 줄이기위해 대분류 단계에서 유사문자군을 찾고 이들 사이의 유사도를 계산, 분류하는 유사문자분류 방법을 제안하였다. 이 방법은 유사문자군내의 각 문자마다 그 문자만이 갖는 고유한 요인과 그 문자를 제외한 나머지 문자일 가능성이 있는 요인을 찾아 입력문자와 비교하여 유사도가 가장 큰 문자를 인식문자로 선택하는 알고리즘이다. 또한, 인식 후 오인식된 문자들에 대해 특징사전의 갱신을 통하여 인식률을 향상시켰다.

  • PDF

규칙기반 단어 클러스터링에 의한 문서 분류의 성능 향상 (Performance Improvement of Document Classification by Rule-based Word Clustering)

  • 현우석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.196-198
    • /
    • 2006
  • 분류되지 않은 문서의 문서 분류는 현재까지 아주 중요한 문제로 대두되고 있다. 컴퓨터를 이용한 문서 검색 엔진인 Citeseer에서는 문서 인덱싱을 하기 위해서 자동문서 분류 방법을 사용하고 있다. 문서 분류는 원본 문서의 단어들을 제1의 속성 표현으로 사용한다. 그러나 이와 같은 표현은 고차원과 속성 부족을 초래하게 된다. 단어 클러스터링은 속성 차원과 속성 부족을 감소시키기 위한 효율적인 방법이며 문서 분류 성능을 향상시켜 준다. 본 연구에서는 클러스터 속성 표현을 위한 도메인 규칙기반 단어 클러스터링 방법을 사용한다. 클러스터는 다양한 도메인 데이터베이스들과 단어 철자 속성들로부터 생성되는데, 이와 같은 클러스터 속성 표현은 중요한 차원 감소뿐만 아니라 문서 헤더 라인의 평균 분류 성능에서 향상을 보여 주었고, 원본 문서 단어 기반 속성 표현과 비교해 보았을 때 도서목록 항목 추출의 정확도를 향상시켰다.

  • PDF

재사용을 위한 XML 기반 소프트웨어 아키텍쳐 명세 언어 (XML based Software Architecture Specification Language for Reuse)

  • 이윤수;윤경섭;왕창종
    • 한국정보처리학회논문지
    • /
    • 제7권3호
    • /
    • pp.808-817
    • /
    • 2000
  • Component specification languages in consideration of reuse are essential factor in classification, verification and retrieval of components. A number of legacy specification languages have already been used, however, they are complex and include many necessary elements in the specification for implementation. In this paper, we present XML-based component specification and software architecture specification language to solve these problems of legacy specification languages. The presented specification languages consist of component specification, which is composed of signature specification, interface specification and message specification, and software architecture specification providing graphical notations and textural notations. Component specification supports component retrieval with behavioral match and black-box reuse of component. In addition to this, it improves the efficiency of retrieval and document management with XML-based component specification. Software architecture specification supports the structural reuse of architecture, which is white-box reuse, through mesage-based architecture specification.

  • PDF

단어 빈도 가중치를 이용한 자동 문서 분류 (Automatic Document Classification Based on Word Frequency Weight)

  • 노현아;김민수;김수형;박혁로
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.581-584
    • /
    • 2002
  • 본 논문에서는 범주 내의 키워드 빈도에 의해 문서를 자동으로 분류하는 방법을 제안한다. 문서 자동분류 시스템에서는 문서와 문서를 비교하기 위해서 분류 자질(feature)에 적절한 가중치를 부여할 필요가 있다. 본 논문에서는 수작업으로 분류된 신문기사를 이용하여 자질의 가중치를 학습하는 방법을 사용하였다. 기존의 용어가중치 방법은 각 범주별로 가장 많이 등장한 명사부터 순서대로 추출하여 가중치를 주는 방법을 사용한 것에 비해 본 논문에서는 명사의 출현 횟수뿐만 아니라 출현위치를 함께 고려하여 가중치를 계산하는 방법을 제안한다. 또한 단어 빈도 가중치 방법의 변형된 방식을 사용함으로써 기존의 단어 빈도 가중치 방법과 비교하여 분류 정확도 측면에서 9%이상 성능 향상을 있음을 보인다.

  • PDF

온톨로지 기반 웹 문서 분류 (Ontology-Based Document Classification)

  • 송무희;임수연;민도식;강동진;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.535-537
    • /
    • 2003
  • 본 논문에서는 웹 문서들이 가지는 용어 정보들과 어휘들의 의미구조를 계층적 형태로 표현한 온틀로지 기반 자동 문서분류 방법을 제안한다. 문서 분류는 문서들을 가장 잘 표현할 수 있는 자질들을 점하고 이러한 자질들을 통해 미리 정의된 2개 이상의 카테고리에 문서의 내용을 파악하여 가장 관련이 있는 카테고리로 할당하는 것이다. 본 논문에서는 웹 문서에서 추출한 용어 정보들의 유사도와 온톨로지 카테고리의 유사도를 계산하여 웹 문서를 분류하며, 문서 분류를 위한 실험데이터나 학습과정 없이 바로 실시간으로 문서분류가 이루어지며, 결과적으로 문서들이 가지는 고유한 의미와 관계의 식별을 통하여 보다 더 정확하게 문서분류를 가능하게 해준다.

  • PDF

The classification of ballpoint pen inks in Questioned Documents by using VSC and SERRS

  • Kim, Nam Yee;Park, Sung Woo;Doble, Philip;Roux, Claude
    • 분석과학
    • /
    • 제17권4호
    • /
    • pp.315-321
    • /
    • 2004
  • The aim of this study was to investigate the evidential value of blue and black ballpoint pens on paper by nondestructive techniques. In this work, 21 blue and 22 black ballpoint pens which were purchased on different brands were analyzed by Raman Spectroscopy and Video Spectral Comparator (VSC). Surface-Enhanced Resonance Raman Spectroscopy (SERRS) with excitation at 685 nm and VSC with several spot light filters were used for the discrimination of ballpoint pen inks. In the SERR spectra, the ballpoint pen inks on paper could be shown sharp spectral bands and distinguished by their band shapes and relative intensities. In the blue and black ballpoint pen inks, the discriminating powers (DP) by SERRS were 0.85 and 0.67 and the DP by VSC were 0.88 and 0.90, respectively. The DP by combined sequence of techniques was all 0.97 in both black and blue ballpoint pen inks.

한글문서 분류용 분야연상어의 추출 알고리즘 (Extraction Algorithm of Field-Associated Terms for Korean Document Classification)

  • 김숙영;최창원;이상곤
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.544-546
    • /
    • 2003
  • 인간은 문서에서 대표적인 단어를 보는 것만으로 정치나 스포츠 등의 분야를 정확히 인지할 수 있다. 문서전체를 대상으로 하지 않고 부분적인 덱스트에서 출현하는 소수의 단어정보에서 문서의 분야를 정확히 결정하기 위해 분야연상어의 구축은 중요한 연구과제이다. 인간이 미리 분야체계를 정의하고, 각 분야에 해당하는 문서를 인터넷이나 서적을 통해 수집하고, 수집문서의 분야를 정확히 지시하는 분야연상어를 수집하는 방법을 제안한다. 문서의 분야결정 시정을 고려하여 분야연상어의 수준과 안정성랭크에 대하여 논의한다. 학습데이터에서 분야연상어 후보의 각 수준을 자동으로 결정하고, 컴퓨터가 제시하는 분야연상어의 수준, 안정성랭크, 집중률, 빈도정보를 이용하여 단일어로 된 분야연상어를 추출하는 방법을 제안한다.

  • PDF