• 제목/요약/키워드: Document Feature Extraction

검색결과 42건 처리시간 0.022초

낚시성 인터넷 신문기사 검출을 위한 특징 추출 (Feature Extraction to Detect Hoax Articles)

  • 허성완;손경아
    • 정보과학회 논문지
    • /
    • 제43권11호
    • /
    • pp.1210-1215
    • /
    • 2016
  • 스마트 기기의 발달로 많은 사람들이 인터넷 신문기사를 이용하고 있다. 하지만 인터넷 언론사간의 치열한 경쟁으로 조회수를 올리기 위한 낚시성 기사가 범람하고 있다. 낚시성 신문기사는 제목을 통해 올바른 기사의 줄거리가 제공되지 않았을 뿐만 아니라, 독자로 하여금 잘못된 내용을 떠올리게 한다. 낚시성 신문기사는 핵심에서 벗어난 유명인사 인용, 애매한 문장의 마무리, 제목과 내용의 불일치 등의 특징을 갖는다. 본 논문에서는 이러한 낚시성 기사를 분류하기 위한 특징을 추출하고 성능을 검증해 본다. 기사에 달린 댓글의 키워드를 활용하여 대용량 학습데이터를 생성하고 이를 기반으로 다섯 가지 분류 특징을 추출하였다. 추출된 특징들은 서포트 벡터 머신 분류기를 이용한 실험에서 92%의 정확도를 보여 낚시성 인터넷 신문기사를 분류하는데 적합하다고 판단된다. 뿐만 아니라 제목과 본문의 일관성을 측정하기 위한 전처리 방법으로 고안한 선택적 바이그램 모델은 낚시성 인터넷 신문기사 분류 외에도 일반적인 단문 분석을 위한 전처리 방법으로 유용할 것으로 기대된다.

칼라 문서에서 문자 영역 추출믹 문자분리 (The Character Area Extraction and the Character Segmentation on the Color Document)

  • 김의정
    • 한국지능시스템학회논문지
    • /
    • 제9권4호
    • /
    • pp.444-450
    • /
    • 1999
  • 본 논문에서는 칼라로 입력된 문서 영상에서 문자 영역추출을 위하여 k-means을 이용한 클러스트링 알고리즘을 제안하였다. 칼라 영상의 클러스트링을 위해서 HIS 좌표계에 적합한 거리함수를 제안하였다. 이를 인식하기 위한 전처리 단계인 문자분리(segmentation)방법은 연결 화소를 이용한 개별문자 추출 알고리즘을 제안하였다. 본 알고리즘 에서는 문자분리방벙에서 접촉문자 (touching character)또는 겹친 문자(overlapped character)등과 같이 분리가 곤란한 문자를 개별문자로 분리하는 방법이다. 기존의 문자 분리방법에서는 투영(projection)dop 의한 방법과 외곽선(edge)추적에 의한 방법등을 사용하여 왔으나 제안된 방법은 문자열 추출후 한번의 투영으로 연결화소를 이용하여 개별문자를 추출한다. 문자 영역과 비 문자 영역을 구분하여 개발문자 추출을 한 결과 단순한 이진 영상이 아닌 칼라 영상에서의 문서 처리가 큰 의의가 있고 기존의 문서 처리기 보다 향상된 알고리즘인 것을 확인하였다.

  • PDF

Support Vector Machine을 이용한 온라인 리뷰의 용어기반 감성분류모형 (Terms Based Sentiment Classification for Online Review Using Support Vector Machine)

  • 이태원;홍태호
    • 경영정보학연구
    • /
    • 제17권1호
    • /
    • pp.49-64
    • /
    • 2015
  • SNS의 확산으로 온라인 상점에서는 상품에 대한 주관적인 의견이 내포되어 있는 고객리뷰 정보가 빠르게 생성되고 확산되어 다른 고객들에게 큰 영향을 미치고 있다. 이와 더불어, 고객들의 긍정적 또는 부정적 의견을 분석하여 개선방안을 모색하려는 오피니언마이닝(opinion mining)이 주목 받고 있다. 고객리뷰에 내포된 감성정보를 가진 용어들은 감성분류를 하는데 가장 중요한 역할을 하기 때문에 영향력이 높은 용어를 선별하는 것이 가장 중요하다. 본 연구에서는 품사태깅을 이용하여 최적의 용어들을 선별하고 용어정보에 기반한 문서수준에서의 감성분류모형을 제안하고자 한다. 고객리뷰의 감성분류모형에 대표적인 기계학습기법인 SVM을 적용하고, SVM의 입력변수 선정과정에 품사태깅 방식과 용어추출기법을 다르게 조합하고 사용하여 긍정적/부정적 문서를 분류하였다. 본 연구에서 제안한 감성분류모형의 성과를 검증하기 위해 아마존(Amazon.com)의 영화와 도서에 대한 고객리뷰 80,000개를 수집하여 불필요한 용어들을 제거한 후 품사태깅을 통해 용어를 추출하였다. 추출된 용어는 문서빈도, TF-IDF, 정보획득량, 카이제곱 통계량의 값을 산출하여 값을 통해 용어들을 순위화하고, 각 상위 20개에 해당하는 최적의 용어를 선정한 후 SVM을 이용하였다. 제안된 감성분류모형을 통해 기존 연구에서 언급한 형용사만을 사용한 예측변수와 4품사를 사용한 예측변수에서의 실험결과를 통해 비교 분석하였다. 카이제곱 통계량 기반의 감성분류모형이 다른 모형보다 예측성과가 가장 우수하게 나타나는 것을 확인할 수 있었다. 본 연구에서 제안된 문서수준에서의 용어기반 감성분류모형을 이용함으로써 온라인 상점에서의 서비스 개선과 경쟁력 확보에 많은 도움이 될 것으로 기대된다.

상향식 계층분류의 최적화 된 병합을 위한 후처리분석과 피드백 알고리즘 (Reinforcement Post-Processing and Feedback Algorithm for Optimal Combination in Bottom-Up Hierarchical Classification)

  • 최윤정;박승수
    • 정보처리학회논문지B
    • /
    • 제17B권2호
    • /
    • pp.139-148
    • /
    • 2010
  • 본 논문은 자동화된 분류시스템의 성능향상을 위한 것으로 오분류율이 높은 불확실성이 강한 문서들의 범주결정방식을 개선하기 위한 후처리분석 방법과 피드백 알고리즘을 제안한다. 전통적인 분류시스템에서 분류의 정확성을 결정하는 요인으로 학습방법과 분류모델, 그리고 데이터의 특성을 들 수 있다. 특성들이 일부 공유되어 있거나 다의적인 특성들이 풍부한 문서들의 분류문제는 정형화된 데이터들에서 보다 심화된 분석과정이 요구된다. 특히 단순히 최상위 항목으로 지정하는 기존의 결정방법이 분류의 정확도를 저하시키는 직접적인 요인이 되므로 학습방법의 개선과 함께 분류모델을 적용한 이후의 결과 값인 순위정보 리스트의 관계를 분석하는 작업이 필요하다. 본 연구에서는 경계범주의 자동탐색기법으로 확장된 학습체계를 제안한 이전 연구의 후속작업으로써, 최종 범주를 결정하기까지의 후처리분석 방법과 이전의 학습단계로 피드백하여 신뢰성을 높일 수 있는 알고리즘을 제안하고 있다. 실험결과에서는 제안된 범주결정방식을 적용한 후 1회의 피드백을 수행하였을 때의 결과들을 단계적이고 종합적으로 분석함으로써 본 연구의 타당성과 정확성을 보인다.

개미 군락 시스템을 이용한 개선된 에지 검색 알고리즘 (Improved Edge Detection Algorithm Using Ant Colony System)

  • 김인겸;윤민영
    • 정보처리학회논문지B
    • /
    • 제13B권3호
    • /
    • pp.315-322
    • /
    • 2006
  • 개미 군락 시스템(Ant Colony System, ACS)은 조합 최적화 문제 중의 하나인 방문 판매원 문제에(Traveling Salesman Problem, TSP) 간단하게 응용할 수 있고 좋은 결과를 보여주었으며 최근에는 영상처리 분야의 패턴 인식, 영상 추출, 에지 검색 등에 응용되고 있다. 에지 검색은 검색된 에지를 이용하여 문서 분류, 문자 인식, 얼굴 인식 등과 같은 분야에서 다양하게 응용될 수 있다. 기존의 연산자 위주의 에지 검색 기법들은 에지를 명확하게 검색한다고 해도 이 검색 결과를 이용하여 다음 단계의 영상처리를 위해서는 그 목적에 맞도록 새로운 후처리 작업을 거쳐야 한다는 단점이 있다. 본 연구에서는 개미 군락 시스템의 특성을 이용하여 에지의 명확한 검색뿐 아니라, 좀 더 안정적이고(robustness) 유연성을(flexibility) 갖는 에지 검색 기법을 제안하며 실제 디지털 영상에 적용하였을 때 만족할 만한 결과를 얻을 수 있었다.

6-유형 별로 적응적 계층 구조를 갖는 인쇄 한글 인식 (Printed Hangul Recognition with Adaptive Hierarchical Structures Depending on 6-Types)

  • 함대성;이득용;최경웅;오일석
    • 한국콘텐츠학회논문지
    • /
    • 제10권1호
    • /
    • pp.10-18
    • /
    • 2010
  • 한글 인식은 부류 수가 많다는 특성을 가지며 이 특성으로 인해 6-유형으로 사전 분류하는 것이 일반적이다. 사전 분류 후 각 유형들은 초성, 중성, 종성으로 분리하여 인식할 수 있다. 초성, 중성, 종성 각각은 부류의 수는 적지만 'ㅔ', 'ㅖ', 과 같이 서로간의 유사도가 높아 오 인식 되는 경우가 종종 발생한다. 따라서 본 논문에서는 6-유형 각각에 대해 다단계 트리 구조를 가진 계층적 인식 방법을 제안 하였다. 또한 초성, 중성, 종성의 서로 간의 간섭을 줄이기 위해, 초성과 종성의 인식 결과를 중성 분류기의 특징으로 사용하였다. PHD08 데이터베이스의 테스트 집합에 대해 98.96%의 정확률을 보였다.

Handwritten Indic Digit Recognition using Deep Hybrid Capsule Network

  • Mohammad Reduanul Haque;Rubaiya Hafiz;Mohammad Zahidul Islam;Mohammad Shorif Uddin
    • International Journal of Computer Science & Network Security
    • /
    • 제24권2호
    • /
    • pp.89-94
    • /
    • 2024
  • Indian subcontinent is a birthplace of multilingual people where documents such as job application form, passport, number plate identification, and so forth is composed of text contents written in different languages/scripts. These scripts may be in the form of different indic numerals in a single document page. Due to this reason, building a generic recognizer that is capable of recognizing handwritten indic digits written by diverse writers is needed. Also, a lot of work has been done for various non-Indic numerals particularly, in case of Roman, but, in case of Indic digits, the research is limited. Moreover, most of the research focuses with only on MNIST datasets or with only single datasets, either because of time restraints or because the model is tailored to a specific task. In this work, a hybrid model is proposed to recognize all available indic handwritten digit images using the existing benchmark datasets. The proposed method bridges the automatically learnt features of Capsule Network with hand crafted Bag of Feature (BoF) extraction method. Along the way, we analyze (1) the successes (2) explore whether this method will perform well on more difficult conditions i.e. noise, color, affine transformations, intra-class variation, natural scenes. Experimental results show that the hybrid method gives better accuracy in comparison with Capsule Network.

학회 웹사이트의 토픽 정보추출을 이용한 주제에 따른 학회 자동분류 기법 (Academic Conference Categorization According to Subjects Using Topical Information Extraction from Conference Websites)

  • 이수경;김관호
    • 한국전자거래학회지
    • /
    • 제22권2호
    • /
    • pp.61-77
    • /
    • 2017
  • 최근 온라인상에 게시된 학회정보가 급증함으로써 주제에 따른 학회정보의 자동분류는 연구자들에게 효율적인 관련 학회 탐색을 가능하게 한다. 그러나 대부분의 학회 목록 제공 서비스에서는 학회명칭, 날짜, 위치, URL 등의 정보만 제공하기 때문에 학회 주제를 파악할 수 있는 정보는 학회명칭에 국한된다. 따라서 본 연구에서는 URL을 통한 학회 웹사이트의 토픽정보를 추출함으로써 학회정보량의 부족문제를 해결하고, 동시에 양질의 정보로 학습의 성능을 향상시키는 기법을 제안한다. 구체적으로는 웹사이트 URL을 통해 수집한 HTML 문서로부터 주요 콘텐츠를 추출하고, 학회명칭과 유사한 토픽 키워드 정보를 선정하여 추가 가중치를 부여한다. 실 데이터를 활용한 실험 결과, 제안된 방법인 추가적인 웹 콘텐츠 정보의 사용은 주제에 따른 학회 분류의 성능을 성공적으로 향상시킬 수 있음을 확인하였다. 추후 연구에서는 웹 사이트의 구조를 고려한 토픽 정보추출을 통해 분류의 정확성을 더욱 향상시킬 계획이다.

다중요인모델에 기반한 텍스트 문서에서의 토픽 추출 및 의미 커널 구축 (Multiple Cause Model-based Topic Extraction and Semantic Kernel Construction from Text Documents)

  • 장정호;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권5호
    • /
    • pp.595-604
    • /
    • 2004
  • 문서 집합 내의 개념 또는 의미 관계의 자동 분석은 보다 효율적인 정보 획득과 단어 이상의 개념 수준에서의 문서간 비교를 가능케 한다. 본 논문에서는 다중요인모델에 기반 하여 텍스트 문서로부터 토픽들을 추출하고 이로부터 의미 커널(semantic kernel)을 구축하여 문서간 유사도를 측정하는 방안을 제시한다. 텍스트 문서는 내재된 토픽들의 다양한 결합에 의해 생성된다고 가정하며 하나의 토픽은 공통 주제에 관련되거나 적어도 자주 같이 나타나는 단어들의 집합으로 정의한다. 다중요인모델은 은닉층을 갖는 하나의 네트워크 형태로 표현되며, 토픽을 표현하는 단어 집합은 은닉노드로부터의 가중치가 높은 단어들로 구성된다. 일반적으로 이러한 다중요인 네트워크에서의 학습과 추론과정을 용이하게 하기 위해서는 근사적 확률 추정 기법이 요구되는데, 본 논문에서는 헬름홀츠 머신에 의한 방법을 활용한다. TDT-2 문서 집합에 대한 실험에서 토픽별로 관련 있는 단어 집합들을 추출할 수 있었으며, 4개의 텍스트 집합에 대한문서 검색 실험에서는 다중요인모델의 분석결과에 기반 한 의미 커널을 사용함으로써 기본 벡터공간 모델에 비해 평균정확도 면에서 통계적으로 유의한 수준의 성능 향상을 얻을 수 있었다.

Agile 방법론을 이용한 소프트웨어 개발 프로젝트관리 (Software development project management using Agile methodology)

  • 김태달
    • 한국인터넷방송통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.155-162
    • /
    • 2016
  • 최근에는 소프트웨어개발 프로세스나 도구보다는 개인과의 상호작용을 희망하고, 고객은 포괄적인 문서보다는 우선 작동하는 소프트웨어를 희망하며, 개발자는 계약에 대한 협상보다는 고객과의 협력을, 서로가 계획을 고수하기 보다는 변화에 대응하는 것을 더욱 가치 있게 생각한다. 이러한 관점에서, 소프트웨어 개발은 프로세스 중심보다는 프로젝트팀에게 자율성과 동기를 부여하고, 열정과 비전 등 인간관계 중심의 관리방식이 요구되고 있다. 최근에 와서 애자일 개발프로세스가 생산성 증대효과, 품질향상, 고객만족 등의 효용성이 입증되면서 프로젝트를 추진 할 때 방법론 선택에 있어, 전문가들에게 주목을 받게 되었다. 시대적 요구와 사용자 요구에 부응하기 위한 방법론 선정과 관련, 본 논문에서는 조직 구성에 있어, 제품 기반의 Cross functional team의 문제점을 해결하고자 제안된 방법론이 Feature Team 모델이며, 이 모델이 Cross functional team을 조직하고, 이 팀이 결과물(프로덕트) 단위가 아니라, 기능단위로 여러 프로덕트에 걸쳐서 개발을 진행하는 모델이라는 점에 대해 조사하였으며, 가치-주도형 애자일 기법을 통해 계획-기반형 모델과 차이점을 제시하였다. 그리고 객체지향모델링을 위해서는 기존의 JAD(joint application development)회의가 목표로 하는 도메인 분석, 요구추출, 모델링과 정리, 검토과정에 있어, UML 구조도와 행동도를 사전에 숙지하고 프로젝트를 진행하도록 제안한다.