• 제목/요약/키워드: 텍스트분석

검색결과 2,641건 처리시간 0.03초

텍스트 영역에 대한 단어 단위 분할 시스템 (A System for the Decomposition of Text Block into Words)

  • 정창부;곽희규;정선화;김수형
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.293-296
    • /
    • 2000
  • 본 논문에서는 주제어 인식에 기반한 문서영상의 검색 및 색인 시스템에 적용하기 위한 단어 단위 분한 시스템을 제안한다. 제안 시스템은 영상 전처리, 문서 구조 분석을 통해 추출된 텍스트 영역을 입력으로 단어 단위 분할을 수행하는데, 텍스트 영역에 대해 텍스트 라인을 분할하고 분할된 텍스트 라인을 단어 단위로 분할하는 계층적 접근 방법을 사용한다. 텍스트라인 분할은 수평 방향 투영 프로파일을 적용하여 분할 지점을 구한다. 그리고 단어 분할은 연결요소들을 추출한 후 연결요소간의 gap 정보를 구하고, gap 군집화 기법을 사용하여 단어 단위 분한 지점을 구한다. 이때 단어 단위 분할의 성능을 저하시키는 특수기호에 대해서는 휴리스틱 정보를 이용하여 검출한다. 제안 시스템의 성능 평가는 50개의 텍스트 영역에 적용하여 99.83%의 정확도를 얻을 수 있었다.

  • PDF

지능형 펜기반 온라인 교정 시스템의 설계 및 구현 (Modeling and Implementation of Intelligent Pen-based Online Editing System)

  • 김재경;손원성;정한상;임순범;최윤철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.178-180
    • /
    • 2002
  • 최근 종이 문서의 전자화가 이루어지면서 기존의 전통적인 펜기반 교정 시스템 또한 온라인 상의 전자 문서 환경에 맞게 구축되고 있다. 이러한 펜기반 입력 기법을 사용하는 교정 시스템에서는 교정 부호와 텍스트 간의 정확한 영역 인식이 중요하며 이를 위해 교정 부호의 특성과 텍스트 영역의 분석이 필요하다. 본 연구에서는 온라인 교정 시스템 모델링을 통하여 온라인 환경에 적합한 교정 부호를 정의하고, 교정 대상 텍스트 영역을 편집 가능한 단위로 구분하여 효율적인 편집 연산이 이루어 질 수 있도록 하였다. 또한 웹 기반의 구조문서(HTML/XML) 편집 환경을 고려하여 편집으로 인한 문서의 구조 정보 변경을 지원하기 위하여 텍스트를 비구조 및 구조정보 텍스트로 분류하여 정의하였다. 본 연구에서는 이러한 모델에 기반하여 교정 부호의 특성에 따른 가변적인 편집 텍스트 영역 인식 규칙 모델을 정의하여 교정부호와 편집 텍스트 영역간의 모호성을 최소화 하고, 편집으로 인한 문서의 구조 정보 변경을 지원하는 시스템을 구현하였다. 결과적으로 온라인 웹 문서 환경에서 펜기반의 모호한 교정 부호의 입력을 인지적인 관점에서 해석하여 보다 정확한 교정 작업 수행을 지원하도록 하였다.

  • PDF

특허 키워드 시계열 분석을 통한 부상 기술 예측 (Time Series Analysis of Patent Keywords for Forecasting Emerging Technology)

  • 김종찬;이준혁;김갑조;박상성;장동식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권9호
    • /
    • pp.355-360
    • /
    • 2014
  • 오늘날 국가와 기업의 연구 개발 투자 및 경영 정책 전략 수립에서 미래 부상 기술 예측은 매우 중요한 역할을 한다. 기술 예측을 위한 다양한 방법들이 사용되고 있으며 특허를 이용한 기술 예측 또한 활발히 진행되고 있다. 특허를 이용한 기술 예측에는 전문가들의 평가와 견해를 통한 정성적인 방법이 주로 사용되어 왔다. 정성적인 방법은 분석 결과의 객관성을 보장하지 못하고 분석에 많은 비용 및 시간이 요구된다. 이런 문제점을 보완하기 위해 최근에는 텍스트 마이닝을 이용한 특허 데이터의 정량적인 분석이 이루어지고 있다. 텍스트 마이닝 기법을 적용함으로써 특허 문서의 통계적 분석이 가능하다. 본 논문에서는 텍스트 마이닝과 ARIMA 분석을 이용한 기술 예측 방법을 제안한다.

비정형 텍스트 테이터 분석을 위한 워드클라우드 기법에 관한 연구 (A Study on Word Cloud Techniques for Analysis of Unstructured Text Data)

  • 이원조
    • 문화기술의 융합
    • /
    • 제6권4호
    • /
    • pp.715-720
    • /
    • 2020
  • 빅데이터 분석에서 텍스트 데이터는 대부분 비정형이고 대용량으로 분석 기법이 정립되지 않아 분석에 어려움이 많았다. 따라서 텍스트 데이터 분석 기법의 하나인 빅데이터 워드클라우드 기법의 실무 적용시 문제점과 유용성 검증을 통한 상용화 가능성을 위해 본 연구를 수행하였다. 본 논문에서는 R 프로그램 워드클라우드 기법을 이용하여 "대통령 UN연설문"을 시각화 분석을 하고 이 기법의 한계와 문제점을 도출한다. 그리고 이를 해결하기 위한 개선된 모델을 제안하여 워드클라우드 기법의 실무 적용에 대한 효율적인 방안을 제시한다.

텍스트 네트워크분석을 활용한 국방분야 연구논문 지식구조 분석 (Knowledge Structure Analysis on Defense Research Using Text Network Analysis)

  • 이용규;윤성웅;이상훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.526-529
    • /
    • 2018
  • 본 연구에서는 텍스트 네트워크분석을 활용하여 국방분야 연구의 핵심 주제어와 연구주제를 분석하고 이를 통해 전체 지식구조를 파악하고자 하였다. 이를 위해 2010년부터 2017년까지의 국방대학교 학위과정 논문을 대상으로 국방분야 연구현황을 진단하고 지식구조를 구성하였다. 8년간 누적된 논문 710건의 초록을 분석하여 총 6,883개의 단어를 추출한 후, 단어의 논문 등장 빈도수와 단어간 링크수를 파레토 법칙에 따라 상위 20%의 기준으로 총 270개의 단어로 추출하였고, 컴포넌트 분석을 통해 최종 170개의 핵심 주제어를 도출하였다. 이 핵심 주제어를 통해 중심성 분석과 응집구조를 분석하여, 국방분야에 대한 총 6개의 지식구조 그룹을 도출하였다.

  • PDF

융합적 관계로서의 이미지와 텍스트의 상호관계성 분석 연구 -광고 제작 수업을 통하여- (Analysis of Interrelation between Image and Text as Fusion Relationship -Through Advertising Production Class-)

  • 서화정;허윤정
    • 한국융합학회논문지
    • /
    • 제9권7호
    • /
    • pp.155-162
    • /
    • 2018
  • 본 연구는 광고 이미지와 텍스트를 활용한 광고 제작 수업을 통해 광고 이미지와 텍스트의 관계를 탐구하고, 학생작품을 롤랑 바르트의 기호학으로 분석하였다. 제작자의 의도보다는 감상하는 수용자의 해석에 중점을 둔 바르트의 해석에 따라, 수용자로서 작품을 해석하였으며. 학생들이 작품에 어떤 의미를 담아 제작하였는지 사회 문화적 의미에서 분석하였다. 수업은 총 4차시로 D고등학교 1학년 2개 학급 총 64명을 대상으로 진행되었다. 광고 제작 수업 후 학생들의 광고작품을 기호학 입장에서 분석한 결과는 다음과 같다. 첫째, 바르트의 기호학 모형으로 분석한 결과, 학생들이 의도가 광고 이미지와 텍스트의 기호가 되어 의미작용을 하였다. 둘째, 광고 이미지와 텍스트가 서로 보완하는 역할을 하며 의미를 구성하는 상호관계성의 특성이 있다. 셋째, 학생들의 광고에 내재되어 있는 사회 문화적 의미를 끌어냄으로 그들의 가치관과 관심사를 발견할 수 있다.

감리결과에 텍스트마이닝 기법을 적용한 프로젝트 실패 주요요인 분석 (Project Failure Main Factors Analysis using Text Mining in Audit Evaluation)

  • 장경애;장성용;김우제
    • 정보과학회 논문지
    • /
    • 제42권4호
    • /
    • pp.468-474
    • /
    • 2015
  • 기업은 프로젝트의 중요성을 인지하고 프로젝트의 실패요인을 찾아 위험을 미연에 방지하여 프로젝트의 성공율을 높이기 위해 노력해야 한다. 이것은 급변하는 외부의 변화에 신속히 대응하기 위해 필요하다. 선행연구에서도 이러한 프로젝트의 성공요인 및 실패요인에 대한 연구가 다양하게 수행되었으나, 대부분 설문조사와 샘플링 통계분석으로 연구가 수행되어 데이터의 객관성과 정량적 분석에 한계를 갖고 있었다. 따라서 본 연구에서는 프로젝트의 실패요인 분석을 객관적인 프로젝트의 평가보고서인 감리결과보고서에서 프로젝트의 문제를 발견하고 개선권고사항을 제시하는 부분의 텍스트를 도출하여 텍스트 마이닝을 수행하였다. 텍스트 마이닝에 적용한 알고리즘은 분류 성능이 우수한 NaiveBayes, SMO, J48 알고리즘이다. 실험은 10배 교차검증을 수행하였고 정확률과 재현율로 평가하였다. 도출된 텍스트에서 프로젝트의 실패요인을 분석하여 프로젝트 수행에 활용될 수 있도록 하였다.

e-Book 인터페이스에서 시각적 경험 설계를 위한 디지털 텍스트 구조의 물리적 요인분석 및 콘텐츠 개발 (Factor Analysis and Content Development of Digital Text Structure for Designing Visual Experience in e-Book Interface)

  • 성은모
    • 한국콘텐츠학회논문지
    • /
    • 제11권11호
    • /
    • pp.79-90
    • /
    • 2011
  • e-Book의 인터페이스 설계는 인쇄 텍스트를 읽고 이해하는 과정에서 시각적 경험에 의해 획득되는 물리적 요인을 반영할 필요가 있다. 이에 본 연구에서는 e-Book 인터페이스 설계를 위한 디지털 텍스트 구조의 물리적 요인은 무엇인지를 규명하고, 이를 반영한 프로토타입의 e-Book 인터페이스를 개발해 봄으로써 그 가능성을 확보하고자 하였다. 디지털 텍스트 구조의 물리적 요인을 규명하기 위하여 탐색적 요인분석과 확인적 요인분석이 실시되었으며, 이를 위해 237명의 대학생들이 설문조사에 참여하였다. 연구결과, 디지털 텍스트 구조의 물리적 요인에 대한 29개의 문항이 개발되었으며 신뢰도는 0.91이었다. 탐색적 요인분석 결과, 부피(volume), 깊이(depth), 밀도(density), 공간(space), 배열(layout), 형태 (format), 단서(signal), 크기(size), 그리고 길이(length) 등 9개의 요인이 도출되었으며, 설명량은 71.49%였다. 9개 요인의 구조에 대한 확인적 요인분석 결과, 각 요인의 적재량은 p<.01 수준에서 유의미한 것으로 나타났으며, 전체적인 모형 적합지수도 양호한 것으로 나타났다. 마지막으로 연구결과의 논의와 추후연구를 위한 시사점이 제시되었다.

과학 텍스트 의미지도 읽기 전략이 고등학생의 추론적 이해에 미치는 영향 (The Effects of Semantic Mapping as a Science Text Reading Strategy On High School Students' Inferential Comprehension)

  • 이수진;박지훈;남정희
    • 대한화학회지
    • /
    • 제67권5호
    • /
    • pp.362-377
    • /
    • 2023
  • 이 연구는 과학 텍스트 읽기 전략으로 의미지도가 고등학생의 추론적 이해에 미치는 영향을 알아보는 것을 목적으로 하였다. 이를 위해 고등학교 3학년 과학중점반 2개 학급 학생 46명을 대상으로 한 학기 동안 의미지도 읽기 전략을 활용하여 8개 주제의 과학 텍스트 읽기 수업을 실시하였다. 의미지도 읽기 전략이 과학 텍스트의 추론적 이해에 미치는 영향을 알아보기 위해 학생들이 작성한 사전·사후 읽기 능력 검사지를 비교 분석하였다. 추론적 이해 변화를 알아보기 위해 추론적 이해 분석틀을 개발하여 추론적 이해 수준을 분석하였다. 추론적 이해 변화를 분류하기 위해 추론적 이해 분석틀의 세부 항목인 3개 항목의 수준을 점수로 환산하였다. 학생들의 추론적 이해 변화 분석 결과는 의미지도 읽기 전략 수업이 고등학생의 추론적 이해 변화에 영향을 미쳤으며, 특히 추론적 이해의 하위 유형 중 교량 추론과 정교화 추론에 영향을 미치는 것으로 나타났다.

텍스트 데이터 시각화의 표현 재료와 접근 방식에 관한 고찰 (A Review on Expressive Materials and Approaches to Text Visualization)

  • 김효영;박진완
    • 한국콘텐츠학회논문지
    • /
    • 제13권1호
    • /
    • pp.64-72
    • /
    • 2013
  • 본 연구에서는 데이터 시각화 연구의 한 분야인 텍스트 시각화에 대하여 그 시각적 표현의 재료가 되는 텍스트 데이터의 종류 및 본질, 특성에 대하여 고찰하고, 다양한 텍스트 시각화의 사례 연구를 통해 텍스트 데이터의 시각화를 위한 표현적 접근 방식에 대하여 다각적으로 분석하였다. 텍스트 시각화 연구는 컴퓨터의 발달과 방대한 데이터의 공개, 그리고 시각화 툴의 범용화 등의 기류를 타고 급속도로 확산되고 있으며, 이에 따라 공학, 예술, 인문, 사회 등 학제 간 융합 연구를 통해 다양한 작품 또는 연구 성과물로서 창작되고 있다. 그럼에도 불구하고 텍스트 데이터를 비롯한 데이터 시각화에 관한 이론적 고찰과 접근 방식에 대한 체계적 분석은 거의 이루어지지 않고 있는 실정이다. 데이터는 이해와 해석의 대상이며, 가공 및 접근에 따라 무한한 정보와 가능성을 갖는다. 데이터의 중요성이 점차 증가하고 있는 현 시점에서 데이터의 이해와 해석에서 출발하는 텍스트 시각화라는 융합 학문적 연구 분야는 미래 인간 사회에서 데이터가 차지할 위상을 고려할 때, 보다 체계적인 연구와 이론적 축적을 필요로 한다.