• 제목/요약/키워드: 텍스트 전처리

검색결과 150건 처리시간 0.031초

불용어 시소러스를 이용한 비정형 텍스트 데이터 후처리 방법론에 관한 연구 (A Study on Unstructured text data Post-processing Methodology using Stopword Thesaurus)

  • 이원조
    • 문화기술의 융합
    • /
    • 제9권6호
    • /
    • pp.935-940
    • /
    • 2023
  • 인공지능과 빅데이터 분석을 위해 웹 스크래핑으로 수집된 대부분의 텍스트 데이터들은 일반적으로 대용량이고 비정형이기 때문에 빅데이터 분석을 위해서는 정제과정이 요구된다. 그 과정은 휴리스틱 전처리 정제단계와 후처리 머시인 정제단계를 통해서 분석이 가능한 정형 데이터가 된다. 따라서 본 연구에서는 후처리 머시인 정제과정에서 한국어 딕셔너리와 불용어 딕셔너리를 이용하여 워드크라우드 분석을 위한 빈도분석을 위해 어휘들을 추출하게 되는데 이 과정에서 제거되지 않은 불용어를 효율적으로 제거하기 위한 "사용자 정의 불용어 시소러스" 적용에 대한 방법론을 제안하고 R의 워드클라우드 기법으로 기존의 "불용어 딕셔너리" 방법의 문제점을 보완하기 위해 제안된 "사용자 정의 불용어 시소러스" 기법을 이용한 사례분석을 통해서 제안된 정제방법의 장단점을 비교 검증하여 제시하고 제안된 방법론의 실무적용에 대한 효용성을 제안한다.

시간축 스케일링에 의한 화자 식별 개선에 관한 연구 (A Study on Improvement of Speaker Identification with Time axis Scaling)

  • 정형교
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.123-126
    • /
    • 1998
  • 기존의 DTW를 이용한 화자 인식 시스템은 DTW의 단점이라 할 수 있는 과다한 계산량을 갖는다는 문제점을 갖고 있다. 따라서 본 논문은 텍스트 종속 화자 인식 시스템에서 피치 분포도를 갖는 개별 화자의 lDTW를 수행하기 전에 시간축 스케일링을 이용한 전처리로 인식시의 계산량을 감소시키는 과정을 미리 수행할 후 감소된 기준패턴들의 입력신호에 대해서만 DTW를 수행하는 방법을 제안하고자 한다. 제안한 방법을 실험하였을 경우 87.5%의 평균 처리 시간이 감소하였고, 더불어 인식률 감소는 거의 없었다.

  • PDF

폰트 밀도함수를 애용한 폰트 타입의 인식 (Fontface Recognition Using the Font Density Function)

  • 진성아;주문원
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2001년도 춘계학술발표논문집
    • /
    • pp.189-191
    • /
    • 2001
  • 폰트는 텍스트 정보를 기술하는 기본 요소로서 다양한 타입에 따른 독특한 감성정보를 내재하고 있다. 본 연구는 문서에 나타나 있는 영문폰트의 분포에 따른 감성정보 자동추출 시스템의 전처리 단계로서 문서상에서 특정의 폰트를 인식하는 모듈을 소개하고자 한다. 폰트 디자이너에 생성된 대부분의 폰트는 glyph data 라고 하는 2D boundary 좌표값에 의해 그 모양(Shape)이 결정된다. 이 데이터로부터 정의된 폰트밀도함수와 각 문자가 등장하는 보편적 확률 값의 linear combination으로부터 각 폰트를 식별할 수 있다.

  • PDF

웹 컨텐츠의 분류를 위한 텍스트마이닝과 데이터마이닝의 통합 방법 연구 (Interplay of Text Mining and Data Mining for Classifying Web Contents)

  • 최윤정;박승수
    • 인지과학
    • /
    • 제13권3호
    • /
    • pp.33-46
    • /
    • 2002
  • 최근 인터넷에는 기존의 데이터베이스 형태가 아닌 일정한 구조를 가지지 않았지만 상당한 잠재적 가치를 지니고 있는 텍스트 데이터들이 많이 생성되고 있다. 고객창구로서 활용되는 게시판이나 이메일, 검색엔진이 초기 수집한 데이터 둥은 이러한 비구조적 데이터의 좋은 예이다. 이러한 텍스트 문서의 분류를 위하여 각종 텍스트마이닝 도구가 개발되고 있으나, 이들은 대개 단순한 통계적 방법에 기반하고 있기 때문에 정확성이 떨어지고 좀 더 다양한 데이터마이닝 기법을 활용할 수 있는 방법이 요구되고 있다. 그러나, 정형화된 입력 데이터를 요구하는 데이터마이닝 기법을 텍스트에 직접 적용하기에는 많은 어려움이 있다. 본 연구에서는 이러한 문제를 해결하기 위하여 전처리 과정에서 텍스트마이닝을 수행하고 정제된 중간결과를 데이터마이닝으로 처리하여 텍스트마이닝에 피드백 시켜 정확성을 높이는 방법을 제안하고 구현하여 보았다. 그리고, 그 타당성을 검증하기 위하여 유해사이트의 웹 컨텐츠를 분류해내는 작업에 적용하여 보고 그 결과를 분석하여 보았다. 분석 결과, 제안방법은 기존의 텍스트마이닝만을 적용할 때에 비하여 오류율을 현저하게 줄일 수 있었다.

  • PDF

토픽모델의 성능 향상을 위한 불용어 자동 생성 기법 (Automatic Generating Stopword Methods for Improving Topic Model)

  • 이정빈;인호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.869-872
    • /
    • 2017
  • 정보검색(Information retrieval) 및 텍스트 분석을 위해 수집하는 비정형 데이터 즉, 자연어를 전처리하는 과정 중 하나인 불용어(Stopword) 제거는 모델의 품질을 높일 수 있는 쉽고, 효과적인 방법 중에 하나이다. 특히 다양한 텍스트 문서에 잠재된 주제를 추출하는 기법인 토픽모델링의 경우, 너무 오래되거나, 수집된 문서의 도메인이나 성격과 무관한 불용어의 제거로 인해, 해당 토픽 모델에서 학습되어 생성된 주제 관련 단어들의 일관성이 떨어지게 된다. 따라서 분석가가 분류된 주제를 올바르게 해석하는데 있어 많은 어려움이 따르게 된다. 본 논문에서는 이러한 문제점을 해결하기 위해 일반적으로 사용되는 표준 불용어 대신 관련 도메인 문서로부터 추출되는 점별 상호정보량(PMI: Pointwise Mutual Information)을 이용하여 불용어를 자동으로 생성해주는 기법을 제안한다. 생성된 불용어와 표준 불용어를 통해 토픽 모델의 품질을 혼잡도(Perplexity)로써 측정한 결과, 본 논문에서 제안한 기법으로 생성한 30개의 불용어가 421개의 표준 불용어보다 더 높은 모델 성능을 보였다.

5-HMM물 이용한 텍스트 정보추출 (Information extraction wish S-HMM from textual data)

  • 엄재홍;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.328-330
    • /
    • 2002
  • 본 논문에서는 패턴이나 음성데이터와 같이 순차적 데이터론 인식하는데 널리 사용되어온 모델로서, 일련의 순차적인 성질을 내포하고있는 데이터를 다루는 문제에 적합하다고 할 수 있는 HMM을 이용하여 정보추출 문제를 다룬다. 기본적으로는 통상적인 HMM 사용법을 따르나 모델의 구조를 정함에 있어서 HMM을 사용할 때는 주로 목적에 맞는 HMM의 구조를 수동으로 구성하고 모델 내부의 확률 파라미터 값을 학습시켰던 데 반해, 본 논문에서는 데이터의 전처리 정보를 이용하여 초기에 추상적으로 설정한 모델이 학습을 통해서 점차 구체화되어 가는 자기 구성 은닉마르코프 모델(5-HMM)을 제시하여 사용한다. 제시된 방법은 CFP(Call for Paper)등의 텍스트 데이터에 더만 실험에서 기존 방식을 사용한 HMM보다 향상된 결과를 보여준다.

  • PDF

정박 중 준해양사고 원인에 대한 빅데이터 분석 연구

  • 노범석;김태훈;강석용
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2018년도 춘계학술대회
    • /
    • pp.144-146
    • /
    • 2018
  • 준해상사고를 줄이기 위하여 준해양사고 등을 분석하여 사고 예방에 활용하였다. 하지만 준해양사고 건수가 많은 대신 주내용이 정성적이기 때문에 다양한 정량적 데이터로 분석하기에는 현실적 어려움이 있었다. 이러 장단점을 고려하여 준해양사고에 대해서 그동안 단순한 내용 검토 방식에서 통계적 분석과 이를 통한 객관적 결과 토출이 가능한 빅데이터 기법를 적용한 연구가 필요하다. 이를 위해 10,000여건의 준해양사고 보고서를 전처리 작업을 통해 통일된 양식으로 정리하였다. 이 데이터를 기반으로 1차로 텍스트마이닝 분석을 통해 정박 중 준해양사고 발생 원인에 대한 주요 키워드를 도출하였다. 주요 키워드에 대해 2차로 시계열 및 클러스터 분석을 통해 발생할 수 있는 준해양 사고 상황에 대한 경향 예측을 도출하였다. 이번 연구에서는 정성적 자료인 준해양사고 보고서를 빅데이터 기법을 활용하여 정량화된 데이터로 전환할 수 있고 이를 통해 통계적 분석이 가능함을 확인하였다. 또한 빅데이터 기법을 통해 차 후 발생할 수 있는 준해양사고 객관적인 경향을 파악함으로써 예방 대책에 대한 정보 제공이 가능함을 확인할 수 있었다.

  • PDF

미디어 리뷰를 이용한 영화 배경 키워드 자동 추출 기법 (Automatic Background Keyword of Movie Extraction Method from Media Reviews)

  • 김형우;조준면;유정주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1149-1151
    • /
    • 2013
  • 본 연구는 영화 콘텐츠의 배경(공간적/시간적)에 해당하는 키워드를 자동으로 추출하는 기법을 제안한다. 제안된 기법은 영화 콘텐츠들의 리뷰 텍스트 데이터를 웹 상으로부터 수집하는 과정, 수집된 텍스트 리뷰 데이터의 전처리 과정에 해당하는 형태소 분석 및 개체명인식 과정, 마지막으로 통계적 기법을 이용하여 최종적으로 배경에 해당하는 단어를 선택하는 과정으로 이루어진다. 자동으로 추출된 배경 정보는 사용자 평가를 통하여 정확도를 측정하였으며, 자동 생성된 배경 정보를 이용하여 영화 콘텐츠의 검색 및 추천 등에 다양하게 사용될 수 있을 것으로 예상된다.

안드로이드 정적분석 기반 개인정보 처리방침의 신뢰성 분석 (Reliability Analysis of Privacy Policies Based on Android Static Analysis)

  • 정윤교
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.221-224
    • /
    • 2022
  • 모바일 사용자가 증가함에 따라 모바일 앱에서 사용자가 허용하지 않은 개인정보가 유출되는 프라이버시 문제가 많아졌다. 이를 해결하기 위해 구글은 앱스토어에 등록된 앱이 사용자의 개인정보를 어떻게 활용하는지 개인정보 처리방침에 명시하도록 했다. 하지만 개인정보 처리방침이 실제로 앱의 개인정보 수집 및 처리 과정을 정확히 공개하는지 확인할 수 있는 해결책이 없으며, 사용자는 앱이 개인정보를 어떻게 활용하는지 알기 위해 개인정보 처리방침에 의존해야만 한다. 본 연구에서는 안드로이드 정적 분석으로 앱이 접근할 수 있는 데이터를 확인하고, 개인정보 처리방침의 텍스트를 추출 및 분석한 뒤 결과를 비교하여 개인정보 처리방침의 신뢰성을 분석한다. 실험을 위해 구글 앱스토어에 등록된 13,223개 앱의 패키지 파일과 부가정보를 수집했고 전처리 과정을 거쳐 분석 가능한 앱을 선정했다. 선정한 앱의 모바일 앱 분석 결과와 텍스트 분석 결과를 비교하여 모바일 앱이 개인정보 처리방침에 명시된 것보다 더 많은 개인정보에 접근할 수 있음을 입증한다.

해외직구 물품 불법 거래에 관한 모니터링 서비스 설계와 해석 (Regarding the illegal transaction of overseas direct purchase Monitoring service design and analysis)

  • 신용훈;김정호;조진표
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.508-511
    • /
    • 2021
  • 관세법에서는 해외직구물품이 일정금액(미화 150불, 단 미국은 미화 200불)이하 또는 자기사용 물품으로 인정되는 경우에 제세를 면제토록 규정하고 있으며 관련규정을 어길시 관세법상 무신고 밀수입죄에 해당된다. 본 논문은 해외직구 리셀러(되팔이)가 증가하고 해당 사항이 사회적 이슈로 대두되기에 해외직구 물품 불법거래에 관한 모니터링시스템을 설계하고 해석하였다. 온라인 중고 사이트(e-commerce)에서 거래되고 있는 거래 내용을 크롤링을 통하여 데이터를 수집·전처리를 통해 구조화하고 데이터 정제, 텍스트 범주화, 텍스트 마이닝 등 관계 예측을 해석하였다.