• 제목/요약/키워드: automated text analysis

검색결과 39건 처리시간 0.022초

Word2Vec을 활용한 뉴스 기반 주가지수 방향성 예측용 감성 사전 구축 (News based Stock Market Sentiment Lexicon Acquisition Using Word2Vec)

  • 김다예;이영인
    • 한국빅데이터학회지
    • /
    • 제3권1호
    • /
    • pp.13-20
    • /
    • 2018
  • 주식 시장에 대한 예측은 오랜 기간 많은 이들의 꿈이었다. 하지만 수많은 노력에도 불구하고 주식 시장을 정확하게 예측하기란 쉬운 일이 아니었다. 본 연구는 주식 시장의 방향성에 주목하여 이 방향성을 예측할 수 있는 감성사전을 구축하는 새로운 방법을 제시한다. 이를 위해 2015년 1월 1일부터 2017년 12월 31일까지 3년간의 증시 뉴스 25,000여 건의 데이터를 수집하여, 문맥을 고려하기 위한 Word2Vec을 적용하였다. 이를 바탕으로 뉴스에 감성분석을 실시하여 KOSPI 종가 지수를 예측해 보았다.

잠재 의미 분석을 적용한 유사 특허 검색 서비스 시스템 (Similar Patent Search Service System using Latent Dirichlet Allocation)

  • 임현근;김재윤;정회경
    • 한국정보통신학회논문지
    • /
    • 제22권8호
    • /
    • pp.1049-1054
    • /
    • 2018
  • 유사 특허를 검색하는 방법으로 기존에는 키워드 검색 방법을 사용하고 최근에는 머신러닝을 활용한 자동분류 방법을 사용하고 있다. 키워드 검색은 데이터 정제를 통해 정형화된 데이터 분석 방법으로 단문일 경우 검색에서는 정확도는 높지만 문서와 같이 여러 단어로 이루어진 장문일 경우 문장에 내포된 의미 분석을 할 수 없었다. 의미 분석 단계에서의 자동 분류 방법은 비정형 데이터 분석 방법으로 여러 단어로 이루어진 문장을 분류하는데 사용되고 있다. 그 동안 두 가지 방법을 결합하여 유사 문서 검색을 하려는 시도가 있었지만 비정형 데이터와 정형 데이터의 동시 사용에는 분석하는 방법이 다르기 때문에 동시 적용에는 알고리즘 상의 문제가 있었다. 이에 본 논문에서는 문서에서 함축된 키워드를 검출하고 잠재 의미 분석(LDA) 방식을 사용하여 사람이 개입하지 않고 문서를 효율적으로 자동분류하고 유사 특허를 검색할 수 있는 방법을 연구하였다.

감정점수의 전파를 통한 한국어 감정사전 생성 (Generating a Korean Sentiment Lexicon Through Sentiment Score Propagation)

  • 박호민;김창현;김재훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권2호
    • /
    • pp.53-60
    • /
    • 2020
  • 감정분석은 문서 또는 대화상에서 주어진 주제에 대한 태도와 의견을 이해하는 과정이다. 감정분석에는 다양한 접근법이 있다. 그 중 하나는 감정사전을 이용하는 사전 기반 접근법이다. 본 논문에서는 널리 알려진 영어 감정사전인 VADER를 활용하여 한국어 감정사전을 자동으로 생성하는 방법을 제안한다. 제안된 방법은 세 단계로 구성된다. 첫 번째 단계는 한영 병렬 말뭉치를 사용하여 한영 이중언어 사전을 제작한다. 제작된 이중언어 사전은 VADER 감정어와 한국어 형태소 쌍들의 집합이다. 두 번째 단계는 그 이중언어 사전을 사용하여 한영 단어 그래프를 생성한다. 세 번째 단계는 생성된 단어 그래프 상에서 레이블 전파 알고리즘을 실행하여 새로운 감정사전을 구축한다. 이와 같은 과정으로 생성된 한국어 감정사전을 유용성을 보이려고 몇 가지 실험을 수행하였다. 본 논문에서 생성된 감정사전을 이용한 감정 분류기가 기존의 기계학습 기반 감정분류기보다 좋은 성능을 보였다. 앞으로 본 논문에서 제안된 방법을 적용하여 여러 언어의 감정사전을 생성하려고 한다.

텍스트마이닝 기반의 효율적인 장소 브랜드 이미지 강도 측정 방법 (An Efficient Estimation of Place Brand Image Power Based on Text Mining Technology)

  • 최석재;전종식;비스워스 수브르더;권오병
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.113-129
    • /
    • 2015
  • 장소 브랜딩은 특정 장소에 대한 의미 부여를 통해 장소성의 정체성 및 공동가치를 생성하며 가치 창출을 하는데 중요한 활동이며, 장소 브랜드에 대한 이미지 파악을 통해 이루어진다. 이에 마케팅, 건축학, 도시건설학 등 여러 분야에서는 인상적인 장소 브랜드의 이미지를 구축하기 위하여 많은 노력을 기울이고 있다. 하지만 설문조사를 포함한 대면조사 방법은 대부분 주관적인 작업이며 측정에 많은 인력 또는 고도의 전문 인력이 소요되어 고비용을 발생시키므로 보다 객관적이면서도 비용효과적인 브랜드 이미지 조사 방법이 필요하다. 이에 본 논문은 텍스트마이닝을 통하여 장소 브랜드의 이미지 강도를 객관적이고 저비용으로 얻는 방법을 찾는 것을 목적으로 한다. 제안하는 방법은 장소 브랜드 이미지를 구성하고 있는 요인과 그 키워드들을 관련 웹문서에서 추출하며, 추출된 정보를 통해 특정 장소의 브랜드 이미지 강도를 측정하는 방법이다. 성능은 안홀트 방법에서 평가에 사용하는 전세계 50개 도시 이미지 인덱스 순위와의 일치도로 검증하였다. 성능 비교를 위해 임의로 순위를 매기는 방법, 안홀트의 설문방식대로 일반인이 평가하는 방법, 본 논문의 방법을 사용하되 안홀트의 방법으로 학습한 것으로 유의한 것으로 추정되는 평가 항목만을 반영하는 방법과 비교하였다. 그 결과 제안된 방법론은 정확성, 비용효율성, 적시성, 확장성, 그리고 신뢰성 측면에서 우수함을 보일 수 있었다. 따라서 본 연구에서 제안한 방법론은 안홀트 방식에 상호 보완적으로 사용될 수 있을 것이다. 향후에는 장소 브랜드 이미지를 형성하는 속성 별로 등장횟수를 계산 한 후에 장소 브랜드에 대한 태도, 연상, 그리고 브랜드 자산과의 인과관계를 자동으로 파악할 수 있는 부분까지 구현하고 실증적 실험을 할 예정이다.

거시지표와 딥러닝 알고리즘을 이용한 자동화된 주식 매매 연구 (A Research on stock price prediction based on Deep Learning and Economic Indicators)

  • 홍성혁
    • 디지털융복합연구
    • /
    • 제18권11호
    • /
    • pp.267-272
    • /
    • 2020
  • 거시경제는 한 나라 경제 전체의 움직임을 보여주기 때문에 주식을 분석할 때 선행되어 분석되는 지표 중 하나이다. 실업률, 이자율, 물가, 국민소득, 환율, 통화량, 국제수지 등 국가차원의 경제 상황 전반은 주식시장에 직접적인 영향을 미치고, 경제 지표는 개별 주가와의 상관관계가 있기 때문에 주식을 예측하기 위해 많은 증권사 애널리스트들이 관심 있게 지켜보고, 개별 주가에 영향을 고려하여 매수와 매도를 판단하는 주요한 근거자료가 되고 있다. 주가에 영향을 미치는 경제 지표를 선행지표로 분석하고, 주가예측을 딥러닝 기반의 예측을 통하여 예측 후 실제 주가를 비교하여 차이가 발생하면 거시지표에 대한 가중치를 조절하여 지속적인 반복학습을 통하여 주식의 매수와 매도를 판단한다면, 주식은 더 이상 도박과 같은 투기가 아닌 건전한 투자가 될 수 있다. 따라서 본 연구는 거시지표와 인공지능의 딥러닝 알고리즘방식을 이용하여 자동화된 주식매매가 가능하도록 연구를 수행하였다.

위키피디아 링크를 이용한 랭크 기반 개념 계층구조의 자동 구축 (Automated Development of Rank-Based Concept Hierarchical Structures using Wikipedia Links)

  • 이가희;김한준
    • 한국전자거래학회지
    • /
    • 제20권4호
    • /
    • pp.61-76
    • /
    • 2015
  • 흔히 대용량 텍스트 데이터의 분류를 위한 인덱싱 데이터 구조로서 계층 개념 트리가 활용된다. 본 논문은 개념 계층구조를 자동적으로 구축하기 위해 위키피디아를 이용한 일반성 랭크 기반 기법을 제안한다. 이것의 목적은 위키피디아 문서를 하나의 개념으로 정의하여 이들 간의 계층적 위상관계를 생성하는 것이다. 이를 위해 위키피디아 문서들 간의 링크 개수를 주요 인자로 하여 개념 일반성을 가늠하는 랭킹함수를 고안하였으며, 이를 활용하여 개념 간 확률적 포함관계를 산출함으로써 안정적인 개념 간 계층 구조를 생성한다. 결과적으로 계층적 관계를 담은 개념쌍은 DAG 구조로 시각화 된다. Open Directory Project 계층구조를 사용한 성능 분석을 통해 제안 기법이 기준 기법에 비해 성능이 우수하며 고품질 계층 관계를 안정적으로 추출할 수 있음을 확인하였다.

수능 영어 문항 유형간 응집력과 어휘정보 분석 (An Analysis of Cohesion and Word Information among English CSAT Question Types)

  • 최민주;김정렬
    • 한국콘텐츠학회논문지
    • /
    • 제17권12호
    • /
    • pp.378-385
    • /
    • 2017
  • 본 연구는 대학수학능력시험 영어영역 읽기지문의 문항 유형별 응집력과 어휘정보를 파악하기 위해 코퍼스 기반 분석을 실시하였다. 본 연구에서는 한국교육과정평가원에서 제시하는 여섯 가지의 문항유형을 세가지의 범주, 즉 맥락읽기, 세부읽기, 간접쓰기로 나누어 분석하였다. 이를 위해 처음 수능이 실시된 1994학년도부터 2017학년도까지의 수능 영어영역의 읽기지문의 코퍼스를 구축한 후, 코메트릭스 3.0을 활용하여 해당 코퍼스를 분석하여 각 문항들의 응집력과 어휘정보의 차이를 살펴보았다. 연구 결과 표층응집성 지표에서는 명사중복 측정치와 어간중복 측정치에서 통계적으로 유의미한 차이를 보였다. 연결사 지표에서는 역접의 연결사와 추가의 연결사에서 통계적으로 유의미한 차이를 보였다. 어휘정보 지표의 결과에서는 대명사의 발생정도, 습득나이 측정치, 내용어의 구체성 측정치, 심상성 측정치, 유의미성 측정치에서 통계적으로 유의미한 차이를 보였다. 이러한 문항유형간 응집력과 어휘정보 분석에 대한 정보는 교과서 집필 및 수능시험 출제에 활용될 수 있을 것이며, 학생들이 직접적으로 활용할 수 있는 읽기전략으로 활용 될 것으로 기대된다.

Word2Vec 기반의 의미적 유사도를 고려한 웹사이트 키워드 선택 기법 (Web Site Keyword Selection Method by Considering Semantic Similarity Based on Word2Vec)

  • 이동훈;김관호
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.83-96
    • /
    • 2018
  • 문서를 대표하는 키워드를 추출하는 것은 문서의 정보를 빠르게 전달할 수 있을 뿐만 아니라 문서의 검색, 분류, 추천시스템 등의 자동화서비스에 유용하게 사용 될 수 있어 매우 중요하다. 그러나 웹사이트 문서에서 출현하는 단어의 빈도수, 단어의 동시출현관계를 통한 그래프 알고리즘 등의 기반으로 키워드를 추출할 경우 웹페이지 구조상 잠재적으로 주제와 관련이 없는 다양한 단어를 포함하고 있는 문제점과 한국어 형태소 분석의 정확성이 떨어지는 형태소 분석기 성능의 한계점 때문에 의미적인 키워드를 추출하는데 어려움이 존재한다. 따라서 본 논문에서는 의미적 단어 위주로 구축된 후보키워드들의 집합과 의미적 유사도 기반의 후보 키워드를 선택하는 방법으로써 의미적 키워드를 추출하지 못하는 문제점과 형태소 분석의 정확성이 떨어지는 문제점을 해결하고 일관성 없는 키워드를 제거하는 필터링 과정을 통해 최종 의미적 키워드를 추출하는 기법을 제안한다. 실 중소기업 웹페이지를 통한 실험 결과, 본 연구에서 제안한 기법의 성능이 통계적 유사도 기반의 키워드 선택기법보다 34.52% 향상된 것을 확인하였다. 따라서 단어 간의 의미적 유사성을 고려하고 일관성 없는 키워드를 제거함으로써 문서에서 키워드를 추출하는 성능을 향상시켰음을 확인하였다.

빅데이터 기반 추천시스템 구현을 위한 다중 프로파일 앙상블 기법 (A Multimodal Profile Ensemble Approach to Development of Recommender Systems Using Big Data)

  • 김민정;조윤호
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.93-110
    • /
    • 2015
  • 기존의 협업필터링 추천시스템 연구는 상품에 대한 고객의 평점(rating)이나 구매 여부 데이터로부터 하나의 프로파일을 생성하고 이를 기반으로 추천 성능을 향상시킬 수 있는 새로운 알고리즘을 개발하는 위주로 진행되어 왔다. 그러나 빅데이터 환경이 도래하면서 기업이 수집할 수 있는 고객 데이터가 풍부해지고 다양해짐에 따라, 보다 정확하게 고객의 선호도나 행태를 파악하는 것이 가능하게 되었고 이러한 데이터, 즉 퍼스널 빅데이터(personal big data)를 추천시스템에 활용하는 연구의 필요성이 대두되고 있다. 본 연구에서는 마케팅의 시장세분화 이론에 근거하여 퍼스널 빅데이터로부터 고객의 선호도나 행태를 다양한 관점에서 표현할 수 있는 5종의 다중 프로파일(multimodal profile)을 개발하고, 이를 활용하여 협업필터링 추천시스템의 성능을 개선하고자 한다. 제안하는 5종의 다중 프로파일은 프로파일 통합 유사도, 개별 프로파일 유사도 평균, 개별 프로파일 유사도 가중 평균이라는 세 가지 앙상블 기법을 통해 협업필터링의 이웃(neighborhood) 탐색과정에 적용된다. 실제 퍼스널 빅데이터에 본 연구에서 제안하는 방법론을 적용한 결과, 단일 프로파일을 사용하는 협업필터링 알고리즘보다 추천 성능이 상당히 개선되었으며 앙상블 방법 중에서는 개별 프로파일 유사도 가중 평균 기법이 가장 높은 추천 성능을 보여주었다. 본 연구는 빅데이터 환경에서 추천시스템을 개발하고자 할 때, 어떠한 성격의 데이터로부터 고객의 특성을 규명하는 프로파일을 만들고 이를 어떻게 결합하여 사용하는 것이 효과적인 지 처음으로 제안하였다는 점에서 그 의의가 있다.