• 제목/요약/키워드: Document Frequency

검색결과 298건 처리시간 0.033초

카테고리 중립 단어 활용을 통한 주가 예측 방안: 텍스트 마이닝 활용 (Stock Price Prediction by Utilizing Category Neutral Terms: Text Mining Approach)

  • 이민식;이홍주
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.123-138
    • /
    • 2017
  • 주식 시장은 거래자들의 기업과 시황에 대한 기대가 반영되어 움직이기에, 다양한 원천의 텍스트 데이터 분석을 통해 주가 움직임을 예측하려는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 것이기에 단순히 주가의 등락 뿐만이 아니라, 뉴스 기사나 소셜 미디어의 반응에 따라 거래를 하고 이에 따른 수익률을 분석하는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 연구들도 다른 분야의 텍스트 마이닝 접근 방안과 동일하게 단어-문서 매트릭스를 구성하여 분류 알고리즘에 적용하여 왔다. 문서에 많은 단어들이 포함되어 있기 때문에 모든 단어를 가지고 단어-문서 매트릭스를 만드는 것보다는 단어가 문서를 범주로 분류할 때 기여도가 높은 단어들을 선정하여야 한다. 단어의 빈도를 고려하여 너무 적은 등장 빈도나 중요도를 보이는 단어는 제거하게 된다. 단어가 문서를 정확하게 분류하는 데 기여하는 정도를 측정하여 기여도에 따라 사용할 단어를 선정하기도 한다. 단어-문서 매트릭스를 구성하는 기본적인 방안인 분석의 대상이 되는 모든 문서를 수집하여 분류에 영향력을 미치는 단어를 선정하여 사용하는 것이었다. 본 연구에서는 개별 종목에 대한 문서를 분석하여 종목별 등락에 모두 포함되는 단어를 중립 단어로 선정한다. 선정된 중립 단어 주변에 등장하는 단어들을 추출하여 단어-문서 매트릭스 생성에 활용한다. 중립 단어 자체는 주가 움직임과 연관관계가 적고, 중립 단어의 주변 단어가 주가 상승에 더 영향을 미칠 것이라는 생각에서 출발한다. 생성된 단어-문서 매트릭스를 가지고 주가의 등락 여부를 분류하는 알고리즘에 적용하게 된다. 본 연구에서는 종목 별로 중립 단어를 1차 선정하고, 선정된 단어 중에서 다른 종목에도 많이 포함되는 단어는 추가적으로 제외하는 방안을 활용하였다. 온라인 뉴스 포털을 통해 시가 총액 상위 10개 종목에 대한 4개월 간의 뉴스 기사를 수집하였다. 3개월간의 뉴스 기사를 학습 데이터로 분류 모형을 수립하였으며, 남은 1개월간의 뉴스 기사를 모형에 적용하여 다음 날의 주가 움직임을 예측하였다. 본 연구에서 제안하는 중립 단어 활용 알고리즘이 희소성에 기반한 단어 선정 방안에 비해 우수한 분류 성과를 보였다.

양자 컴퓨터 기술 트렌드 예측과 분석 (Trend Forecasting and Analysis of Quantum Computer Technology)

  • 차은주;장병윤
    • 한국시뮬레이션학회논문지
    • /
    • 제31권3호
    • /
    • pp.35-44
    • /
    • 2022
  • 본 연구에서는 양자 컴퓨터 관련 기술 트렌드 분석과 예측을 수행한다. 기존 양자 컴퓨터 기술 분석 관련 연구는 주로 기술 특징을 중심으로 응용 가능 분야에 집중되었다. 본 논문은 시장 중심의 기술 분석과 예측을 위하여 양자 컴퓨터 관련 국내 뉴스 기사를 기반으로 중요하게 다뤄지는 양자 컴퓨터 기술들을 분석하고 미래신호 감지와 예측을 수행한다. 뉴스 기사에서 사용된 단어들을 분석하여 빠르게 변화하는 시장의 변화와 대중의 관심사를 파악한다. 본 논문은 Cha & Chang (2022) 컨퍼런스 발표 자료를 확장했다. 연구는 2019년부터 2021년까지의 국내 뉴스 기사를 수집하여 진행된다. 먼저, 텍스트 마이닝을 통해 주요 키워드를 정리한다. 다음으로, Term Frequency - Inverse Document Frequency(TF-IDF), Key Issue Map(KIM), Key Emergence Map(KEM) 등의 분석을 통해 양자컴퓨터관련 기술을 탐색한다. 마지막으로, 랜덤포레스트, 의사결정나무, 연관분석 등을 통해 미래기술들과 수요 및 공급의 연관성을 파악한다. 연구결과 빈도분석, 키워드 확산도 및 가시성 분석에서 모두 AI의 관심도가 가장 높게 나타났다. 사이버보안의 경우 시간이 지날수록 뉴스기사에서 언급되는 비율이 다른 기술에 비해 압도적으로 높게 나타났다. 또한 양자통신, 내성암호, 증강현실 역시 관심도의 증가율이 높게 나타났다. 따라서 이를 트렌드 기술의 적용에 대한 시장의 기대가 높음을 알 수 있다. 본 연구의 결과는 양자컴퓨터 시장의 관심 분야 파악과 기술 투자 관련 대응체계 구축에 응용될 수 있다.

사용자 프로파일에 기반한 전자 메일의 중요도 결정 (Decision Method of Importance of E-Mail based on User Profiles)

  • 이상곤
    • 정보처리학회논문지B
    • /
    • 제15B권5호
    • /
    • pp.493-500
    • /
    • 2008
  • 개인 통신 방법의 수단으로 전자 메일이 널리 사용되고 있으나, 업무에 직접 관련이 없는 쓸모없는 상업용 메일도 대량으로 유포되고 있다. 본 연구에서는 사용자가 작성한 프로파일을 이용하여 메일을 자동으로 그룹핑(grouping) 하는 방법을 제안하고자 한다. 기존의 연구 방법은 단어의 빈도수만을 이용하는 단일 속성을 이용하므로 높은 정확률을 얻을 수 없었다. 그러나 본 논문에서 제안하는 방법은 기존 사용자의 폴더에 수신된 메일의 분류 체계에서 추출된 사용자 프로파일을 이용하여 그룹핑 되는 메일의 정확률을 높이고자 한다. 본 논문에서 적극적으로 이용하는 정보는 다중 속성(송신처, 문서의 주제, 문서의 유형 정보, 시간제한 표현의 어구 등) 값이다. 사용자의 프로파일을 이용함으로써 새로 도착한 메일이 사용자에게 중요한가 혹은 중요하지 않은가의 자동 판단이 가능하도록 시스템을 설계하였다. 학습 데이터를 네 가지 형태로 나누어 실험한 결과 Rocchio와 Widrow-Hoff의 상관계수가 각각 0.40과 0.43인 것 보다 본 논문의 방법이 0.52로 보다 높은 상관계수를 나타내 빈도수만을 이용하는 기존의 연구보다 정확한 방법임을 알 수 있었다.

단어의 연관성을 이용한 문서의 자동분류 (Automatic Classification of Documents Using Word Correlation)

  • 신진섭;이창훈
    • 한국정보처리학회논문지
    • /
    • 제6권9호
    • /
    • pp.2422-2430
    • /
    • 1999
  • 본 논문에서는 단어들 사이의 연관성을 이용하여 문서들을 사용자의 관심분야 만큼 자동으로 분류하는 다음과 같은 방법을 제안한다. 첫째, TF*IDF 알고리즘을 이용하여 각 문서를 대표할 수 있는 단어들을 찾아내고, 본 논문에서 제안한 연관성 계산을 위한 확률 모델을 이용하여 각 문서를 대표할 수 있는 단어들을 찾아내고, 본 논문에서 제안한 연관성 계산을 위한 확률 모델을 이용하여 각 문서를 대표하는 각각의 단어들이 문서 전체집합에서 서로 어느 정도 연관성을 갖고 있는가를 계산한다. 둘째, 연관성이 가장 높은 두 단어를 중심으로 그 단어들에 밀접하게 연결되어 있는 단어들을 하나의 집합으로 구성하고, 그 집합을 이용하여 하나의 클래스와 프로파일을 생성한다. 연관성이 다음으로 높은 두 단어를 중심으로 위와 같은 과정을 임계 값 보다 낮은 값이 나올 때까지 계속적으로 반복함으로써, 사용자가 관심 있는 분야만큼의 프로파일을 생성한다. 또한, 본 논문에서는 생성된 각각의 프로파일이 각 문서들에 어느 정도의 영향력을 갖고 있는지를 평가하여 문서들을 분류하고, 기존의 자동문서 분류 방법과의 비교를 통하여 본 논문에서 제시한 방법의 타당성을 입증한다.

  • PDF

인플루언서 속성 분석 기반 추천 시스템 (Influencer Attribute Analysis based Recommendation System)

  • 박정련;박지원;김민우;오하영
    • 한국정보통신학회논문지
    • /
    • 제23권11호
    • /
    • pp.1321-1329
    • /
    • 2019
  • 소셜 정보망의 발달로 마케팅의 방법도 다양하게 변화되고 있다. 기존의 유명인, 경제적 지원 기반의 성공적인 마케팅방법론과 달리, 최근 인플루언서 기반 유튜브 마케팅이 큰 대세를 이루고 있다. 본 논문 에서는 처음으로 유튜브 양적 정보 및 댓글분석 기반 다각도 질적 분석을 활용하여 54개 이상의 유튜브 채널에서 인플루언서 특징을 추출하고 대표적인 주제들을 모델링하여 개인 맞춤형 영상 만족도 극대화는 물론 기업체가 새로운 아이템을 마케팅 할 때 기존의 인플루언서 특징을 참고하여 새로운 아이템의 영상을 제작하고 배포함으로써 성공적인 홍보 효과를 누릴 수 있도록 보조 수단 제공을 목적으로 한다. 유튜브 채널 별 다양한 영상의 모든 댓글을 각 문서로 가정하고 TF-IDF 및 LDA알고리즘을 적용하여 성능 극대화 향상을 보였다.

자기부상열차 보조전원장치 경량화를 위한 공진형 HF DC/DC Converter 연구 (Study on the resonant HF DC/DC Converter for the weight reduction of the Auxiliary Power Supply of MAGLEV)

  • 이경복;임지영;조정민;김진수;한영재;최성호
    • 한국철도학회:학술대회논문집
    • /
    • 한국철도학회 2011년도 정기총회 및 추계학술대회 논문집
    • /
    • pp.1825-1831
    • /
    • 2011
  • One of the major trends in traction power electronics is increasing the switching frequencies. The advances in the frequency elevation have made it possible to reduce the total size and weight of the passive components such as capacitors, inductors and transformers in the DC/DC converter and hence to increase the power density. The traction dynamic performance is also improved. This document describes several aspects relating to the design of resonant DC/DC converter operating at high frequency(10KHz) and the converter topologies and the control method of MAGLEV, which result in soft switching, are discussed.

  • PDF

자동초록 작성시에 발생하는 유사의미 문장요소들의 통합에 관한 연구 (A Study on the Integration of Similar Sentences in Atomatic Summarizing of Document)

  • 이태영
    • 한국문헌정보학회지
    • /
    • 제34권2호
    • /
    • pp.87-115
    • /
    • 2000
  • 유사문장의 식별 및 통합을 위하여 문장의 구성성분, 품사, 절유형, 위치 등이 미치는 영향을 조사하고 유사도측정 공식과 통합방안을 모색하였다. 문법적 요인보다는 문장간에 일치하는 단어의 수가 유사성에 영향을 미치며 표제어와 기능절도 관여되었다. 문장간의 유사도 측정 공식은 설튼의 유사도 측정식과 코싸인계수를 혼합하여 사용하였다. 유사문장들의 통합에서 절들의 대체 방법을 사용하였는데 앞으로는 단어들의 대체 방법으로 전환하여야 할 것이다.

  • PDF

자연스러운 범용 O2O 애플리케이션 사용자 인터페이스를 위한 상품 정보 자동 분류 (Automatic Classification of Product Data for Natural General-purpose O2O Application User Interface)

  • 이하나;임은수;조영인;윤영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.382-385
    • /
    • 2016
  • 본 논문은 현재 영역 별로 파편화된 여러 O2O(Online to Offline) 서비스들을 통합적으로 제공하기 위해 자연어를 통한 NUI(Natural User Interface)를 개발하여 사용자가 명시한 상품 정보의 항목을 자동으로 분류하고자 한다. 이를 위해 e-commerce 도메인 정보 학습에 적합한 나이브 베이즈 분류(Naive Bayes Classifier) 알고리즘을 사용한다. 학습에는 미국 e-commerce 사이트 Groupon의 상품 정보와 분류 체계를 사용하며, 학습 데이터의 특징을 분석하여 상품 정보에 특화된 학습 데이터 정제 및 TF-IDF(Term Frequency-Inverse Document Frequency)를 통한 단어 별 가중치를 적용하여 알고리즘의 정확도를 향상시킨다.

대규모 문서 데이터 집합에서 Q&A를 위한 질의문 분류 기법 (A Query Classification Method for Question Answering on a Large-Scale Text Data)

  • 엄재홍;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.253-255
    • /
    • 2000
  • 어떠한 질문에 대한 구체적 해답을 얻고 싶은 경우, 일반적인 정보 검색이 가지는 문제점은 검색 결과가 사용자가 찾고자 하는 답이라 하기 보다는 해답을 포함하는(또는 포함하지 않는) 문서의 집합이라는 점이다. 사용자가 후보문서를 모두 읽을 필요 없이 빠르게 원하는 정보를 얻기 위해서는 검색의 결과로 문서집합을 제시하기 보다는 실제 원하는 답을 제공하는 시스템의 필요성이 대두된다. 이를 위해 기존의 TF-IDF(Term Frequency-Inversed Document Frequency)기반의 정보검색의 방삭에 자연언어처리(Natural Language Processing)를 이용한 질문의 분류와 문서의 사전 표지(Tagging)를 사용할 수 있다. 본 연구에서는 매년 NIST(National Institute of Standards & Technology)와 DARPA(Defense Advanced Research Projects Agency)주관으로 열리는 TREC(Text REtrieval Conference)중 1999년에 열린 TREC-8의 사용자의 질문(Question)에 대한 답(Answer)을 찾는 ‘Question & Answer’문제의 실험 환경에서 질문을 특징별로 분류하고 검색 대상의 문서에 대한 사전 표지를 이용한 정보검색 시스템으로 사용자의 질문(Question)에 대한 해답을 보다 정확하고 효율적으로 제시할 수 있음을 실험을 통하여 보인다.

  • PDF

월드와이드웹의 내용기반 구조최적화 (Optimization Model on the World Wide Web Organization with respect to Content Centric Measures)

  • 이우기;김승;김한도;강석호
    • 한국경영과학회지
    • /
    • 제30권1호
    • /
    • pp.187-198
    • /
    • 2005
  • The structure of a Web site can prevent the search robots or crawling agents from confusion in the midst of huge forest of the Web pages. We formalize the view on the World Wide Web and generalize it as a hierarchy of Web objects such as the Web as a set of Web sites, and a Web site as a directed graph with Web nodes and Web edges. Our approach results in the optimal hierarchical structure that can maximize the weight, tf-idf (term frequency and inverse document frequency), that is one of the most widely accepted content centric measures in the information retrieval community, so that the measure can be used to embody the semantics of search query. The experimental results represent that the optimization model is an effective alternative in the dynamically changing Web environment by replacing conventional heuristic approaches.