• 제목/요약/키워드: Data dictionary

검색결과 346건 처리시간 0.02초

뉴스와 주가 : 빅데이터 감성분석을 통한 지능형 투자의사결정모형 (Stock-Index Invest Model Using News Big Data Opinion Mining)

  • 김유신;김남규;정승렬
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.143-156
    • /
    • 2012
  • 누구나 뉴스와 주가 사이에는 밀접한 관계를 있을 것이라 생각한다. 그래서 뉴스를 통해 투자기회를 찾고, 투자이익을 얻을 수 있을 것으로 기대한다. 그렇지만 너무나 많은 뉴스들이 실시간으로 생성 전파되며, 정작 어떤 뉴스가 중요한지, 뉴스가 주가에 미치는 영향은 얼마나 되는지를 알아내기는 쉽지 않다. 본 연구는 이러한 뉴스들을 수집 분석하여 주가와 어떠한 관련이 있는지 분석하였다. 뉴스는 그 속성상 특정한 양식을 갖지 않는 비정형 텍스트로 구성되어있다. 이러한 뉴스 컨텐츠를 분석하기 위해 오피니언 마이닝이라는 빅데이터 감성분석 기법을 적용하였고, 이를 통해 주가지수의 등락을 예측하는 지능형 투자의사결정 모형을 제시하였다. 그리고, 모형의 유효성을 검증하기 위하여 마이닝 결과와 주가지수 등락 간의 관계를 통계 분석하였다. 그 결과 뉴스 컨텐츠의 감성분석 결과값과 주가지수 등락과는 유의한 관계를 가지고 있었으며, 좀 더 세부적으로는 주식시장 개장 전 뉴스들과 주가지수의 등락과의 관계 또한 통계적으로 유의하여, 뉴스의 감성분석 결과를 이용해 주가지수의 변동성 예측이 가능할 것으로 판단되었다. 이렇게 도출된 투자의사결정 모형은 여러 유형의 뉴스 중에서 시황 전망 해외 뉴스가 주가지수 변동을 가장 잘 예측하는 것으로 나타났고 로지스틱 회귀분석결과 분류정확도는 주가하락 시 70.0%, 주가상승 시 78.8%이며 전체평균은 74.6%로 나타났다.

효율적인 이미지 분할을 위한 RGB 채널 선택 기법 (RGB Channel Selection Technique for Efficient Image Segmentation)

  • 김현종;박영배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권10호
    • /
    • pp.1332-1344
    • /
    • 2004
  • 최근 초고속 통신망 및 멀티미디어 관련기술의 발달로 인해 멀티미디어 데이타를 좀 더 효율적으로 전송하고 저장, 검색하는 기술이 요구되고 있다. 그 중에서 의미 기반 영상 검색은 색상, 질감, 모양 정보 등의 저 차원 특징 정보와 이미지 데이타에 의미를 부여하기 위해 주석 처리하는 것이 일반적이다. 그리고 부여된 키워드와 같은 어휘 사전을 이용하여 의미기반 정보검색을 수행하고 있지만, 기존의 키 워드기반 텍스트 정보검색의 한계를 벗어나지 못하는 문제를 야기 시킨다. 두 번째 문제점으로 내용 기반이미지 검색시스템에서 검색 성능이 떨어지며, 복잡한 배경을 가진 이미지에서 객체를 분리하기가 어렵고, 그리고 영역의 과잉 분할로 인하여 영역 추출이 어렵다. 그리고 복잡한 다중 객체를 가진 이미지에서 객체들을 분리하기 어렵다는 것이다. 이러한 문제점들을 해결하기 위해서, 본 논문에서는 총 다섯 가지 단계로 처리할 수 있는 내용 기반 검색 시스템을 구축한다. 다섯 단계 중에서 가장 중요한 부분은 RGB 이미지들 중에서 배경이 가장 큰 것과 가장 작은 것을 추출한다. 특히, 배경이 가장 큰 이미지를 이용하여 피사체와 배경을 추출하는 방법을 제안한다. 두 번째 문제점을 해결하기 위해서, RGB 채널 분할 기법을 이용하여 객체를 분리하고, Watermerge의 임계값을 이용하여 영역의 과잉분할을 최적화하며, RGB 채널 선택 기법을 이용하여 다중객체를 분리하는 방법을 제안한다. 실험을 통하여 기존에 검색하기 어려웠던 복잡한 객체들을 검색하는 방법들을 대체할 수 있도록, 제안한 기법이 기존의 방법보다 검색 성능이 우수함을 입증한다.과 황산이온의 농도에 따르는 것으로 생각된다. 이상과 같이, 에트린자이트는 콘크리트 내에서 다양한 내외부적인 화학작용 따라 특징적인 산출 양상을 보이며, 주변 환경 조건에 따라 다른 광물로 전이되는 나타내었다. 이러한 연구결과, 에트린자이트의 생성에 따른 콘크리트의 성능저하는 그 광물학적 특성과 분포양상에 관련성을 가지는 것으로 나타났다.인 상관관계를 보이지 않는 것으로 나타난다. 이에 비해서 팽윤도는 벤토나이트의 광물조성, 표면전하 특성, 입도 및 형상 등의 물리화학적 성향을 포괄하는 체표면적 수치와 대략적으로 반비례적인 관계를 보인다 따라서 벤토나이트 현탁액에서의 유변학적 특성은 몬모릴로나이트의 표면전하 특성, 형태, 입도 및 조직 등의 차이에 의해서 달라지는 점토 입자들의 응집특성 및 취합결정체의 형상에 주로 규제되고, 제올라이트와 같은 미세한 불순 광물성분들의 영향도 부수적으로 관여되는 복합적인 성향인 것으로 해석된다.18.88%이상 향상시키는 것으로 나타났다. 3. 유지방 함량 23.80%인 control 치즈의 cholesterol 함량은 81.47mg/100g이었고, 균질압력 1200psi(91kg/$cm^2$)에 $\beta$-cyclodextrin 2%를 첨가한 cheese에서는 cholesterol 함량이 20.15mg/100g으로 cholesterol 제거율이 75.27%로 가장 높게 나타났다. 4. Meltability는 균질압력 1200psi(91kg/$cm^2$)에 $\beta$-cyclodextrin 1과 2%로 처리한

온라인 리뷰 분석을 통한 상품 평가 기준 추출: LDA 및 k-최근접 이웃 접근법을 활용하여 (Product Evaluation Criteria Extraction through Online Review Analysis: Using LDA and k-Nearest Neighbor Approach)

  • 이지현;정상형;김준호;민은주;여운영;김종우
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.97-117
    • /
    • 2020
  • 상품 평가 기준은 상품에 대한 속성, 가치 등을 표현한 지표로써 사용자나 기업이 상품을 측정하고 파악할 수 있게 한다. 기업이 자사 제품에 대한 객관적인 평가와 비교를 수행하기 위해서는 적절한 기준을 선정하는 것이 필수적이다. 이때, 평가 기준은 소비자들이 제품을 실제로 구매 및 사용 후 평가할 때 고려하는 제품의 특징을 반영하여야 한다. 그러나 기존에 사용되던 평가 기준은 제품마다 상이한 소비자의 의견을 반영하지 못하고 있다. 기존 연구에서는 소비자 의견이 반영된 온라인 리뷰를 통해 상품의 특징, 주제를 추출하고 이를 평가기준으로 사용했다. 하지만 여전히 상품과 연관성이 낮은 평가 기준이 추출되거나 부적절한 단어가 정제되지 않는 한계가 있다. 본 연구에서는 이를 극복하기 위해 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 기법으로 리뷰로부터 평가 기준 후보군을 추출하고 이를 k-최근접 이웃 접근법(k-Nearest Neighbor Approach, k-NN)을 이용해 정제하는 모델을 개발하고 검증했다. 제시하는 방법은 준비 단계와 추출 단계로 이루어진다. 준비 단계에서는 워드임베딩(Word Embedding) 모델과 평가 기준 후보군을 정제하기 위한 k-NN 분류기를 생성한다. 추출 단계에서는 k-NN 분류기와 언급 비율을 이용해 평가 기준 후보군을 정제하고 최종 결과를 도출한다. 제안 모델의 성능 평가를 위해 명사 빈도 추출 모델, LDA 빈도 추출 모델, 실제 전자상거래 사이트가 제공하는 평가 기준을 세 비교 모델로 선정했다. 세 모델과의 비교를 위해 설문을 진행하고 점수화하여 결과를 검정했다. 30번의 검정 결과 26번의 결과에서 제안 모델이 우수함을 확인했다. 본 연구의 제안 모델은 전자상거래 사이트에서 리뷰 특성을 반영한 상품군 별 차원을 도출하는데 활용될 수 있고 이를 기초로 인사이트 발굴을 위한 리뷰 분석 및 활용에 크게 기여할 것이다.

한국어 음소 단위 LSTM 언어모델을 이용한 문장 생성 (Korean Sentence Generation Using Phoneme-Level LSTM Language Model)

  • 안성만;정여진;이재준;양지헌
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.71-88
    • /
    • 2017
  • 언어모델은 순차적으로 입력된 자료를 바탕으로 다음에 나올 단어나 문자를 예측하는 모델로 언어처리나 음성인식 분야에 활용된다. 최근 딥러닝 알고리즘이 발전되면서 입력 개체 간의 의존성을 효과적으로 반영할 수 있는 순환신경망 모델과 이를 발전시킨 Long short-term memory(LSTM) 모델이 언어모델에 사용되고 있다. 이러한 모형에 자료를 입력하기 위해서는 문장을 단어 혹은 형태소로 분해하는 과정을 거친 후 단어 레벨 혹은 형태소 레벨의 모형을 사용하는 것이 일반적이다. 하지만 이러한 모형은 텍스트가 포함하는 단어나 형태소의 수가 일반적으로 매우 많기 때문에 사전 크기가 커지게 되고 이에 따라 모형의 복잡도가 증가하는 문제가 있고 사전에 포함된 어휘 외에는 생성이 불가능하다는 등의 단점이 있다. 특히 한국어와 같이 형태소 활용이 다양한 언어의 경우 형태소 분석기를 통한 분해과정에서 오류가 더해질 수 있다. 이를 보완하기 위해 본 논문에서는 문장을 자음과 모음으로 이루어진 음소 단위로 분해한 뒤 입력 데이터로 사용하는 음소 레벨의 LSTM 언어모델을 제안한다. 본 논문에서는 LSTM layer를 3개 또는 4개 포함하는 모형을 사용한다. 모형의 최적화를 위해 Stochastic Gradient 알고리즘과 이를 개선시킨 다양한 알고리즘을 사용하고 그 성능을 비교한다. 구약성경 텍스트를 사용하여 실험을 진행하였고 모든 실험은 Theano를 기반으로 하는 Keras 패키지를 사용하여 수행되었다. 모형의 정량적 비교를 위해 validation loss와 test set에 대한 perplexity를 계산하였다. 그 결과 Stochastic Gradient 알고리즘이 상대적으로 큰 validation loss와 perplexity를 나타냈고 나머지 최적화 알고리즘들은 유사한 값들을 보이며 비슷한 수준의 모형 복잡도를 나타냈다. Layer 4개인 모형이 3개인 모형에 비해 학습시간이 평균적으로 69% 정도 길게 소요되었으나 정량지표는 크게 개선되지 않거나 특정 조건에서는 오히려 악화되는 것으로 나타났다. 하지만 layer 4개를 사용한 모형이 3개를 사용한 모형에 비해 완성도가 높은 문장을 생성했다. 본 논문에서 고려한 어떤 시뮬레이션 조건에서도 한글에서 사용되지 않는 문자조합이 생성되지 않았고 명사와 조사의 조합이나 동사의 활용, 주어 동사의 결합 면에서 상당히 완성도 높은 문장이 발생되었다. 본 연구결과는 현재 대두되고 있는 인공지능 시스템의 기초가 되는 언어처리나 음성인식 분야에서 한국어 처리를 위해 다양하게 활용될 수 있을 것으로 기대된다.

반도체 기술 R&D 연구인력의 역량연구 -H사 기업부설연구소를 중심으로 (A Study of Competency for R&D Engineer on Semiconductor Company)

  • 윤혜림;윤관식;전화익
    • 대한공업교육학회지
    • /
    • 제38권2호
    • /
    • pp.267-286
    • /
    • 2013
  • 본 연구는 반도체 제조업 회사인 H사의 기업부설연구소를 대상으로 구성원에게 필요한 역량을 규명하였다. 포커스 그룹 인터뷰와 직무분석 자료를 바탕으로 비전을 확인하고 구성원이 직무를 수행하는데 필요한 역량을 확인했다. 또한 규명된 역량에 대해 설문을 통해 구성원이 인식하고 있는 역량별 중요도인식과 역량수준을 확인함으로써 개인과 조직의 역량을 향상시키기 위한 방법을 제안하였다. 인터뷰와 직무분석은 각자 그룹별, 내용별로 정리된 후 통합 분석되었고, 분석된 결과는 Spencer&Spencer의 역량사전과 선행연구에서 개발된 역량모델들과 비교분석을 거친 뒤 유목화되어 재분류하는 과정을 거쳤으며, 그 결과 16개의 역량이 도출되었고, 7개의 역량군으로 분류하였다. 이 연구는 이러한 결과를 근거로 H사 기업부설연구소가 필요한 역량을 규명하고 직무별로 요구되는 역량의 차이를 발견하였다. 또한 역량의 중요도 인식과 역량별 본인의 수준 인식 정도를 확인하여 연구인력에 대한 보다 적극적인 교육의 방식이나 다양한 종류의 교육을 제안했다.

블로그 데이터 감성분석을 통한 북한산둘레길 구간별 선호도 평가 (Evaluation of Preference by Bukhansan Dulegil Course Using Sentiment Analysis of Blog Data)

  • 이성희;손용훈
    • 한국조경학회지
    • /
    • 제49권3호
    • /
    • pp.1-10
    • /
    • 2021
  • 본 연구는 탐방객이 자유롭게 서술한 블로그 텍스트 데이터를 자연어 처리 기술 중 하나인 감성분석을 활용하여 북한산둘레길의 선호도를 평가하고, 선호 요인과 비선호 요인을 도출하는 것을 목적으로 하였다. 이에 2019년 1년 동안 작성된 블로그를 수집하고 21개 둘레길 구간별 텍스트에 나타난 긍정 및 부정 감성 단어 도출을 통해 감성점수를 산출하였다. 이후 내용분석을 통해 탐방객이 어떤 요소로 인해 구간을 선호하거나 선호하지 않는지 파악하였다. 북한산둘레길에 대해 작성된 블로그에서는 긍정적인 단어가 평균적으로 약 73% 출현하고 있었고, 각 구간별 게시물의 감성 극성 비율에서도 긍정적인 문서의 비율이 부정적인 문서의 비율보다 높았다. 이를 통해 탐방객은 북한산둘레길에 대하여 대체로 긍정적으로 인식하고 있는 것으로 나타났다. 그럼에도 감성점수를 도출한 결과, 21개 둘레길 구간에서는 선호하는 구간과 선호하지 않는 구간이 존재하고 있었다. 선호 구간과 비선호 구간에 대해 탐방객은 난이도가 낮고 부담 없이 걸을 수 있는 구간을 선호하고 있었고, 경관에 대한 여러 요소(시각, 청각, 후각 등)가 조화롭고 계절감이 뚜렷해 다양한 경관이 연출되는 곳, 경관 시퀀스의 변화가 존재하는 구간을 선호하는 것으로 나타났다. 또한 탐방객은 전망대, 조망점 등의 뷰포인트 유무를 둘레길에서의 주요 요소로 인식하고 있었고, 접근성이 우수하고 안내판 등 정보 제공이 원활하게 이뤄지는 구간에 대해 선호도가 더 높은 것을 알 수 있다. 반면, 도로와 인접함에 따라 발생되는 주변 소음과 과도한 시가지 비율, 구간별 난이도 불균형 등으로 인한 둘레길 동선 불만족이 비선호 요인으로 크게 작용하고 있었으며, 경관 단절 및 구간에 대한 정보 부족 등이 선호도를 떨어트리는 원인으로 나타났다. 본 연구의 결과는 국립공원뿐만 아니라 근교 산림 녹지 관리에 있어서 둘레길 정비 및 개선방안 마련에 활용될 수 있으며, 연구에 활용된 감성분석은 자연지역에 대한 실제 이용자들의 반응을 지속적으로 모니터링 할 수 있다는 점에 의의가 있다. 다만 사전에 정의된 감성사전을 기반으로 평가하였기에 지속적인 사전 업데이트가 필요하다. 또한 소셜미디어 특성상 부정적인 견해보다는 긍정적인 내용을 공유하는 경향이 존재하기 때문에, 현장 설문조사 등의 분석 결과와 비교, 검토하는 작업이 필요하다.