• 제목/요약/키워드: Cosine similarity

검색결과 189건 처리시간 0.024초

이상탐지 활용 전자집단민원 추정 방법론에 관한 탐색적 연구: 창원시 시민의 소리 사례를 중심으로 (An Exploratory Study of Collective E-Petitions Estimation Methodology Using Anomaly Detection: Focusing on the Voice of Citizens of Changwon City)

  • 정하영
    • 정보화정책
    • /
    • 제26권4호
    • /
    • pp.85-106
    • /
    • 2019
  • 최근 전자민원시스템에 집단민원을 제기하는 사례가 늘어나고 있으나 이에 대한 효율적인 관리시스템이 아직 마련되어 있지 않아 행정 업무량 증대와 사회적 갈등 양산 등의 부작용이 우려되고 있다. 이에 본 연구에서는 이상탐지와 코퍼스 언어학 기반의 내용분석을 활용한 전자 집단민원 추정 방법론을 제시하고자 하였다. 이를 위하여 1)집단민원의 개념에 대한 이론적 고찰과 2) 비모수적 비지도 학습에 기반 한 이상탐지를 활용한 전자 집단민원 추정과 3) n-gram 코사인 각도 거리를 활용한 민원의 내용 유사도 분석방법론을 제안하고 4) 창원시 시민의 소리에 대한 사례분석을 통하여 제시한 방법론의 유용성과 정책적 시사점, 향후 과제를 검토하였다.

텍스트 마이닝 기법을 활용한 어깨 재활 연구분야 동향과 키워드 모델링 (The Research Trends and Keywords Modeling of Shoulder Rehabilitation using the Text-mining Technique)

  • 김준희;정성훈;황의재
    • 대한물리의학회지
    • /
    • 제16권2호
    • /
    • pp.91-100
    • /
    • 2021
  • PURPOSE: This study analyzed the trends and characteristics of shoulder rehabilitation research through keyword analysis, and their relationships were modeled using text mining techniques. METHODS: Abstract data of 10,121 articles in which abstracts were registered on the MEDLINE of PubMed with 'shoulder' and 'rehabilitation' as keywords were collected using python. By analyzing the frequency of words, 10 keywords were selected in the order of the highest frequency. Word-embedding was performed using the word2vec technique to analyze the similarity of words. In addition, the groups were classified and analyzed based on the distance (cosine similarity) through the t-SNE technique. RESULTS: The number of studies related to shoulder rehabilitation is increasing year after year, keywords most frequently used in relation to shoulder rehabilitation studies are 'patient', 'pain', and 'treatment'. The word2vec results showed that the words were highly correlated with 12 keywords from studies related to shoulder rehabilitation. Furthermore, through t-SNE, the keywords of the studies were divided into 5 groups. CONCLUSION: This study was the first study to model the keywords and their relationships that make up the abstracts of research in the MEDLINE of Pub Med related to 'shoulder' and 'rehabilitation' using text-mining techniques. The results of this study will help increase the diversifying research topics of shoulder rehabilitation studies to be conducted in the future.

Word2Vec을 활용한 제품군별 시장규모 추정 방법에 관한 연구 (A Study on Market Size Estimation Method by Product Group Using Word2Vec Algorithm)

  • 정예림;김지희;유형선
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 인공지능 기술의 급속한 발전과 함께 빅데이터의 상당 부분을 차지하는 비정형 텍스트 데이터로부터 의미있는 정보를 추출하기 위한 다양한 연구들이 활발히 진행되고 있다. 비즈니스 인텔리전스 분야에서도 새로운 시장기회를 발굴하거나 기술사업화 주체의 합리적 의사결정을 돕기 위한 많은 연구들이 이뤄져 왔다. 본 연구에서는 기업의 성공적인 사업 추진을 위해 핵심적인 정보 중의 하나인 시장규모 정보를 도출함에 있어 기존에 제공되던 범위보다 세부적인 수준의 제품군별 시장규모 추정이 가능하고 자동화된 방법론을 제안하고자 한다. 이를 위해 신경망 기반의 시멘틱 단어 임베딩 모델인 Word2Vec 알고리즘을 적용하여 개별 기업의 생산제품에 대한 텍스트 데이터를 벡터 공간으로 임베딩하고, 제품명 간 코사인 거리(유사도)를 계산함으로써 특정한 제품명과 유사한 제품들을 추출한 뒤, 이들의 매출액 정보를 연산하여 자동으로 해당 제품군의 시장규모를 산출하는 알고리즘을 구현하였다. 실험 데이터로서 통계청의 경제총조사 마이크로데이터(약 34만 5천 건)를 이용하여 제품명 텍스트 데이터를 벡터화 하고, 한국표준산업분류 해설서의 산업분류 색인어를 기준으로 활용하여 코사인 거리 기반으로 유사한 제품명을 추출하였다. 이후 개별 기업의 제품 데이터에 연결된 매출액 정보를 기초로 추출된 제품들의 매출액을 합산함으로써 11,654개의 상세한 제품군별 시장규모를 추정하였다. 성능 검증을 위해 실제 집계된 통계청의 품목별 시장규모 수치와 비교한 결과 피어슨 상관계수가 0.513 수준으로 나타났다. 본 연구에서 제시한 모형은 의미 기반 임베딩 모델의 정확성 향상 및 제품군 추출 방식의 개선이 필요하나, 표본조사 또는 다수의 가정을 기반으로 하는 전통적인 시장규모 추정 방법의 한계를 뛰어넘어 텍스트 마이닝 및 기계학습 기법을 최초로 적용하여 시장규모 추정 방식을 지능화하였다는 점, 시장규모 산출범위를 사용 목적에 따라 쉽고 빠르게 조절할 수 있다는 점, 이를 통해 다양한 분야에서 수요가 높은 세부적인 제품군별 시장정보 도출이 가능하여 실무적인 활용성이 높다는 점에서 의의가 있다.

NMF 와 코사인유사도를 이용한 질의 기반 문서요약 (Query-Based Text Summarization Using Cosine Similarity and NMF)

  • 박선;이주홍;안찬민;박태수;송재원;김덕환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 춘계학술발표대회
    • /
    • pp.473-476
    • /
    • 2006
  • 인터넷의 발달로 인하여 정보의 양은 시간이 지날수록 폭발적으로 증가하고 있다. 이러한 방대한 정보로부터 정보검색시스템은 사용자에게 너무 많은 검색결과를 제시하여 사용자가 원하는 정보를 찾기 위해 너무 많은 시간을 소요하게 하는 정보의 과적재 문제가 있다. 질의 기반의 문서요약은 정보의 사용자가 원하는 정보의 검색시간을 줄임으로써 정보의 과적재 문제를 해결하는 방법으로서 점차 중요성이 증가하고 있다. 본 논문은 비음수 행렬 인수분해 (NMF, Non-negative Matrix Factorization)과 코사인 유사도를 이용하여 질의 기반의 문서를 요약하는 새로운 방법을 제안하였다. 제안된 방법은 질의와 문서 간에 사전학습이 필요 없다. 또한 문서를 그래프로 변형시키는 복잡한 처리 없이 NMF 에 의해 얻어진 의미 특징(semantic feature)과 의미 변수(semantic variable)로 문서의 고유 구조를 반영하여 요약의 정확도를 높일 수 있다. 마지막으로 단순한 방법으로 문장을 쉽게 요약할 수 있다.

  • PDF

텍스타일 영상에서의 감성 기반 검색 시스템

  • 김영래;신윤희;김은이
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2009년도 춘계학술대회 미래 IT융합기술 및 전략
    • /
    • pp.82-87
    • /
    • 2009
  • 본 논문에서는 감성 기반으로 텍스타일을 자동으로 색인하고 검색 할 수 있는 시스템을 제안한다. 제안된 시스템은 영상 수집기, 감성 색인기, 검색기(Matcher), 질의 인터페이스로 구성되어 있다. 감성 색인기는 텍스타일 영상에 포함된 컬러와 패턴 정보를 기반으로 감성개념을 인식하고, 이를 이용하여 영상을 색인한다. 이때, 감성 어휘로 고바야시가 정의한 8개 (romantic, natural, casual, elegant, chic, classic, dandy, modern)를 사용한다. 질의 인터페이스에서 사용자는 두 가지 방식으로 질의를 선택할 수 있다. 첫 번째 방법은 감성 키워드를 사용하는 것이고, 두 번째는 사용자의 의도를 설명할 수 있는 영상을 이용하는 예제 기반 질의 방식이다. 질의가 주어지면, 검색기는 랭킹 알고리즘을 사용하여 검색 결과를 생성한다. 이 때, 유사도 비교방식은 선택된 질의방식에 따라 달라진다. 제안된 시스템의 성능을 검증하기 위해 웹 검색에 익숙한 50명(남자: 32명, 여자: 18명)을 대상으로 웹에서 수집한 3,416 장에 대해서 3가지 항목으로 사용자 평가를 하였다. 사용자 평가의 항목인 적합도(Relevance), 노력(Search Effort), 만족도(Satisfaction)의 결과로 사용자가 검색한 결과영상에서 적합도의 수치가 낮게 나왔지만, 만족도와 노력의 수치는 높게 평가되었다. 제안된 시스템에서 사용자는 자신이 선호하는 결과 영상을 상위 40개의 영상 내에서 얻을 수 있었다. 이는 제안된 시스템이 사용자들이 원하는 영상을 효율적으로 검색할 수 있다는 것을 증명했다.

  • PDF

Person Re-identification using Sparse Representation with a Saliency-weighted Dictionary

  • Kim, Miri;Jang, Jinbeum;Paik, Joonki
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제6권4호
    • /
    • pp.262-268
    • /
    • 2017
  • Intelligent video surveillance systems have been developed to monitor global areas and find specific target objects using a large-scale database. However, person re-identification presents some challenges, such as pose change and occlusions. To solve the problems, this paper presents an improved person re-identification method using sparse representation and saliency-based dictionary construction. The proposed method consists of three parts: i) feature description based on salient colors and textures for dictionary elements, ii) orthogonal atom selection using cosine similarity to deal with pose and viewpoint change, and iii) measurement of reconstruction error to rank the gallery corresponding a probe object. The proposed method provides good performance, since robust descriptors used as a dictionary atom are generated by weighting some salient features, and dictionary atoms are selected by reducing excessive redundancy causing low accuracy. Therefore, the proposed method can be applied in a large scale-database surveillance system to search for a specific object.

부상기술 예측을 위한 특허키워드정보분석에 관한 연구 - GHG 기술 중심으로 (Patent Keyword Analysis for Forecasting Emerging Technology : GHG Technology)

  • 최도한;김갑조;박상성;장동식
    • 디지털산업정보학회논문지
    • /
    • 제9권2호
    • /
    • pp.139-149
    • /
    • 2013
  • As the importance of technology forecasting while countries and companies manage the R&D project is growing bigger, the methodology of technology forecasting has been diversified. One of the forecasting method is patent analysis. This research proposes quick forecasting process of emerging technology based on keyword approach using text mining. The forecasting process is following: First, the term-document matrix is extracted from patent documents by using text mining. Second, emerging technology keyword are extracted by analyzing the importance of word from utilizing mean values and standard deviation values of the term and the emerging trend of word discovered from time series information of the term. Next, association between terms is measured by using cosine similarity. finally, the keyword of emerging technology is selected in consequence of the synthesized result and we forecast the emerging technology according to the results. The technology forecasting process described in this paper can be applied to developing computerized technology forecasting system integrated with various results of other patent analysis for decision maker of company and country.

한국 간호학 연구주제의 사회 연결망 분석 (A Social Network Analysis of Research Topics in Korean Nursing Science)

  • 이수경;정상원;김홍기;염영희
    • 대한간호학회지
    • /
    • 제41권5호
    • /
    • pp.623-632
    • /
    • 2011
  • Purpose: This study was done to explore the knowledge structure of Korean Nursing Science. Methods: The main variables were key words from the research papers that were presented in the Journal of Korean Academy of Nursing and journals of the seven branches of the Korean Academy of Nursing. English titles and abstracts of the papers (n=5,936) published from 1995 through 2009 were included. Noun phrases were extracted from the corpora using an in-house program (BiKE Text Analyzer), and their co-occurrence networks were generated via a cosine similarity measure, and then the networks were analyzed and visualized using Pajek, a Social Network Analysis program. Results: With the hub and authority measures, the most important research topics in Korean Nursing Science were identified. Newly emerging topics by three-year period units were observed as research trends. Conclusion: This study provides a systematic overview on the knowledge structure of Korean Nursing Science. The Social Network Analysis for this study will be useful for identifying the knowledge structure in Nursing Science.

GCST-SVD 기반 디지털 영상 워터마킹 방법 (Digital Image Watermarking Schemes Based on GCST and SVD)

  • 이적식
    • 융합신호처리학회논문지
    • /
    • 제14권3호
    • /
    • pp.154-161
    • /
    • 2013
  • 본 논문에서는 인간시각필터로 고려되는 Gabor 코사인과 사인 함수를 이용한 변환을 디지털 영상의 워터마킹 방법에 적용하였다. 변환된 주파수 영역에서 SVD의 특이값 또는 주성분을 이용한 4가지 워터마크 삽입과 추출 알고리즘을 제안한다. 삽입한 워터마크는 2차원 영상이고, 삽입한 워터마크와 추출한 워터마크 사이의 유사성을 측정하기 위하여 시각적인 판단뿐만 아니라 정규화된 상관값을 계산하였으며, 제안한 4가지 방법의 성능을 다양한 공격에 대해서 비교하였다. 가장 낮은 수평 또는 수직 교류 주파수 성분에 워터마크를 삽입하는 GCST-SVD 방법이 여러 공격에 대한 실험 결과로부터 높은 상관값과 시각적인 워터마크 특징을 잘 나타내므로 좋은 워터마킹 방법으로 사용할 수 있음을 볼 수 있다.

지식 분류의 자동화를 위한 클러스터링 모형 연구 (Development of a Clustering Model for Automatic Knowledge Classification)

  • 정영미;이재윤
    • 정보관리학회지
    • /
    • 제18권2호
    • /
    • pp.203-230
    • /
    • 2001
  • 본 연구에서는 문헌을 기반으로 한 지식의 자동분류를 위해 최적의 클러스터링 모형을 제시하고자 하였다. 클러스터링 실험을 위해서 신문기사 실험집단과 학술논문 초록 실험집단을 구축하였고, 분류 성능 평가 척도인 WACS를 개발하였다. 분류자질로 사용한 용어의 집합은 다양한 자질 축소 기준을 적용하여 생성하였으며, 다양한 용어 가중치를 사용하였다. 유사계수 공식으로는 코사인 계수와 자카드 계수를 적용하였으며, 클러스터링 알고리즘으로는 비계층적 기법인 완전연결 기법과 계층적 기법인 K-means기법을 각각 사용하였다. 실험 결과 신문기사 원문 집단에서의 성능이 좋았으며, 완전연결 기법의 성능이 K-means 기법보다 높게 나타났다. 역문헌빈도의 적용은 완전연결 클러스터링에서는 긍정적인 효과가 나타났으나, K-means 클러스터링에서는 그렇지 못했다. 분류자질은 전체의 7.66%만 사용하였을 경우에도 성능 저하가 크지 않았으며, K-means 클러스터링에서는 오히려 성능 향상 효과가 있었다.

  • PDF