• 제목/요약/키워드: Term Frequency-Inverse document frequency

검색결과 96건 처리시간 0.025초

Retrieval methodology for similar NPP LCO cases based on domain specific NLP

  • No Kyu Seong ;Jae Hee Lee ;Jong Beom Lee;Poong Hyun Seong
    • Nuclear Engineering and Technology
    • /
    • 제55권2호
    • /
    • pp.421-431
    • /
    • 2023
  • Nuclear power plants (NPPs) have technical specifications (Tech Specs) to ensure that the equipment and key operating parameters necessary for the safe operation of the power plant are maintained within limiting conditions for operation (LCO) determined by a safety analysis. The LCO of Tech Specs that identify the lowest functional capability of equipment required for safe operation for a facility must be complied for the safe operation of NPP. There have been previous studies to aid in compliance with LCO relevant to rule-based expert systems; however, there is an obvious limit to expert systems for implementing the rules for many situations related to LCO. Therefore, in this study, we present a retrieval methodology for similar LCO cases in determining whether LCO is met or not met. To reflect the natural language processing of NPP features, a domain dictionary was built, and the optimal term frequency-inverse document frequency variant was selected. The retrieval performance was improved by adding a Boolean retrieval model based on terms related to the LCO in addition to the vector space model. The developed domain dictionary and retrieval methodology are expected to be exceedingly useful in determining whether LCO is met.

로컬 특징 기반 글로벌 이미지를 사용한 CNN 기반의 악성코드 분류 방법 (Convolutional Neural Network-based Malware Classification Method utilizing Local Feature-based Global Image)

  • 장세준;성연식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.222-223
    • /
    • 2020
  • 최근 악성코드로 인한 피해가 증가하고 있다. 악성코드는 악성코드가 속한 종류에 따라서 대응하는 방법도 다르기 때문에 악성코드를 종류별로 분류하는 연구도 중요하다. 기존에는 악성코드 시각화 과정을 통해서 생성된 악성코드의 글로벌 이미지를 사용해 악성코드를 각 종류별로 분류한다. 글로벌 이미지를 악성코드로부터 추출한 바이너리 정보를 사용해서 생성한다. 하지만, 글로벌 이미지만을 사용해서 악성코드를 각 종류별로 분류하는 경우 악성코드의 종류별로 중요한 특징을 고려하기 않기 때문에 분류 정확도가 떨어진다. 본 논문에서는 악성코드의 글로벌 이미지에 악성코드의 종류별 특징을 나타내기 위한 로컬 특징 기반 글로벌 이미지를 사용한 악성코드 분류 방법을 제안한다. 첫 번째, 악성 코드로부터 바이너리를 추출하고 추출된 바이너리를 사용해서 글로벌 이미지를 생성한다. 두 번째, 악성 코드로부터 로컬 특징을 추출하고 악성코드의 종류별 핵심 로컬 특징을 단어-역문서 빈도(Term Frequency Inverse Document Frequency, TFIDF) 알고리즘을 사용해 선택한다. 세 번째, 생성된 글로벌 이미지에 악성코드의 패밀리별 핵심 특징을 픽셀화해서 적용한다. 네 번째, 생성된 로컬 특징 기반 글로벌 이미지를 사용해서 컨볼루션 모델을 학습하고, 학습된 컨볼루션 모델을 사용해서 악성코드를 각 종류별로 분류한다.

뉴스 빅데이터를 활용한 수소 이슈 탐색 (A Study on Social Issues for Hydrogen Industry Using News Big Data)

  • 최일영;김혜경
    • 한국수소및신에너지학회논문집
    • /
    • 제33권2호
    • /
    • pp.121-129
    • /
    • 2022
  • With the advent of the post-2020 climate regime, the hydrogen industry is growing rapidly around the world. In order to build the hydrogen economy, it is important to identify social issues related to hydrogen and prepare countermeasures for them. Accordingly, this study conducted a semantic network analysis on hydrogen news from NAVER. As a result of the analysis, the number of hydrogen news in 2020 increased by 4.5 times compared to 2016, and as of 2018, the hydrogen issue has shifted from an environmental aspect to an economic aspect. In addition, although the initial government-led hydrogen industry is expanding to the mobility field such as privately-led fuel cell electric vehicles and hydrogen fuel, terms showing concerns about the safety such as explosions are constantly being exposed. Thus, it is necessary not only to expand the hydrogen ecosystem through the participation of private companies, but also to promote hydrogen safety.

대한민국 정권별 아동복지정책 관련 뉴스 기사 분석: K-평균 군집 분석 (Analysis of News Articles on Child Welfare Policies in South Korea: K-Means Clustering)

  • 김은주;김성광;박빛나
    • 동서간호학연구지
    • /
    • 제29권2호
    • /
    • pp.185-195
    • /
    • 2023
  • Purpose: The purpose of this study is to analyze changes of child welfare policies and provide insights based on the collection and classification of newspaper articles. Methods: Articles related to child welfare policies were collected from 1990, during the Kim, Young-sam administration, to May 9, 2022, under the Moon, Jae-in administration. K-Means clustering and keyword Term Frequency-Inverse Document Frequency analysis were utilized to cluster and analyze newspaper articles with similar themes. Results: The administrations of Kim, Young-sam, Kim, Dae-jung, Roh, Moo-hyun, and Park, Geun-hye were classified into two clusters, and the Lee, Myung-bak and Moon, Jae-in administrations were classified into three clusters. Conclusion: South Korea's child welfare policies have focused on ensuring the safety and healthy development of children through diverse policies initiatives over the years. However, challenges related to child protection and child abuse persist. This requires additional resources and budget allocation. It is important to establish a comprehensive support system for children and families, including comprehensive nursing support.

빅데이터 마이닝에 의한 공시지가 민원의 시공간적 분석모델 제시 (A Suggestion for Spatiotemporal Analysis Model of Complaints on Officially Assessed Land Price by Big Data Mining)

  • 조태인;최병길;나영우;문영섭;김세훈
    • 지적과 국토정보
    • /
    • 제48권2호
    • /
    • pp.79-98
    • /
    • 2018
  • 이 연구는 빅데이터 마이닝에 기초하여 공시지가 민원에 대한 시공간적 특성을 분석하는 모델을 제시하는 데 목적이 있다. 특히 이 연구는 행정 민원이 제기되는 원인을 학술적 요인보다는 시공간적 측면에서 찾았고, 그러한 민원 발생의 경향을 시공간적으로 모니터링하는 모델을 제시하였다. 2006년부터 2015년까지 인천광역시 중구의 공시지가에 대한 6,481개의 민원정보가 시간 및 공간적 특성을 고려해 수집되었고 분석을 위해 사용되었다. 텍스트 마이닝 기법을 이용해 주요 키워드의 빈도수를 도출했으며, 소셜 네트워크 분석을 통해 주요 키워드 간의 관계를 분석하였다. 키워드의 가중치와 연관되는 TF(term frequency)와 TF-IDF(term frequency-inverse document frequency)를 산출함으로써, 공시지가의 민원 발생에 대한 주요 키워드를 식별하였다. 마지막으로 Getis-Ord의 $Gi^*$의 통계량에 기초한 핫스팟 분석을 통해 공시지가 민원의 시공간적 특성을 분석하였다. 연구 결과, 공시지가 민원의 특성은 시공간적으로 연계된 군집 형태를 형성하면서 변화하고 있음을 알 수 있었다. 텍스트 마이닝과 소셜 네트워크 분석 방법을 이용하여 자연어 기반의 공시지가 민원에 대한 발생 원인을 정량적으로 규명할 수 있음을 알 수 있었으며, 키워드 가중치인 단어 빈도(TF) 및 단어 빈도와 역문서 빈도의 조합값(TF-IDF)의 상대적인 차이가 있어 시공간적인 민원 특성을 분석하기 위한 주요 설명변수로 활용될 수 있음을 알 수 있었다.

제목의 단어 가중치를 이용한 중등학교 공문서 자동분류시스템 (An Automatic Classification System of Official Documents in Middle Schools Using Term Weighting of Titles)

  • 강현희;진민
    • 정보교육학회논문지
    • /
    • 제7권2호
    • /
    • pp.219-226
    • /
    • 2003
  • 현재 일선 학교와 교육기관의 공문서 분류는 아직도 수작업으로 처리되고 있어 많은 시간이 소요된다. 이러한 문제점을 해결하기 위해 본 논문은 문서 제목의 단어 정보를 이용한 자동 문서 분류 방법을 제안한다. 먼저 기존 문서의 제목 단어 중에서 의미 있는 단어를 추출하여 각 단어에 대해 범주별로 역문헌 빈도(IDF) 가중치를 계산한 후 단어 가중치 사전을 구축한다. 문서의 분류 요구가 들어오면 구축된 단어 가중치 사전을 이용하여 문서 제목에 포함된 단어들의 범주별 가중치 합을 비교하여, 범주별 가중치 합이 최대인 범주로 문서를 분류한다. 실제 중등학교에서의 공문서를 대상으로 제안된 방법의 분류 성능을 평가하였다.

  • PDF

사용자 리뷰 마이닝을 결합한 협업 필터링 시스템: 스마트폰 앱 추천에의 응용 (A Collaborative Filtering System Combined with Users' Review Mining : Application to the Recommendation of Smartphone Apps)

  • 전병국;안현철
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.1-18
    • /
    • 2015
  • 협업 필터링은 학계나 산업계에서 우수한 성능으로 인해 많이 사용되는 추천기법이지만, 정량적 정보인 사용자들의 평가점수에만 국한하여 추천결과를 생성하므로 간혹 정확도가 떨어지는 문제가 발생한다. 이에 새로운 정보를 추가로 고려하여, 협업 필터링의 성능을 개선하려는 연구들이 지금까지 다양하게 시도되어 왔다. 본 연구는 최근 Web 2.0 시대의 도래로 인해 사용자들이 구입한 상품에 대한 솔직한 의견을 인터넷 상에 자유롭게 표현한다는 점에 착안하여, 사용자가 직접 작성한 리뷰를 참고하여 협업 필터링의 성능을 개선하는 새로운 추천 알고리즘을 제안하고, 이를 스마트폰 앱 추천 시스템에 적용하였다. 정성 정보인 사용자 리뷰를 정량화하기 위해 본 연구에서는 텍스트 마이닝을 활용하였다. 구체적으로 본 연구의 추천시스템은 사용자간 유사도를 산출할 때, 사용자 리뷰의 유사도를 추가로 반영하여 보다 정밀하게 사용자간 유사도를 산출할 수 있도록 하였다. 이 때, 사용자 리뷰의 유사도를 산출하는 접근법으로 중복 사용된 색인어의 빈도로 산출하는 방안과 TF-IDF(Term Frequency - Inverse Document Frequency) 가중치 합으로 산출하는 2가지 방안을 제시한 뒤 그 성능을 비교해 보았다. 실험결과, 제안 알고리즘을 통한 추천, 즉 사용자 리뷰의 유사도를 추가로 반영하는 알고리즘이 평점만을 고려하는 전통적인 협업 필터링과 비교해 더 우수한 예측정확도를 나타냄을 확인할 수 있었다. 아울러, 중복 사용 단어의 TF-IDF 가중치의 합을 고려했을 때, 단순히 중복 사용 단어의 빈도만을 고려했을 때 보다 조금 더 나은 예측정확도를 얻을 수 있음도 함께 확인할 수 있었다.

텍스트 마이닝을 활용한 경제정책기록서비스 연구: 경제정책방향을 중심으로 (A Study on the Archival Information Services of Economic Policy Using Text Mining Methods: Focusing on Economic Policy Directions)

  • 연지현;김성원
    • 한국기록관리학회지
    • /
    • 제22권2호
    • /
    • pp.117-133
    • /
    • 2022
  • 자의적으로 구성한 기록 콘텐츠만으로는 이용자가 필요한 기간과 맥락에 대한 이해 없이 이용하게 됨으로써 주요한 경제정책기록에 효율적으로 접근하기에 어려움을 겪는다. 이러한 현재의 기록 서비스를 개선하기 위한 방안을 모색하고자 한다. 본 연구에서 1991년부터 2021년까지 30년간의 경제정책방향을 대상으로 경제정책기록에 텍스트 마이닝 기법을 활용하여 정부별 주요하게 다뤄진 경제 키워드와 변화과정을 도출하였다. 대책 배경, 주요 내용, 본문 텍스트를 수집하여 전처리를 진행한 후 텍스트 빈도분석, TF-IDF, 네트워크분석, 시계열 분석을 진행하였다. 분석 결과 '일자리', '경쟁력', '구조조정' 순으로 가장 높은 빈도수를 기록하였다. 정부별로 주요 키워드를 한눈에 볼 수 있었으며 '일자리', '부동산', '기업'의 연도별 상대비율을 시계열 순으로 분석하였다. 본 연구 결과를 바탕으로 향후 경제정책기록서비스의 발전과 저변확대를 위한 시사점을 제언하였다.

단어의 연관성을 이용한 문서의 자동분류 (Automatic Classification of Documents Using Word Correlation)

  • 신진섭;이창훈
    • 한국정보처리학회논문지
    • /
    • 제6권9호
    • /
    • pp.2422-2430
    • /
    • 1999
  • 본 논문에서는 단어들 사이의 연관성을 이용하여 문서들을 사용자의 관심분야 만큼 자동으로 분류하는 다음과 같은 방법을 제안한다. 첫째, TF*IDF 알고리즘을 이용하여 각 문서를 대표할 수 있는 단어들을 찾아내고, 본 논문에서 제안한 연관성 계산을 위한 확률 모델을 이용하여 각 문서를 대표할 수 있는 단어들을 찾아내고, 본 논문에서 제안한 연관성 계산을 위한 확률 모델을 이용하여 각 문서를 대표하는 각각의 단어들이 문서 전체집합에서 서로 어느 정도 연관성을 갖고 있는가를 계산한다. 둘째, 연관성이 가장 높은 두 단어를 중심으로 그 단어들에 밀접하게 연결되어 있는 단어들을 하나의 집합으로 구성하고, 그 집합을 이용하여 하나의 클래스와 프로파일을 생성한다. 연관성이 다음으로 높은 두 단어를 중심으로 위와 같은 과정을 임계 값 보다 낮은 값이 나올 때까지 계속적으로 반복함으로써, 사용자가 관심 있는 분야만큼의 프로파일을 생성한다. 또한, 본 논문에서는 생성된 각각의 프로파일이 각 문서들에 어느 정도의 영향력을 갖고 있는지를 평가하여 문서들을 분류하고, 기존의 자동문서 분류 방법과의 비교를 통하여 본 논문에서 제시한 방법의 타당성을 입증한다.

  • PDF

인플루언서 속성 분석 기반 추천 시스템 (Influencer Attribute Analysis based Recommendation System)

  • 박정련;박지원;김민우;오하영
    • 한국정보통신학회논문지
    • /
    • 제23권11호
    • /
    • pp.1321-1329
    • /
    • 2019
  • 소셜 정보망의 발달로 마케팅의 방법도 다양하게 변화되고 있다. 기존의 유명인, 경제적 지원 기반의 성공적인 마케팅방법론과 달리, 최근 인플루언서 기반 유튜브 마케팅이 큰 대세를 이루고 있다. 본 논문 에서는 처음으로 유튜브 양적 정보 및 댓글분석 기반 다각도 질적 분석을 활용하여 54개 이상의 유튜브 채널에서 인플루언서 특징을 추출하고 대표적인 주제들을 모델링하여 개인 맞춤형 영상 만족도 극대화는 물론 기업체가 새로운 아이템을 마케팅 할 때 기존의 인플루언서 특징을 참고하여 새로운 아이템의 영상을 제작하고 배포함으로써 성공적인 홍보 효과를 누릴 수 있도록 보조 수단 제공을 목적으로 한다. 유튜브 채널 별 다양한 영상의 모든 댓글을 각 문서로 가정하고 TF-IDF 및 LDA알고리즘을 적용하여 성능 극대화 향상을 보였다.