• Title/Summary/Keyword: Frequency based Text Analysis

검색결과 237건 처리시간 0.023초

코사인 유사도를 기반의 온톨로지를 이용한 문장유사도 분석 (Sentence Similarity Analysis using Ontology Based on Cosine Similarity)

  • 황치곤;윤창표;윤대열
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.441-443
    • /
    • 2021
  • 문장 또는 텍스트 유사도란 두 가지 문장의 유사한 정도를 나타내는 척도이다. 텍스트의 유사도를 측정하는 기법으로 자카드 유사도, 코사인 유사도, 유클리디언 유사도, 맨하탄 유사도 등과 같이 있다. 현재 코사인 유사도 기법을 가장 많이 사용하고 있으나 이는 문장에서 단어의 출현 여부와 빈도수에 따른 분석이기 때문에, 의미적 관계에 대한 분석이 부족하다. 이에 우리는 온톨로지를 이용하여 단어 간의 관계를 부여하고, 두 문장에서 공통으로 포함된 단어를 추출할 때 의미적 유사성을 포함함으로써 문장의 유사도에 분석의 효율을 향상하고자 한다.

  • PDF

조선왕조실록 텍스트 빈도 분석을 통한 조선시대 곡물에 관한 인식 특성 고찰 (Perceived Characteristics of Grains during the Choseon Dynasty - A Study Applying Text Frequency Analysis Using the Choseonwangjoshilrok Data -)

  • 김미혜
    • 한국식생활문화학회지
    • /
    • 제38권1호
    • /
    • pp.26-37
    • /
    • 2023
  • This study applied the text frequency method to analyze the crops prevalent during the Chosunwangjoshilrok dynasty, and categorized the results by each king. Contemporary perception of grains was observed by examining the staple crop types. Staple species were examined using the word cloud and semantic network analysis. Totally, 101,842 types of crop consumption were recorded during the Chosunwangjoshilrok period. Of these, 51,337 (50.4%) were grains, 50,407 (49.5%) were beans, and 98 (0.1%) were seeds. Rice was the most frequently consumed grain (37.1%), followed by pii (11.9%), millet (11.3%), barley (4.5%), proso (0.8%), wheat (0.6%), buckwheat (0.1%), and adlay (0.05%). Grain chronological frequency in the Choseon dynasty was determined to be 15,520 cases in the 15th century (30.2%), 11,201 cases in the 18th century (21.8%), 9,421 cases in the 17th century (18.4%), 9,113 cases in the 16th century (17.8%), and 6,082 cases in the 19th century (11.8%). Interest in grain amongst the 27 kings of Choseon was evaluated based on the frequency of records. The 15th century King Sejong recorded the maximum interest with 13,363 cases (13.1%), followed by King Jungjo (8,501 cases in the 18th century; 8.4%), King Sungjong (7,776 cases in the 15th century; 7.6%).

클라우드 컴퓨팅에서 Hadoop 애플리케이션 특성에 따른 성능 분석 (A Performance Analysis Based on Hadoop Application's Characteristics in Cloud Computing)

  • 금태훈;이원주;전창호
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권5호
    • /
    • pp.49-56
    • /
    • 2010
  • 본 논문에서는 클라우드 컴퓨팅을 위해 Hadoop 기반의 클러스터를 구축하고, RandomTextWriter, WordCount, PI 애플리케이션을 수행함으로써 애플리케이션 특성에 따른 클러스터의 성능을 평가한다. RandomTextWriter는 주어진 용량만큼 임의의 단어를 생성하여 HDFS에 저장하는 애플리케이션이고, WordCount는 입력 파일을 읽어서 블록 단위로 단어 빈도수를 계산하는 애플리케이션이다. 그리고 PI는 몬테카를로법을 사용하여 PI 값을 유도하는 애플리케이션이다. 이러한 애플리케이션을 실행시키면서 데이터 블록 크기와 데이터 복제본 수 증가에 따른 애플리케이션의 수행시간을 측정한다. 시뮬레이션을 통하여 RandomTextWriter 애플리케이션은 데이터 복제본 수 증가에 비례하여 수행시간이 증가함을 알 수 있었다. 반면에 WordCount와 PI 애플리케이션은 데이터 복제본 수에 큰 영향을 받지 않았다. 또한 WordCount 애플리케이션은 블록 크기가 64~256MB 일 때 최적의 수행시간을 얻을 수있었다. 따라서 이러한 애플리케이션의 특성을 고려한 스케줄링 정책을 개발한다면 애플리케이션의 실행시간을 단축하여 클라우드 컴퓨팅 시스템의 성능을 향상시킬 수 있음을 보인다.

의학 사상의 유사성은 계량 분석 될 수 있는가 - 『동의보감』과 『의학입문』, 『경악전서』를 중심으로 - (Can Similarities in Medical thought be Quantified? - Focusing on Donguibogam, Uihagibmun and Gyeongagjeonseo -)

  • 오준호
    • 대한한의학원전학회지
    • /
    • 제31권2호
    • /
    • pp.71-82
    • /
    • 2018
  • Objectives : The purpose of this study is to compare the similarities among Donguibogam(DO), Uihagibmun(UI), and Gyeongagjeonseo(GY) in order to examine whether the medical thoughts embedded in the texts can be compared in a quantitative way. Methods : Under an empirical assumption that medical thoughts can be reduced to the frequency of major key words within the text, we selected the fourteen words of the four categories that are commonly used to describe physiology and pathology in Korean medicine as key words. And the frequency of these key words was measured and compared with each other in the three important medical texts in Korea. Results : As a result of quantitative analysis based on ${\chi}^2$ statistic, the key words in the books were distributed most heterogeneously in DO and distributed most homogeneously in UI. In comparison of the similarity analyzed by the same method, DO and UI were significantly more similar than those of DO and UI. The results of the word frequency pattern and the similarities of the book contents(CBDF) show that DO is influenced by UI, and the differences between standardized residuals and homogeneity tells us that internal context of both books are constructed differently. Conclusions : These results support the results of traditional research by experts. With the above, we were able to confirm that medical thoughts can be reduced to the frequency of major key words within the text, and compared through the frequency of such key words.

공격 메일 식별을 위한 비정형 데이터를 사용한 유전자 알고리즘 기반의 특징선택 알고리즘 (Feature-selection algorithm based on genetic algorithms using unstructured data for attack mail identification)

  • 홍성삼;김동욱;한명묵
    • 인터넷정보학회논문지
    • /
    • 제20권1호
    • /
    • pp.1-10
    • /
    • 2019
  • 빅 데이터에서 텍스트 마이닝은 많은 수의 데이터로부터 많은 특징 추출하기 때문에, 클러스터링 및 분류 과정의 계산 복잡도가 높고 분석결과의 신뢰성이 낮아질 수 있다. 특히 텍스트마이닝 과정을 통해 얻는 Term document matrix는 term과 문서간의 특징들을 표현하고 있지만, 희소행렬 형태를 보이게 된다. 본 논문에서는 탐지모델을 위해 텍스트마이닝에서 개선된 GA(Genetic Algorithm)을 이용한 특징 추출 방법을 설계하였다. TF-IDF는 특징 추출에서 문서와 용어간의 관계를 반영하는데 사용된다. 반복과정을 통해 사전에 미리 결정된 만큼의 특징을 선택한다. 또한 탐지모델의 성능 향상을 위해 sparsity score(희소성 점수)를 사용하였다. 스팸메일 세트의 희소성이 높으면 탐지모델의 성능이 낮아져 최적화된 탐지 모델을 찾기가 어렵다. 우리는 fitness function에서 s(F)를 사용하여 희소성이 낮고 TF-IDF 점수가 높은 탐지모델을 찾았다. 또한 제안된 알고리즘을 텍스트 분류 실험에 적용하여 성능을 검증하였다. 결과적으로, 제안한 알고리즘은 공격 메일 분류에서 좋은 성능(속도와 정확도)을 보여주었다.

A Study on the General Public's Perceptions of Dental Fear Using Unstructured Big Data

  • Han-A Cho;Bo-Young Park
    • 치위생과학회지
    • /
    • 제23권4호
    • /
    • pp.255-263
    • /
    • 2023
  • Background: This study used text mining techniques to determine public perceptions of dental fear, extracted keywords related to dental fear, identified the connection between the keywords, and categorized and visualized perceptions related to dental fear. Methods: Keywords in texts posted on Internet portal sites (NAVER and Google) between 1 January, 2000, and 31 December, 2022, were collected. The four stages of analysis were used to explore the keywords: frequency analysis, term frequency-inverse document frequency (TF-IDF), centrality analysis and co-occurrence analysis, and convergent correlations. Results: In the top ten keywords based on frequency analysis, the most frequently used keyword was 'treatment,' followed by 'fear,' 'dental implant,' 'conscious sedation,' 'pain,' 'dental fear,' 'comfort,' 'taking medication,' 'experience,' and 'tooth.' In the TF-IDF analysis, the top three keywords were dental implant, conscious sedation, and dental fear. The co-occurrence analysis was used to explore keywords that appear together and showed that 'fear and treatment' and 'treatment and pain' appeared the most frequently. Conclusion: Texts collected via unstructured big data were analyzed to identify general perceptions related to dental fear, and this study is valuable as a source data for understanding public perceptions of dental fear by grouping associated keywords. The results of this study will be helpful to understand dental fear and used as factors affecting oral health in the future.

텍스트 내용분석 방법을 적용한 소프트웨어 교육 요구조사 분석: A대학을 중심으로 (The Study on the Software Educational Needs by Applying Text Content Analysis Method: The Case of the A University)

  • 박금주
    • 한국산학기술학회논문지
    • /
    • 제20권3호
    • /
    • pp.65-70
    • /
    • 2019
  • 본 연구는 대학생을 대상으로 시행되고 있는 소프트웨어 교육의 강의평가결과에 대해 텍스트 내용분석 방법을 적용하여 수강생의 요구사항을 파악하고 개선방안을 도출하는 데 목적이 있다. 연구방법은 텍스트 내용분석 프로그램을 활용해 단어출현빈도, 핵심단어 선정, 핵심단어의 공출현빈도를 산출하고, 네트워크 분석 프로그램을 활용해 텍스트 중앙성 분석, 네트워크 분석을 실시하였다. 연구결과, 소프트웨어 교육의 좋은 점 네트워크는 '교수님'에 대한 언급이 가장 많고 '친절', '학생', '설명', '코딩'과 함께 언급되고 있다. 개선점 네트워크는 '강의'에 대한 언급이 가장 많고 '좋겠다', '학생', '교수님', '과제', '코딩', '어려운', '발표'가 함께 언급되었다. 좋은 점과 개선점에 대한 네트워크 비교 분석에서 공통으로 언급된 핵심 단어 중 조별(활동), 과제, 수업의 난이도, 교수자에 대한 생각에서 차이를 보였다. 이러한 생각 차이는 강의평가 내용을 통해, 개별 조원의 적절한 역할 부족, 어렵고 과다한 과제, 소프트웨어 교육의 난이도와 필요성에 대한 인식, 교수자의 수업방식과 피드백의 부족을 확인할 수 있었다. 따라서, 소프트웨어 교육의 조별(활동)과 과제부여가 어떻게 이루어지고 있는지 살펴보고 강의내용과 교수방법, 실습과 디자인 싱킹을 다루는 비율에 대한 점검이 필요하다.

텍스트마이닝 기법을 이용한 『상한론』 내의 증상-본초 조합의 탐색적 분석 (Analysis of Symptoms-Herbs Relationships in Shanghanlun Using Text Mining Approach)

  • 장동엽;하윤수;이충열;김창업
    • 동의생리병리학회지
    • /
    • 제34권4호
    • /
    • pp.159-169
    • /
    • 2020
  • Shanghanlun (Treatise on Cold Damage Diseases) is the oldest document in the literature on clinical records of Traditional Asian medicine (TAM), on which TAM theories about symptoms-herbs relationships are based. In this study, we aim to quantitatively explore the relationships between symptoms and herbs in Shanghanlun. The text in Shanghanlun was converted into structured data. Using the structured data, Term Frequency - Inverse Document Frequency (TF-IDF) scores of symptoms and herbs were calculated from each chapter to derive the major symptoms and herbs in each chapter. To understand the structure of the entire document, principal component analysis (PCA) was performed for the 6-dimensional chapter space. Bipartite network analysis was conducted focusing on Jaccard scores between symptoms and herbs and eigenvector centralities of nodes. TF-IDF scores showed the characteristics of each chapter through major symptoms and herbs. Principal components drawn by PCA suggested the entire structure of Shanghanlun. The network analysis revealed a 'multi herbs - multi symptoms' relationship. Common symptoms and herbs were drawn from high eigenvector centralities of their nodes, while specific symptoms and herbs were drawn from low centralities. Symptoms expected to be treated by herbs were derived, respectively. Using measurable metrics, we conducted a computational study on patterns of Shanghanlun. Quantitative researches on TAM theories will contribute to improving the clarity of TAM theories.

R을 활용한 정보교육관련 논문 분석 (Analysis of Information Education Related Theses Using R Program)

  • 박선주
    • 정보교육학회논문지
    • /
    • 제21권1호
    • /
    • pp.57-66
    • /
    • 2017
  • 최근 빅데이터 분석과 함께 사회연결망에 대한 관심이 증대되고 있다. 이러한 사회연결망분석을 이용한 연구가 사회과학 영역뿐 아니라 자연과학 영역 등 여러 분야에서 다양하게 이루어지고 있다. 이에 본 논문에서는 정보교육 관련 석 박사 학위논문을 수집하여 텍스트분석과 사회연결망분석을 실시하였다. 그 결과, 모든 기간에서 출현빈도수가 높게 나오거나 지속적으로 나오는 단어가 있었으며, 기간별로 출현빈도가 갑자기 높아진 단어들도 있었다. 또한, 출현빈도수가 큰 단어가 대체적으로 매개중심성도 컸으며, 기간별 연구흐름의 특징이 있음도 알 수 있었다. 그러므로 IT 기술발전과 초 중 고등학교 정보교육과정 변화에 민감하게 정보교육 석 박사학위 논문 주제가 변화되었음을 알 수 있었다. 앞으로 기간4에서 출현빈도가 높아진 스마트, 모바일, 스마트폰, SNS, 어플리케이션, 스토리텔링, 다문화, STEAM과 관련된 연구가 지속될 것으로 예측하며, 로봇, 프로그래밍, 코딩, 알고리즘, 창의성, 상호작용, 개인정보보호와 관련된 주제도 꾸준히 연구될 것으로 예측된다.

연속음성인식 후처리를 위한 음절 복원 rule-based 시스템과 형태소분석기법의 적용 (The syllable recovrey rule-based system and the application of a morphological analysis method for the post-processing of a continuous speech recognition)

  • 박미성;김미진;김계성;최재혁;이상조
    • 전자공학회논문지C
    • /
    • 제36C권3호
    • /
    • pp.47-56
    • /
    • 1999
  • 한국어를 연속적으로 발음할 때 여러 가지 음은변동이 일어난다. 이러한 음운변동은 한국어 연속 음성 인식을 어렵게 하는 주요 요인 중의 한가지이다. 본 논문에서는 음운변동이 반영된 음성 인식 문자열을 규칙에 의하여 text 기반 문자열로 다시 복원시키는 rule-based 시스템을 제안한다. 그리고 복원 결과들은 형태소 분석되어 올바른 문자열만 생성된다. 복원은 4가지 rule 즉, 음절 경계 종성 초성 복원 rule, 모음처리 복원 rule,끝음절 종성 복원 rule, 한 음절 처리 rule에 의거하여 이루어진다. 규칙 적용 과정 중에 효과적인 복원을 위해 x-clustering정보를 정의하여 사용하고, 형태소 분석기에 입력될 복원 후보수를 제안하기 위해 postfix음절 빈도정보를 구하여 사용한다. 본 시스템은 규칙기반 시스템이므로 대용량의 발음열 사전이나 음소열 사전을 필요로 하지 않고 문서 기반 형태소 분석기를 그대로 이용할 수 있다는 이점이 있다.

  • PDF