• 제목/요약/키워드: word frequency analysis

검색결과 423건 처리시간 0.02초

An Attempt to Measure the Familiarity of Specialized Japanese in the Nursing Care Field

  • Haihong Huang;Hiroyuki Muto;Toshiyuki Kanamaru
    • 아시아태평양코퍼스연구
    • /
    • 제4권2호
    • /
    • pp.57-74
    • /
    • 2023
  • Having a firm grasp of technical terms is essential for learners of Japanese for Specific Purposes (JSP). This research aims to analyze Japanese nursing care vocabulary based on objective corpus-based frequency and subjectively rated word familiarity. For this purpose, we constructed a text corpus centered on the National Examination for Certified Care Workers to extract nursing care keywords. The Log-Likelihood Ratio (LLR) was used as the statistical criterion for keyword identification, giving a list of 300 keywords as target words for a further word recognition survey. The survey involved 115 participants of whom 51 were certified care workers (CW group) and 64 were individuals from the general public (GP group). These participants rated the familiarity of the target keywords through crowdsourcing. Given the limited sample size, Bayesian linear mixed models were utilized to determine word familiarity rates. Our study conducted a comparative analysis of word familiarity between the CW group and the GP group, revealing key terms that are crucial for professionals but potentially unfamiliar to the general public. By focusing on these terms, instructors can bridge the knowledge gap more efficiently.

한글 두 글자 단어와 비단어의 어휘판단에 글자 빈도, 글자 유형, 받침이 미치는 영향: KLP 자료의 분석 (The Effect of Syllable Frequency, Syllable Type and Final Consonant on Hangeul Word and Pseudo-word Lexical Decision: An Analysis of the Korean Lexicon Project Database)

  • 신명석;박창호
    • 인지과학
    • /
    • 제34권4호
    • /
    • pp.277-297
    • /
    • 2023
  • 본 연구는 한국어 심성어휘 데이터베이스(KLP-DB)의 분석을 통해 글자 빈도, 글자의 모음 유형, 받침 유무 등 글자 수준 정보가 두 글자로 된 단어와 비단어의 어휘판단에 어떤 영향을 주는지를 알아보고자 하였다. 반응시간과 오반응률에 대한 위계적 회귀분석을 실시한 결과 단어의 어휘판단에는 단어빈도가 중대한 영향을 미치지만, 첫째 글자의 빈도, 첫째 글자와 둘째 글자의 모음 유형과 받침 유무와 같은 글자 속성이 영향을 미쳤고, 두 글자의 모음 유형의 조합 및 둘째 글자의 빈도와 받침 유무의 조합도 영향을 주었다. 비단어의 어휘판단에는 첫째 글자와 둘째 글자의 빈도, 첫째 글자의 모음 유형, 첫째 글자와 둘째 글자의 받침 유무와 같은 글자 속성이 영향을 미쳤고, 두 글자의 사용빈도의 조합, 모음 유형의 조합, 및 첫째 글자의 빈도와 받침의 조합도 영향을 주었다. 단어빈도는 단어의 어휘판단에서 강력한 영향을 미쳤으며, 글자속성은 단어보다 비단어의 판단에서 더 일관적인 영향을 미쳤다. 본 연구의 결과는 어휘판단과제에서 단어와 비단어 목록의 구성 및 반응시간의 해석에 글자 속성의 문제를 충분히 고려해야 함을 가리킨다. 글자 속성의 효과에 대한 이해는 단어 재인 과정의 이해에도 기여할 것이다.

워드임베딩을 활용한 복압성 요실금 관련 연구 동향에 관한 융합 연구 (A Convergence Study of the Research Trends on Stress Urinary Incontinence using Word Embedding)

  • 김준희;안선희;곽경태;원영수;유화익
    • 한국융합학회논문지
    • /
    • 제12권8호
    • /
    • pp.1-11
    • /
    • 2021
  • 본 연구의 목적은 '복압성 요실금'을 키워드로 검색된 연구들의 경향과 특성을 단어 빈도를 통해 분석하고, 워드 임베딩을 사용하여 그 관계를 모델링 하고자 하였다. 의학 서지 데이터베이스인 MEDLINE에 등록되어 있는 복압성 요실금 연구 9,868개 논문들의 초록 문자 데이터를 Python 프로그램을 이용하여 추출하였다. 그런 다음 빈도 분석을 통해 10개의 키워드를 선택하였다. 키워드 관련 단어들의 유사도는 Word2Vec 머신러닝 알고리즘으로 분석하였다. 그리고, t-SNE 기법을 사용하여 단어의 위치와 거리가 시각화하였고, 이에 따라 그룹을 분류하여 이를 분석하였다. 복압성 요실금과 관련된 연구는 1980년대 이후 빠르게 증가했다. 키워드 분석을 통해 논문 초록에서 가장 많이 사용된 키워드는 '여성', '요도', '수술'로 나타났다. Word2Vec 모델링을 통해 복압성 요실금 관련 연구에서 주요 키워드들과 가장 높은 연관성을 나타내는 단어들에는 '여성', '절박', '증상' 등이 있었다. 그리고, t-SNE 기법을 통해 키워드와 관련 단어들은 복압성 요실금의 증상, 신체 기관의 해부학적 특성, 그리고 수술적 중재를 중심으로 하는 3개의 그룹으로 분류될 수 있었다. 본 연구는 초록을 구성하는 단어들의 키워드 빈도 분석 및 워드임베딩 방식을 이용하여 복압성 요실금 관련 연구들의 동향을 살펴본 최초의 연구이다. 본 연구의 결과는 향후 연구자들이 복압성 요실금 관련 연구 분야의 주제와 방향성을 선택하는 데 있어 기초자료로 활용될 수 있을 것이다.

Association Modeling on Keyword and Abstract Data in Korean Port Research

  • Yoon, Hee-Young;Kwak, Il-Youp
    • Journal of Korea Trade
    • /
    • 제24권5호
    • /
    • pp.71-86
    • /
    • 2020
  • Purpose - This study investigates research trends by searching for English keywords and abstracts in 1,511 Korean journal articles in the Korea Citation Index from the 2002-2019 period using the term "Port." The study aims to lay the foundation for a more balanced development of port research. Design/methodology - Using abstract and keyword data, we perform frequency analysis and word embedding (Word2vec). A t-SNE plot shows the main keywords extracted using the TextRank algorithm. To analyze which words were used in what context in our two nine-year subperiods (2002-2010 and 2010-2019), we use Scattertext and scaled F-scores. Findings - First, during the 18-year study period, port research has developed through the convergence of diverse academic fields, covering 102 subject areas and 219 journals. Second, our frequency analysis of 4,431 keywords in 1,511 papers shows that the words "Port" (60 times), "Port Competitiveness" (33 times), and "Port Authority" (29 times), among others, are attractive to most researchers. Third, a word embedding analysis identifies the words highly correlated with the top eight keywords and visually shows four different subject clusters in a t-SNE plot. Fourth, we use Scattertext to compare words used in the two research sub-periods. Originality/value - This study is the first to apply abstract and keyword analysis and various text mining techniques to Korean journal articles in port research and thus has important implications. Further in-depth studies should collect a greater variety of textual data and analyze and compare port studies from different countries.

Topic Analysis of Foreign Policy and Economic Cooperation: A Text Mining Approach

  • Jiaen Li;Youngjun Choi
    • Journal of Korea Trade
    • /
    • 제26권8호
    • /
    • pp.37-57
    • /
    • 2022
  • Purpose -International diplomacy is key for the cohesive economic growth of countries around the world. This study aims to identify the major topics discussed and make sense of word pairs used in sentences by Chinese senior leaders during their diplomatic visits. It also compares the differences between key topics addressed during diplomatic visits to developed and developing countries. Design/methodology - We employed three methods: word frequency, co-word, and semantic network analysis. Text data are crawling state and official visit news released by the Ministry of Foreign Affairs of the People's Republic of China regarding diplomatic visits undertaken from 2015-2019. Findings - The results show economic and diplomatic relations most prominently during state and official visits. The discussion topics were classified according to nine centrality keywords most central to the structure and had the maximum influence in China. Moreover, the results showed that China's diplomatic issues and strategies differ between developed and developing countries. The topics mentioned in developing countries were more diverse. Originality/value - Our study proposes an effective approach to identify key topics in Chinese diplomatic talks with other countries. Moreover, it shows that discussion topics differ for developed and developing countries. The findings of this research can help researchers conduct empirical studies on diplomacy relationships and extend our method to other countries. Additionally, it can significantly help key policymakers gain insights into negotiations and establish a good diplomatic relationship with China.

코퍼스 기반 한국어 합성기의 억양 구현 방안 (A Method of Intonation Modeling for Corpus-Based Korean Speech Synthesizer)

  • 김진영;박상언;엄기완;최승호
    • 음성과학
    • /
    • 제7권2호
    • /
    • pp.193-208
    • /
    • 2000
  • This paper describes a multi-step method of intonation modeling for corpus-based Korean speech synthesizer. We selected 1833 sentences considering various syntactic structures and built a corresponding speech corpus uttered by a female announcer. We detected the pitch using laryngograph signals and manually marked the prosodic boundaries on recorded speech, and carried out the tagging of part-of-speech and syntactic analysis on the text. The detected pitch was separated into 3 frequency bands of low, mid, high frequency components which correspond to the baseline, the word tone, and the syllable tone. We predicted them using the CART method and the Viterbi search algorithm with a word-tone-dictionary. In the collected spoken sentences, 1500 sentences were trained and 333 sentences were tested. In the layer of word tone modeling, we compared two methods. One is to predict the word tone corresponding to the mid-frequency components directly and the other is to predict it by multiplying the ratio of the word tone to the baseline by the baseline. The former method resulted in a mean error of 12.37 Hz and the latter in one of 12.41 Hz, similar to each other. In the layer of syllable tone modeling, it resulted in a mean error rate less than 8.3% comparing with the mean pitch, 193.56 Hz of the announcer, so its performance was relatively good.

  • PDF

한국어 발화음성에서 중점단어 탐색을 위한 기본주파수에 대한 연구 (A Study of Fundamental Frequency for Focused Word Spotting in Spoken Korean)

  • 권순일;박지형;박능수
    • 정보처리학회논문지B
    • /
    • 제15B권6호
    • /
    • pp.595-602
    • /
    • 2008
  • 각 문장 별 중점단어는 발화음성을 인식하고 그 의미를 이해하는데 도움을 준다. 발화된 음성신호로부터 중점단어를 탐색할 수 있는 방법을 찾기 위한 노력의 일환으로 실험을 통하여 문장 내에서 중점단어와 그 외의 단어들의 기본주파수의 평균과 분산, 그리고 평균 에너지를 분석해 보았다. 한국어로 된 100개의 발화문장의 음성데이터를 가지고 실험을 한 결과 중점단어는 그 외의 단어들에 비해 대부분 상대적으로 높은 기본주파수의 평균값을 나타내거나 상대적으로 높은 기본주파수의 분산 값을 나타냈다. 이 연구 결과를 이용하면 한국어의 구어문장에서 운율적 특성을 알 수 있을 뿐만 아니라, 자연어 처리를 이용한 핵심어를 추출하는 데에도 도움이 될 것이다.

한국어 형태소 분석을 위한 효율적 기분석 사전의 구성 방법 (Construction of an Efficient Pre-analyzed Dictionary for Korean Morphological Analysis)

  • 곽수정;김보겸;이재성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권12호
    • /
    • pp.881-888
    • /
    • 2013
  • 기분석 사전은 형태소 분석기의 속도와 정확도를 향상시키고, 과분석을 줄이기 위해 사용된다. 하지만 기분석 사전에 저장된 어절 중에 저장된 형태소 분석 결과가 부족한 어절, 즉 불충분 분석 어절이 존재할 경우 오히려 형태소 분석기의 정확도를 떨어뜨리는 원인으로 작용할 수 있다. 본 논문에서는 세종 형태 분석 말뭉치(문어체, 2011)를 이용해 말뭉치의 크기와 어절 빈도의 변화에 따라 사전의 정답 제시율이 변화하는 양상을 측정하였다. 그리고 통계기반의 형태소 분석기인 SMA와 기분석 사전을 결합한 통합 시스템을 구성하여 기분석 사전의 충분 분석률이 99.82% 이상일 때 시스템 전체 성능이 향상되는 것을 확인하였다. 또한 160만 어절의 말뭉치를 이용할 때는 32회 이상 출현한 어절로, 630만 어절로 구성된 말뭉치를 이용할 때는 64회 이상 출현한 어절로 사전을 구성하는 것이 통합 시스템의 성능을 가장 높게 할 수 있었다.

The Impact of Word of Mouth on Customer Perceived Value for the Malaysian Restaurant Industry

  • Oluwafemi, Adebusoye Shedrack;Dastane, Omkar
    • Asian Journal of Business Environment
    • /
    • 제6권3호
    • /
    • pp.21-31
    • /
    • 2016
  • Purpose - The purpose of this research is to determine the impact of word of mouth on customer perceived value for restaurants in Malaysia. The objectives of this research include determining how word of mouth (WoM) factors - frequency of word of mouth messages, reputation of word of mouth messenger, richness of word of mouth message, dispersion of word of mouth conversations and manner of word of mouth delivery impact customer perceived value in Malaysian restaurant industry. Research Design, Data, and Methodology - The research follows causal / explanatory research method based on quantitative data. A sample of 150 restaurant customers in Kuala Lumpur, Malaysia was selected using convenience sampling technique. Likert scale questionnaire is used to collect data and data is analysed using regression analysis through SPSS 22. Results - The statistical analysis revealed that independent variable 'manner of delivery' significantly and positively impacts customer perceived value for restaurants in Malaysia. Conclusions - To build strong positive customer perception, Malaysian restaurants can enhance word of mouth campaigns' 'manner of delivery' by making them passionate, exciting and with high emotional appeal.

단어 빈도와 유사도 분석 기반의 회의록 요약 시스템 설계 및 구현 (Design and Implementation of Minutes Summary System Based on Word Frequency and Similarity Analysis)

  • 허강호;양진우;김동현;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제19권10호
    • /
    • pp.620-629
    • /
    • 2019
  • 의사 결정을 위한 토론이나 토의의 내용을 객관적 요약하고 분류하는 자동화된 회의록 요약 시스템이 요구되고 있다. 본 논문은 기존에 사용되었던 회의록 요약 시스템을 보완할 수 있도록 word2vec 모델을 이용한 회의록 요약 시스템을 설계하고 구현한다. 제안 시스템은 형태소 분석 과정에서 불용어를 제거하고 문서에서 공통적인 의견을 가진 대표 문장을 추출하기 위해 추가로 word2vec 모델로 학습을 수행한다. 제안 시스템은 회의 과정에서 수집되는 문서를 분석하여 자동으로 분류하고 다양한 의견들 중 안건을 대표하는 대표 문장을 추출한다. 회의 진행자는 제안 시스템을 통해 회의에서 다뤄지는 모든 안건을 보다 빠르게 확인하고 관리할 수 있다. 제안 시스템은 대규모 토론이나 토의의 여러 가지 안건을 분석하여 대표 의견이 될 수 있는 문장을 요약하여 빠른 정확한 의사 결정을 지원한다.