• 제목/요약/키워드: High Frequency Word

검색결과 197건 처리시간 0.026초

벡터 공간 모델과 HAL에 기초한 단어 의미 유사성 군집 (Word Sense Similarity Clustering Based on Vector Space Model and HAL)

  • 김동성
    • 인지과학
    • /
    • 제23권3호
    • /
    • pp.295-322
    • /
    • 2012
  • 본 연구에서는 벡터 공간 모델과 HAL (Hyperspace Analog to Language)을 적용해서 단어 의미 유사성을 군집한다. 일정한 크기의 문맥을 통해서 단어 간의 상관성을 측정하는 HAL을 도입하고(Lund and Burgess 1996), 상관성 측정에서 고빈도와 저빈도에 다르게 측정되는 왜곡을 줄이기 위해서 벡터 공간 모델을 적용해서 단어 쌍의 코사인 유사도를 측정하였다(Salton et al. 1975, Widdows 2004). HAL과 벡터 공간 모델로 만들어지는 공간은 다차원이므로, 차원을 축소하기 위해서 PCA (Principal Component Analysis)와 SVD (Singular Value Decomposition)를 적용하였다. 유사성 군집을 위해서 비감독 방식과 감독 방식을 적용하였는데, 비감독 방식에는 클러스터링을 감독 방식에는 SVM (Support Vector Machine), 나이브 베이즈 구분자(Naive Bayes Classifier), 최대 엔트로피(Maximum Entropy) 방식을 적용하였다. 이 연구는 언어학적 측면에서 Harris (1954), Firth (1957)의 분포 가설(Distributional Hypothesis)을 활용한 의미 유사도를 측정하였으며, 심리언어학적 측면에서 의미 기억을 설명하기 위한 모델로 벡터 공간 모델과 HAL을 결합하였으며, 전산적 언어 처리 관점에서 기계학습 방식 중 감독 기반과 비감독 기반을 적용하였다.

  • PDF

모방발화의 기본주파수 연구 (A Study of Fundamental Frequency about Voice Imitation)

  • 박미영;신지영;강선미
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2004년도 춘계 학술대회 발표논문집
    • /
    • pp.199-204
    • /
    • 2004
  • The purpose of this paper is to find prosodic characteristics in voice imitation. Speakers change various phonetic features in voice imitation. Speakers change their pitch ranges in the most cases. Especially, the pitch range is important for word conditions. And, as imitators change the voice, the average value of f0 is close to high frequence than low frequence or middle level.

  • PDF

피벗 역문헌빈도 가중치 기법에 대한 연구 (A Study on the Pivoted Inverse Document Frequency Weighting Method)

  • 이재윤
    • 정보관리학회지
    • /
    • 제20권4호통권50호
    • /
    • pp.233-248
    • /
    • 2003
  • 역문헌빈도 가중치 기법은 문헌 집단에서 출현빈도가 낮을수록 색인어의 중요도가 높다는 가정에 근거하고 있다. 그런데 이는 중간빈도어를 중요하게 여기는 여타 이론과는 일치하지 않는 것이다. 이 연구에서는 저빈도어보다 중간빈도어가 더 중요하다는 가정에 근거하여 역문헌빈도 가중치 공식을 수정한 피벗 역문헌번도 가중치 기법을 제안하였다. 제안된 기법을 검증하기 위해서 세 실험집단을 대상으로 검색실험을 수행한 결과, 피벗 역문헌빈도 가중치기법이 역문헌빈도 가중치 기법에 비해서 특히 검색결과 상위에서의 성능을 향상시키는 것으로 나타났다.

모바일 기기를 위한 음성인식의 사용자 적응형 후처리 (User Adaptive Post-Processing in Speech Recognition for Mobile Devices)

  • 김영진;김은주;김명원
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제13권5호
    • /
    • pp.338-342
    • /
    • 2007
  • 본 논문에서는 모바일 환경에서 고립단어 음성인식을 할 경우 화자종속 방법을 이용하여 성능을 높이는 사용자 적응형 후처리 방법을 제안한다. 이 방법은 인식기의 정확한 인식 결과를 위한 추가적인 처리들로 구성된다. 즉 인식기의 출력과 정확한 최종 결과들 간의 관계를 학습하여 이를 잘못된 인식기의 출력을 수정하는 데에 사용한다. 학습에는 패턴인식에 강인한 다층 퍼셉트론을 사용하며 학습 시간을 고려하여 모델을 세분화하고 동적으로 동작할 수 있도록 구현한다. 이 결과 인식기의 오류에 대해 41%를 수정하는 성과(오류 수정률: 41%)를 보였다.

The Strategy of Wireless Power Transfer for Light Rail Transit By Core Technologies Analysis Based on Text Mining

  • Meng, Xiang-Yu;Han, Young-Jae;Eum, Soo-Min;Cho, Sung-Won
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권11호
    • /
    • pp.193-201
    • /
    • 2018
  • In this paper, we extracted relevant patent data and conducted statistical analysis to understand the technical development trend related to Wireless Power Transfer (WPT) for Light Rail Transit (LRT). Recently, with the development of WPT technologies, the Light Rail Transit (LRT) industry is concentrating on applying WPT to the power supply system of trains because of their advantages compared wired counterpart, such as low maintenance cost and high stability. This technology is divided into three areas: wireless feeding and collecting technology, high-frequency power converter technology and orbital and infrastructure technology. From each specific area, key words in patent document were extracted by TF-IDF method and analyzed by social network. In the keyword network, core word of each specific technology were extracted according to their degree centrality. Then, the multi-word phrases were also built to represent the concept of core technologies. Finally, based on the analysis results, the development strategies for each specifics technical area of WPT in LRT filed will be provided.

상호정보량과 복합명사 의미사전에 기반한 동음이의어 중의성 해소 (Homonym Disambiguation based on Mutual Information and Sense-Tagged Compound Noun Dictionary)

  • 허정;서희철;장명길
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권12호
    • /
    • pp.1073-1089
    • /
    • 2006
  • 자연언어처리의 목적은 컴퓨터가 자연어를 이해할 수 있도록 하여, 인간에게 다양한 정보를 정확하고 빠르게 전달할 수 있도록 하고자 하는 것이다. 이를 위해서는 언어의 의미를 정확히 파악하여야 하는데, 어휘 의미 중의성 해소가 필수적인 기술이다. 본 연구는 상호정보량과 기 분석된 복합명사 의미사전에 기반한 동음이의어 의미 중의성 해소를 위한 기술을 소개한다. 사전 뜻풀이를 이용하는 기존 기술들은 어휘들간의 정확한 매칭에 의존하기 때문에 자료 부족 현상이 심각하였다. 그러나, 본 연구에서는 어휘들간의 연관계수인 상호정보량을 이용함으로써 이 문제를 완화시켰다. 또한, 언어적인 특징을 반영하기 위해서 상호정보량을 가지는 어휘 쌍의 비율 가중치, 의미 별 비율 가중치와 뜻풀이의 길이 가중치를 사용하였다. 그리고, 복합명사를 구성하는 단일명사들은 서로의 의미를 제약한다는 것에 기반하여 고빈도 복합명사에 대해서 의미를 부착한 의미사전을 구축하였고, 이를 동음이의어 중의성 해소에 활용하였다. 본 시스템의 평가를 위해 질의응답 평가셋의 200 여 개의 질의와 정답단락을 대상으로 동음이의어 의미 중의성 해소 평가셋을 구축하였다. 평가셋에 기반하여 네 유형의 실험을 수행하였다. 실험 결과는 상호 정보량만을 이용하였을 때 65.06%의 정확률을 보였고, 가중치를 활용하였을 때 85.35%의 정확률을 보였다. 또한, 복합명사 의미분석 사전을 활용하였을 때는 88.82%의 정확률을 보였다.

디지탈 직접 주파수 합성기를 이용한 16-QAM 변조기 설계 (A Design of 16-QAM Modulator by use of Direct Digital Frequency Synthesizer)

  • 유상범;유흥균
    • 한국음향학회지
    • /
    • 제18권5호
    • /
    • pp.52-57
    • /
    • 1999
  • 고속 데이타를 전송하기 위하여 높은 스펙트럼 효율의 QAM 변조기를 설계하는 것은 매우 중요하다. 본 논문에서는 대표적인 16-QAM 변조기를 직접 디지탈 주파수 합성기(DDFS)를 응용하여 설계하였다. 직접 디지탈 주파수 합성기는 외부 주파수 설정에 의해 디지탈 방식으로 원하는 주파수의 정현파를 출력한다. 발생되는 위상 증가 값을 제어하여 정확한 위상변조를 할 수 있으며, 진폭 성분의 변화는 D/A 컨버터의 출력에서 발생하는 진폭을 변화시켜 진폭 변조하여, 전체적인 QAM 변조기를 설계한다. glitch와 같은 고조파 성분의 억제를 위하여 DDFS를 이중구조 형태로 설계하여 개선된 출력파형을 확인하였다. 회로 설계는 P-SPICE를 사용하였다. 아날로그 디지탈 혼합모드로 시뮬레이션하여 16-QAM 변조 파형을 확인하였고, 출력 데이터의 성상도를 출력하여 설계되어진 결과를 확인하였다.

  • PDF

언어네트워크분석을 통한 국내 문화정책 연구동향 분석(2008-2017) (An Analysis of Cultural Policy-related Studies' Trend in Korea using Semantic Network Analysis(2008-2017))

  • 박양우
    • 한국콘텐츠학회논문지
    • /
    • 제17권11호
    • /
    • pp.371-382
    • /
    • 2017
  • 본 연구는 콘텐츠산업정책을 포괄하는 문화정책에 대한 학술적 연구의 동향을 알고자 언어네트워크분석을 통해 국내의 가장 대표적인 문화정책 분야 전문학술지인 '문화정책논총'에 수록된 186편의 논문 주제어 832개를 대상으로 분석을 시도하였다. 시간적 범위는 한국연구재단 한국학술지인용색인 홈페이지(www.kci.go.kr)에 수록되어 있는 2008년 10월부터 2017년 1월까지로 하였다. 언어네트워크 분석은 주제어 빈도수, 밀도분석과 중심성을 지표로 분석하였으며, 이를 바탕으로 Netdraw 프로그램에 의한 시각화를 시도하였다. 언어네트워크분석 결과 가장 많은 빈도수를 기록한 주제어는 '문화'였고, '문화정책/행정', '문화산업/문화콘텐츠', '정책'이 최다의 빈도수를 기록한 그룹에 포함되었다. 빈도수가 높은 '문화정책/행정'과 '문화산업/문화콘텐츠'는 대부분의 중심성에서 우위를 차지했으나, 매개중심성은 낮아 다른 주제어들과의 중매 역할에는 한계를 드러냈다.

빅데이터 분석을 통한 메타버스에 대한 인식 변화 분석 - 코로나19 발생 전후 비교를 중심으로 - (An Analysis of Changes in Perception of Metaverse through Big Data - Comparing Before and After COVID-19 -)

  • 강유림;김문영
    • 한국의류산업학회지
    • /
    • 제24권5호
    • /
    • pp.593-604
    • /
    • 2022
  • The purpose of this study is to analyze the flow of change in perception of metaverse before and after COVID-19 through big data analysis. This research method used Textom to collect all data, including metaverse for two years before COVID-19 (2018.1.1~2019.11.30) and after COVID-19 outbreak (2020.1.11~2021.12.31), and the collection channels were selected by Naver and Google. The collected data were text mining, and word frequency, TF-IDF, word cloud, network analysis, and emotional analysis were conducted. As a result of the analysis, first, hotels, weddings, and glades were commonly extracted as social issues related to metaverse before and after COVID-19, and keywords such as robots and launches were derived, so the frequency of keywords related to hotels and weddings was high. Second, the association of the pre-COVID-19 metaverse keywords was platform-oriented, content-oriented, economic-oriented, and online promotion-oriented, and post-COVID-19 clusters were event-oriented, ontact sales-oriented, stock-oriented, and new businesses. Third, positive keywords such as likes, interest, and joy before COVID-19 were high, and positive keywords such as likes, joy, and interest after COVID-19. In conclusion, through this study, it was found that metaverse has firmly established itself as a new platform business model that can be used in various fields such as tourism, travel, festivals, and education using smart technology and metaverse.

논문 서지정보를 이용한 빈산소수괴 연구 분야의 연구용어 빈도분석 (Frequency Analysis of Scientific Texts on the Hypoxia Using Bibliographic Data)

  • 이기섭;이지영;조홍연
    • Ocean and Polar Research
    • /
    • 제41권2호
    • /
    • pp.107-120
    • /
    • 2019
  • The frequency analysis of scientific terms using bibliographic information is a simple concept, but as relevant data become more widespread, manual analysis of all data is practically impossible or only possible to a very limited extent. In addition, as the scale of oceanographic research has expanded to become much more comprehensive and widespread, the allocation of research resources on various topics has become an important issue. In this study, the frequency analysis of scientific terms was performed using text mining. The data used in the analysis is a general-purpose scholarship database, totaling 2,878 articles. Hypoxia, which is an important issue in the marine environment, was selected as a research field and the frequencies of related words were analyzed. The most frequently used words were 'Organic matter', 'Bottom water', and 'Dead zone' and specific areas showed high frequency. The results of this research can be used as a basis for the allocation of research resources to the frequency of use of related terms in specific fields when planning a large research project represented by single word.