• 제목/요약/키워드: Word Count Analysis

검색결과 22건 처리시간 0.026초

클라우드 컴퓨팅에서 Hadoop 애플리케이션 특성에 따른 성능 분석 (A Performance Analysis Based on Hadoop Application's Characteristics in Cloud Computing)

  • 금태훈;이원주;전창호
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권5호
    • /
    • pp.49-56
    • /
    • 2010
  • 본 논문에서는 클라우드 컴퓨팅을 위해 Hadoop 기반의 클러스터를 구축하고, RandomTextWriter, WordCount, PI 애플리케이션을 수행함으로써 애플리케이션 특성에 따른 클러스터의 성능을 평가한다. RandomTextWriter는 주어진 용량만큼 임의의 단어를 생성하여 HDFS에 저장하는 애플리케이션이고, WordCount는 입력 파일을 읽어서 블록 단위로 단어 빈도수를 계산하는 애플리케이션이다. 그리고 PI는 몬테카를로법을 사용하여 PI 값을 유도하는 애플리케이션이다. 이러한 애플리케이션을 실행시키면서 데이터 블록 크기와 데이터 복제본 수 증가에 따른 애플리케이션의 수행시간을 측정한다. 시뮬레이션을 통하여 RandomTextWriter 애플리케이션은 데이터 복제본 수 증가에 비례하여 수행시간이 증가함을 알 수 있었다. 반면에 WordCount와 PI 애플리케이션은 데이터 복제본 수에 큰 영향을 받지 않았다. 또한 WordCount 애플리케이션은 블록 크기가 64~256MB 일 때 최적의 수행시간을 얻을 수있었다. 따라서 이러한 애플리케이션의 특성을 고려한 스케줄링 정책을 개발한다면 애플리케이션의 실행시간을 단축하여 클라우드 컴퓨팅 시스템의 성능을 향상시킬 수 있음을 보인다.

한의학 고문헌 데이터 분석을 위한 단어 임베딩 기법 비교: 자연어처리 방법을 적용하여 (Comparison between Word Embedding Techniques in Traditional Korean Medicine for Data Analysis: Implementation of a Natural Language Processing Method)

  • 오준호
    • 대한한의학원전학회지
    • /
    • 제32권1호
    • /
    • pp.61-74
    • /
    • 2019
  • Objectives : The purpose of this study is to help select an appropriate word embedding method when analyzing East Asian traditional medicine texts as data. Methods : Based on prescription data that imply traditional methods in traditional East Asian medicine, we have examined 4 count-based word embedding and 2 prediction-based word embedding methods. In order to intuitively compare these word embedding methods, we proposed a "prescription generating game" and compared its results with those from the application of the 6 methods. Results : When the adjacent vectors are extracted, the count-based word embedding method derives the main herbs that are frequently used in conjunction with each other. On the other hand, in the prediction-based word embedding method, the synonyms of the herbs were derived. Conclusions : Counting based word embedding methods seems to be more effective than prediction-based word embedding methods in analyzing the use of domesticated herbs. Among count-based word embedding methods, the TF-vector method tends to exaggerate the frequency effect, and hence the TF-IDF vector or co-word vector may be a more reasonable choice. Also, the t-score vector may be recommended in search for unusual information that could not be found in frequency. On the other hand, prediction-based embedding seems to be effective when deriving the bases of similar meanings in context.

언어적 특성을 이용한 '심리학적 한국어 글분석 프로그램(KLIWC)' 개발 과정에 대한 고찰 (The Review about the Development of Korean Linguistic Inquiry and Word Count)

  • 이창환;심정미;윤애선
    • 인지과학
    • /
    • 제16권2호
    • /
    • pp.93-121
    • /
    • 2005
  • 최근 심리학 연구에서 LIWC(Linguistic Inquiry and Word Count)라는 '심리학적 영어 글분석 프로그램'을 사용하여 사람들이 사용하는 언어적 양식을 종속측정치로 사용한 연구들은 괄목할 만한 성과를 거두었다. 본 연구는 이러한 영어분석 프로그램을 원형으로 한국어의 특성과 문화를 반영한 '한국어 글분석 프로그램(KLIWC)'을 개발하기 위하여 실시되었다. 형태소 태깅을 통하여 다수의 형태소가 교착된 어절을 분석하는 기능을 추가하였고 기본형 사전과 활용형 규칙을 구축하였다. 또한 체면, 한국적 정서와 관련된 단어를 분석 변인에 포함시켰다. 이러한 한국어 분석프로그램의 개발과정과 특성을 고찰하였고 프로그램의 추후 개선방향에 대하여 논의하였다. (KLIWC 제공 웹사이트: ww.k-liwc.net)

  • PDF

학교폭력과 자살사고를 예방하기 위한 감성분석 시스템의 설계 (Design of a Sentiment Analysis System to Prevent School Violence and Student's Suicide)

  • 김영택
    • 컴퓨터교육학회논문지
    • /
    • 제17권6호
    • /
    • pp.115-122
    • /
    • 2014
  • 현 청소년들의 학교내 생활환경에서 문제점으로 대두되는 폭력 및 자살사고 발생률 증가에 대한 예방차원의 빅 데이터 처리 분석 시스템을 목표로 연구하였고 설계의 경제성과 용이성, 적용의 신속성 등을 고려해서 많은 이용률을 가지고 있는 오픈 소스인, 하둡 시스템(Hadoop system)의 맵리듀스(MapReduce) 알고리즘과 분산 병렬 환경을 위한 HDFS(Hadoop Distibuted File System) 구성을 사용하여 실험하였다. 연구에서 사용된 분석기법은 기존의 통계적인 분석기법들이 가지는 난이도를 피하기 위해 상업적인 사회 망의 비정형 대화 자료를 이용해서 폭력성 어휘에 대한 단어 수(word count) 분석을 적용하여 폭행, 자살사고를 사전에 감지하여 예방하는 감성분석(sentiment analysis) 시스템을 텍스트 마이닝 관점에서 제안하여 실험하였다.

  • PDF

전화통화 빅데이터 분석에 관한 연구 (A Study on Phon Call Big Data Analytics)

  • 김정래;정찬기
    • 정보화연구
    • /
    • 제10권3호
    • /
    • pp.387-397
    • /
    • 2013
  • 본 연구는 전화통화에 의해 생성된 데이터에 대한 빅데이터 분석 접근을 제안한다. 전화통화 데이터의 분석모형은 자연어의 어휘식별을 위한 PVPF(Parallel Variable-length Phrase Finding) 알고리즘과 키워드의 사용빈도 측정을 위한 워드 카운트 알고리즘으로 구성된다. 제안한 분석모형에서는 먼저 PVPF 알고리즘에 의해 연계 단어 추출을 통해 어휘를 식별하며, MapReduce의 워드 카운트 알고리즘을 사용하여 식별된 어휘 및 단어의 사용빈도를 측정한다. 그 결과는 다양한 관점에서 해석될 수 있다. 제안 분석모형의 효과성을 보이기 위해 HDFS(Hadoop Distributed File System)를 기반으로 분석모형을 설계 구현하였으며, 전화통화 데이터를 실험 적용한다. 실험결과, 키워드 상관관계 분석 및 사용빈도 변화 분석을 통해 유의미한 결과를 도출한다.

Bi-directional Maximal Matching Algorithm to Segment Khmer Words in Sentence

  • Mao, Makara;Peng, Sony;Yang, Yixuan;Park, Doo-Soon
    • Journal of Information Processing Systems
    • /
    • 제18권4호
    • /
    • pp.549-561
    • /
    • 2022
  • In the Khmer writing system, the Khmer script is the official letter of Cambodia, written from left to right without a space separator; it is complicated and requires more analysis studies. Without clear standard guidelines, a space separator in the Khmer language is used inconsistently and informally to separate words in sentences. Therefore, a segmented method should be discussed with the combination of the future Khmer natural language processing (NLP) to define the appropriate rule for Khmer sentences. The critical process in NLP with the capability of extensive data language analysis necessitates applying in this scenario. One of the essential components in Khmer language processing is how to split the word into a series of sentences and count the words used in the sentences. Currently, Microsoft Word cannot count Khmer words correctly. So, this study presents a systematic library to segment Khmer phrases using the bi-directional maximal matching (BiMM) method to address these problematic constraints. In the BiMM algorithm, the paper focuses on the Bidirectional implementation of forward maximal matching (FMM) and backward maximal matching (BMM) to improve word segmentation accuracy. A digital or prefix tree of data structure algorithm, also known as a trie, enhances the segmentation accuracy procedure by finding the children of each word parent node. The accuracy of BiMM is higher than using FMM or BMM independently; moreover, the proposed approach improves dictionary structures and reduces the number of errors. The result of this study can reduce the error by 8.57% compared to FMM and BFF algorithms with 94,807 Khmer words.

Spark 애플리케이션 기반의 성능 분석 (A Performance Analysis Based on Spark Application)

  • 정영교;이병준;조영주;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제53차 동계학술대회논문집 24권1호
    • /
    • pp.79-80
    • /
    • 2016
  • 아파치 스파크는 효율적으로 대용량 데이터를 처리하기 위해 분산 메모리 추상화를 사용하는 오픈 소스 분산 데이터 처리 플랫폼이다. 하지만 아파치 스파크 플랫폼의 특정 작업의 성능은 입력 데이터의 유형과 크기, 디자인 및 알고리즘의 구현 및 컴퓨팅 능력에 따라 메모리 사용량 및 I/O 비용이 크게 달라질 수 있다는 문제점이 있다. 이러한 문제점을 해결하기 위하여 본 논문에서는 아파치 스파크 플랫폼에 대한 높은 정밀도 작업 성능을 예측할 수 있도록 CPU core수의 증가에 따른 WordCount 시뮬레이션을 비교 평가 하였다.

  • PDF

다양한 임베딩 모델들의 하이퍼 파라미터 변화에 따른 성능 분석 (Performance analysis of Various Embedding Models Based on Hyper Parameters)

  • 이상아;박재성;강상우;이정엄;김선아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.510-513
    • /
    • 2018
  • 본 논문은 다양한 워드 임베딩 모델(word embedding model)들과 하이퍼 파라미터(hyper parameter)들을 조합하였을 때 특정 영역에 어떠한 성능을 보여주는지에 대한 연구이다. 3 가지의 워드 임베딩 모델인 Word2Vec, FastText, Glove의 차원(dimension)과 윈도우 사이즈(window size), 최소 횟수(min count)를 각기 달리하여 총 36개의 임베딩 벡터(embedding vector)를 만들었다. 각 임베딩 벡터를 Fast and Accurate Dependency Parser 모델에 적용하여 각 모들의 성능을 측정하였다. 모든 모델에서 차원이 높을수록 성능이 개선되었으며, FastText가 대부분의 경우에서 높은 성능을 내는 것을 알 수 있었다.

  • PDF

'인공지능', '기계학습', '딥 러닝' 분야의 국내 논문 동향 분석 (Trend Analysis of Korea Papers in the Fields of 'Artificial Intelligence', 'Machine Learning' and 'Deep Learning')

  • 박홍진
    • 한국정보전자통신기술학회논문지
    • /
    • 제13권4호
    • /
    • pp.283-292
    • /
    • 2020
  • 4차 산업혁명의 대표적인 이미지 중 하나인 인공지능은 2016년 알파고 이후에 인공지능 인식이 매우 높아져 있다. 본 논문은 학국교육학술정보원에서 제공하는 국내 논문 중 '인공지능', '기계학습', '딥 러닝'으로 검색된 국내 발표 논문에 대해서 분석하였다. 검색된 논문은 약 1만여건이며 논문 동향을 파악하기 위해 빈도분석과 토픽 모델링, 의미 연결망을 이용하였다. 추출된 논문을 분석한 결과, 2015년에 비해 2016년에는 인공지능 분야는 600%, 기계학습은 176%, 딥 러닝 분야는 316% 증가하여 알파고 이후에 인공지능 분야의 연구가 활발히 진행됨을 확인할 수 있었다. 또한, 2018년 부터는 기계학습보다 딥 러닝 분야가 더 많이 연구 발표되고 있다. 기계학습에서는 서포트 벡터 머신 모델이, 딥 러닝에서는 텐서플로우를 이용한 컨볼루션 신경망이 많이 활용되고 있음을 알 수 있었다. 본 논문은 '인공지능', '기계학습', '딥 러닝' 분야의 향후 연구 방향을 설정하는 도움을 제공할 수 있다.

주관적 삶의 질과 언어 사용의 관계성 분석 (Preliminary Analysis of the Relationship between Language Use and Subjective Well-being)

  • 김경일;배진희;김영진;김동근
    • 한국산학기술학회논문지
    • /
    • 제12권11호
    • /
    • pp.4875-4880
    • /
    • 2011
  • 개인의 언어 사용 경향성은 그 개인의 심리적 측면을 분석할 수 있는 유용한 도구로 생각되어 왔으며 따라서 언어분석은 심리적 특성의 분석을 위해 중요하게 사용되어 왔다. 본 연구에서는 주관적 삶의 질을 구성하는 두 지표에 해당하는 삶에 대한 느낌과 삶에 대한 만족도가 언어와 어떤 관련성을 지니는가를 알아보고자 하였다. 이를 위해 126명의 남녀 대학생들을 대상으로 추출한 글쓰기 자료를 사용하여 KLIWC (Korean Linguistic Inquiry and Word Count)를 통해 언어 분석을 시도하였으며 주관적 삶의 질의 상 하위 집단 간에 어떤 차이가 있는지를 살펴보았다. 또한 KLIWC 변인들과 주관적 삶의 질을 구성하는 두 하위변인들 간의 개별적 관계성들이 분석되었으며, 그 결과, 다양한 차이점들과 연관성들이 관찰되었다. 이러한 결과들은 주관적 삶의 질과 언어 사용의 연관성에 대한 이후 연구들에 대해 예비적이고 기초적인 자료를 제공할 것으로 기대된다.