• 제목/요약/키워드: R language

검색결과 499건 처리시간 0.028초

빅데이터 분석 도구 R 언어를 이용한 논문 데이터 시각화 (Visualizing Article Material using a Big Data Analytical Tool R Language)

  • 남수태;신성윤;진찬용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.326-327
    • /
    • 2021
  • 최근 빅데이터 활용은 매우 다양한 산업 분야에서 광범위하게 관심을 가지고 있다. 빅데이터 분석은 데이터 저장소에 저장된 대용량 데이터 속에서 의미 있는 새로운 상관관계, 패턴, 추세를 발견하여 새로운 가치를 창출하는 과정이다. 또한 대부분의 빅데이터 분석 기술 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 이에 해당된다. 그리고 빅데이터 분석 도구인 R언어를 이용하여 전-처리된 텍스트 데이터를 이용하여 다양한 시각화 함수를 통해 분석결과를 표현할 수 있다. 본 연구에서 사용된 데이터는 특정 학회지 논문 중에서 29편을 대상으로 분석을 하였다. 최종 분석결과는 가장 많이 언급된 키워드는 "연구"가 743회로 1위를 차지하였다. 따라서 이러한 분석결과를 바탕으로 연구의 한계와 이론적 실무적 시사점을 제시하고자 한다.

  • PDF

The Structure of Polysemy: A study of multi-sense words based on WordNet

  • Lin, Jen-Yi;Yang, Chang-Hua;Tseng, Shu-Chuan;Huang, Chu-Ren
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2002년도 Language, Information, and Computation Proceedings of The 16th Pacific Asia Conference
    • /
    • pp.320-329
    • /
    • 2002
  • The issues in polysemy with respect to the verbs in WordNet will be discussed in this paper. The hypernymy/hyponymy structure of the multiple senses is observed when we try to build a bilingual network for Chinese and English. There are several types of polysemic patterns and a co-hypernym may have the same word form as its subordinates. Fellbaum (2000) dubbed autotroponymy that the verbs linked by mailer relation share the same verb form. However, her syntactic criteria seem not compatible to the hierarchies in WN. Either the criteria or the network should be reconducted. For most verbs in WN 1.7, polysemous relations are unlikely to extend over 3 levels of IS-A relation. Highly polysemous verbs are more complicated and may be involved in certain semantic structures. Semi-automatic sense grouping may be helpful for multimlinguital information retrieveal.

  • PDF

Object Classification based on Weakly Supervised E2LSH and Saliency map Weighting

  • Zhao, Yongwei;Li, Bicheng;Liu, Xin;Ke, Shengcai
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권1호
    • /
    • pp.364-380
    • /
    • 2016
  • The most popular approach in object classification is based on the bag of visual-words model, which has several fundamental problems that restricting the performance of this method, such as low time efficiency, the synonym and polysemy of visual words, and the lack of spatial information between visual words. In view of this, an object classification based on weakly supervised E2LSH and saliency map weighting is proposed. Firstly, E2LSH (Exact Euclidean Locality Sensitive Hashing) is employed to generate a group of weakly randomized visual dictionary by clustering SIFT features of the training dataset, and the selecting process of hash functions is effectively supervised inspired by the random forest ideas to reduce the randomcity of E2LSH. Secondly, graph-based visual saliency (GBVS) algorithm is applied to detect the saliency map of different images and weight the visual words according to the saliency prior. Finally, saliency map weighted visual language model is carried out to accomplish object classification. Experimental results datasets of Pascal 2007 and Caltech-256 indicate that the distinguishability of objects is effectively improved and our method is superior to the state-of-the-art object classification methods.

Using Non-Local Features to Improve Named Entity Recognition Recall

  • Mao, Xinnian;Xu, Wei;Dong, Yuan;He, Saike;Wang, Haila
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2007년도 정기학술대회
    • /
    • pp.303-310
    • /
    • 2007
  • Named Entity Recognition (NER) is always limited by its lower recall resulting from the asymmetric data distribution where the NONE class dominates the entity classes. This paper presents an approach that exploits non-local information to improve the NER recall. Several kinds of non-local features encoding entity token occurrence, entity boundary and entity class are explored under Conditional Random Fields (CRFs) framework. Experiments on SIGHAN 2006 MSRA (CityU) corpus indicate that non-local features can effectively enhance the recall of the state-of-the-art NER systems. Incorporating the non-local features into the NER systems using local features alone, our best system achieves a 23.56% (25.26%) relative error reduction on the recall and 17.10% (11.36%) relative error reduction on the F1 score; the improved F1 score 89.38% (90.09%) is significantly superior to the best NER system with F1 of 86.51% (89.03%) participated in the closed track.

  • PDF

Individual Differences in Regional Gray Matter Volumes According to the Cognitive Style of Young Adults

  • Hur, Minyoung;Kim, Chobok
    • 감성과학
    • /
    • 제22권4호
    • /
    • pp.65-74
    • /
    • 2019
  • Extant research has proposed that the Object-Spatial-Verbal cognitive style can elucidate individual differences in the preference for modality-specific information. However, no studies have yet ascertained whether this type of information processing evinces structural correlations in the brain. Therefore, the current study used voxel-based morphometry (VBM) analyses to investigate individual differences in gray matter volumes based on the Object-Spatial-Verbal cognitive style. For this purpose, ninety healthy young adults were recruited to participate in the study. They were administered the Korean version of the Object-Spatial-Verbal cognitive style questionnaire, and their anatomical brain images were scanned. The VBM results demonstrated that the participants' verbal scores were positively correlated with regional gray matter volumes (rGMVs) in the right superior temporal sulcus/superior temporal gyrus, the bilateral parahippocampal gyrus/fusiform gyrus, and the left inferior temporal gyrus. In addition, the rGMVs in these regions were negatively correlated with the relative spatial preference scores obtained by individual participants. The findings of the investigation provide anatomical evidence that the verbal cognitive style could be decidedly relevant to higher-level language processing, but not to basic language processing.

단어 수준 한국어-영어 기계번역 품질 예측 (Word-level Korean-English Quality Estimation)

  • 어수경;박찬준;서재형;문현석;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.9-15
    • /
    • 2021
  • 기계번역 품질 예측 (Quality Estimation, QE)은 정답 문장에 대한 참조없이 소스 문장과 기계번역 결과를 통해 기계번역 결과에 대한 품질을 수준별 주석으로 나타내주는 태스크이며, 다양한 활용도가 있다는 점에서 꾸준히 연구가 수행되고 있다. 그러나 QE 모델 학습을 위한 데이터 구성 시 기계번역 결과에 대해 번역 전문가가 교정한 문장이 필요한데, 이를 제작하는 과정에서 상당한 인건비와 시간 비용이 발생하는 한계가 있다. 본 논문에서는 번역 전문가 없이 병렬 또는 단일 말뭉치와 기계번역기만을 활용하여 자동화된 방식으로 한국어-영어 합성 QE 데이터를 구축하며, 최초로 단어 수준의 한국어-영어 기계번역 결과 품질 예측 모델을 제작하였다. QE 모델 제작 시에는 Cross-lingual language model (XLM), XLM-RoBERTa (XLM-R), multilingual BART (mBART)와 같은 다언어모델들을 활용하여 비교 실험을 수행했다. 또한 기계번역 결과에 대한 품질 예측의 객관성을 검증하고자 구글, 아마존, 마이크로소프트, 시스트란의 번역기를 활용하여 모델 평가를 진행했다. 실험 결과 XLM-R을 활용하여 미세조정학습한 QE 모델이 가장 좋은 성능을 보였으며, 품질 예측의 객관성을 확보함으로써 QE의 다양한 장점들을 한국어-영어 기계번역에서도 활용할 수 있도록 했다.

  • PDF

DigitalMicrograph Script Source Listing for a Geometric Phase Analysis

  • Kim, Kyou-Hyun
    • Applied Microscopy
    • /
    • 제45권2호
    • /
    • pp.101-105
    • /
    • 2015
  • Numerous digital image analysis techniques have been developed with regard to transmission electron microscopy (TEM) with the help of programming. DigitalMicrograph (DM, Gatan Inc., USA), which is installed on most TEMs as operational software, includes a script language to develop customized software for image analysis. Based on the DM script language, this work provides a script source listing for quantitative strain measurements based on a geometric phase analysis.

문자열 패턴 매칭 (SPM:String Pattern Matching)프로세서의 설계 (Design of String Pattern Matching (SPM) Processor)

  • 국일호;조원경
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1988년도 전기.전자공학 학술대회 논문집
    • /
    • pp.659-661
    • /
    • 1988
  • SPM is MDC Processor for string pattern expressed in directional chain code. In this paper we consider the string pattern matching algorithm (Leve-nstein Algorithm) whitch is portion of Dynamic Programing, and propose architecture of SPM and simulate it on the R-T level to evaluate its architecture. We used the C language as the hardware description language, and developed it on the IBM PC/AT Zenix system V OS environment.

  • PDF

대화형 인덱싱을 위한 로봇 에이전트의 설계 및 구현 (Design and Implementation of a Robot Agent for Interactive Indexing)

  • 박민우;박철제
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.219-226
    • /
    • 1997
  • 에이전트는 분산 환경에서 작업을 수행하는 지적인 특성을 갖는 응용 프로그램으로 정의되며, 연구 분야에 따라 다양한 의미로 해석이 가능하다. 그중에서 로봇 에이전트는 전세계에 산재된 방대한 양의 정보를 스스로 추적하며 새로운 정보를 찾는다. 로봇 에이전트에 대한 기존의 연구는 대부분 통계적인 목적이나 검색엔진을 위한 데이터의 수집을 목적으로 사용되었다. 많은 정보를 수집하기 위해 더 높은 성능의 로봇 에이전트들이 제작되었고, 이러한 프로그램들이 팽창하면서 네트워크를 과부하시키는 현상을 초래하게 되었다. 재귀적인 방법으로 수행되는 로봇 에이전트의 사용을 억제하기 위한 연구들이 많이 발표되었으나, 수동적인 방법에 의존하는 연구가 대부분이며 대표적인 것이 로봇 배제를 위한 표준안 정도이다. 본 연구에서는 이러한 로봇 에이전트의 문제점을 개선하여, 서버와 클라이언트간에 대화형으로 수행되는 인덱스 로봇 에이전트를 제안하며, 사용자의 요구에 따라 수행되는 로봇 에이전트에 의한 정보 획득의 방법을 시도하여 네트워크의 과부하를 억제하면서도 정보의 신뢰성과 정확성을 보장한다.

  • PDF

An Operator Assisted Call Routing System

  • Lee, Chun-Jen;Jason S. Chang
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2002년도 Language, Information, and Computation Proceedings of The 16th Pacific Asia Conference
    • /
    • pp.271-280
    • /
    • 2002
  • A system to assist call routing task for telephone operators at the Directorate General of Telecommunications (DGT) in Taiwan is reported in this paper. The system was developed based on DGT organization profile with description of its six divisions instead of a corpus of recorded and transcribed call-routing dialogs. An acoustic module and an information retrieval module were built specifically for this task. The construction of IR module was based on term extraction and thesaurus discovery processes. By integrating acoustic and IR module, the system achieves satisfactory performance and provides a promising approach to call routing. Simulation results indicated that the proposed algorithm outperforms standard classification methods. A working system based on the proposed approach has been implemented and experimental results are presented.

  • PDF