• 제목/요약/키워드: R언어

검색결과 407건 처리시간 0.035초

Data Dictionary 기반의 R Programming을 통한 비정형 Text Mining Algorithm 연구 (A study on unstructured text mining algorithm through R programming based on data dictionary)

  • 이종화;이현규
    • 한국산업정보학회논문지
    • /
    • 제20권2호
    • /
    • pp.113-124
    • /
    • 2015
  • 미리 선언된 구조를 이용하여 수집 저장된 정형적 데이터와는 달리 웹 2.0의 시대에서 일반 사용자들이 평상시에 사용하는 자연어 형태로 작성된 비정형 데이터 분석은 과거보다 훨씬 더 넓은 응용범위를 가지고 있다. 데이터 양이 폭발적으로 증가하고 있다는 특성뿐 만 아니라 인간의 감성이 그대로 표현된 특성을 가진 텍스트에서 의미 있는 정보를 추출하는 빅데이터 분석 기법을 텍스트마이닝(Text Mining)이라 하며 본 연구는 이를 주제로 하고 있다. 본 연구를 위해 오픈 소스인 통계분석용 소프트웨어 R 프로그램을 이용하였으며, 비정형 텍스트 문서를 웹 환경에서 수집, 저장, 전처리, 분석 작업과 시각화(Frequency Analysis, Cluster Analysis, Word Cloud, Social Network Analysis)작업 등의 과정에 관한 알고리즘 구현을 연구하였다. 특히, 연구자의 연구 영역 분석에 초점을 더욱 높이기 위해 Data Dictionary를 참조한 키워드 추출 기법을 사용하였다. 실제 사례에 적용한 R은 다양한 OS 구동, 일반적 언어와의 인터페이스 지원 등 통계 분석용 소프트웨어로써 매우 유용하다는 점을 발견할 수 있었다.

R-IPA분석을 적용한 외래관광객의 관광수용태세 개선 요소 분석: 관광객 유형 및 시기별 비교를 중심으로 (A Study on the Improvement Elements of Tourism Preparedness for International Tourist Using Revised-IPA: Focusing on Comparison by Tourist Type and Time Period)

  • 이승훈
    • 디지털융복합연구
    • /
    • 제16권6호
    • /
    • pp.9-18
    • /
    • 2018
  • 최근 외래관광객의 품질 향상을 위한 관광수용태세 개선에 대한 필요성과 관심이 증대되고 있으나 관련 연구는 부족한 실정이다. 본 연구는 외래관광객의 관광수용태세와 관련 우선적 개선 요소를 규명하고자 하였으며, 이를 위해 R-IPA분석을 적용하여 관광객 유형 및 시기에 따른 관광수용태세의 개선요소를 분석, 비교하였다. 전체관광객을 대상으로 한 R-IPA분석결과 현재의 품질수준을 유지할 필요가 있는 요소는 음식, 치안, 대중교통, 쇼핑, 관광지 매력도였다. 그리고 우선도는 낮으나 개선이 필요한 요소는 언어소통, 여행경비, 관광안내서비스였다. 관광객 유형별로 R-IPA분석을 한 결과 개별관광객은 대중교통, 음식, 쇼핑, 관광지 매력도, 치안에 대해서 현재 품질수준의 유지가 필요하며, 단체관광객은 숙박, 쇼핑, 관광지 매력, 관광안내서비스는 현재 품질수준의 유지가 필요하지만 음식은 시급히 개선이 필요한 것으로 나타났다.

R을 이용한 대학의 학과 명칭 분석 (Analysis of University Department Name using the R)

  • 반재훈;김동현;하종수
    • 한국정보통신학회논문지
    • /
    • 제22권6호
    • /
    • pp.829-834
    • /
    • 2018
  • IT 기술의 발전에 따라 미래를 예측할 수 있는 빅데이터의 중요성이 강조되고 있으며, 다양한 산업에서 이를 활용하고 있다. 이러한 빅 데이터를 분석할 수 있는 도구인 R은 통계 기반의 정보 분석을 가능하게 하는 언어와 환경이다. 대학은 최고의 학문기관으로서 시대의 발전과 요구에 따라 그에 대응하는 학과를 개설하고 유지해 왔다. 따라서 대학의 학과명을 분석하면 현 시대의 요구와 기술의 발전에 대하여 알 수 있다. 본 논문에서는 빅데이터 분석도구인 R을 이용하여 전국에 2 4년제 대학, 대학원의 학과를 분석한다. 학과 명칭을 수집하고 각 데이터를 분석하여 학과 명칭의 빈도를 조사하며 대학에 어떤 학과 명칭이 자주 사용되는지를 파악한다.

빅데이터 분석도구 R을 이용한 성경 데이터의 빈도와 소셜 네트워크 분석 (Frequency and Social Network Analysis of the Bible Data using Big Data Analytics Tools R)

  • 반재훈;하종수;김동현
    • 한국정보통신학회논문지
    • /
    • 제24권2호
    • /
    • pp.166-171
    • /
    • 2020
  • 데이터를 저장하고 분석하여 새로운 지식을 얻을 수 있는 빅데이터 처리기술은 사회의 여러 분야에서 중요성이 강조되고 있으며 정보통신기술 분야의 핵심 이슈로 부각되면서 관련 기술에 대한 관심이 증가하고 있다. 이러한 빅데이터를 분석할 수 있는 도구인 R은 통계 기반의 정보 분석을 가능하게 하는 언어와 환경이다. 본 논문에서는 이를 이용하여 성경데이터를 분석한다. 성경 중에서 신약성경의 4복음서의 데이터를 분석한다. 먼저 성경데이터를 수집하고 분석을 위한 필터링을 수행한다. 이후 R을 이용하여 어떠한 텍스트가 분포되어 있는지를 빈도 조사를 수행하며 정확한 데이터의 분석을 위해 한 문장에서 나오는 단어들을 쌍으로 표현하고 단어 간의 관계성을 분석하는 소셜 네트워크 분석을 통해 성경을 분석한다.

바슐라르의 Logosphère와 언어적 몽상 (Logosphère de G. Bachelard et les rêveries de langue)

  • 홍명희
    • 비교문화연구
    • /
    • 제25권
    • /
    • pp.679-694
    • /
    • 2011
  • La langue est un des ${\acute{e}}l{\acute{e}}ments$ $privil{\acute{e}}gi{\acute{e}}s$ de la $r{\hat{e}}verie$ chez Bachelard. La langue est une force fondamentale de l'imagination. D'une part, elle garde son propre valeur dans le processus de l'imagination, et d'autre part elle forme sa propre image. La $priorit{\acute{e}}$ de langue chez Bachelard a, en effet, quelque liaison avec la notion de Logos qui avait ${\acute{e}}t{\acute{e}}$ $trait{\acute{e}}$ depuis longtemps comme $v{\acute{e}}rit{\acute{e}}$ ${\acute{e}}ternelle$ dans la $m{\acute{e}}taphysique$ occidentale. Cependant, la notion de logos de Bachelard se $diff{\grave{e}}re$ de celle de $m{\acute{e}}taphysique$ occidentale. Tandis que la $m{\acute{e}}taphysique$ traditionnelle traite le logos comme un but ${\acute{e}}ternel$ de sa $m{\acute{e}}ditation$, Bachelard donne l'importance sur la $capacit{\acute{e}}$ linguistique et imaginaire du logos. Le $logosph{\grave{e}}re$ est un des exemples qui montre bien la $diff{\acute{e}}rence$ entre la notion de logos de Bachelard et celle de $m{\acute{e}}taphysique$ traditionnelle. Le $logosph{\grave{e}}re$ est un $n{\acute{e}}ologisme$ de Bachelard qui est fait pour $d{\acute{e}}signer$ $l^{\prime}atmosph{\grave{e}}re$ verbal de la $soci{\acute{e}}t{\acute{e}}$ contemporaine $gr{\hat{a}}ce$ ${\grave{a}}$ l'emission de radio. Bachelard comprend le $ph{\acute{e}}nom{\grave{e}}ne$ de radio en tant que $r{\acute{e}}alisation$ de $Psych{\acute{e}}$ dans la vie quotidienne. C'est $gr{\hat{a}}ce$ ${\grave{a}}$ la technologie moderne que nous pouvons avoir l'univers de langue plus facilement par rapport aux $si{\grave{e}}cles$ $pr{\acute{e}}c{\acute{e}}dents$. Selon Bachelard, la radio n'est pas un simple instrument de communication. C'est une porte pour entrer dans la $r{\hat{e}}verie$ universelle. La radio est une voix du monde qui exprime notre inconscient. Quand un $r{\hat{e}}veur$ $r{\hat{e}}ve$, son $r{\hat{e}}verie$ se $d{\acute{e}}veloppe$ en se discutant avec le monde. Alors, quand nous $r{\hat{e}}vons$, nous parlons au monde et nous ${\acute{e}}coutons$ du monde, de sorte que nous devenons les citoyens du $logosph{\grave{e}}re$. Dans son oeuvre Sur la Grammatologie, J. Derrida critique la $m{\acute{e}}taphysique$ occidentale en la intitulant logocentrisme. Derrida pense que la philosophie occidentale a comme le but final la $pr{\acute{e}}sence$ de logos. Cette $pr{\acute{e}}sence$ de logos ne peut ${\hat{e}}tre$ $r{\acute{e}}alis{\acute{e}}e$ que par la langue de la voix, non pas par la langue de $caract{\grave{e}}re$. $D^{\prime}o{\grave{u}}$ vient le logocentrisme ou le phonocentrisme de $m{\acute{e}}taphysique$ occidental. Mais Derrida pense que le logocentrisme n'est qu'un autre aspect de l'ethnocentrisme ${\acute{e}}troit$ de l'occident. La notion de $logosph{\grave{e}}re$ de Bachelard a quelques ressemblances avec logocentrisme par ses apparences. Cependant, elles ont une $diff{\acute{e}}rence$ fondamentale depuis leur $d{\acute{e}}part$. Tandis que logocentrisme $tra{\hat{i}}te$ la parole en tant que $mani{\grave{e}}re$ d'expression de raison qui est une puissance fondamentale de l'homme, Bachelard pense que la parole est un $r{\acute{e}}sultat$ d'une opposition et fusion de notre raisons et parole. Bachelard pense que la parole est une $r{\acute{e}}alisation$ de l'image qui est l'essence de notre $psych{\acute{e}}$. Pour lui, la parole, la quintessence de $logosph{\grave{e}}re$, est le champ de l'imagination $d^{\prime}o{\grave{u}}$ jaillissent les images. C'est pour cela que $logosph{\grave{e}}re$ se situe ${\grave{a}}$ l'antipode de logocentrisme. $Logosph{\grave{e}}re$ nous fournit un espace de $r{\hat{e}}verie$ de langue. Notre $soci{\acute{e}}t{\acute{e}}$ contemporaine $fourr{\acute{e}}e$ des images visuelles creuses est $d{\acute{e}}pouill{\acute{e}}e$ de plus en plus des espaces de $r{\hat{e}}veries$. C'est une des raisons que le $logosph{\grave{e}}re$ de Bachelard doit ${\hat{e}}tre$ $r{\acute{e}}activ{\acute{e}}$ aujourd'hui.

전문어의 범용 공간 매핑을 위한 비선형 벡터 정렬 방법론 (Nonlinear Vector Alignment Methodology for Mapping Domain-Specific Terminology into General Space)

  • 김준우;윤병호;김남규
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.127-146
    • /
    • 2022
  • 최근 워드 임베딩이 딥러닝 기반 자연어 처리를 다루는 다양한 업무에서 우수한 성능을 나타내면서, 단어, 문장, 그리고 문서 임베딩의 고도화 및 활용에 대한 연구가 활발하게 이루어지고 있다. 예를 들어 교차 언어 전이는 서로 다른 언어 간의 의미적 교환을 가능하게 하는 분야로, 임베딩 모델의 발전과 동시에 성장하고 있다. 또한 핵심 기술인 벡터 정렬(Vector Alignment)은 임베딩 기반 다양한 분석에 적용될 수 있다는 기대에 힘입어 학계의 관심이 더욱 높아지고 있다. 특히 벡터 정렬은 최근 수요가 높아지고 있는 분야간 매핑, 즉 대용량의 범용 문서로 학습된 사전학습 언어모델의 공간에 R&D, 의료, 법률 등 전문 분야의 어휘를 매핑하거나 이들 전문 분야간의 어휘를 매핑하기 위한 실마리를 제공할 수 있을 것으로 기대된다. 하지만 학계에서 주로 연구되어 온 선형 기반 벡터 정렬은 기본적으로 통계적 선형성을 가정하기 때문에, 본질적으로 상이한 형태의 벡터 공간을 기하학적으로 유사한 것으로 간주하는 가정으로 인해 정렬 과정에서 필연적인 왜곡을 야기한다는 한계를 갖는다. 본 연구에서는 이러한 한계를 극복하기 위해 데이터의 비선형성을 효과적으로 학습하는 딥러닝 기반 벡터 정렬 방법론을 제안한다. 제안 방법론은 서로 다른 공간에서 벡터로 표현된 전문어 임베딩을 범용어 임베딩 공간에 정렬하는 스킵연결 오토인코더와 회귀 모델의 순차별 학습으로 구성되며, 학습된 두 모델의 추론을 통해 전문 어휘를 범용어 공간에 정렬할 수 있다. 제안 방법론의 성능을 검증하기 위해 2011년부터 2020년까지 수행된 국가 R&D 과제 중 '보건의료' 분야의 문서 총 77,578건에 대한 실험을 수행한 결과, 제안 방법론이 기존의 선형 벡터 정렬에 비해 코사인 유사도 측면에서 우수한 성능을 나타냄을 확인하였다.

스마트 시설환경 환경변수 분석을 위한 Open source 기반 인공지능 활용법 분석 (A Benchmark of AI Application based on Open Source for Data Mining Environmental Variables in Smart Farm)

  • 민재기;이동훈
    • 한국농업기계학회:학술대회논문집
    • /
    • 한국농업기계학회 2017년도 춘계공동학술대회
    • /
    • pp.159-159
    • /
    • 2017
  • 스마트 시설환경은 대표적으로 원예, 축산 분야 등 여러 형태의 농업현장에 정보 통신 및 데이터 분석 기술을 도입하고 있는 시설화된 생산 환경이라 할 수 있다. 근래에 하드웨어적으로 급증한 스마트 시설환경에서 생산되는 방대한 생육/환경 데이터를 올바르고 적합하게 사용하기 위해서는 일반 산업 현장과는 차별화 된 분석기법이 요구된다고 할 수 있다. 소프트웨어 공학 분야에서 연구된 빅데이터 처리 기술을 기계적으로 농업 분야의 빅데이터에 적용하기에는 한계가 있을 수 있다. 시설환경 내/외부의 다양한 환경 변수는 시계열 데이터의 난해성, 비가역성, 불특정성, 비정형 패턴 등에 기인하여 예측 모델 연구가 매우 난해한 대상이기 때문이라 할 수 있다. 본 연구에서는 근래에 관심이 급증하고 있는 인공신경망 연구 소프트웨어인 Tensorflow (www.tensorflow.org)와 대표적인 Open source인 OpenNN (www.openn.net)을 스마트 시설환경 환경변수 상호간 상관성 분석에 응용하였다. 해당 소프트웨어 라이브러리의 운영환경을 살펴보면 Tensorflow 는 Linux(Ubuntu 16.04.4), Max OS X(EL capitan 10.11), Windows (x86 compatible)에서 활용가능하고, OpenNN은 별도의 운영환경에 대한 바이너리를 제공하지 않고 소스코드 전체를 제공하므로, 해당 운영환경에서 바이너리 컴파일 후 활용이 가능하다. 소프트웨어 개발 언어의 경우 Tensorflow는 python이 기본 언어이며 python(v2.7 or v3.N) 가상 환경 내에서 개발이 수행이 된다. 주의 깊게 살펴볼 부분은 이러한 개발 환경의 제약으로 인하여 Tensorflow의 주요한 장점 중에 하나인 고속 연산 기능 수행이 일부 운영 환경에 국한이 되어 제공이 된다는 점이다. GPU(Graphics Processing Unit)의 제공하는 하드웨어 가속기능은 Linux 운영체제에서 활용이 가능하다. 가상 개발 환경에 운영되는 한계로 인하여 실시간 정보 처리에는 한계가 따르므로 이에 대한 고려가 필요하다. 한편 근래(2017.03)에 공개된 Tensorflow API r1.0의 경우 python, C++, Java언어와 함께 Go라는 언어를 새로 지원하여 개발자의 활용 범위를 매우 높였다. OpenNN의 경우 C++ 언어를 기본으로 제공하며 C++ 컴파일러를 지원하는 임의의 개발 환경에서 모두 활용이 가능하다. 특징은 클러스터링 플랫폼과 연동을 통해 하드웨어 가속 기능의 부재를 일부 극복했다는 점이다. 상기 두 가지 패키지를 이용하여 2016년 2월부터 5월 까지 충북 음성군 소재 딸기 온실 내부에서 취득한 온도, 습도, 조도, CO2에 대하여 Large-scale linear model을 실험적(시간단위, 일단위, 주단위 분할)으로 적용하고, 인접한 세그먼트의 환경변수 예측 모델링을 수행하였다. 동일한 조건의 학습을 수행함에 있어, Tensorflow가 개발 소요 시간과 학습 실행 속도 측면에서 매우 우세하였다. OpenNN을 이용하여 대등한 성능을 보이기 위해선 병렬 클러스터링 기술을 활용해야 할 것이다. 오프라인 일괄(Offline batch)처리 방식의 한계가 있는 인공신경망 모델링 기법과 현장 보급이 불가능한 고성능 하드웨어 연산 장치에 대한 대안 마련을 위한 연구가 필요하다.

  • PDF

해부설명회의 도입에 따른 의학전문대학원생들의 자기 평가 요인과 학업성취도 상관관계 분석 (Correlation between Self-evaluation Factor and Academic Achievement of Medical Students according to Introduction of Explanation Meeting in Cadaveric Dissection)

  • 박정현;김지희;김광환
    • 한국산학기술학회논문지
    • /
    • 제11권7호
    • /
    • pp.2475-2482
    • /
    • 2010
  • 본 연구에서는 해부학 실습 교육과정에 해부설명회를 도입에 따른 의학전문대학원생들의 자기평가요인(만족도, 전공 연계성, 운영 적절성, 의사소통)과 학업성취도와의 상관관계를 분석하였다. 2008학년도 1학기 해부학 실습교육을 받은 의학전문대학원생들(n=57)이 일부 수업시간을 활용하여 해부설명회에 참가하였고, 보건 의료 계통의 학부생들에게 사체를 활용하여 인체 구조에 대한 설명과 토론을 마친 후 설문지와 소감문을 작성하게 하였다. 이를 바탕으로 자기 평가 요인들을 분석하였고, 2008학년도 해부학 성적과의 상관관계를 조사하였다. 설문 대상자의 일반적 특성에 따른 자기 평가 요인을 분석한 결과, 성별, 연령, 과거 경험 유무 등의 일반적 특성과 상관없이 만족도, 전공 연계성, 운영 적절성, 언어적 및 비언어적 커뮤니케이션 모두에서 높은 수치를 나타내었다. 자기 평가 요인 중 학업성취도와 높은 상관관계를 갖는 요인은 언어적 커뮤니케이션이었다(p<0.05). 또한 언어적 커뮤니케이션은 비언어적 커뮤니케이션과도 높은 상관관계를 가졌다(r=0.673, p<0.01). 결론적으로 커뮤니케이션 기법을 활용한 해부설명회의 도입은 의전원 학생들에게 심화 학습의 기회를 제공하였고 학습동기를 유발시키며, 적극적인 학습태도를 갖게 하였다. 아울러 커뮤니케이션에 대한 중요성을 깨닫게 되었고, 타 전공자와의 상호교류를 통한 학문적 이해의 폭이 확대되었음을 확인하였다. 본 연구결과를 바탕으로 진행과정에 나타난 문제점을 보완하고 개선한다면 해부학 실습의 개선 방안으로서 해부설명회의 활용가치가 충분하다고 판단되었다.

Chaucer′s Extraordinary Fabliau: The Merchant′s Tale

  • Thomas, Paul R.
    • 인문언어
    • /
    • 제2권2호
    • /
    • pp.109-128
    • /
    • 2002
  • The six fabliaux of the Canterbury Tales are a notable artistic achievement. Of all of them, however, the Merchant's Tale is the most notable to show Chaucer's development of the scope of this genre. We will look briefly at the characters of the fabliau narrators who are crucial to Chaucer's drama of relationships in the course of the Canterbury pilgrimage framework. To distinguish the accomplishment of the Merchant's Tale, we will consider the relative merits of each of the other five fabliaux in the Canterbury Tales. The least flawed of the fabliau narrators, the Merchant will tell a powerful tale about an old man's lust turned into a hasty marriage gone wrong that aims its satire at the noble ruling class of the land, not the usual targets of Chaucer's or most other writers' fabliaux. Further, unlike the light-hearted and dismissable endings of the other Chaucerian fabliaux, the Merchant's Tale has what we will call an Act 6 of continued deception at all corners of the love triangle represented by the senex amans January, his young wife May, perhaps now pregnant after her tryst with Damyan in the pear tree, and the still present young lover Damyan. This triangle of mutual deception will continue into the unknown future under the male and female forces at odds as personified in the king and queen of fairies, Pluto and Proserpina.

  • PDF

유아의 조기영어교육과 이중언어발달에 영향을 주는 요인 (Children's Early English Education and the Factors on their Bilingual Language Development)

  • 황혜신
    • 한국생활과학회지
    • /
    • 제16권4호
    • /
    • pp.699-710
    • /
    • 2007
  • The study purposes to explore the effects of individual characteristics and home environments of children on their bilingual language aquisition, that is, to examine whether their English language competency is different from their Korean language competency depending on those variables. Thus English or Korean language competency of children who had had early exposure in English learning were studied in terms of child's individual characteristics such as age, gender, exposure period to English, intelligence, and experiences of visiting English-speaking countries, and home environments such as parental age, educational level, income level, their perceived English competency, their perceived significance of English and Korean language, and the frequency of using English at home. 72 children who went to English kindergarten were tested with Peabody Pictures Vocabulary Test-Revised (PPVT-R) in Korean version and in English version respectively. The results show that child's intelligence and experiences of visiting English-speaking countries influence their Korean language competency. Also child's age, exposure period to English and experiences of visiting English-speaking countries influence their English language competency. Moreover their mother's educational background, father's English fluency, mothers' English fluency, and the frequency of using English at home influence child's English language competency, whereas any variables did not influence child's Korean language competency. Accordingly, child's English and Korean language competencies are related to each other.