• 제목/요약/키워드: R language

검색결과 499건 처리시간 0.023초

텍스트 마이닝을 이용한 한국정보통신학회 논문지의 주제 분석 (Topic Analysis of Papers of JKIICE Using Text Mining)

  • 우영운;조경원;이광의
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.74-75
    • /
    • 2017
  • 이 논문에서는 2007년부터 2016년까지 한국정보통신학회 논문지(JKIICE)에 게재된 3,668편의 논문들의 연구 주제 분야를 파악하기 위해 텍스트 마이닝 기법을 이용하여 논문들을 분석하였다. 자료수집을 위하여 Python 기반의 웹 스크랩핑 프로그램을 사용하였으며, 자료 분석을 위해서는 R 언어로 구현된 LDA 알고리즘 기반의 토픽 모델링 기법들을 활용하였다. 연구 결과, 2016년까지 JKIICE의 투고 분야는 19개였으나 실제 최근 10년 동안 게재된 전체 논문들의 연구 주제는 크게 9가지로 대표됨을 알 수 있었다.

  • PDF

Relevant Analysis on User Choice Tendency of Intelligent Tourism Platform under the Background of Text mining

  • Liu, Zi-Yang;Liao, Kai;Guo, Zi-Han
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권9호
    • /
    • pp.119-125
    • /
    • 2019
  • The purpose of this study is to find out the relevant factors of the choice tendency of tourism users to Intelligent Tourism platform through big data analysis, which will help enterprises to make accurate positioning and improvement according to user information feedback in the tourism market in the future, so as to gain the favor of users' choice and achieve long-term market competitiveness. This study takes the Intelligent Tourism platform as the independent variable and the user choice tendency as the dependent variable, and explores the related factors between the Intelligent Tourism platform and the user choice tendency. This study make use of text mining and R language text analysis, and uses SPSS and AMOS statistical analysis tools to carry out empirical analysis. According to the analysis results, the conclusions are as follows: service quality has a significant positive correlation with user choice tendency; service quality has a significant positive correlation with tourism trust; Tourism Trust has a significant positive correlation with user choice tendency; service quality has a significant positive correlation with user experience; user experience has a significant positive correlation with user choice tendency Positive correlation effect.

긴급 신고 접수 지원을 위한 대화 상태 추적 및 요약 기반 실시간 텍스트 분석 (Real-time Text Analysis with Dialogue State Tracking and Summarizing to Assist Emergency Call Reporting)

  • 오교중;김진원;김일훈;임채균;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.16-21
    • /
    • 2021
  • 소방 본부의 119 종합상황실에서는 24시간 국민의 안전을 위해 긴급 신고를 접수한다. 수보사 분들은 24시간 교대 근무를 하며 신고 전화에 접수 및 응대 뿐만 아니라 출동, 지휘, 관제 업무를 함께 수행한다. 이 논문에서는 이 같은 수보사의 업무 지원을 위해 우리가 구축한 음성 인식과 결합된 실시간 텍스트 분석 시스템에 대해서 소개하고, 출동 지령서 자동 작성을 위한 키워드 검출 및 대화 요약 및 개체명 인식에 기반한 대화 상태 추척 방법에 대해 설명하고자 한다. 대화 요약 기술은 음성 인식 결과를 실시간으로 분석하여 중요한 키워드의 검출 및 지령서 자동 작성을 위한 후처리를 수행하며, 문장 수준에서 개체명 인식 및 관계 분석을 통한 목적 대화의 대화 상태 추적을 수행한다. 이 같은 응용 시스템은 딥러닝 및 기계학습 기반의 자연어 처리 시스템이 실시간으로 텍스트 분석을 수행할 수 있는 기술 수준이 되었음을 보여주며, 긴급한 상황에서 많은 신고 전화를 접수하는 수보사의 업무 효율 증진 뿐만 아니라, 정확하고 신속한 위치 파악으로 신고자를 도와주어 국민안전 증진에 도움을 줄 수 있을 것으로 기대된다.

  • PDF

Research on Big Data Integration Method

  • Kim, Jee-Hyun;Cho, Young-Im
    • 한국컴퓨터정보학회논문지
    • /
    • 제22권1호
    • /
    • pp.49-56
    • /
    • 2017
  • In this paper we propose the approach for big data integration so as to analyze, visualize and predict the future of the trend of the market, and that is to get the integration data model using the R language which is the future of the statistics and the Hadoop which is a parallel processing for the data. As four approaching methods using R and Hadoop, ff package in R, R and Streaming as Hadoop utility, and Rhipe and RHadoop as R and Hadoop interface packages are used, and the strength and weakness of four methods are described and analyzed, so Rhipe and RHadoop are proposed as a complete set of data integration model. The integration of R, which is popular for processing statistical algorithm and Hadoop contains Distributed File System and resource management platform and can implement the MapReduce programming model gives us a new environment where in R code can be written and deployed in Hadoop without any data movement. This model allows us to predictive analysis with high performance and deep understand over the big data.

언론의 '해양환경'에 대한 의제설정 언어 네트워크 분석 (Language Network Analysis of 'Marine Environment' in News Frame)

  • 김호경;권기석;장덕희
    • 한국콘텐츠학회논문지
    • /
    • 제16권5호
    • /
    • pp.385-398
    • /
    • 2016
  • 이 연구에서는 해양환경에 대한 언론의 의제설정 경향을 연도별로 분석하여, 해양환경이 국내 언론을 통해 어떻게 의미화 되는지를 분석하였다. 지난 10년(2005-2014년)간 국내 4개 종합일간지(동아 중앙 경향 한겨레)에 해양환경에 관해 보도된 기사에 대해 R 프로그램과 넷마이너 프로그램을 활용하여 언어 네트워크 분석을 실시하였다. 연구 결과, 국내 언론에서 해양환경은 경제적 차원에서 의미화되었다. 지난 10년간 연도별 구분 없이, 언론은 해양환경에 대한 '개발'이슈를 주요하게 다루고 있는 것으로 나타났다. 해양 환경의 개발을 중심으로 다양한 '계획'과 단위 '사업'들이 중요한 상관관계를 가진 영역으로 다루어졌다. 하지만 해양환경의 '보전'이슈는 국내 언론에서 주요 의제로 언급되지 않았다. 해양환경은 효과적인 보전을 기반으로, 이와 동시에 합리적인 개발이 필요한 분야이다. 개발이슈만을 지나치게 부각하는 국내 언론보도의 의제설정경향은 해양환경을 개발의 대상으로 인식하는 데 막대한 영향을 미친다. 향후 해양환경 분야에 대한 언론보도의 방향성과 정보제공의 시사점에 대해 논의하였다.

담화표지 '아', '어', '음'의 성별과 연령별 사용 양상 (The pattern of use by gender and age of the discourse markers 'a', 'eo', and 'eum')

  • 송영숙;심지수;오재혁
    • 말소리와 음성과학
    • /
    • 제12권4호
    • /
    • pp.37-45
    • /
    • 2020
  • 이 연구는 담화 표지 '아, 어, 음'의 출현 빈도와 발화 시간, 발화 위치 등을 계량적으로 관찰하여 성별과 연령별 차이를 보이고자 하였다. 이를 위해 대용량 음성 코퍼스인 서울코퍼스를 이용하였고, Praat(ver.6.1.31)으로 음길이와 실제 발화를 확인하고, Emeditor(ver.17.6.1)로 코퍼스를 분석하고, R(ver.3.4.4)로 통계 분석하여 결과를 제시하였다. 성별에 따라 보면 여성의 경우 남성보다 단독 발화에서 '음'이 고빈도로 사용되었고, 발화 종결 위치에서의 평균 음길이 또한 길었다. 연령에 따라 보면 발화 시작 위치에서 10대에서는 '아'가, 40대는 '어'가 고빈도로 출현하는 것이 특징적이었다.

Document Classification Methodology Using Autoencoder-based Keywords Embedding

  • Seobin Yoon;Namgyu Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권9호
    • /
    • pp.35-46
    • /
    • 2023
  • 본 연구에서는 문서 분류기의 정확도를 높이기 위해 문맥 정보와 키워드 정보를 모두 사용하는 이중 접근(Dual Approach) 방법론을 제안한다. 우선 문맥 정보는 다양한 자연어 이해 작업(Task)에서 뛰어난 성능을 나타내고 있는 사전학습언어모델인 Google의 BERT를 사용하여 추출한다. 구체적으로 한국어 말뭉치를 사전학습한 KoBERT를 사용하여 문맥 정보를 CLS 토큰 형태로 추출한다. 다음으로 키워드 정보는 문서별 키워드 집합을 Autoencoder의 잠재 벡터를 통해 하나의 벡터 값으로 생성하여 사용한다. 제안 방법을 국가과학기술정보서비스(NTIS)의 국가 R&D 과제 문서 중 보건 의료에 해당하는 40,130건의 문서에 적용하여 실험을 수행한 결과, 제안 방법이 문서 정보 또는 단어 정보만을 활용하여 문서 분류를 진행하는 기존 방법들에 비해 정확도 측면에서 우수한 성능을 나타냄을 확인하였다.

Enhancing LoRA Fine-tuning Performance Using Curriculum Learning

  • Daegeon Kim;Namgyu Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권3호
    • /
    • pp.43-54
    • /
    • 2024
  • 최근 언어모델을 활용하기 위한 연구가 활발히 이루어지며, 큰 규모의 언어모델이 다양한 과제에서 혁신적인 성과를 달성하고 있다. 하지만 실제 현장은 거대 언어모델 활용에 필요한 자원과 비용이 한정적이라는 한계를 접하면서, 최근에는 주어진 자원 내에서 모델을 효과적으로 활용할 수 있는 방법에 주목하고 있다. 대표적으로 학습 데이터를 난이도에 따라 구분한 뒤 순차적으로 학습하는 방법론인 커리큘럼 러닝이 주목받고 있지만, 난이도를 측정하는 방법이 복잡하거나 범용적이지 않다는 한계를 지닌다. 따라서, 본 연구에서는 신뢰할 수 있는 사전 정보를 통해 데이터의 학습 난이도를 측정하고, 이를 다양한 과제에 쉽게 활용할 수 있는 데이터 이질성 기반 커리큘럼 러닝 방법론을 제안한다. 제안방법론의 성능 평가를 위해 국가 R&D 과제 전문 문서 중 정보통신 분야 전문 문서 5,000건, 보건의료전문 문서 데이터 4,917건을 적용하여 실험을 수행한 결과, 제안 방법론이 LoRA 미세조정과 전체 미세조정 모두에서 전통적인 미세조정에 비해 분류 정확도 측면에서 우수한 성능을 나타냄을 확인했다.

R을 이용한 성경 데이터의 빈도와 소셜 네트워크 분석 (Frequency and Social Network Analysis of the Bible Data using Big Data Analytics Tools R)

  • 반재훈;하종수
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 추계학술대회
    • /
    • pp.93-96
    • /
    • 2018
  • 데이터를 저장하고 분석하여 새로운 지식을 얻을 수 있는 빅데이터 처리기술은 사회의 여러 분야에서 중요성이 강조되고 있으며 정보통신기술 분야의 핵심 이슈로 부각되면서 관련 기술에 대한 관심이 증가하고 있다. 이러한 빅데이터를 분석할 수 있는 도구인 R은 통계 기반의 정보 분석을 가능하게 하는 언어와 환경이다. 본 논문에서는 이를 이용하여 성경데이터를 분석한다. R을 이용하여 어떠한 텍스트가 분포되어 있는지를 빈도 조사를 수행하며 소셜 네트워크 분석을 통해 성경을 분석한다.

  • PDF

LASeR 기반 모바일 콘텐츠 저작 도구 (Authoring Tool for Mobile Contents based on LASeR)

  • 김선경;김희선
    • 한국산업정보학회논문지
    • /
    • 제13권3호
    • /
    • pp.31-37
    • /
    • 2008
  • MPEG 4 Part 20 LASeR (ISO/IEC 14496 20) is a specification designed to deliver rich media services in a mobile environment. The specification is an emerging standard that can replace the MPEG 4 BIFS specification designed to deliver PC based heavyweight media contents. The specification describes the representation of scene information in a resource constrained mobile environment. Unlike the BIFS standard designed to deliver heavyweight rich media, the LASeR specification has a restricted description that conforms to the SVG Tiny 1.2 specification. Also, the specification has an advantage of allowing for the efficient conversion of one graphics format to another. In this paper, we present the design and the implementation of a LASeR authoring system that allows for fast and efficient creation of interactive rich media contents in a mobile environment. The Gill interface of the authoring system presented in this paper allows users, who do not have prior knowledge of the scene description language, to conveniently create contents and store the produced scenes using the internal list data structure. The system allows users to navigate scene objects internally stored and to create LASeR XML files in the structured XML format.

  • PDF