• 제목/요약/키워드: R 텍스트 마이닝

검색결과 89건 처리시간 0.029초

사회과학을 위한 양적 텍스트 마이닝: 이주, 이민 키워드 논문 및 언론기사 분석 (Quantitative Text Mining for Social Science: Analysis of Immigrant in the Articles)

  • 이수정;최두영
    • 한국콘텐츠학회논문지
    • /
    • 제20권5호
    • /
    • pp.118-127
    • /
    • 2020
  • 본 연구는 최근 사회과학에서 실시되고 있는 양적 텍스트 분석의 흐름과 분석을 실시함에 있어 주의해야 할 사례를 포함하여 기술 하였다. 특히, 2017년부터 2019년까지 3년간 학술지와 언론에서 사용된 "이주", "이민" 키워드를 기반으로 사례연구를 실시하였다. 이를 위해 최근 사회과학분야에서 주목 받는 자연어 처리 기술(NLP)를 이용한 양적 텍스트 분석 (Quantitate text analysis)을 사용하였다. 양적 텍스트 분석은 문서를 구조적 데이터로 변환하여, 가설의 발견 및 검증을 실시하는 데이터 과학의 영역으로, 데이터의 모델링 및 가시화 등이 가능하고, 특히 비구조화 된 데이터를 구조화할 수 있다는 점에서 사회과학 분야에 많이 도입하였다. 따라서 본 연구는 양적 텍스트 분석을 통해 "이주", "이민"을 키워드로 한 연구 및 언론 기사에 대한 통계 분석을 실시하고 도출된 결론에 대한 해석을 실시하였다.

텍스트 마이닝 기반의 온라인 상품 리뷰 추출을 통한 목적별 맞춤화 정보 도출 방법론 연구 (A Study on the Method for Extracting the Purpose-Specific Customized Information from Online Product Reviews based on Text Mining)

  • 김주영;김동수
    • 한국전자거래학회지
    • /
    • 제21권2호
    • /
    • pp.151-161
    • /
    • 2016
  • 개방, 공유, 참여를 특징으로 하는 웹 2.0 시대로 들어서면서 인터넷 사용자들의 데이터 생산 및 공유가 쉬워졌다. 이에 따른 데이터의 기하급수적인 증가와 함께 디지털 정보의 대부분인 비정형적 데이터(Unstructured Data)의 양도 증가하고 있다. 인터넷에서 정해진 형식 없이 자연어 형태로 만들어진 비정형 데이터 중, 특정 상품들에 대해 개인이 평가한 리뷰들은 해당 기업이나 해당 상품에 관심이 있는 잠재적 고객에게 필요한 데이터이다. 많은 양의 리뷰 데이터에서 상품에 대한 유용한 정보를 얻기 위해서는 데이터 수집, 저장, 전처리, 분석, 및 결론 도출의 과정이 필요하다. 따라서 본 연구는 R을 이용한 텍스트 마이닝(Text Mining) 기법을 사용하여 텍스트 형식의 비정형 데이터에서 자연어 처리 기술 및 문서 처리 기술을 적용하여 정형화된 데이터 값을 도출하는 방법에 대해 소개한다. 또한, 도출된 정형화된 리뷰 정보를 데이터 마이닝 기법에 적용하여 목적에 맞게 맞춤화된 리뷰 정보를 도출시키는 방안을 제시하고자 한다.

텍스트 마이닝을 활용한 국가 R&D과제 동향 분석: ICT 분야와 스마트시티 중심으로 (A Study on the Analysis of ICT R&D using Text Mining Method: Focused on ICT Field and Smart City)

  • 김성순;양명석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.462-465
    • /
    • 2021
  • 본 연구는 최근 ICT분야 R&D 동향을 파악하기 위하여 NTIS에서 제공하는 국가연구개발사업 과제정보를 텍스트 마이닝 기법을 통해 분석하였다. 2017년부터 2020까지의 과제 정보에서 키워드를 추출하고 연결 관계 마이닝을 통해 키워드 네트워크를 시각화하였다. 분석 결과는 다음과 같다. 첫째, 정보통신 각 분야에서 핵심 연구주제가 기술의 발전에 따라 변화하고 있음을 관찰하였다. 둘째, 키워드 네트워크 상에서 허브 역할을 하는 키워드를 통해 분야 간 융합의 매개 기술을 파악할 수 있었다. 마지막으로, 연도별 키워드 네트워크를 비교·분석함으로써 새롭게 등장하거나 연결 상태의 변화를 보이는 이머징(Emerging) 키워드를 통해 미래 유망 기술이나 최신 연구 방향성을 감지할 수 있음을 보였다.

텍스트마이닝을 활용한 농업 R&D 키워드 분석 (A Study on the Analysis of Agricultural R&D Keywords Using Textmining Method)

  • 김지훈;김성섭
    • 한국산학기술학회논문지
    • /
    • 제22권2호
    • /
    • pp.721-732
    • /
    • 2021
  • 본 연구는 농업 R&D의 추세를 살펴보고자 텍스트마이닝 기법을 활용하여 농업 R&D에 해당하는 키워드를 분석하였다. 분석자료는 NTIS의 국가연구개발사업 과제정보를 활용하였으며, 2003년부터 2018년까지의 농업 R&D의 주요 키워드를 연도별 및 연구개발단계별로 구분하였다. 텍스트마이닝을 위해 키워드의 TF-IDF를 계산하여 점수별로 순위를 매기었으며, 유사한 키워드별로 그룹화하여 해석하였다. 주요 분석 결과는 다음과 같다. 첫 번째, 신기술의 도입과 외부 환경에 변화에 따른 농업 R&D 트렌드가 변화해가고 있다. 시간이 흐를수록 새로운 키워드가 대두되고 있으며, 기초연구 단계에서는 '기후변화'가, 응용연구 단계에서는 'ICT'와 '스마트팜'이, 개발연구 단계에서는 '수출' 키워드가 주되게 등장하고 있다. 두 번째, 연구개발 단계에서 시차를 가지고 키워드 변화가 나타나고 있다. 기초연구-응용연구-개발연구 순으로 주요 키워드가 변화하고 있으며, 대표적으로 '기후변화'와 '신품종' 키워드가 연구개발단계별로 연계되어 있었다. 세번째, 농업 R&D의 대표적인 키워드는 '벼' 키워드로 나타났다. 그러나 '녹색 및 기후변화 대응'과 '가공 및 유통기술' 같이 국내외 농업 환경 변화에 따라 연구의 방향성과 목적이 변화하고 있었다.

특허 키워드 시계열 분석을 통한 부상 기술 예측 (Time Series Analysis of Patent Keywords for Forecasting Emerging Technology)

  • 김종찬;이준혁;김갑조;박상성;장동식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권9호
    • /
    • pp.355-360
    • /
    • 2014
  • 오늘날 국가와 기업의 연구 개발 투자 및 경영 정책 전략 수립에서 미래 부상 기술 예측은 매우 중요한 역할을 한다. 기술 예측을 위한 다양한 방법들이 사용되고 있으며 특허를 이용한 기술 예측 또한 활발히 진행되고 있다. 특허를 이용한 기술 예측에는 전문가들의 평가와 견해를 통한 정성적인 방법이 주로 사용되어 왔다. 정성적인 방법은 분석 결과의 객관성을 보장하지 못하고 분석에 많은 비용 및 시간이 요구된다. 이런 문제점을 보완하기 위해 최근에는 텍스트 마이닝을 이용한 특허 데이터의 정량적인 분석이 이루어지고 있다. 텍스트 마이닝 기법을 적용함으로써 특허 문서의 통계적 분석이 가능하다. 본 논문에서는 텍스트 마이닝과 ARIMA 분석을 이용한 기술 예측 방법을 제안한다.

텍스트 마이닝을 이용한 지능적 워드클라우드 (Intelligent Wordcloud Using Text Mining)

  • 김연창;지상수;박동서;이충호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2019년도 춘계학술대회
    • /
    • pp.325-326
    • /
    • 2019
  • 본 논문은 텍스트 마이닝 기법으로 명사의 빈도수를 조사하여 워드클라우드를 나타내는 기존의 방법을 개선하여 지능적 워드클라우드를 구현하는 방법을 제안한다. 텍스트 마이닝 시에 명사 단어를 추출하는 사전에 누락된 신조어 등의 단어를 효과적으로 추가하고, 동사 등 다른 품사위주의 워드클라우드를 시각적으로 보여주는 방법을 제안한다. 실험에서 기존 명사의 빈도수 추출에는 KoNLP 패키지를 사용하였고, 지원되지 않는 신조어 80개를 추가하였고 빈도수를 수동으로 조사하여 추가하였다.

  • PDF

클라우드 기반 R&D 연구 보고서 문서표절 및 유사도 검출 시스템 (R&D Redundancy and Similarity Check System)

  • 신효정;박기흥;허덕행
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제53차 동계학술대회논문집 24권1호
    • /
    • pp.31-32
    • /
    • 2016
  • 최근 정부의 R&D 연구에 대한 지원 규모 증가로 인해 전국가적으로 활발하게 기술 연구가 진행되고 있지만 예산을 집행하는 과정에서 기술 연구개발 과제의 중복연구로 시간과 예산을 낭비하는 사례를 노출하고 있다. 이와 같은 문제점을 해결하기 위해서는 정부 R&D 과제 선정과정에서 연구주제의 중복성 방지 등 근원적 혁신이 필요하다. 본 논문에서는 텍스트 마이닝 기술 및 빅데이터 분석 기술(하둡, 아마존 웹 서비스)과 같은 데이터 분석 기술이 도입된 클라우드 기반 R&D 연구 보고서 문서표절 및 유사도를 검출하는 시스템을 제안한다. 본 시스템은 SaaS 형태의 "on-demand software"로 웹 접속만으로 사용이 가능하다.

  • PDF

텍스트 마이닝을 이용한 한국정보통신학회 논문지의 주제 분석 (Topic Analysis of Papers of JKIICE Using Text Mining)

  • 우영운;조경원;이광의
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.74-75
    • /
    • 2017
  • 이 논문에서는 2007년부터 2016년까지 한국정보통신학회 논문지(JKIICE)에 게재된 3,668편의 논문들의 연구 주제 분야를 파악하기 위해 텍스트 마이닝 기법을 이용하여 논문들을 분석하였다. 자료수집을 위하여 Python 기반의 웹 스크랩핑 프로그램을 사용하였으며, 자료 분석을 위해서는 R 언어로 구현된 LDA 알고리즘 기반의 토픽 모델링 기법들을 활용하였다. 연구 결과, 2016년까지 JKIICE의 투고 분야는 19개였으나 실제 최근 10년 동안 게재된 전체 논문들의 연구 주제는 크게 9가지로 대표됨을 알 수 있었다.

  • PDF

텍스트마이닝 기술을 이용한 공간정보 분야의 연구 동향에 관한 고찰 -국가연구개발사업 보고서 및 논문을 중심으로- (A Study on the Research Trends in the Area of Geospatial-Information Using Text-mining Technique Focused on National R&D Reports and Theses)

  • 임시영;이미숙;진기호;신동빈
    • Spatial Information Research
    • /
    • 제22권4호
    • /
    • pp.11-20
    • /
    • 2014
  • 본 연구의 목적은 텍스트마이닝 기법을 활용하여 공간정보 분야의 연구동향을 파악하는 것이다. 이를 위하여 국가과학기술도서관에서 국가연구개발보고서와 논문을 추출하여 키워드에 대한 전처리를 수행한 후 분야별로 정리하였다. 정리된 키워드들을 통해 보고서 및 논문에서 키워드의 시기별 출현 빈도 및 변화를 살펴보고 이를 통해 공간정보 분야의 연구동향을 확인하였다. 분석결과 공간정보 분야에서는 시스템 관련 연구가 줄어드는 반면 활용 관련 연구가 늘어가는 추세가 있음을 확인하였다.