• 제목/요약/키워드: 빅데이터 마이닝

검색결과 452건 처리시간 0.031초

환경 빅데이터 이슈 분석을 위한 용어 가중치 기법 비교 (Comparison of Term-Weighting Schemes for Environmental Big Data Analysis)

  • 김정진;정한석
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.236-236
    • /
    • 2021
  • 최근 텍스트와 같은 비정형 데이터의 생성 속도가 급격하게 증가함에 따라, 이를 분석하기 위한 기술들의 필요성이 커지고 있다. 텍스트 마이닝은 자연어 처리기술을 사용하여 비정형 텍스트를 정형화하고, 문서에서 가치있는 정보를 획득할 수 있는 기법 중 하나이다. 텍스트 마이닝 기법은 일반적으로 각각의 분서별로 특정 용어의 사용 빈도를 나타내는 문서-용어 빈도행렬을 사용하여 용어의 중요도를 나타내고, 다양한 연구 분야에서 이를 활용하고 있다. 하지만, 문서-용어 빈도 행렬에서 나타내는 용어들의 빈도들은 문서들의 차별성과 그에 따른 용어들의 중요도를 나타내기 어렵기때문에, 용어 가중치를 적용하여 문서가 가지고 있는 특징을 분류하는 방법이 필수적이다. 다양한 용어 가중치를 적용하는 방법들이 개발되어 적용되고 있지만, 환경 분야에서는 용어 가중치 기법 적용에 따른 효율성 평가 연구가 미비한 상황이다. 또한, 환경 이슈 분석의 경우 단순히 문서들에 특징을 파악하고 주어진 문서들을 분류하기보다, 시간적 분포도에 따른 각 문서의 특징을 반영하는 것도 상대적으로 중요하다. 따라서, 본 연구에서는 텍스트 마이닝을 이용하여 2015-2020년의 서울지역 환경뉴스 데이터를 사용하여 환경 이슈 분석에 적합한 용어 가중치 기법들을 비교분석하였다. 용어 가중치 기법으로는 TF-IDF (Term frequency-inverse document frquency), BM25, TF-IGM (TF-inverse gravity moment), TF-IDF-ICSDF (TF-IDF-inverse classs space density frequency)를 적용하였다. 본 연구를 통해 환경문서 및 개체 분류에 대한 최적화된 용어 가중치 기법을 제시하고, 서울지역의 환경 이슈와 관련된 핵심어 추출정보를 제공하고자 한다.

  • PDF

연관 규칙 마이닝에서의 코사인 순수 신뢰도의 제안 (The proposition of cosine net confidence in association rule mining)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권1호
    • /
    • pp.97-106
    • /
    • 2014
  • 빅 데이터 기술의 발전은 다변화된 현대 사회를 보다 정확하게 예측하고 효율적으로 작동하도록 정보를 제공하는 동시에 과거에는 불가능 했던 기술을 가능케 하였다. 이러한 빅 데이터 분석 기법은 국가 차원에서의 사회, 경제, 정치, 문화, 과학 기술 등 여러 분야에 활용될 수 있다. 빅 데이터 분석을 위해서는 먼저 데이터 마이닝 기술로 방대한 양의 데이터 속에서 가치 있는 정보를 찾는 것이 선행 되어야 하는데, 빅 데이터와 관련된 데이터 마이닝 기법으로는 텍스트 마이닝, 평판 분석, 군집 분석, 연관성 규칙 등이 있다. 본 논문에서는 데이터 마이닝 기법 중에서 많이 활용되고 있는 연관성 규칙의 평가 기준으로 코사인 순수 신뢰도를 제안한 후, Piatetsky-Shapiro가 제안한 흥미도 측도의 기준에 대한 충족여부를 점검하는 동시에 여러 가지 특성을 살펴보았다. 또한 예제를 통하여 고찰한 결과, 기존의 신뢰도와 코사인 유사성 측도는 모두 양의 값을 가지므로 연관성의 방향을 알 수 없어서 그 값만으로는 양의 연관성이 있는지 아니면 음의 연관성이 있는지를 알 수 없었다. 그러나 본 논문에서 제안한 코사인 순수 신뢰도는 그 부호에 의해 연관성 규칙의 방향을 알 수 있으므로 신뢰도와 코사인 유사성 측도가 가지고 있는 약점을 보완할 수 있는 측도라는 사실을 확인하였다.

빅데이터 시대의 경쟁력 확보를 위한 선택과 집중

  • 임용재;백선경;연승준
    • 정보와 통신
    • /
    • 제29권11호
    • /
    • pp.3-10
    • /
    • 2012
  • 정보통신기술의 급속한 발전으로 인해 인터넷은 사회 전분야를 변화시키고 있으며 다양하고 폭넓은 이용 행태에 따라 지금 이 순간에도 엄청난 데이터를 생산해 내고 있다. 대부분의 인터넷 데이터는 제한적인 활용 이외 단순 생성과 소멸을 반복해 왔으나 최근 들어 빅데이터(Big Data)라는 핵심 키워드의 부상으로 인터넷 데이터에 대한 관심이 고조되고 있다. 과거에도 데이터 마이닝(Data Mining), 비즈니스 인텔리전스(Business Intelligence), 라이프 로그(Life Log) 등을 통해 데이터 기반의 부가가치를 창출하려는 노력은 시도되어 왔다. 그렇다면 왜 다시 빅데이터라는 이름으로 재부상 하고 있는 것일까? 이는 정보통신기술의 진화와 맞물려 새롭게 부상하고 있는 인터넷 글로벌 기업들이 지속적으로 생성되는 다양한 데이터들을 확보하고 그 속에서 숨겨진 가치를 찾고 인사이트(Insight)를 도출하려는 시도를 통해 데이터 보유와 활용이 새로운 경쟁력이 될 수 있음을 입증하고 있기 때문이다. 이러한 시도들은 빅데이터를 다양한 분야에서 중요한 이슈로 자리매김하게 하고 있다. 이러한 상황에서 과연 우리는 빅데이터 시대를 어떻게 리드하고 무엇에 집중하여야 할 것인가? 본 연구는 현재 뜨거운 감자로 부상한 빅데이터를 정의하고 빅데이터 시장분석, 사례분석, 정책분석을 통해 시사점을 도출하여 향후 다가올 빅데이터 시대의 국가경쟁력 확보를 위한 빅데이터 이니셔티브(Initiative)의 필요성과 중점 방향 등을 제언하고자 한다.

라즈베리 파이 클러스터와 아파치 스파크를 활용한 빅데이터 분석 플랫폼 연구 (A Study for Big Data Analytics Platform with Raspberry Pi Cluster and Apache Spark)

  • 김영선;박지영;윤보람;이정현;용환승
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1272-1275
    • /
    • 2015
  • 최근 관심이 증대되고 있는 빅데이터 분석 및 처리를 위한 병렬분산처리 시스템은 대용량 서버가 필요하고 인프라 구축을 위해 고비용을 지불해야 한다. 이를 해결하기 위해 본 연구에서는 저렴한 라즈베리 파이로 클러스터를 구성하고, 하둡보다 빠른 속도의 처리를 제공하는 아파치 스파크를 분석 솔루션으로 하는 빅데이터 분석 플랫폼을 구축하였다. 구축한 플랫폼이 빅데이터 활용을 위해 적절한 성능을 보이는지 확인하기 위해 텍스트 마이닝을 수행하였고, 분석 결과 유효한 성능을 보였다. 적절한 비용으로 빅데이터 분석이 가능해지면서 중소기업과 개인, 교육 기관에서도 빅데이터 활용이 가능해지면서 활용 분야가 크게 확대될 것으로 보인다.

텍스트 마이닝을 활용한 데이터 거버넌스 연구 동향 분석: 2009년~2021년 국내 학술지 논문을 중심으로 (The Study on Data Governance Research Trends Based on Text Mining: Based on the publication of Korean academic journals from 2009 to 2021)

  • 정선경
    • 디지털융복합연구
    • /
    • 제20권4호
    • /
    • pp.133-145
    • /
    • 2022
  • 연구 목적은 데이터 거버넌스의 연구 동향을 파악하고자 하였다. 연구 대상은 데이터 거버넌스 개념과 전략이 제시되기 시작한 2009년부터 2021년까지의 논문 158편을 대상으로 하였다. 주요 연구방법은 텍스트 마이닝을 활용하였고, 주요 방법은 빈도분석, 워트클라우드, 네트워크 분석 및 토픽 모델링 기법을 사용하여 분석하였다. 연구 결과 최빈 키워드는 정보, 빅데이터, 관리, 정책, 정부, 법률, 스마트가 확인되었다. 또한 네트워크 분석 결과 데이터 산업 정책, 데이터 거버넌스 성과, 국방, 거버넌스, 데이터 공공 등의 주제로 연관된 연구 수행이 이루어지고 있었다. 토픽 모델링을 통해 도출된 4개 토픽은 "데이터 거버넌스 정책", "데이터 거버넌스 플랫폼", "데이터 거버넌스 관련 법률", "데이터 거버넌스 구현"이며, 이중 "데이터 거버넌스 플랫폼" 관련 연구는 증가 추세를 보였고, "데이터 거버넌스 구현"은 축소되고 있는 경향이었다. 본 연구는 데이터 거버넌스 관련 연구를 종합적으로 정리하였다. 데이터 거버넌스는 조직 차원의 데이터 경영 및 데이터 통합 정책, 관련 기술 등 관련 분야와 다양한 시각에서 연구영역 확대가 필요하다. 향후 해외데이터 거버넌스들을 대상으로 한 분석 대상을 확대하고 4차산업혁명, 인공지능, 메타버스 등 데이터 기반 미래 산업이 요구되는 산업 분야에서의 연구 방향과 정책 방향 수립 관련 후속 연구를 기대할 수 있다.

공급망 재고관리시스템의 의사결정모형 (Decision-making Model of Supply Chain Inventory Management System)

  • 진금회;남수태;진찬용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.157-158
    • /
    • 2021
  • 공급망의 빅데이터는 주로 네 가지 측면에서 발생된다. 하나는 생산 장비 품질 데이터, 계획된 조달 데이터, 제품 데이터 등과 같은 공급망에서 기업의 제품 가치 이전 과정에서 불가피하게 생성되는 관련 데이터이고, 두 번째는 공급망에 있는 다양한 회사의 ERP 데이터에서 파생된다. 세 번째는 고객의 전자 상거래 데이터이고 마지막은 외부 또는 수동으로 입력한 데이터의 데이터이다. 따라서 본 연구를 통해서 공급망 운영 과정에서 재고를 예측하고 제어하기 위해 타사 데이터 서비스 센터 분석 및 데이터 마이닝. 그것은 여러 측면에서 전체 공급망에 혁신과 관리 기술 및 사고방식의 변화를 가져오고 마침내 전체 공급망의 재고 조정 및 제로 재고 목표를 달성하게 된다.

  • PDF

컴퓨터관련 대학 수업에서 학습자가 원하는 것 (What Do Students Want In The Classroom?)

  • 안동규;최정웅
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제54차 하계학술대회논문집 24권2호
    • /
    • pp.155-156
    • /
    • 2016
  • 대학 교육현장에서 수많은 비정형화된 데이터가 생산되고 있는데 그중 관심 있게 볼 부분은 학생들의 서술적 강의평가이며, 본 논문에서는 대학에서 시행하는 서술적 강의평가를 활용하여 컴퓨터를 활용하는 수업에서 학생들이 원하는 상호작용을 분석하였다. 분석을 위해 빅데이터에서 활용하는 텍스트 마이닝 기법을 활용하였으며 분석결과 컴퓨터관련 관련 수업에서 필요한 학습자 상호작용은 주로 흥미, 기회, 열정, 재미, 참여, 유익, 친절 등으로 나타났다. 현재 5점 척도로 보여 지는 강의평가 점수는 진정 학습자가 원하는 것이 무엇인지 파악이 어렵기 때문에 관련 연구가 지속적으로 필요하다. 또한 향후 컴퓨터를 활용하지 않은 수업과 비교함으로써 대학 컴퓨터 관련 수업의 특징을 구분할 필요가 있을 것으로 여겨진다.

  • PDF

효율적인 빅 데이터 마이닝을 위한 iSSD 기반 협업 처리 방안 (iSSD-Based Collaborative Processing for Big Data Mining)

  • 조용연;김상욱;배덕호
    • 한국통신학회논문지
    • /
    • 제42권2호
    • /
    • pp.460-470
    • /
    • 2017
  • 본 논문은 intelligent SSD (iSSD)를 통해 빅 데이터 마이닝을 효과적으로 처리하기 위한 방안에 대해서 소개한다. iSSD는 데이터 전송 비용을 줄이고 데이터가 저장된 장소와 가장 가까운 곳에서 데이터를 처리하기 위해, SSD 내부에 데이터 처리 능력을 부여한 장치이다. 본 논문에서는 먼저, iSSD의 등장 배경 및 효율적인 데이터 처리를 위한 iSSD 구조에 대해 소개한다. 더 나아가, iSSD를 이용하여 데이터 마이닝 알고리즘들을 빠르게 수행하는 방안을 소개한다. 끝으로, iSSD 뿐만 아니라 호스트 CPU, GPU 등 이질 (heterogeneous) 컴퓨팅 자원을 함께 활용하여 데이터 마이닝 알고리즘의 성능을 크게 향상시키는 협업 방안을 소개한다.

토너먼트 기반의 빅데이터 분석 알고리즘 (An Algorithms for Tournament-based Big Data Analysis)

  • 이현진
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권4호
    • /
    • pp.545-553
    • /
    • 2015
  • 모든 데이터는 그 자체로 가치를 가지고 있지만, 실세계에서 수집되는 데이터들은 무작위적이며 비구조화되어 있다. 따라서 이러한 데이터를 효율적으로 활용하기 위해서 데이터에서 유용한 정보를 추출하기 위한 데이터 변환과 분석 알고리즘들을 사용하게 된다. 이러한 목적으로 사용되는 것이 데이터 마이닝이다. 오늘날에는 데이터를 분석하기 위한 다양한 데이터 마이닝 기법뿐만 아니라, 대용량 데이터를 효율적으로 처리하기 위한 연산 요건과 빠른 분석 시간을 필요로 하고 있다. 대용량 데이터를 저장하기 위하여 하둡이 많이 사용되며, 이 하둡의 데이터를 분석하기 위하여 맵리듀스 프레임워크를 사용한다. 본 논문에서는 단일 머신에서 동작하는 알고리즘을 맵리듀스 프레임워크로 개발할 때 적용의 효율성을 높이기 위한 토너먼트 기반 적용 방안을 제안하였다. 본 방법은 다양한 알고리즘에 적용할 수 있으며, 널리 사용되는 데이터 마이닝 알고리즘인 k-means, k-근접 이웃 분류에 적용하여 그 유용성을 보였다.

오피니언마이닝을 이용한 사용자 맞춤 장소 추천 시스템 (Location Recommendation Customize System Using Opinion Mining)

  • 최은정;김동근
    • 한국정보통신학회논문지
    • /
    • 제21권11호
    • /
    • pp.2043-2051
    • /
    • 2017
  • 최근 빅데이터 분야의 높아진 관심과 더불어 빅데이터의 처리를 통한 응용 분야에 대한 관심도 높아지고 있다. 개인의 감성을 파악할 수 있는 오피니언마이닝은 사용자 개인 맞춤 서비스 제공 분야에서 많이 이용되고 있는 빅데이터 처리 기법이다. 이를 바탕으로 본 논문에서는 사용자들의 장소에 대한 텍스트 형태의 리뷰를 오피니언마이닝 기법으로 처리하고 k-means 클러스터링 작업을 통해 사용자의 감성을 분석하였다. 클러스터링 작업으로 분류된 비슷한 범주의 감성을 가진 사용자들끼리 동일한 수치 값을 부여한다. 부여된 수치 값으로 협업 필터링 추천 시스템을 이용해 선호도를 예측하고 예측 값이 높은 장소 순으로 지도위에 마커와 함께 내용을 표시하여 사용자에게 추천내용을 보여줄 수 있는 방안을 제안하였다.