• 제목/요약/키워드: Data mining analysis

검색결과 2,192건 처리시간 0.029초

토픽 모델링을 활용한 스마트시티 연구동향 분석 (A Study on the Research Trends for Smart City using Topic Modeling)

  • 박건철;이치형
    • 인터넷정보학회논문지
    • /
    • 제20권3호
    • /
    • pp.119-128
    • /
    • 2019
  • 본 연구의 목표는 스마트시티에 대한 연구 동향을 파악하고 이를 바탕으로 스마트시티에 대한 정책적 산업적 학술적 방향성을 제시하는 데 있다. 산업화와 더불어 급격하게 진행된 도시화 및 도시인구 증가로 세계 주요 도시들은 대부분 교통, 환경, 주거 등 다양한 도시문제에 직면하고 있다. 세계 각 도시는 이러한 도시문제를 해결하여 시민 삶의 질을 향상시킨다는 공통된 목표를 추구하기 위해 스마트시티의 도입을 서두르고 있다. 하지만 스마트시티에 대한 다양한 개념적 접근은 정책 목표 설정 및 추진전략 수립을 위한 방향성 도출에 불확실성을 야기하고 있다. 본 연구는 이러한 문제 인식하에 스마트시티 정책에 대한 방향성을 제시하고자 Scopus DB 및 Springer DB에서 스마트시티와 관련된 학술논문 11,527건의 제목과 초록, 발행연도 등의 정보를 수집하여 연구현황, 연구주제, 연구분야 추이 등을 LDA기반 토픽모델링 기법을 활용하여 분석하였다. 분석결과, 스마트시티 관련 연구주제는 크게 서비스 및 애플리케이션 분야, 기술 분야, 시민 사용자 관점의 8가지 세부주제로 유형화되었으며, 이중 '시민중심 스마트시티 추진을 통한 지속가능성의 확보'와 관련된 주제가 가장 많이 언급된 주제로 분석되었다. 또한 주제 간 연관관계를 분석한 결과, 데이터와 프라이버시 관련 연구의 중심성이 가장 높게 나타났다. 이는 데이터가 전반적인 스마트시티의 공동기반으로서 역할을 하며 기술, 서비스, 정책과 관련된 다양한 의사결정에 영향을 미치는 한편, 위치정보 등 개인 정보가 수집되는 과정에서 프라이버시 침해 등이 잠재적인 위협요인이 될 수 있음을 암시한다. 스마트시티 연구현황에 대한 객관적 분석을 통해 스마트시티 개념의 발전 방향을 이해하고 향후 대응방안을 모색함으로써, 스마트시티 추진 및 연구에 정책적, 산업적, 학술적 근거자료를 제공할 수 있을 것으로 기대된다.

CPC 코드 기반 사물인터넷(IoT) 특허의 기술 연관성 규칙 분석 (Analysis of Technology Association Rules Between CPC Codes of the 'Internet of Things(IoT)' Patent)

  • 심재륜
    • 한국정보전자통신기술학회논문지
    • /
    • 제12권5호
    • /
    • pp.493-498
    • /
    • 2019
  • 본 연구는 4차 산업혁명 ICT 기반기술의 핵심인 사물인터넷 특허의 CPC 코드 기반 기술 연관성 규칙 분석에 관한 것이다. 데이터 마이닝을 위한 오픈 소스인 R을 이용하여 CPC 코드간 기술 연관성 규칙을 도출하였다. 이를 위해 2019년 7월까지 특허청에 출원된 사물인터넷(Internet of Things) 관련 특허 605건 중 복합 CPC 코드를 가지는 369건을 대상으로 서브클래스(Subclass) 수준까지 분석하였다. 기술 연관성 규칙 분석 결과 지지도가 높은 CPC 코드는 [H04W ${\rightarrow}$ H04L](18.2%), [H04L ${\rightarrow}$ H04W](18.2%), [G06Q ${\rightarrow}$ H04L](17.3%), [H04L ${\rightarrow}$ G06Q](17.3%), [H04W ${\rightarrow}$ G06Q](9.8%), [G06Q ${\rightarrow}$ H04W](9.8%), [G06F ${\rightarrow}$ H04L](7.9%), [H04L ${\rightarrow}$ G06F](7.9%), [G06F ${\rightarrow}$ G06Q](6.2%), [G06Q ${\rightarrow}$ G06F](6.2%), [G06F ${\rightarrow}$ G06Q](6.2%) 순이고, CPC 코드간 상호 연결망을 분석한 결과 기술 연관성 관련 핵심 CPC 코드는 G06Q와 H04L이다. 본 연구 결과를 활용하면 앞으로의 특허 경향을 예상해 볼 수 있다.

데이터마이닝 기법을 이용한 서울시 지하철역 승차인원 예측 (A study on the number of passengers using the subway stations in Seoul)

  • 조수진;김보경;김나현;송종우
    • 응용통계연구
    • /
    • 제32권1호
    • /
    • pp.111-128
    • /
    • 2019
  • 지하철은 많은 승객들을 원거리까지 안전하고, 신속 정확하게 원하는 지점으로 대량 수송할 수 있는 친환경적인 교통수단이다. 지하철의 공익성을 증대시키기 위해서는 정확한 승객 수요 예측이 이루어져야 한다. 본 연구는 정확한 지하철 수요예측을 위하여, 군집분석을 통해 서울시 1-9호선 지하철역들을 군집화 하였다. 그 후, 전체 역과 각 군집 별 최종 예측 모형을 제시하였다. 군집화 결과, 294개의 역이 3개로 군집화 되었으며 그룹 1은 상공업지구, 그룹 2는 주상복합지구, 그룹 3은 주거지구가 중심이 되는 역들로 나타났다. 그 후 각 군집 별로 다양한 데이터 마이닝 기법을 이용해 지하철 승차인원 예측 모형을 제시하고, 수요 예측에 중요한 영향을 미치는 요인들을 도출하였다. 그리고 최종 모형을 바탕으로 2018년 10월에 개통될 서울시 9호선 3단계 연장역인 8개 신설역의 3개월 수요를 예측하였다. 8개 신설역의 월평균 시간당 평균 승차인원은 약 241에서 452명, 월평균 시간당 최대 승차인원은 약 969에서 1,515명으로 추정되었다. 본 분석의 최종 모형을 활용한 신설역의 지하철 수요 예측은 대중교통 정책 결정을 위한 기초자료로 활용되어 효율적인 지하철 운영 방안 수립에 기여할 수 있을 것이다.

국내외 단행본 분석을 통한 국제연구협력 동향 연구 (Research on Trends in International Research Cooperation through Analysis of International Research Cooperation Books)

  • 노영희;곽우정
    • 한국콘텐츠학회논문지
    • /
    • 제22권6호
    • /
    • pp.35-44
    • /
    • 2022
  • 본 연구에서는 국제협력을 주제로 발행된 단행본이 어떠한 특징을 가지고 있는지, 이 단행본을 통해 어떠한 국제협력 관련 연구가 수행되고 있으며, 주요한 국제협력 내용은 무엇인지를 확인하고자 하였다. 이러한 연구목적을 달성하기 위하여 국내외의 국제연구협력 단행본 데이터 구축, 통계분석, 텍스톰을 기반으로 한 텍스트 마이닝 수행 등을 수행하였다. 연구 결과, 2010년대 이후부터 국제연구 및 국제협력에 대한 특히 높은 관심을 보이고 있는 것으로 알 수 있었으며, 국내외 연구자, 저자, 국공립기관, 사립기관 등 다양한 개인 및 단체에서 국제연구협력 단행본 발간을 통해 국제협력을 통해 개발, 경제, 기술, 발전, 지역, 관계 등을 중심으로 관심을 가지고 있으며 발전을 도모하고자 함을 알 수 있었다. 뿐만 아니라 환경, 무역, 교육, 사회 등의 주제 등도 나타나 환경이나 무역, 교육 등을 중심으로 한 국제연구협력의 관심도도 높아 국제화와 국제적인 협력에 대하여 경제나 지역 관계, 발전을 넘어서 환경, 무역, 교육, 사회 전반에 영향력이 높은 것으로 파악되었다. 본 연구를 통해 국제연구협력을 주제로 출판된 일부 단행본의 특징을 확인하는 기초 연구가 될 수 있다는 점, 국가별, 연도별 국제연구협력의 주제 및 특징에 관한 동향을 확인했다는 점에서 그 연구적 의의를 찾아볼 수 있다.

한국과 일본의 지진재해 및 우주이용 기술예측에 대한 최근의 변화 분석 (Analysis on Results and Changes in Recent Forecasting of Earthquake and Space Technologies in Korea and Japan)

  • 안은영
    • 자원환경지질
    • /
    • 제55권4호
    • /
    • pp.421-428
    • /
    • 2022
  • 본 연구는 2022년 발표한 한국의 제6회 과학기술예측조사와 2019년 발표한 최신의 일본 과학기술예측조사 결과에 주목하여 최근 지질자원 분야에서 국가·사회적으로 높은 기대를 받고 있는 지진재해와 우주이용에 관한 미래기술을 분석하였다. 한국의 2022년 발표한 지진재해 관련 미래기술은 2017년 제시한 지진 예측 및 조기경보 기술 형태와 달리 지진·복합재난 정보기술과 공공데이터 플랫폼으로 제시되었고, 건물·도시의 재난대응 생활밀착 로봇에 적용하는 형태로 제시되었다. 일본 2019년 과학기술예측조사에서는 한국의 3배 수준의 많은 미래기술이 제시되었으며, 지진재해 기술 또한 대규모 지진 예측, 지층 주입에 따른 유발 지진 예측, 전국 액상화 위험 규명, 규모 광역 응력 측정, 사물인터넷(IoT) 혹은 인공지능 관측 영상 분석에 의한 지진 재해 감시·예측 등 상세 기술이 제시되었다. 최신 한국과 일본의 과학기술예측조사의 우주이용 기술은 물/얼음, 헬륨-3, 희토류 금속 등의 자원을 채굴하는 로봇 기술과 달·화성에서 현지자원을 활용한 유인기지 기술 형태로 더욱 구체화되었다. 일본의 기술적 실현시기를 비교해 보면 2019년에 예측한 실현시기가 2015년의 조사결과보다 4~10년 정도 지연되었다. 2019년 이후에도 코로나19 전염병 상황, 2020년 한국과 일본의 탄소중립 선언, 2022년 러시아-우크라이나 전쟁 등 환경변화에 따라 한국과 일본의 미래기술 실현시기의 예측 결과의 불확실성이 더 커질 수 있다. 하지만 앞으로 지질자원 분야에서 정보기술과 연계한 지진재해 및 우주이용 기술에 대한 더욱더 활발한 연구개발이 요구된다.

문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안 (Selective Word Embedding for Sentence Classification by Considering Information Gain and Word Similarity)

  • 이민석;양석우;이홍주
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.105-122
    • /
    • 2019
  • 텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다. 사전에 정의된 단어의 긍정 및 부정 점수에 따라 단어의 임베딩을 수정하는 방법 또한 시도하였다. 본 연구는 문장 분류 문제에 대해 선택적 단어 제거를 수행하고 임베딩을 적용하여 문장 분류 정확도를 향상시키는 방안을 제안한다. 텍스트 데이터에서 정보 이득 값이 낮은 단어들을 제거하고 단어 임베딩을 적용하는 방식과, 정보이득 값이 낮은 단어와 코사인 유사도가 높은 주변 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 단어 임베딩을 재구성하는 방식이다. 본 연구에서 제안하는 방안을 수행함에 있어 데이터는 Amazon.com의 'Kindle' 제품에 대한 고객리뷰, IMDB의 영화리뷰, Yelp의 사용자 리뷰를 사용하였다. Amazon.com의 리뷰 데이터는 유용한 득표수가 5개 이상을 만족하고, 전체 득표 중 유용한 득표의 비율이 70% 이상인 리뷰에 대해 유용한 리뷰라고 판단하였다. Yelp의 경우는 유용한 득표수가 5개 이상인 리뷰 약 75만개 중 10만개를 무작위 추출하였다. 학습에 사용한 딥러닝 모델은 CNN, Attention-Based Bidirectional LSTM을 사용하였고, 단어 임베딩은 Word2Vec과 GloVe를 사용하였다. 단어 제거를 수행하지 않고 Word2Vec 및 GloVe 임베딩을 적용한 경우와 본 연구에서 제안하는 선택적으로 단어 제거를 수행하고 Word2Vec 임베딩을 적용한 경우를 비교하여 통계적 유의성을 검정하였다.

R&D 기술 선정을 위한 시계열 특허 분석 기반 지능형 의사결정지원시스템 (An Intelligent Decision Support System for Selecting Promising Technologies for R&D based on Time-series Patent Analysis)

  • 이충석;이석주;최병구
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.79-96
    • /
    • 2012
  • 기술의 발전과 융합이 빠르게 이루어지고 있는 오늘날 유망기술을 어떻게 파악하여, 다양한 후보군들 중에서 최적의 R&D 대상을 어떻게 선정할 것인가에 대한 문제는 주요한 경영의사결정문제 중 하나로 부상하고 있다. 본 연구에서는 이러한 R&D 기술 선정 의사결정을 지원할 수 있는 새로운 지능형 의사결정지원시스템을 제안한다. 본 연구의 의사결정지원시스템은 크게 3가지 모듈로 구성되는데, 우선 첫 번째 모듈인 '기술가치 평가' 모듈에서는 기업이 관심을 갖고 있는 분야의 특허들을 분석하여 유망기술 파악에 요구되는 다양한 차원의 기술가치 평가지수 값들을 산출하는 작업이 이루어진다. 이를 통해, 현재 시점에서의 각 기술의 가치가 다양한 차원에서 평가가 이루어지고 나면, 두 번째 모듈인 '미래기술가치 예측' 모듈에서 이들의 시간 흐름에 따른 변화를 학습한 인공지능 모형을 토대로 각 후보기술들이 미래 시점에 어떤 가치지수값을 갖게 될 것인지 예측값을 산출하게 된다. 마지막 세 번째 모듈인 '최적 R&D 대상기술 선정 지원' 모듈에서는 앞서 두 번째 모듈에서 산출된 각 차원별 예상 가치지수값들을 적절히 가중합하여 기술의 종합적인 미래가치 예측값을 산출하여 의사결정자에게 제공하는 기능을 수행한다. 이를 통해 의사결정자가 자사에 적합한 최적의 R&D 대상기술을 선정할 수 있도록 하였다. 본 연구에서는 제안된 시스템의 적용 가능성을 검증하기 위해, 10년치 특허데이터에 인공신경망 기법을 적용하여 실제 기술가치 예측모형을 구축해 보고, 그 효과를 살펴본다.

텍스트 분석을 통한 이종 매체 카테고리 다중 매핑 방법론 (Mapping Categories of Heterogeneous Sources Using Text Analytics)

  • 김다솜;김남규
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.193-215
    • /
    • 2016
  • 최근 다양한 소셜 네트워크 서비스의 증가로 인해 사용자들은 각자의 목적 및 취향에 따라 여러 매체를 동시에 이용하는 경향을 보이고 있다. 또한 특정 주제에 대한 정보를 수집할 때에도 소셜 네트워크 서비스, 인터넷 뉴스, 블로그 등 여러 매체를 동시에 활용하는 것이 일반적이다. 하지만 다양한 매체를 통해 유통되는 문서들은 서로 유사한 주제, 심지어는 동일한 내용을 다루더라도 각 매체 별 정책 및 기준에 따라 각기 다른 카테고리로 관리되고 있으며, 이는 이종 매체를 아우르는 범위에서 특정 카테고리에 대한 탐색을 수행하고자 하는 시도에 걸림돌로 작용하고 있다. 이러한 제약을 극복하기 위해, 본 연구에서는 기존 매체 고유의 카테고리 체계는 그대로 유지하면서 이종 매체 간 카테고리 매핑을 수행하는 방법을 제시한다. 즉, 개별 문서를 다양한 매체의 관점에서 재분류하고 이러한 결과를 문서에 2차원 레이블로 저장함으로써, 이종 매체에 속한 다양한 문서들을 마치한 매체에 속한 것과 같이 동일한 카테고리 기준으로 탐색할 수 있는 논리적 장치를 제안한다. 본 논문에서는 국내 인터넷 뉴스 포털 사이트 두 곳의 뉴스 기사 6,000건에 대해 제안 방법론을 적용한 실험을 통해 각 기사에 매체와 카테고리 정보로 구성된 2차원 레이블을 부여하였으며, 매체 간, 지도 학습과 준지도 학습 간, 동질 학습 데이터와 이질학습 데이터 간의 정확도 비교 실험을 수행하였다. 특히 매우 흥미롭게도, 일부 카테고리에서 이질 학습 데이터를 사용한 준지도 학습의 분류 정확도가 지도 학습 및 동질 학습 데이터를 사용한 준지도 학습의 분류 정확도보다 높게 나타나는 현상을 발견하였다.

부정 탐지를 위한 이상치 분석 활용방안 연구 : 농수산 상장예외품목 거래를 대상으로 (A Study on the Application of Outlier Analysis for Fraud Detection: Focused on Transactions of Auction Exception Agricultural Products)

  • 김동성;김기태;김종우;박성기
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.93-108
    • /
    • 2014
  • 기업 의사 결정 지원을 위하여 거래 데이터를 다양한 관점에서 분석하고 활용하려는 노력과 관심들이 증가하고 있다. 이러한 노력들은 고객 관리나 마케팅에만 국한되는 것이 아니라 부정행위에 대한 감시와 탐지를 목적으로도 다양한 분석 방안들이 연구되고 있다. 부정행위는 기술의 발전을 악용하여 다양한 형태로 진화하고 있으며, 이에 따라 목적에 맞는 부정탐지 방안 연구와 적용을 통하여 탐지 효용의 극대화를 위한 노력의 필요성이 증가하고 있다. 이러한 연구 동향의 일환으로 본 연구에서는 대용량 거래 데이터가 저장 관리되고 있는 국내 최대 농수산물 유통 시장의 2008년부터 2010년까지 상장예외품목의 거래 가격을 분석하여 부정 탐지 규칙을 도출하였으며, 전문가 검증을 통하여 도출 된 규칙의 신뢰성을 확보하였다. 본 연구의 주요 부정거래 분석 방안으로는 정상적인 데이터들은 발생 확률이 높은 반면에 특이한 데이터들의 발생 확률은 낮다고 가정하는 통계적 접근을 통한 이상치 식별 방안을 활용하였다. 이에 따라 부정거래 분석 별로 정의 된 Z-Score 값보다 클 경우 부정거래 탐지 대상이 된다. 다만 상장예외품목 거래의 경우 취급 가능한 중도매인의 수가 제한되어 있으며, 일반적인 상장품목의 거래보다 거래량이 적기 때문에 소수의 이상치가 품목의 평균에 미치는 영향이 크다. 그 예로 다른 소수의 중도매인들이 해당 품목을 정상적인 가격에 거래하였더라도, 특정한 중도매인 한 명이 지나치게 비정상적인 가격에 거래할 경우 모든 거래들이 부정거래로 탐지 될 가능성도 있다. 이러한 문제를 해결하기 위하여 기존의 Z-Score의 개념을 활용하여 수정된 Z-Score(Self-Eliminated Z-Score)를 사용하였다. 또한 부정 유형별 탐지 규칙 관리와 활용을 위한 시스템 프로토타입(prototype) 개발을 수행하였다. 이를 통하여 실제 부정거래 탐지 업무에 적용할 수 있는 효과적인 방안을 제시하였고, 농수산 유통시장의 공정성 및 투명성 확보를 위한 관리 감독의 기능 강화가 가능할 것이다.

한중 4차산업혁명 기술교류 및 효과에 대한 실증연구: 기업 소셜 네트워크 분석 중심으로 (The Empirical Study on the Effect of Technology Exchanges in the Fourth Industrial Revolution between Korea and China: Focused on the Firm Social Network Analysis)

  • 저우전신;손권상;황윤민;권오병
    • 한국전자거래학회지
    • /
    • 제25권3호
    • /
    • pp.41-61
    • /
    • 2020
  • 중국의 4차 산업혁명 첨단기술 개발 및 사업화 속도가 빠르게 진행되며 효과적인 한중 기업 간 기술교류가 한국의 중장기 산업발전에 더욱 중요해지고 있다. 하지만 아직까지 한중 기업 간 기술교류가 어떻게 진행되는지와 그 효과에 대한 실증 연구가 부족하다. 이에 본 연구는 4차 산업혁명 관련 한중 기술교류 현황 및 효과에 대해 2018년부터 2020년 3월까지 뉴스에 소개된 한중 기업 기술교류 및 협력 기사의 텍스트 마이닝 데이터 기반으로 소셜 네트워크 분석을 진행하고 네트워크 중심성의 성과영향 회귀분석을 진행했다. 분석 결과 국내 전자 대기업들이 대부분 중심성 지표에서 높은 중심성을 보이며 중국 기업 및 기관들과 네트워킹을 활발히 진행하고 있다. 국내 통신사들이 매개 중심성과 부분그래프에서 높은 중심성을 국내 인터넷 서비스 업체와 방송 컨텐츠 업체들이 높은 고유벡터 중심성을 나타냈다. 또한 한국기업보다 중국기업이 높은 매개 중심성을 제조기업보다 서비스기업이 높은 근접 중심성을 보였다. 이러한 네트워크 중심성은 회귀분석결과 기업성과에 긍정적인 영향을 미쳤다. 본 연구는 4차 산업혁명 분야에 집중하여 한중간 협력 현황을 분석한 최초 연구라는 의미가 있으며, 학술적으로 글로벌 기업 협력에 있어 소셜 네트워크 분석 기반 실증 연구 방향을 제시하고 실무적으로 기업이나 정부의 한중 기술 협력 방향 설정에 있어 네트워크 분석 기반 가이드라인을 제시하였다.