• 제목/요약/키워드: 공간 빅데이터

검색결과 306건 처리시간 0.033초

Word2Vec을 활용한 제품군별 시장규모 추정 방법에 관한 연구 (A Study on Market Size Estimation Method by Product Group Using Word2Vec Algorithm)

  • 정예림;김지희;유형선
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 인공지능 기술의 급속한 발전과 함께 빅데이터의 상당 부분을 차지하는 비정형 텍스트 데이터로부터 의미있는 정보를 추출하기 위한 다양한 연구들이 활발히 진행되고 있다. 비즈니스 인텔리전스 분야에서도 새로운 시장기회를 발굴하거나 기술사업화 주체의 합리적 의사결정을 돕기 위한 많은 연구들이 이뤄져 왔다. 본 연구에서는 기업의 성공적인 사업 추진을 위해 핵심적인 정보 중의 하나인 시장규모 정보를 도출함에 있어 기존에 제공되던 범위보다 세부적인 수준의 제품군별 시장규모 추정이 가능하고 자동화된 방법론을 제안하고자 한다. 이를 위해 신경망 기반의 시멘틱 단어 임베딩 모델인 Word2Vec 알고리즘을 적용하여 개별 기업의 생산제품에 대한 텍스트 데이터를 벡터 공간으로 임베딩하고, 제품명 간 코사인 거리(유사도)를 계산함으로써 특정한 제품명과 유사한 제품들을 추출한 뒤, 이들의 매출액 정보를 연산하여 자동으로 해당 제품군의 시장규모를 산출하는 알고리즘을 구현하였다. 실험 데이터로서 통계청의 경제총조사 마이크로데이터(약 34만 5천 건)를 이용하여 제품명 텍스트 데이터를 벡터화 하고, 한국표준산업분류 해설서의 산업분류 색인어를 기준으로 활용하여 코사인 거리 기반으로 유사한 제품명을 추출하였다. 이후 개별 기업의 제품 데이터에 연결된 매출액 정보를 기초로 추출된 제품들의 매출액을 합산함으로써 11,654개의 상세한 제품군별 시장규모를 추정하였다. 성능 검증을 위해 실제 집계된 통계청의 품목별 시장규모 수치와 비교한 결과 피어슨 상관계수가 0.513 수준으로 나타났다. 본 연구에서 제시한 모형은 의미 기반 임베딩 모델의 정확성 향상 및 제품군 추출 방식의 개선이 필요하나, 표본조사 또는 다수의 가정을 기반으로 하는 전통적인 시장규모 추정 방법의 한계를 뛰어넘어 텍스트 마이닝 및 기계학습 기법을 최초로 적용하여 시장규모 추정 방식을 지능화하였다는 점, 시장규모 산출범위를 사용 목적에 따라 쉽고 빠르게 조절할 수 있다는 점, 이를 통해 다양한 분야에서 수요가 높은 세부적인 제품군별 시장정보 도출이 가능하여 실무적인 활용성이 높다는 점에서 의의가 있다.

사전과 말뭉치를 이용한 한국어 단어 중의성 해소 (Korean Word Sense Disambiguation using Dictionary and Corpus)

  • 정한조;박병화
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.1-13
    • /
    • 2015
  • 빅데이터 및 오피니언 마이닝 분야가 대두됨에 따라 정보 검색/추출, 특히 비정형 데이터에서의 정보 검색/추출 기술의 중요성이 나날이 부각되어지고 있다. 또한 정보 검색 분야에서는 이용자의 의도에 맞는 결과를 제공할 수 있는 검색엔진의 성능향상을 위한 다양한 연구들이 진행되고 있다. 이러한 정보 검색/추출 분야에서 자연어처리 기술은 비정형 데이터 분석/처리 분야에서 중요한 기술이고, 자연어처리에 있어서 하나의 단어가 여러개의 모호한 의미를 가질 수 있는 단어 중의성 문제는 자연어처리의 성능을 향상시키기 위해 우선적으로 해결해야하는 문제점들의 하나이다. 본 연구는 단어 중의성 해소 방법에 사용될 수 있는 말뭉치를 많은 시간과 노력이 요구되는 수동적인 방법이 아닌, 사전들의 예제를 활용하여 자동적으로 생성할 수 있는 방법을 소개한다. 즉, 기존의 수동적인 방법으로 의미 태깅된 세종말뭉치에 표준국어대사전의 예제를 자동적으로 태깅하여 결합한 말뭉치를 사용한 단어 중의성 해소 방법을 소개한다. 표준국어대사전에서 단어 중의성 해소의 주요 대상인 전체 명사 (265,655개) 중에 중의성 해소의 대상이 되는 중의어 (29,868개)의 각 센스 (93,522개)와 연관된 속담, 용례 문장 (56,914개)들을 결합 말뭉치에 추가하였다. 품사 및 센스가 같이 태깅된 세종말뭉치의 약 79만개의 문장과 표준국어대사전의 약 5.7만개의 문장을 각각 또는 병합하여 교차검증을 사용하여 실험을 진행하였다. 실험 결과는 결합 말뭉치를 사용하였을 때 정확도와 재현율에 있어서 향상된 결과가 발견되었다. 본 연구의 결과는 인터넷 검색엔진 등의 검색결과의 성능향상과 오피니언 마이닝, 텍스트 마이닝과 관련한 자연어 분석/처리에 있어서 문장의 내용을 보다 명확히 파악하는데 도움을 줄 수 있을 것으로 기대되어진다.

폐금속 광산의 토양 중금속 오염 조사 자료 해석을 위한 핫스팟 분석의 적용 (Application of Hot Spot Analysis for Interpreting Soil Heavy-Metal Concentration Data in Abandoned Mines)

  • 이채영;김성민;최요순
    • 한국지리정보학회지
    • /
    • 제22권2호
    • /
    • pp.24-35
    • /
    • 2019
  • 본 연구에서는 핫스팟 분석을 통해 폐금속 광산의 토양 중금속 오염 조사 자료를 통계적 유의수준에 따라 해석할 수 있는 새로운 방법을 제시하였다. 이상 값을 나타내는 토양 중금속 오염 조사 자료들이 특정한 공간에 집중 또는 분산되어 나타나는지를 확인하기 위해 자료들의 공간적 자기상 관성을 Getis-Ord $Gi{\ast}$ 통계량을 이용하여 분석하였다. 그 결과 폐금속 광산지역에서 이상 값을 나타내는 자료들이 통계적으로 얼마나 유의미하게 집중되어 있는지 확인할 수 있었다. 각각의 자료들이 가지는 중금속 원소별 오염도 값과 Getis-Ord $Gi{\ast}$ 통계량 계산 결과를 이용하여 자료들을 (1) 오염도와 집중도가 모두 높은 것, (2) 오염도는 높으나 집중도가 낮은 것, (3) 오염도는 낮으나 집중도가 높은 것, (4) 오염도와 집중도가 모두 낮은 것 중 하나의 유형으로 분류할 수 있었다. 이러한 분류 결과를 활용하면 토양 중금속 오염 조사자료를 통계적 유의수준에 따라 해석할 수 있으며, 폐광산 지역의 토양오염 관리와 관련하여 합리적인 의사결정을 지원할 수 있으리라 판단된다.

공공도서관 미대출 도서 추천시스템 구현 : 대구 D도서관을 중심으로 (Implementation of the Unborrowed Book Recommendation System for Public Libraries: Based on Daegu D Library)

  • 진민하;정승연;조은지;이명훈;김건욱
    • 디지털융복합연구
    • /
    • 제19권5호
    • /
    • pp.175-186
    • /
    • 2021
  • 국내 공공도서관의 역할과 기능은 다양해지고 있는 반면, 내부적으로는 편향된 도서 대출로 다양한 문제들이 나타나고 있다. 또한 최근 4차 산업혁명으로 공공도서관에서 인기도서 위주의 도서 추천시스템이 도입되고 있으나, 이용자가 접할 수 있는 도서의 다양성은 제한되고 있다. 이에 본 연구에서는 공공도서관 이용자의 만족을 제고하기 위해 공간적으로는 대구시 두류도서관으로 한정하여 대출이력 자료(213,093건), 회원정보(35,561명) 등을 활용하여 군집분석과 토픽 모델링, 콘텐츠 기반 필터링 추천 알고리즘으로 공공도서관 미대출 도서 추천시스템을 구현하였으며, 이에 대한 실제 이용자들의 만족도 설문조사를 실시하여 미대출 도서 추천시스템의 가능성과 시사점을 제시하였다. 분석 결과 대다수의 이용자들이 높은 만족도로 응답하였으며, 특정 성·연령대, 직업, 평소 독서량 등으로 분류된 계층에서 만족도가 상대적으로 높게 나타난 것을 확인할 수 있었다. 본 연구결과를 통해 공공도서관의 편향된 도서 대출, 운영 효율성 저하 등의 문제를 일부 개선할 수 있을 것으로 기대하며, 연구의 한계점 또한 제시하였다.

IOT 및 감성조명 콘텐츠 기반의 LED 캠핑등 디자인 개발에 관한 연구 (Study on Development of LED Camping Light Design Based on IOT and Emotional Lighting Contents)

  • 김희준
    • 한국콘텐츠학회논문지
    • /
    • 제18권12호
    • /
    • pp.332-342
    • /
    • 2018
  • 본 논문은 창의 지식기반산업 중에 중추적 역할을 담당하는 IOT분야와 디자인분야가 집약된 감성조명콘텐츠 기반의 LED 캠핑등을 디자인하기 위한 기술적인 선택과 구현과정에 대한 정보를 제시하는데 목적이 있다. 휴대형 LED 캠핑등인 'i-Light'는 사람과 공간 그리고 감성을 서로 연결하는 '커넥티드 조명'으로 IOT와 감성조명콘텐츠 기반의 스마트한 캠핑조명제품이다. 'i-Light'는 자연스러운 색상 색온도 조절이 가능한 조명기능과 유해가스를 감지하는 안전기능이 있고, 빛의 교감과 풍미를 경험할 수 있는 다양한 감성기능이 있다. 이를 위해 먼저, 휴대형 LED 캠핑등을 제품디자인하였고 고연색성/풀컬러 조명모듈과 스마트 센서모듈, 그리고 IOT 디바이스 플랫폼 개발하였다. 또한, 감성조명콘텐츠의 상세데이터를 구축하여 이를 바탕으로 한 Web 어플리케이션을 개발하였다. 최종적으로 휴대형 LED 캠프등의 프로토타입을 만들어 관련기관에 테스트 벤치와 사용성 평가를 받았다. 개발된 감성 조명콘텐츠 12종과 IOT 안전센서 3종은 모두 적합 판정과 만족스러운 시제품이 나왔다는 결과를 받았다. 향후 인공지능과 빅 데이터가 상호연동하는 콘텐츠와 제품개발에 있어서 실질적인 기술적인 선택과 구현과정에 대한 방향을 제시해줄 수 있을 것이다.

미세먼지 저감을 위한 그린인프라 계획요소 도출 - 텍스트 마이닝을 활용하여 - (Derivation of Green Infrastructure Planning Factors for Reducing Particulate Matter - Using Text Mining -)

  • 석영선;송기환;한효주;이정아
    • 한국조경학회지
    • /
    • 제49권5호
    • /
    • pp.79-96
    • /
    • 2021
  • 그린인프라 계획은 미세먼지 저감을 위한 대표적인 조경 계획 방안 중 하나이다. 이에, 본 연구에서는 미세먼지 저감을 위한 그린인프라 계획 시 활용될 수 있는 요소를 텍스트 마이닝 기법을 활용하여 도출하고자 하였다. 미세먼지 저감계획, 그린인프라 계획 요소 등의 키워드를 중심으로 관련 선행연구, 정책보고서 및 법률 등을 수집하여 텍스트 마이닝을 통해 단어 빈도-역 문서 빈도(Term Frequency-Inverse Document Frequency, 이하 TF-IDF) 분석, 중심성 분석, 연관어 분석, 토픽 모델링 분석을 실시하였다. 연구결과, 첫째, TF-IDF 분석을 통해 미세먼지 및 그린인프라와 관련된 주요 주제어는 크게 환경문제(미세먼지, 환경, 탄소, 대기 등), 대상 공간(도시, 공원, 지역, 녹지 등), 그리고 적용 방법(분석, 계획, 평가, 개발, 생태적 측면, 정책적 관리, 기술, 리질리언스 등)으로 구분할 수 있었다. 둘째, 중심성 분석 결과, TF-IDF와 유사한 결과가 도출되었으며, 주요 키워드들을 연결하는 중심단어는 '그린뉴딜', '유휴부지'임을 확인할 수 있었다. 셋째, 연관어 분석 결과, 미세먼지 저감을 위한 그린인프라 계획 시, 숲과 바람길의 계획이 필요하며, 미기후 조절의 측면에서 수분에 대한 고려가 반드시 필요한 것으로 확인되었다. 또한, 유휴공간의 활용 및 혼효림의 조성, 미세먼지 저감 기술의 도입과 시스템의 이해가 그린인프라 계획 시 중요한 요소가 될 수 있음을 확인할 수 있었다. 넷째, 토픽 모델링 분석을 통해 그린인프라의 계획요소를 생태적·기술적·사회적 기능을 중심으로 분류하였다. 생태적 기능의 계획요소는 그린인프라의 형태적 부분(도시림, 녹지, 벽면녹화 등)과 기능적 부분(기후 조절, 탄소저장 및 흡수, 야생동물의 서식처와 생물 다양성 제공 등), 기술적 기능의 계획요소는 그린인프라의 방재 기능, 완충 효과, 우수관리 및 수질정화, 에너지 저감 등, 사회적 기능의 계획요소는 지역사회 커뮤니티 기능, 이용객의 건강성 회복, 경관 향상 등의 기능으로 분류되었다. 이와 같은 결과는 미세먼지 저감을 위한 그린인프라 계획 시 리질리언스 및 지속가능성과 같은 개념적 키워드 중심의 접근이 필요하며, 특히, 미세먼지 노출 저감의 측면에서 그린인프라 계획요소의 적용이 필요함을 시사한다고 볼 수 있다.

O4O 선택속성이 고객만족도 및 고객충성도에 미치는 영향: 중국 허마셴셩 사례를 중심으로 (The Impact of O4O Selection Attributes on Customer Satisfaction and Loyalty: Focusing on the Case of Fresh Hema in China)

  • 최성국;양성병
    • 지식경영연구
    • /
    • 제21권3호
    • /
    • pp.249-269
    • /
    • 2020
  • 최근 온라인 시장이 성숙해지면서, 추가 성장을 가로막는 많은 문제점이 드러나고 있는데, 이 중 가장 대표적인 문제는 온라인 상품의 동질화로 인한 고객수의 정체를 꼽을 수 있다. 최근 몇 년 사이 온라인 시장의 비중은 많이 증가하였지만, 이제 오프라인으로 영역을 확장하지 않고서는 더 이상의 발전을 기대하기 힘든 상황에 이른 것이다. 이에, 국내외 많은 온라인 기업들은 온라인 채널의 장점에 더해 온라인 플랫폼의 한계를 보완할 수 있는 오프라인 공간을 함께 확보함으로써, 사업영역 및 마케팅 채널을 확대하고자 노력하고 있다. 정보기술(빅데이터, 인공지능 등)을 활용한 대량의 고객 데이터 분석이라는 그들의 경쟁우위를 바탕으로, O4O(Online for Offline) 비즈니스 모델을 구현함으로써, 오프라인으로의 영향력을 꾸준히 강화해나가고 있는 것이다. 한편, 기존의 관련 연구들은 대부분 O2O(Online to Offline) 비즈니스 모델에만 초점을 맞추고 있으며, 최근 몇 년 동안 다양한 산업 분야에서 활발히 시도되고 있는 O4O 비즈니스 모델에 대한 학문적 시도는 아직 많이 부족한 실정이다. 그나마 존재하는 몇몇의 O4O 관련 연구들도 사례분석 및 체험마케팅 기반의 연구에 그치고 있어, O4O 기반 선택속성들과 이들이 고객만족도 및 고객충성도에 미치는 영향에 대한 실증연구가 시급한 상황이다. 이에 본 연구에서는 중국의 대표적인 O4O 비즈니스 모델인 허마셴셩(盒馬鮮生)을 중심으로, 고객의 관점에서 O4O 서비스에 특화된 주요 선택속성을 도출한 후, 이러한 선택속성들이 고객만족도 및 고객충성도에 미치는 영향을 실증해 보고자 한다. 300명의 O4O(허마셴셩) 이용 경험이 있는 고객을 대상으로 한 설문 표본을 구조방정식모델을 활용해 분석한 결과, 총 7개의 O4O 선택속성 가운데 4개(모바일앱품질, 모바일결제, 상품품질 및 매장시설)가 고객만족도에 영향을 미치는 것으로 나타났으며, 고객만족도는 다시 고객충성도(재이용의도, 추천의도 및 브랜드애착)에 유의한 영향을 미치는 것으로 조사되었다. 본 연구의 결과는 O4O 서비스 분야의 관리자가 빠르게 변화하는 고객요구에 잘 적응하고, 나아가 어떤 선택속성에 더 많은 자원을 할당함으로써 고객만족도 및 고객충성도를 제고할 수 있는지를 알려주는 중요한 가이드라인 역할을 할 수 있을 것으로 기대한다.

한강공원의 질적 서비스와 이용자 영향권의 상관관계 분석 (The Analysis of Urban Park Catchment Areas - Perspectives from Quality Service of Hangang Park -)

  • 이서효;김해리;이재호
    • 한국조경학회지
    • /
    • 제49권6호
    • /
    • pp.27-36
    • /
    • 2021
  • 본 연구는 도시공원의 형평적 이용문제가 점차 사회적 문제로 대두되는 시점에, 공원의 질적 서비스 개선을 통해 도시공원의 영향력을 확대하여 도시공원의 영향력이 닿지 않는 지역을 해소하기 위해 시작되었다. 본 연구는 공원의 질적 서비스가 가장 크게 차이가 나타나는 서울시 한강공원을 대상으로 하여 공원의 질적 서비스와 공원 이용자의 유입 분포를 나타내는 이용자영향권(catchment area) 간의 영향 관계를 파악하여 질적 서비스 개선을 통한 영향력 확대를 제안하였다. 연구의 방법으로는 첫째, 2017년도부터 2019년도에 진행된 한강공원 이용시민 만족도 조사를 통해 상위 3개 지구 및 하위 3개 지구를 선별하여 질적 서비스 평가를 진행하였으며, 다음으로 이용자영향권 분석은 각 지구별 2017년 9월의 유동인구 데이터를 이용하여 도출하였다. 이후 이용자영향권에 대한 공간적 자기상관성 분석을 실시함으로써 수치적, 시각적으로 이용자영향권의 추가 검증을 실시하였다. 연구 결과, 질적 서비스가 높게 평가된 상위 3개 지구의 이용자영향권이 하위 3개 지구에 비해 강하고 넓게 나타나, 이용자가 체감하는 공원의 질적 서비스의 수준이 높을수록 공원을 방문하기 위해 먼 곳에서도 많이 방문함으로써 공원의 질적 서비스가 이용자영향권에 영향을 미침을 확인하였다. 이는 공원형평성을 실현하기 위해서는 신규 공원 조성 이외에도 개별 공원에 대한 지속적인 관리 및 개선을 통한 질적 서비스 개선이 필요함을 보여주었다. 본 연구는 공급자 관점에서의 공원 서비스 연구에 대한 한계를 인식하고 실질적 공원 이용자 측면에서 공원의 질적 서비스를 평가하였다는 점에서 연구의 의의를 가지며, 한강공원을 넘어 생활권 근린 공원의 질적 서비스 개선연구에서 공원 결핍지수를 낮추는 대안을 제시하고 있다.

문서 요약 및 비교분석을 위한 주제어 네트워크 가시화 (Keyword Network Visualization for Text Summarization and Comparative Analysis)

  • 김경림;이다영;조환규
    • 정보과학회 논문지
    • /
    • 제44권2호
    • /
    • pp.139-147
    • /
    • 2017
  • 문자 정보는 인터넷 공간에 통용되는 정보의 대다수를 차지하고 있다. 따라서 대용량의 문서의 의미를 빠르게 특히 자동적으로 파악하는 일은 빅 데이터 시대의 중요한 연구 주제중 하나이다. 이 분야의 대표적인 연구 중 하나는 문서의 의미를 요약해주는 주요 주제어의 자동 추출 및 분석이다. 그러나 단순히 추출된 개별 주제어들의 집합만으로 문서의 의미구조를 나타내기에는 부족함이 있다. 본 논문에서는 추출된 주제어들의 연관관계를 그래프로 표현하여 대상 문서의 의미구조를 보다 다양하게 표시하고 추상화할 수 있는 주제어 가시화 방법을 개발하였다. 먼저 각 주제어들 간의 연관관계를 추출하기 위해 주제어별 지배구간 모델과 단어거리 모델을 제안하였다. 이렇게 추출한 주제어 연결성과 그를 형상화한 그래프는 문서의 의미구조를 보다 함축적으로 담고 있으므로 문서의 빠른 내용파악과 요약이 가능하며 이 가시화 그래프를 비교함으로서 문서의 의미적 유사도 비교도 가능하다. 실험을 통하여 문서의 의미파악과 비교에 본 주제어 가시화 그래프는 일반적인 요약문이나 단순 주제어 리스트보다 더 유용함을 보였다.

사과 IPM을 위한 항공 및 지리정보 기술의 진보, 제한 및 미래 응용 (Advances, Limitations, and Future Applications of Aerospace and Geospatial Technologies for Apple IPM)

  • 박용락;조점래;최경희;김현란;김지원;김세진;이동혁;박창규;조영식
    • 한국응용곤충학회지
    • /
    • 제60권1호
    • /
    • pp.135-143
    • /
    • 2021
  • 항공 및 지리 공간 기술은 연구자 및 농업관련 실무자들이 더욱더 쉽게 접근할 수 있게 되었으며, 이러한 기술은 농업과 임업에 있어 현재 병해충 관리의 변화에 중추적인 역할을 할 수 있다. 지난 20년 동안 위성, 유무인항공기, 스펙트럼 센서들, 정보 시스템 및 자동화 현장 장비들의 기술들은 병해충을 감지하고, 특정 지점에 대한 병해충을 방제하는데 사용되어져 왔다. 빅 데이터 기반한 인공 지능과 함께 항공 및 지리 정보 기술의 가용함에도 불구하고 이러한 기술을 사과 IPM에 적용하는 것은 아직 실현되지 않았다. 본 논문은 사과연구소에서 수행한 사례 연구를 통해 사과 IPM 개선에 활용할 수 있는 항공 및 지리 정보기술의 발전과 한계에 대해 논하고자 한다.