• 제목/요약/키워드: Data dictionary

검색결과 346건 처리시간 0.026초

빅데이터 분석을 위한 한국어 SentiWordNet 개발 방안 연구 : 분노 감정을 중심으로 (The Study of Developing Korean SentiWordNet for Big Data Analytics : Focusing on Anger Emotion)

  • 최석재;권오병
    • 한국전자거래학회지
    • /
    • 제19권4호
    • /
    • pp.1-19
    • /
    • 2014
  • 빅데이터 내에 존재하는 감정 정보를 추출하여 사용자들이 특정 대상에 대하여 갖고 있는 인식이 어떠한지를 파악하고자 하는 노력이 활발히 이루어지고 있다. 상품, 영화, 그리고 사회적 이슈 등에 대한 문장을 분석하여 사람들이 해당 주제에 어떠한 견해를 가지고 있는지를 분석하고 측정하여 구체적인 선호도를 알아내는 것이다. 문장에서 드러나는 감정 정도를 얻기 위해서는 감정어휘의 목록과 정도값을 제시할 수 있는 감정어휘사전이 필요하므로 본 연구에서는 감정어휘를 발견하는 방법과 이들의 정도값을 결정하는 문제를 다룬다. 기본적인 방법은 기초 감정어휘의 목록 수집과 이들의 정도값은 선행연구 결과와 직접 설문 방식을 이용하고, 확장된 목록의 수집과 정도값은 사전의 표제어 설명부(glosses)를 이용해 추론하는 것이다. 그 결과 발견된 감정어휘는 전형성을 띠고 있는 기본형 감정어휘, 기본형 감정어휘의 gloss에 사용된 확장형 1단계 1층위 감정어휘, 비 감정어휘 중 gloss에 기본형 또는 확장형 감정어휘를 가지고 있는 확장형 2단계 1층위 감정어휘, gloss의 gloss에 기본형 또는 확장형 감정어휘가 사용된 확장형 2단계 2층위 감정어휘의 네 종류로 나뉜다. 그리고 확장형 감정어휘의 정도값은 기본형 감정어휘의 정도값을 기초로 문형의 가중치와 강조승수를 적용하여 얻었다. 실험 결과 AND, OR 문형은 내포된 어휘의 감정 정도값을 평균내는 가중치를, Multiply 문형은 정도 부사어의 종류에 따라 1.2~1.5의 가중치를 갖는 것으로 파악되었다. 또한 NOT 문형은 사용된 어휘의 감정 정도를 일정 정도로 낮추어 역전시키는 것으로 추정된다. 또한 확장형 어휘에 적용되는 강조승수는 1층위에서 2, 2층위에서 3을 갖는 것으로 예상된다.

소비자 감성 기반 뷰티 경험 패턴 맵 개발: 화장품을 중심으로 (Development of Beauty Experience Pattern Map Based on Consumer Emotions: Focusing on Cosmetics)

  • 서봉군;김건우;박도형
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.179-196
    • /
    • 2019
  • 최근의 '똑똑한 소비자(Smart Consumer)'라 불리는 소비자가 많아지고 있는데, 이들은 제조사나 광고를 통해 전달되는 정보에 의존하지 않고, 기존 사용자나 전문가들의 후기, 여러 과학 지식을 획득하여 제품에 대한 이해를 높이고, 본인 스스로가 직접 판단하여 구매하고 있다. 특히나 화장품 분야는 인체 유해성과 같은 부정적인 요소에 대한 민감도가 높고, 자신의 고유한 피부 특성과의 조화도 고려되어야 하기 때문에, 전문적인 지식과 타인의 경험, 본인의 과거 경험 등을 종합적으로 생각하여 구매 의사결정을 내려야 하고, 이에 대해서 적극적인 소비자가 많아지고 있다. 이러한 움직임은 '셀프 뷰티' 와 같은 '셀프' 문화의 열풍과 함께, 문화 현상인 '그루밍족'의 등장, 사회적 트렌드인 'K-뷰티' 와도 동행한다고 할 수 있다. 맞춤형 화장품에 대한 관심의 급부상도 이러한 현상 중 하나라 볼 수 있다. 소비자들의 맞춤형 화장품의 니즈를 충족시키기 위해, 화장품 제조사나 관련 기업들은 ICT기술과의 융합을 통하여 프리미엄 서비스를 중심으로 소비자의 니즈에 대응하고 있다. 그러나 기업 및 시장 현황이 맞춤형 화장품을 향해 진화하고 있지만, 소비자의 피부 상태, 추구하는 감성, 실제 제품이나 서비스까지 소비자 경험을 전체적으로 완전하게 다루는 지능형 데이터 플랫폼은 부재한다. 본 연구에서는 소비자 경험에 대한 지능형 데이터 플랫폼 구축을 위한 첫 단계로 소비자 언어 기반의 화장품 감성 분석을 수행하였다. 소비자들 개인의 선호나 취향이 분명한 앰플/세럼 카테고리를 중심으로 매출 순위 1위에서 99위까지의 99개 제품을 선정하여, 블로그와 트위터 등의 SNS 상에 언급되는 후기 내에 화장품 경험에 대한 소비자 감성을 수집하였다. 총 357개의 감성 형용사를 수집하였고, 고객 여정 워크샵을 통해 유사 감성을 합치고, 중복 감성을 통합하는 작업을 수행하였으며, 최종 76개 형용사를 구축했다. 구축한 형용사에 대한 SOM 분석을 통해 화장품에 대한 소비자 감성에 대한 클러스터링을 실시했다. 분석 결과, 총 8개의 클러스터를 도출했고, 클러스터 별 각 노드의 벡터 값을 기준으로 소비자 감성 Top 10을 도출했다. 소비자 감성을 기준으로 클러스터별 소비자 감성에 서로 다른 특징이 발견됐으며, 소비자에 따라 다른 소비자의 감성을 선호, 기존과는 다른 소비자 감성을 고려한 추천 및 분류 체계가 필요함을 확인했다. 연구 결과를 통해 감성 분석의 활용 도메인이 화장품만이 아닌 다양한 영역으로 확장될 수 있음 확인했으며, 감성 분석을 통한 소비자 인사이트를 도출할 수 있다는 점을 시사했다. 또한, 본 연구에서 활용한 디자인 씽킹(Design Thinking)의 방법론의 적용하여 화장품 특화된 감성 사전을 과학적인 프로세스로 구축했으며, 화장품에 대한 소비자의 인지 및 심리에 대한 이해를 도울 수 있을 것으로 기대한다.

국방 빅데이터/인공지능 활성화를 위한 다중메타데이터 저장소 관리시스템(MRMM) 기술 연구 (A Research in Applying Big Data and Artificial Intelligence on Defense Metadata using Multi Repository Meta-Data Management (MRMM))

  • 신우택;이진희;김정우;신동선;이영상;황승호
    • 인터넷정보학회논문지
    • /
    • 제21권1호
    • /
    • pp.169-178
    • /
    • 2020
  • 국방부는 감소되는 부대 및 병력자원의 문제해결과 전투력 향상을 위해 4차 산업혁명 기술(빅데이터, AI)의 적극적인 도입을 추진하고 있다. 국방 정보시스템은 업무 영역 및 각군의 특수성에 맞춰 다양하게 개발되어 왔으며, 4차 산업혁명 기술을 적극 활용하기 위해서는 현재 폐쇄적으로 운용하고 있는 국방 데이터 관리체계의 개선이 필요하다. 그러나, 국방 빅데이터 및 인공지능 도입을 위해 전 정보시스템에 데이터 표준을 제정하여 활용하는 것은 보안문제, 각군 업무특성 및 대규모 체계의 표준화 어려움 등으로 제한사항이 있고, 현 국방 데이터 공유체계 제도적으로도 각 체계 상호간 연동 소요를 기반으로 체계간 연동합의를 통해 직접 연동을 통하여 데이터를 제한적으로 공유하고 있는 실정이다. 4차 산업혁명 기술을 적용한 스마트 국방을 구현하기 위해서는 국방 데이터를 공유하여 잘 활용할 수 있는 제도마련이 시급하고, 이를 기술적으로 뒷받침하기 위해 국방상호운용성 관리지침 규정에 따라 도메인 및 코드사전을 생성된 국방 전사 표준과 각 체계별 표준 매핑을 관리하고 표준간 연계를 통하여 데이터 상호 운용성 증진을 지원하는 국방 데이터의 체계적인 표준 관리를 지원하는 다중 데이터 저장소 관리(MRMM) 기술개발이 필요하다. 본 연구에서는 스마트 국방 구현을 위해 가장 기본이 되는 국방 데이터의 도메인 및 코드사전을 생성된 국방 전사 표준과 각 체계별 표준 매핑을 관리하고, 표준간 연계를 통하여 데이터 상호 운용성 증진을 지원하는 다중 데이터 저장소 관리 (MRMM) 기술을 제시하고, 단어의 유사도를 통해 MRMM의 실현 방향성을 구현하였다. MRMM을 바탕으로 전군 DB의 표준화 통합을 좀 더 간편하게 하여 실효성 있는 국방 빅데이터 및 인공지능 데이터 구현환경을 제공하여, 스마트 국방 구현을 위한 막대한 국방예산 절감과 전투력 향상을 위한 전력화 소요기간의 감소를 기대할 수 있다.

청년층 학력과잉이 임금에 미치는 영향에 대한 분석 - 경제위기 전·후를 중심으로 - (The Evaluation of Youth Overeducation and its Impact on the Wage System in Korea)

  • 박성준;황상인
    • 노동경제논집
    • /
    • 제28권3호
    • /
    • pp.141-166
    • /
    • 2005
  • 본 연구는 청년층의 학력과잉이 경제위기로 어떻게 전개되었으며 또한 이로 인한 교육투자 수익률이 어떻게 변하였는가를 살펴보았다. 이를 위해 본 연구는 경제위기 전인 1996년도 임금자료와 2000년도 임금자료 각각을 직업사전과 비교함으로서 1996년도의 과잉학력률과 2000년도의 과잉학력률을 인적 속성 및 근로자가 종사하는 산업 직종 그리고 사업체 규모 등 다각적으로 살펴보았다. 그리고 경제위기가 과잉학력에 어떻게 영향을 미쳤는지를 희귀분석했다. 그 결과 경제위기 이후 과잉학력이 보다 심화되었음을 알 수 있었다. 그 후 이러한 변화가 교육 투자수익률에 어떤 영향을 미쳤는지를 살피기 위해 각년도 과잉학력자의 시간당 임금과 적정학력자의 임금을 비교하였으며 또한 경제위기가 투자 수익률에 미친 영향을 살피기 위해 회귀분석을 하였다. 그 결과 학력과잉자의 시간당 임금이 적정학력자의 임금보다 여전히 높았으나 경제위기를 겪으면서 그 임금 차의 폭은 상당히 줄어들었음을 알 수 있다. 그러한 추세가 일시적인 것이 아니라 고착화되고 있는지를 살피기 위해 2002년도 자료로도 분석해 본 결과도 마찬가지로 나타났다.

  • PDF

데이터 마이닝을 활용한 북한 산림과학 연구 동향 분석(1962~2016) (Trend Analysis of North Korean Forest Science Research (1962-2016) by Data Mining)

  • 임중빈;김경민;김명길;이종민;박진우
    • 한국산림과학회지
    • /
    • 제109권1호
    • /
    • pp.81-98
    • /
    • 2020
  • 본 연구에서는 남북한 산림과학기술협력에 대비하여 북한의 산림과학 관련 학술지 분석을 통해 북한 산림과학 연구 동향을 분석하였다. 한국과학기술정보연구원(KISTI) 북한과학기술네트워크(NKtech)의 소장 논문을 대상으로 우리나라 국가과학기술표준분류체계를 토대로 임학 관련 주제어를 검색하여 분석 대상 논문을 수집하였다. 총1,389편의 논문을 수집하였으며 북한 산림업 계획 지표를 토대로 산림조성, 보호 및 이용 분야로 분류하여 각 분야별 북한 산림과학 연구 동향을 분석하였다. 2012년 김정은 집권 이후 산림조성 분야에서는 나무모 기르기(양묘)와 임농복합경영 분야의 연구 활동이 활발하였으며 사름률(활착률)을 강조하고 있었다. 산림보호 분야에서는 산림병해충에 대한 노력이 크며 임농복합경영과 풀뚝다락밭을 통해 토양침식을 감소시키려는 노력을 하고 있는 것으로 판단된다. 산림이용 분야에서는 주로 펄프/종이와 버섯 분야에서 연구가 활발함을 확인하였다. 산림경영 분야에서는 '생태정보' 분야의 활동이 눈에 띄게 나타났으며 탄소감축 노력을 확인할 수 있었다. 북한 산림과학 동향을 살펴본 결과 북한의 산림에 대한 관점이 기존의 '자연 개조' 대상에서 '자연 보호'를 함께 수반하는 관리의 대상으로 변화되었다고 보여 진다. 향후 세부 분야별 남북 산림과학 기술 비교 연구와 시기별 북한의 정책방향이 연구 방향에 미친 영향에 대한 분석을 진행할 계획이다. 특히, 남북산림협력사업을 원할히 하기 위해서 남북산림용어사전 편찬이 필요할 것으로 사료된다.

이벤트와 관련된 주변 관광지 자동 추천 알고리즘 개발 (Automatic Recommendation of Nearby Tourist Attractions related to Events)

  • 안진현;임동혁
    • 한국산학기술학회논문지
    • /
    • 제21권3호
    • /
    • pp.407-413
    • /
    • 2020
  • 관광객이 관광 도중에 각종 문화제, 전시회, 공연 등의 이벤트에 참여하는 경우가 있다. 관광객이 이벤트에 참여 후 다음 관광지를 결정하게 되는데, 관광지 정보를 얻을 수 있는 수단은 지도 서비스, 블로그와 같은 소셜네트워크서비스 등이 존재한다. 지도 서비스를 활용하면 관광객이 현재 위치한 장소 주변의 관광지를 쉽게 검색할 수 있다. 이는 위치 기반 관광지 추천으로 활용될 수 있다. 블로그 등은 관광지의 내용을 담고 있기 때문에 관광객이 이벤트의 내용과 관련된 관광지를 찾을 수 있다. 이는 내용 기반 관광지 추천으로 활용될 수 있다. 하지만, 위치 기반 추천의 경우 이벤트의 내용과 관련이 없이 단순히 가까운 관광지가 추천이 될 수 있고, 내용 기반 추천의 경우 거리가 먼 관광지가 추천이 될 수 있는 단점이 있다. 위치와 내용을 모두 고려하는 관광지 추천 서비스는 거의 없다. 본 연구에서는 두 가지 방법의 장점만을 취하기 위해 한국관광공사 LOD(Linked Open Data), 위키피디아, 국어사전 등에 기반하여 위치와 내용을 모두 고려한 관광지 추천 알고리즘을 제시한다. 관광지의 설명글로부터 명사들을 추출한 뒤 다른 관광지의 명사들과 비교를 하여 동일한 명사가 많이 있을수록 내용이 관련이 있다고 판단한다. 정확히 동일한 명사가 없어도 위키피디아에 있는 키워드를 활용하여 관련된 명사가 존재할 경우에도 관련이 있다고 판단한다. 각 관광지의 위도와 경도를 기준으로 거리를 계산한 뒤 사용자가 선택한 가중치로 상기 내용 기반 관련도와 선형결합하여 추천순위를 계산한다.

저출산·고령사회 대비 관점에서 중학교 기술·가정 교과서에 제시된 직업 내용 분석 (An Analysis Study on the Contents of Occupation in Technology & Home Economics Textbooks for Middle School : focusing on preparation for Low Birthrate & Aging Society)

  • 이수정
    • 직업교육연구
    • /
    • 제37권1호
    • /
    • pp.139-156
    • /
    • 2018
  • 저출산 고령사회에 대비하기 위해서는 중학교 시기부터 전생애적 관점에서 자신의 진로를 설계하여 미래를 준비할 수 있는 역량을 길러주는 것이 중요하다. 따라서 이 연구에서는 2009개정 교육과정에 따른 중학교 기술 가정 교과서 (1). (2)권 총 24종에 직업 내용이 제시되어 있는 양상을 분석하였다. 교과서에 제시된 직업의 종류는 한국표준직업분류(대분류)를 근거로 하여 유형별로 빈도(비율)를 분석하였고, 교과서 단원별, 자료유형별 직업내용 제시 경향을 함께 분석하여 직업내용을 다양한 관점에서 이해할 수 있는 기초 자료를 제공하였다. 연구 결과 중학교 기술 가정 교과서에 제시된 직업명은 한국직업사전 상 제시된 직업의 5.27% 수준의 정보를 제공하고 있으며, 특히 한국표준직업분류(대분류) 유형 중 '2.전문가 및 관련종사자'에 편중되어 있어 저출산 고령사회에 대비하여 학생들이 진로 설계를 하는데 필요한 직업과 관련된 정보를 제공하는 데는 한계가 있다. 그리고 교과서 별로 '가정생활' 대영역이 '기술의 세계'에 비해 상대적으로 높은 비율로 직업 내용을 제시하였는데, 출판사별, 대영역별, 단원별로 직업내용 제시의 빈도(비율)에 있어 큰 차이를 보이고 있었다. 향후 저출산 고령사회를 대비하는 관점에서 중학교 기술 가정 교과서는 중학생들이 모든 직업을 소중하게 생각하며 자신의 적성과 흥미를 고려하여 진로를 탐색하며 미래를 준비하는 역량을 향상시킬 수 있도록 다양한 직업 관련학습 기회를 제공할 필요가 있다.

자연어 처리 및 기계학습을 활용한 제조업 현장의 품질 불량 예측 방법론 (A Method for Prediction of Quality Defects in Manufacturing Using Natural Language Processing and Machine Learning)

  • 노정민;김용성
    • Journal of Platform Technology
    • /
    • 제9권3호
    • /
    • pp.52-62
    • /
    • 2021
  • 제조업 현장에서 제작 공정 수행 전 품질 불량 위험 공정을 예측하여 사전품질관리를 수행하는 것은 매우 중요한 일이다. 하지만 기존 엔지니어의 역량에 의존하는 방법은 그 제작공정의 종류와 수가 다양할수록 인적, 물리적 한계에 부딪힌다. 특히 원자력 주요기기 제작과 같이 제작공정이 매우 광범위한 도메인 영역에서는 그 한계가 더욱 명확하다. 본 논문은 제조업 현장에서 자연어 처리 및 기계학습을 활용하여 품질 불량 위험 공정을 예측하는 방법을 제시하였다. 이를 위해 실제 원자력발전소에 설치되는 주기기를 제작하는 공장에서 6년 동안 수집된 제작 기록의 텍스트 데이터를 활용하였다. 텍스트 데이터의 전처리 단계에서는 도메인 지식이 잘 반영될 수 있도록 단어사전에 Mapping 하는 방식을 적용하였고, 문장 벡터화 과정에서는 N-gram, TF-IDF, SVD를 결합한 하이브리드 알고리즘을 구성하였다. 다음으로 품질 불량 위험 공정을 분류해내는 실험에서는 k-fold 교차 검증을 적용하고 Unigram에서 누적 Trigram까지 여러 케이스로 나누어 데이터셋에 대한 객관성을 확보하였다. 또한, 분류 알고리즘으로 나이브 베이즈(NB)와 서포트 벡터 머신(SVM)을 사용하여 유의미한 결과를 확보하였다. 실험결과 최대 accuracy와 F1-score가 각각 0.7685와 0.8641로서 상당히 유효한 수준으로 나타났다. 또한, 수행해본 적이 없는 새로운 공정을 예측하여 현장 엔지니어들의 투표와의 비교를 통해서 실제 현장에 자연스럽게 적용할 수 있음을 보여주었다.

영화의 흥행 성과와 리뷰 감정어휘와의 관계 분석 (Relationship Analysis between the Box Office Performance and Sentimental Words in Movie Review)

  • 문성민;하효지;이경원
    • 디자인융복합연구
    • /
    • 제14권4호
    • /
    • pp.1-16
    • /
    • 2015
  • 본 연구는 영화 리뷰 값이 1000개 이상인 673개의 영화를 대상으로 영화 장르별로 관객들이 느끼는 감정 어휘의 분포를 탐색하고 영화 흥행도와 감정 어휘의 관계를 파악하는데 목적이 있다. 분석을 위해 네이버 영화 리뷰를 크롤링하고 감정 어휘 사전을 활용하여 7개의 대표 감정 어휘, 영화 티켓 판매액, 영화 관람 관객 수, 상영 스크린 수, 한 스크린 당 영화 관람 관객 수, 영화의 장르, 영화의 영문 이름으로 구성된 데이터를 생성하였다. 연구 목적을 위한 분석은 상관관계 분석 방법과 Parallel coordinates 시각화 분석 방법을 사용하였다. 연구 결과로는 첫째, 장르에 따른 영화 흥행도를 분석하여 영화 흥행도가 가장 높은 장르는 코미디이고 가장 낮은 장르는 호러라는 결과를 확인하였다. 둘째, 모든 장르에서 'Happy'와 'Surprise'의 값이 높게 나오지만 다른 장르들에 비해 판타지 장르의 영화는 지루한 감정이 많이 느껴지고, SF장르의 영화는 화나는 감정이 많이 느껴진다는 결과를 확인 하였다. 셋째, 모든 장르의 감정 어휘 별 상관관계를 분석하여 Disgust'의 값이 높아질 때 'Anger'의 값도 높아지고, 'Happy'의 값이 높아질 때 'Surprise'의 값은 낮아진다라는 결과를 확인하였다. 넷째, 영화 흥행도에 따른 감정 어휘를 분석하여 영화 흥행도와 'Happy'는 선형 관계이지만 영화 흥행도와 'Fear'는 비선형 관계인 것을 확인 하였다.

한국농수산대학 재학생의 학교생활 감성 분석 및 영농의지에 관한 연구 (A Study on the Sensibility Analysis of School Life and the Will to Farming of Students at Korea National College of Agricultural and Fisheries)

  • 주진수;이소영;김종숙;신용광;박노복
    • 현장농수산연구지
    • /
    • 제21권2호
    • /
    • pp.103-114
    • /
    • 2019
  • 본 연구에서는 한농대에 재학 중인 3학년 학생을 대상으로 대학생활 선호도 및 졸업 후 영농의지를 파악하기 위하여 설문조사를 실시하였다. 연구 분석에는 구조화되지 않은 데이터의 분석 기법으로 오피니언 마이닝과 텍스트 마이닝 기법을 이용하였으며, 텍스트 마이닝의 결과는 워드 클라우드로 시각화하여 정보를 추출하였다. 또한 감성분석 결과를 이용하여 졸업 후 농사일을 하려는 학생들의 영농의지에 대한 통계적 분석을 하였다. 대학생활 호감도 조사는 대학 이미지, 자기 역량, 기숙사, 교육시스템, 미래 비전 등 5개 분야에 전체 10개 항목에 대하여 이루어졌다. 감성 분석을 위한 긍·부정 사전은 수집된 응답지에서 긍정과 부정의 감정을 분류하여 긍정어 사전과 부정어 사전을 각각 만들어 분석에 이용하였다. 분석 결과 10개 평가항목 가운데 대학 지원 당시의 '대학 이미지', 10년 후의 '자기 모습' 항목은 70% 이상, '자기 역량'과 '현재의 한농대' 항목은 60% 이상의 긍정적 감정을 나타냈다. 반면 '대학 기숙사' '교육과정' '장기현장실습' '한국 농업의 미래' 항목에 대해서는 긍정적 감성보다 부정적 감성이 높게 나타났다. 성별, 영농기반, 입학 동기에 따른 영농의지 차이의 교차 분석에서는 성별, 입학 동기에 따른 영농의지는 통계적으로 유의미한 결과가 나타났으나, 영농기반에서는 유의미하지 않은 결과가 나타났다. 또한 영농의지에 대한 이항 로지스틱 회귀분석에서는 통계적으로 유의미한 변수는 '입학 동기'로 파악되었으며, 본인의 의지로 입학한 학생일수록 영농의지가 형성될 확률이 높게 나타났다.