• 제목/요약/키워드: 데이터 이용 설명문

검색결과 15건 처리시간 0.019초

한국표준산업분류를 기준으로 한 문서의 자동 분류 모델에 관한 연구 (A Study on Automatic Classification Model of Documents Based on Korean Standard Industrial Classification)

  • 이재성;전승표;유형선
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.221-241
    • /
    • 2018
  • 지식사회에 들어서며 새로운 형태의 자본으로서 정보의 중요성이 강조되고 있다. 그리고 기하급수적으로 생산되는 디지털 정보의 효율적 관리를 위해 정보 분류의 중요성도 증가하고 있다. 본 연구에서는 기업의 기술사업화 의사결정에 도움이 될 수 있는 맞춤형 정보를 자동으로 분류하여 제공하기 위하여, 기업의 사업 성격을 나타내는 한국표준산업분류(이하 'KSIC')를 기준으로 정보를 분류하는 방법을 제안하였다. 정보 혹은 문서의 분류 방법은 대체로 기계학습을 기반으로 연구되어 왔으나 KSIC를 기준으로 분류된 충분한 학습데이터가 없어, 본 연구에서는 문서간 유사도를 계산하는 방식을 적용하였다. 구체적으로 KSIC 각 코드별 설명문을 수집하고 벡터 공간 모델을 이용하여 분류 대상 문서와의 유사도를 계산하여 가장 적합한 KSIC 코드를 제시하는 방법과 모델을 제시하였다. 그리고 IPC 데이터를 수집한 후 KSIC를 기준으로 분류하고, 이를 특허청에서 제공하는 KSIC-IPC 연계표와 비교함으로써 본 방법론을 검증하였다. 검증 결과 TF-IDF 계산식의 일종인 LT 방식을 적용하였을 때 가장 높은 일치도를 보였는데, IPC 설명문에 대해 1순위 매칭 KSIC의 일치도는 53%, 5순위까지의 누적 일치도는 76%를 보였다. 이를 통해 보다 정량적이고 객관적으로 중소기업이 필요로 할 기술, 산업, 시장정보에 대한 KSIC 분류 작업이 가능하다는 점을 확인할 수 있었다. 또한 이종 분류체계 간 연계표를 작성함에 있어서도 본 연구에서 제공하는 방법과 결과물이 전문가의 정성적 판단에 도움이 될 기초 자료로 활용될 수 있을 것으로 판단된다.

인공지능발달 토픽 프레임 연구 -계열화(seriation)와 통합화(skeumorph)의 사회구성주의 중심으로- (A Study on AI Evolution Trend based on Topic Frame Modeling)

  • 권상희;차현주
    • 한국콘텐츠학회논문지
    • /
    • 제20권7호
    • /
    • pp.66-85
    • /
    • 2020
  • 본 연구의 목적은 AI 기술 특허(전체)와 주요 신문에 나타난 AI 보도 프레임을 바탕으로 AI 발달과정 추세를 예측하고 이를 기술·설명하는 것이다. 이를 위해 지난 9년간 출원된 한국과 미국 기술특허 요약문과 국내 주요 신문의 AI(Artificial Intelligence) 뉴스 텍스트를 분석하였다. 본 연구는 빅데이터를 활용한 토픽모델링과 시계열회귀분석이 사용되었으며, 추가로 네트워크 의제 상관분석과 회귀분석 기법이 사용되었다. 본 연구결과는 다음과 같다. 첫째, Topic 모델링 분석결과, AI 기술특허 요약문에서는 인공지능, 알고리즘 5G(Hot AI 기술) 등의 순으로 확인되었으며, AI 뉴스보도에서는 산업 적용, 데이터 활용과 시장 적용 등의 순으로 확인되어 AI의 사회문화 보도 경향을 나타냈다. 둘째, 시계열회귀분석결과, 상승추세 토픽으로는 사회문화적으로 AI 일상적·문화적 이용과 산업적용 시작이 도출되었다. 하락추세토픽으로는 시스템, 하드웨어 기술 중심으로 나타났다. 셋째, 상관관계와 회귀관계를 활용한 QAP 분석 결과, AI 기술특허와 뉴스 보도 프레임 간의 상관관계는 높은 것으로 나타났다. 이를 통해 AI 발달에서 AI 기술특허와 뉴스 보도 프레임이 미디어 담론의 결정요인에 의해 사회적으로 구성되는 것을 알 수 있었다.

단어 임베딩 기법을 이용한 한글의 의미 변화 파악 (Understanding the semantic change of Hangeul using word embedding)

  • 선현석;이영섭;임창원
    • 응용통계연구
    • /
    • 제34권3호
    • /
    • pp.295-308
    • /
    • 2021
  • 최근 들어 많은 사람들이 자신의 관심사를 SNS에 게시하거나 인터넷과 컴퓨터의 기술 발달로 디지털 형태의 문서 저장이 가능하게 됨으로써 생성되는 텍스트 자료의 양이 폭발적으로 증가하게 되었다. 이에 따라 수많은 문서 자료로부터 가치 있는 정보를 창출하기 위한 기술의 요구 또한 증가하고 있다. 본 연구에서는 대통령 연설 기록문과 신문기사 공공데이터를 활용하여 한글 단어들이 시간에 따라 어떻게 의미가 변화되어 가는지를 통계적 기법을 통해 발굴하였다. 이를 이용하여 한글의 통시적 변화 연구에 활용할 수 있는 방안을 제시한다. 기존 언어학자나 원어민의 직관에 의해 연구되던 한글의 이론적 언어 현상 연구에서 벗어나 누구나 사용할 수 있는 공공문서를 통해 수치화된 값을 도출하고 단어의 의미변화 현상을 설명하고자 한다.

학술 문헌 내 정의문을 통해 살펴본 디지털 큐레이션 개념 변화 분석 (Analysis of Changes in the Concept of Digital Curation through Definitions in Academic Literature)

  • 김현수;오효정
    • 정보관리학회지
    • /
    • 제41권3호
    • /
    • pp.269-288
    • /
    • 2024
  • 최근 디지털 전환 시대를 맞아 학계뿐 아니라 다양한 영역에서 디지털 큐레이션에 대한 논의가 활발히 진행되고 있다. 본 연구는 시간 흐름에 따른 디지털 큐레이션의 개념 변화를 분석하는 것을 주 목적으로, 특히 학술 문헌에서 저자가 직접 그 의미를 설명하거나 인용한 정의문을 중심으로 개념 구조를 파악하였다. 이를 위해 국내에서 디지털 큐레이션이란 용어가 처음 언급된 2009년부터 최근 2023년까지 출판된 학술 논문을 수집하고 관련 개념을 정리한 문장을 선별, 정의문의 용례 분석을 수행하였다. DMR 토픽 모델링과 워드 네트워크 분석 기법을 통해 주요 주제어들 간의 관계와 시간의 흐름에 따른 중요도 변화를 살펴보았으며, 주요 토픽을 중심으로 디지털 큐레이션의 개념도를 그려보았다. 그 결과 디지털 큐레이션의 개념은 '데이터 보존', '전통적인 큐레이터 역할', '상품 추천 큐레이션' 주제가 중심축을 이루고 있고, 연구자마다 디지털 큐레이션을 활용하고자 하는 방향에 따라 '콘텐츠 유통 및 분류', '정보 이용', '큐레이션 모델' 등으로 확장하여 정의하고 있었다. 본 연구는 디지털 큐레이션의 개념을 학술 연구자의 관점이 투영된 정의문에 기반해 분석했다는 데에 의의가 있으며, 연구 진행 시점에 따른 토픽의 증감 추세를 통해 연구자들이 주안점을 두는 개념의 변화를 구체적으로 파악하였다는 데에 의미가 있다.

온라인 상품 판매 성과에 영향을 미치는 상품 소개글 효과 측정 기법 (Measuring the Economic Impact of Item Descriptions on Sales Performance)

  • 이동원;박성혁;문송천
    • 지능정보연구
    • /
    • 제18권4호
    • /
    • pp.1-17
    • /
    • 2012
  • 온라인 상에서 판매되는 상품은 매우 다양하지만, 소비자에게 판매 가격을 제시하거나 소개글을 통해서 상품에 대한 구체적인 설명을 제공한다는 점은 모든 상품에 있어서 가장 기본이 되는 공통적인 특징이다. 만약, 상품의 실제 품질이나 가격과는 독립적으로 상품 소개글이 판매에 미치는 영향력을 파악할 수 있다면 어떠한 소개글이 상품의 판매를 촉진하는 측면에서 더 좋은 글인지 분별할 수 있게 된다. 이런 관점에서 본 연구는 상품 소개글과 판매 성과의 관계를 파악하기 위한 목적으로 수행되었으며, 구체적으로는 온라인 시장에서 한글로 작성된 상품 소개글에 쓰인 각각의 표현 별로 소비자가 구매를 결정하는 데에 어떤 영향을 미치는지를 분석하고자 하였다. 한글 형태소 분석기를 사용하여 국내 앱 시장에서 수집된 앱 소개글 및 판매이력 데이터로부터 상품을 설명하는 주요 속성과 그 속성에 대한 평가를 추출하였으며, 추출된 키워드를 입력 변수로 구성한 계량경제학 모형을 구축하였고, 구체적으로 특정 표현들이 판매 성과에 미치는 영향을 구축된 모형을 사용하여 계량적으로 측정하였다. 앱의 카테고리 별로 표현의 종류가 상이하게 나타남이 관찰됨에 따라, 분석은 각 카테고리 별로 수행되었다. 유료 앱과 무료 앱에 대해서 데이터 분석을 수행한 결과, 판매 성과에 영향을 미치는 '속성과 평가' 키워드를 그 영향력의 크기 별로 파악할 수 있었으며, 특히 무료 앱의 경우는 무료로 이용할 수 있음에도 불구하고 품질이 좋다는 것을 강조했을 때 판매량을 더 높일 수 있다는 것이 확인되었다. 본 연구는 모바일 앱에 대해 수행되었으나, 온라인에서 거래되는 다양한 상품에 대해서도 소개글이 판매 성과에 미치는 영향을 분석할 수 있는 모형으로 활용될 수 있다. 마지막 장에서는 기업의 마케팅 매니저가 본 연구에서 제시하는 연구 방법론과 분석 결과를 활용할 수 있는 방안을 제시하였다.