• 제목/요약/키워드: text mining technique

검색결과 222건 처리시간 0.023초

토픽 모델링을 이용한 핀테크 기술 동향 분석 (A Study on the Research Trends in Fintech using Topic Modeling)

  • 김태경;최회련;이홍철
    • 한국산학기술학회논문지
    • /
    • 제17권11호
    • /
    • pp.670-681
    • /
    • 2016
  • 최근 인터넷과 모바일 환경을 기반으로 금융과 IT가 융합된 핀테크(Fintech) 산업이 급속히 성장하고 있으며 간편성, 편리성 등으로 무장한 핀테크 서비스는 모든 금융서비스의 온라인 모바일 화를 주도하고 있다. 그러나 핀테크 산업의 급격한 성장에도 불구하고, 핀테크 기술에 대한 세부기술 분류와 주요 시장국의 기술개발 동향을 분석하고 기술기획을 지원하기 위한 연구는 매우 미흡한 실정이다. 이에 본 연구는 핀테크 기술의 비정형 데이터 형태의 특허 데이터를 이용하여 토픽모델링 기법을 통해, 핀테크 세부 기술을 추출하고 정의한다. 도출된 핀테크 세부 기술에 대해 Hot&Cold topic 을 파악하여 핀테크 기술의 트렌드를 파악한다. 또한 핀테크 산업의 주요 기술에 대한 주요 시장국인 미국, 한국, 중국의 기술개발 동향을 각각 분석한다. 마지막으로 핀테크 세부 기술 간 네트워크 분석을 통해 기술 간의 연계 관계를 살펴본다. 본 연구를 통해 파악된 핀테크 산업 기술 동향은 핀테크 산업분야의 정책 수립과 핀테크 관련 기업의 기술 전략 수립에 효과적으로 활용될 수 있을 것으로 기대된다.

객체지향 분석 단계에서의 클래스 복잡도 측정 (Measurement of Classes Complexity in the Object-Oriented Analysis Phase)

  • 김유경;박재년
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권10호
    • /
    • pp.720-731
    • /
    • 2001
  • 구조적 개발 방법론에 적용하도록 만들어진 복잡도 척도들을 클래스의 상속성, 다형성, 메시지 전달 그리고 캡슐화와 같은 객체지향의 개념에 직접적으로 적용할 수 없다. 또한 기존의 객체지향 소프트웨어에 대한 척도의 연구는 프로그램의 복잡도나, 설계 단계의 척도가 대부분이었다. 실제로 분석단계 클래스의 복잡도를 낮춤으로서 시스템의 개발 노력이나 비용 및 유지보수 단계에서의 노력이 크게 줄어들게 되므로, 분석 클래스에 대한 복잡도를 측량하기 위한 척도가 필요하다. 본 논문에서는 객체지향 개발방법론인 RUP(Rational Unified Process)의 분석 단계에서 추출되는 분석 클래스에 대해서 복잡도를 측정할 수 있는 새로운 척도를 제안한다. 협력 복잡도CC(Collaboration Complexity)는 가능한 협력의 최대 수로서 클래스가 잠재적으로 얼마나 복잡할 수 있는지를 측정하기 위한 척도이며, 각 협력자들의 인터페이스를 이해하는 것과 관련된 총체적 어려움을 측정하는 인터페이스 복잡도 IC(Interface Complexity)를 정의하였다. 제안된 척도는 Weyuker의 9가지 공리적 성질에 대하여 이론적인 검증을 하였으며, 텍스트 마이닝 기법을 사용하여 사용자의 질문에 자동으로 응답하는 시스템의 분석 클래스에 대하여 제안된 척도를 적용하여 복잡도를 측정하였다. 제안된 CC와 IC의 값과 Chidamber와 Kemerer가 제안된 CBO와 WMC의 값을 비교해 본 결과, 제안된 복잡도 척도의 계산결과 값이 큰 클래스의 경우에는 설계 이후 단계에서도 역시 복잡도가 커지게 되는 것을 알 수 있었다. 이로써 소프트웨어개발 주기의 초기에 클래스에 대한 복잡도를 평가해 보고, 나머지 단계에 필요한 시간과 노력을 예측함으로써 보다 비용-효과적인 객체지향 소프트웨어를 개발할 수 있는 가능성이 높아질 것으로 기대된다.

  • PDF

시계열 네트워크분석을 통한 데이터품질 연구경향 및 산업연관 분석 (Trend of Research and Industry-Related Analysis in Data Quality Using Time Series Network Analysis)

  • 장경애;이광석;김우제
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권6호
    • /
    • pp.295-306
    • /
    • 2016
  • 본 연구는 데이터품질과 관련된 선행연구의 메타정보를 활용하여 연구경향을 분석하고 이를 통해서 산업계의 흐름을 예측하기 위한 목적의 연구이다. 다양한 분야에서 연구경향을 분석하려는 시도는 이어져 왔으나, 데이터품질 영역은 그 범위가 방대하여 선행 연구자료에 대한 분석을 수행하기 어려웠다. 본 연구는 Web of Science 색인DB에 수록된 최근 10년간의 연구 메타데이터를 수집하여 텍스트 마이닝, 사회연결망 분석기법을 활용한 시계열 네트워크 분석을 수행하였다. 연구주제 분석 결과, 수학 및 전산 생물학, 화학, 건강관리 과학 및 서비스, 생화학 및 분자 생물학, 운영 연구 및 경영 과학, 의료정보학은 연구비율이 감소하고 있었고, 환경, 수자원, 지질학, 계측기 및 계측의 연구비율은 증가하고 있었다. 또한 사회연결망 분석 결과 데이터품질 연구에서는 분석, 알고리즘, 네트워크의 주제가 중앙성이 높은 중요한 주제로 나타났으며, 이미지와 모델, 센서, 최적화가 데이터품질에서 중요한 주제로 등장하는 추세를 보였다. 데이터품질의 산업과 연관관계 분석 결과는 기술, 산업, 건강, 유틸리티, 고객서비스가 연관성이 높은 산업으로 나타났다. 본 연구의 결과는 데이터품질 연구의 패턴을 분석하고 산업과 연관관계를 찾는 데이터품질 관련 연구자 뿐아니라 산업계에도 유용한 자료로 활용되리라 판단된다.

기술로드맵을 통한 기술기획: 특허인용네트워크의 활용 (Technology Planning through Technology Roadmap: Application of Patent Citation Network)

  • 정유진;윤병운
    • 한국산학기술학회논문지
    • /
    • 제12권11호
    • /
    • pp.5227-5237
    • /
    • 2011
  • 기술로드맵은 기술, 제품, 시장의 관계를 고려하여 기술전략 및 기획을 지원하는 강력한 도구로서 기술 로드맵을 개발하거나 실무에 적용시킨 사례 등과 관련된 연구가 다수 수행되었다. 그러나 대부분의 기술로드맵 연구들은 체계적이고 정량적인 분석보다는 브레인스토밍, 전문가 그룹 활용, 델파이 등과 같은 정성적인 방법에 의존하고 있다. 이러한 한계를 극복하기 위해, 본 연구에서는 대표적인 정량적 분석인 특허분석을 활용하였다. 따라서 본 연구의 목적은 기술수명주기를 고려한 특허인용네트워크를 개발하여 기술로드맵 작성에 적용하고, 이를 통해 유망한 미개발 기술을 기획하는 것이다. 이를 위하여, 우선 특허데이터와 인용정보가 수집되고 이를 바탕으로 특허인용 네트워크가 작성된다. 둘째, 기술수명주기 및 특허출원연도를 고려하여 수명주기에서의 위치를 분석하고, 향후 기술개발기간이 추정된다. 기술진화를 보여주기 위해 하위 세부기술들은 그룹핑되어 상위기술을 설명하고 이는 기술로드맵에 포함되는 노드로서 지칭된다. 마지막으로 기술 층의 각 기술 노드들을 연결 짓고 개발기간을 추정하여 기술로드맵을 작성한다. 이 기술로드맵을 바탕으로 기술기획을 수행하기 위해 텍스트 마이닝을 적용하여 미개발 기술을 제시하고, 향후 개발될 필요가 있는 기술의 특성을 제안한다. 본 연구는 수소저장 기술을 선정하여 앞에서 제시된 방법과 과정을 설명하였다.

기술과학 분야 학술문헌에 대한 학습집합 반자동 구축 및 자동 분류 통합 연구 (Semi-automatic Construction of Learning Set and Integration of Automatic Classification for Academic Literature in Technical Sciences)

  • 김선우;고건우;최원준;정희석;윤화묵;최성필
    • 정보관리학회지
    • /
    • 제35권4호
    • /
    • pp.141-164
    • /
    • 2018
  • 최근 학술문헌의 양이 급증하고, 융복합적인 연구가 활발히 이뤄지면서 연구자들은 선행 연구에 대한 동향 분석에 어려움을 겪고 있다. 이를 해결하기 위해 우선적으로 학술논문 단위의 분류 정보가 필요하지만 국내에는 이러한 정보가 제공되는 학술 데이터베이스가 존재하지 않는다. 이에 본 연구에서는 국내 학술문헌에 대해 다중 분류가 가능한 자동 분류 시스템을 제안한다. 먼저 한국어로 기술된 기술과학 분야의 학술문헌을 수집하고 K-Means 클러스터링 기법을 활용하여 DDC 600번 대의 중분류에 맞게 매핑하여 다중 분류가 가능한 학습집합을 구축하였다. 학습집합 구축 결과, 메타데이터가 존재하지 않는 값을 제외한 총 63,915건의 한국어 기술과학 분야의 자동 분류 학습집합이 구축되었다. 이를 활용하여 심층학습 기반의 학술문헌 자동 분류 엔진을 구현하고 학습하였다. 객관적인 검증을 위해 수작업 구축한 실험집합을 통한 실험 결과, 다중 분류에 대해 78.32%의 정확도와 72.45%의 F1 성능을 얻었다.

토픽모델링을 활용한 조세순응 연구 동향 분석 (Analysis of Research Trends in Tax Compliance using Topic Modeling)

  • 강민조;백평구
    • 한국콘텐츠학회논문지
    • /
    • 제22권1호
    • /
    • pp.99-115
    • /
    • 2022
  • 본 연구의 목적은 사회과학 전반에 걸쳐서 수행되고 있는 조세 분야의 대표적인 연구주제로서 조세순응, 납세의식, 성실납세(이하 "조세순응")에 관한 연구의 흐름을 정리함으로써 융합학문으로서 세무학의 지평을 확장하는 것이다. 이에 조세순응에 관한 국내 학술지 논문을 학제적 관점에서 종합적으로 분석하기 위하여 텍스트마이닝의 일환으로 토픽모델링 기법을 적용하였다. 데이터 수집-키워드 전처리-토픽모델 분석의 흐름으로 총 347편의 논문에 연구자가 등록한 조세순응 관련 키워드들로부터 잠재적인 연구주제를 제시하고자 하였다. 본 연구의 분석 결과로 첫째, 키워드 분석에서는 세무조사, 조세회피, 성실신고확인제도 등의 키워드가 단순 빈도 기준으로 상위 5개 키워드에 포함되었고, 키워드의 상대적 중요도를 감안한 TF-IDF 값에서도 상위 5개 키워드에 포함되었다. 한편 탈세라는 키워드는 단순빈도에서 부각되지 않은 것에 비해 TF-IDF 값 기준으로 상위 키워드에 포함되었다. 둘째, 토픽모델링을 통해 잠재적인 8개의 연구주제를 도출하였다. 해당 주제는 (1) 조세공정성과 조세범칙행위의 억제, (2) 조세법의 이념과 조세정책의 타당성, (3) 실질과세원칙과 조세채권의 담보 (4) 납세협력비용과 세무행정 서비스, (5) 신고납세제도와 세무전문가, (6) 조세풍토와 전략적 조세행동, (7) 조세행동의 다면성과 차별적 순응의도, (8) 과세정보시스템과 효율적 세원관리와 같다. 본 연구는 학문 간의 경계를 넘어 조세순응이라는 주제어를 바라보는 다양한 관점을 포괄적으로 조망함으로써 학제간 소통의 기회를 마련하고 합리적인 조세제도를 구축하는데 실천적 시사점을 제시하고자 하였다.

텍스트 마이닝을 활용한 코로나 19 전후 온라인 동영상 서비스(OTT) 리뷰 비교분석 연구 - 정서 중심 대처와 노스탤지어를 중심으로 (A Comparative Analysis of OTT Service Reviews Before and After the Onset of the Pandemic Using Text Mining Technique: Focusing on the Emotion-Focused Coping and Nostalgia)

  • 고민정;이상원
    • 한국콘텐츠학회논문지
    • /
    • 제21권11호
    • /
    • pp.375-388
    • /
    • 2021
  • 본 연구에서는 팬데믹 전후로 온라인 동영상 서비스(OTT) 이용자들의 리뷰를 비교분석 함으로써 코로나 19 시대를 살아가는 소비자에 대한 이해에 기여하고자 하였다. 코로나 19 이후 통제감 상실이 회피 동기의 발현으로 이어져 정서 중심 대처 수단으로써의 OTT 서비스 이용과 노스탤지어를 해소해주는 콘텐츠에 대한 관심이 증가할 것으로 보고 이를 텍스트 분석을 통해 검증하였다. 먼저 블로그 제목 분석결과, 코로나 19 이후 넷플릭스 경쟁사에 대한 언급이 줄었으며, 국내 콘텐츠에 대한 소개와 회피-거부 전략으로써의 OTT 서비스 이용이 증가하였다. 이어 블로그 본문 분석결과, OTT 서비스의 실용적인 장점을 중요시한 코로나 19 전과는 달리 코로나 19 이후 콘텐츠의 분위기, 감정, 대사에 초점을 두었으며 코미디와 로맨스 장르에 대한 관심이 증가했다. 또한, 코로나 19 이전의 현실을 잘 표현한 일상 콘텐츠에 대한 선호가 증가하였다. 본 연구는 코로나 19가 온라인 동영상 서비스 이용에 미치는 영향을 처음으로 살펴본 연구로써 코로나 시대의 OTT 서비스 이용자들에 대한 이해를 넓히고 OTT 서비스 시장에 실무적 제언을 제시함으로써 도움을 줄 수 있을 것으로 기대한다.

빅데이터 분석을 활용한 메타버스 플랫폼 연구 동향 분석 (A Study on Research Trends in Metaverse Platform Using Big Data Analysis)

  • 홍진욱;한정완
    • 디지털융복합연구
    • /
    • 제20권5호
    • /
    • pp.627-635
    • /
    • 2022
  • 본 최근 코로나19로 인해 비대면 상황이 장기간 지속화됨에 따라 사회 전반에 걸쳐 IOT, AR, VR, 빅데이터와 같은 4차 산업 혁명의 기반 기술이 메타버스 플랫폼에 전반적으로 영향을 미치고 있다. 이러한 사회, 문화 등 외부 환경의 변화는 학문의 발전에 영향을 미칠 수 있으며, 변화에 대비하여 기존 성과물을 체계적으로 정리하는 일은 매우 중요하다. 한국 교육학술정보원(RISS)에서 키워드에 '메타버스 플랫폼'을 포함하는 자료를 수집하여 빅데이터 분석 중 하나인 텍스트 마이닝 기법을 사용하였다. 수집된 데이터 자료를 워드 클라우드 빈도 분석, 키워드 간 연결강도, 구조등위성 분석을 하여 메타버스 플랫폼 연구 동향을 살펴보았다. 연구결과 워드 클라우드 분석에서는 '활용', '디지털', '기술', '교육' 순으로 키워드가 나타났다. 키워드 간 연결강도(N-gram) 분석 결과 '에듀→테크'의 연결강도가 가장 높게 나타났으며, 워드 연쇄 군집 수의 총 3개의 군집이 도출되었다. 세부 연구영역은 '디지털 기술'을 포함 다섯 영역으로 분류되었다. 종합적으로 고려했을 때 메타버스 플랫폼 분야의 학문적 연구 주제 범위는 그리 넓지 않았으며, 장기 지향적 관점에서 보다 적극적인 연구 주제의 발굴 및 논의가 필요해 보인다.

온라인 정보 보호: 소셜 미디어 내 정보 유출 반응 분석 (Online Privacy Protection: An Analysis of Social Media Reactions to Data Breaches)

  • 서승우;고영준;이홍주
    • 지식경영연구
    • /
    • 제25권1호
    • /
    • pp.1-19
    • /
    • 2024
  • 최근 개인 정보 유출 사건이 빈번히 발생하고 빈도가 갈수록 증가하는 추세이지만, 개인 정보 유출 사건에 대한 사회나 정보주체인 시민들의 반응은 크게 대두되고 있지 않다. 또한, 개인 정보 유출 사건들에 대한 정보 주체의 반응을 여러 해 기간동안의 데이터에 기반하여 비교하는 연구는 많이 수행되어 있지 않다. 따라서, 본 연구는 2014년 1월부터 2022년 10월까지 국내에서 발생한 주요 개인정보 유출 사건들에 대한 정보주체의 소셜미디어 반응 변화를 분석하였다. 각 사건들이 발생한 직후 일주일간의 기간 동안 네이버 블로그에 작성된 총 1,317건의 포스팅을 수집하였다. 이 포스팅들에 대해 LDA 토픽 모델링 기법을 적용하여 주제를 분석한 결과, 개인정보 유출, 해킹, 정보기술 등 5개의 주요 토픽이 도출되었다. 토픽 분포의 시간변화를 분석한 결과, 개인정보 유출 사건 직후에는 해당 사건에 대한 직접적인 언급 토픽의 비중이 가장 높았으나, 시간이 지나면서 개인정보 유출과 간접적으로 관련된 토픽의 언급 비중이 증가하는 것을 확인하였다. 이는 개인정보 유출 사건 발생 후 정보주체의 관심이 시간이 지남에 따라 해당 사건에서 벗어나 관련 토픽으로 옮겨지고, 개인정보 보호에 대한 관심 또한 줄어든다는 것을 의미한다. 본 연구 결과는 향후 개인정보 유출 사건 이후 정보주체의 프라이버시 인식 변화에 대한 연구의 필요성을 시사한다.

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.