• 제목/요약/키워드: 기술통계학

검색결과 108건 처리시간 0.025초

다국어 사용자 후기에 대한 속성기반 감성분석 연구 (A study on the aspect-based sentiment analysis of multilingual customer reviews)

  • 지성영;이시윤;최대우;강기훈
    • 응용통계연구
    • /
    • 제36권6호
    • /
    • pp.515-528
    • /
    • 2023
  • 전자상거래 시장의 성장과 더불어 소비자들은 상품 및 서비스 구매 시 다른 사용자가 작성한 후기 정보에 기반하여 구매 의사를 결정하게 되며 이러한 후기를 효과적으로 분석하기 위한 연구가 활발히 이루어지고 있다. 특히, 사용자 후기에 대해 단순 긍/부정으로 감성분석하는 것이 아니라 다면적으로 분석하는 속성기반 감성분석 방법이 주목받고 있다. 속성기반 감성분석을 위한 다양한 방법론 중 최신 자연어 처리 기술인 트랜스포머 계열 모델을 활용한 분석 방법이 있다. 본 논문에서는 최신 자연어 처리 기술 모델에 두 가지 실제 데이터를 활용하여 다국어 사용자 후기에 대한 속성기반 감성분석을 진행하였다. 공개된 데이터 셋인 SemEval 2016의 Restaurant 데이터와 실제 화장품 도메인에서 작성된 다국어 사용자 후기 데이터를 활용하여 속성기반 감성분석을 위한 트랜스포머 계열 모델의 성능을 비교하였고 성능 향상을 위한 다양한 방법론도 적용하였다. 다국어 데이터를 활용한 모델을 통해 언어별로 별도의 모델을 구축하지 않고 한가지 모델로 다국어를 분석할 수 있다는 점에서 효용 가치가 클 것으로 예상된다.

연구여적 - 의사 아닌 학문의 길 보람의 삶

  • 맹광호
    • 과학과기술
    • /
    • 제32권7호통권362호
    • /
    • pp.76-77
    • /
    • 1999
  • 의과대학 동기 65명중 예방의학자의 길을 택한 사람은 나 하나 뿐이었다. 밤낮 구별없이 대학서 지세운 대학 조교생활 4년, 국내서 박사학위를 받고 미국으로 유학, 하와이대서 '질병역학과 통계학 연계과정' 박사학위를 받을 때까지 연구현장에서 젊음을 불태운 삶의 여정에 지금 나는 만족한다. 젊어서 연구에 많은 시간을 보내고 나이가 들어서 교육에 시간을 보내는 학문의 길은 내가 선택한 가장 적합한 길이라고 확신한다.

  • PDF

특허분석을 위한 빅 데이터학습 (A Big Data Learning for Patent Analysis)

  • 전성해
    • 한국지능시스템학회논문지
    • /
    • 제23권5호
    • /
    • pp.406-411
    • /
    • 2013
  • 빅 데이터는 여러 분야에서 다양한 개념으로 사용된다. 예를 들어, 컴퓨터학과 사회학에서 빅 데이터에 대한 접근방법에 차이가 있지만, 데이터분석 관점에서는 공통적인 부분을 갖는다. 즉, 공학이든 사회과학이든 빅 데이터에 대한 분석은 반드시 필요하다. 통계학과 기계학습은 빅 데이터의 분석을 위한 대표적인 분석도구이다. 본 논문에서는 빅 데이터분석을 위한 학습도구에 대하여 알아보고 검색된 빅 데이터 원천에서부터 분석을 거쳐 최종적으로 분석결과를 사용하는 전체과정에 대하여 효율적인 빅 데이터학습 절차에 대하여 제안한다. 특히, 대표적인 빅 데이터 구조를 갖고 있는 특허문서에 대하여 빅데이터학습을 적용하여 특허분석을 수행하고 이 결과를 기술예측에 적용하는 방법에 대하여 연구한다. 제안방법에 대한 실제적용을 위하여 전 세계 특허청으로부터 빅 데이터 관련 특허문서를 검색하여 텍스트 마이닝의 전처리와 통계학의 다중선형회귀분석을 이용한 구체적인 빅 데이터학습에 대한 사례연구를 수행하였다.

텍스트 마이닝 기법을 이용한 게임 마케팅 비디오에서의 스피치 분석 (Analysis of speech in game marketing video using text mining techniques)

  • 이여경;김재직
    • 응용통계연구
    • /
    • 제35권1호
    • /
    • pp.147-159
    • /
    • 2022
  • 오늘날 다양한 소셜 미디어 플랫폼이 널리 퍼져 있고 사람들은 그들의 일상생활 속에서 밀접하게 그러한 플랫폼들을 이용하고 있다. 이에 따라, 많은 수의 구독자, 시청, 댓글 등을 보유한 인플루언서들은 우리 사회 속에서 큰 영향력을 가지게 되었다. 이러한 추세에 따라 많은 회사들은 그들의 상품과 서비스 판매의 촉진을 위한 마케팅 목적으로 인플루언서들을 적극 활용하고 있다. 본 연구에서는 게임 마케팅을 위한 비디오에서 인플루언서들의 스피치를 추출하고 텍스트화하여 이를 텍스트 마이닝 기술을 이용하여 탐색적으로 분석한다. 분석에 있어, 성공한 마케팅 비디오와 실패한 마케팅 비디오를 구분하고 성공, 실패한 마케팅 비디오에서 인플루언서들의 언어적 특징들을 비교 분석한다.

스마트폰 혁신기술이 사용자 저항에 미치는 영향 (Factors Affecting the Resistance of Innovation Technology based Smartphone Environment)

  • 남수태;진찬용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 추계학술대회
    • /
    • pp.137-138
    • /
    • 2016
  • 본 연구에서는 기술수용모델과 혁신확산이론을 기반으로 스마트폰 혁신기술 저항에 관한 재사용 의도에 미치는 영향을 알아보고자 한다. 외부변수는 기술수용모델의 인지된 유용성과 인지된 사용 용이성 그리고 혁신확산이론의 적합성과 복잡성을 4개 변수를 두고자 한다. 예측변수는 혁신저항 변수를 두고 재사용의도에 미치는 영향으로 하여 개념모델을 완성하였다. 또한 혁신저항 변수가 인지된 위험 요인을 매개하여 재사용의도에 미치는 영향을 알아보고자 하였다. 연구대상은 부산 경남지역 및 전북지역에 거주하는 스마트폰 사용자를 대상으로 설문을 통해 자료를 수집하고자 한다. 인구통계학인 분석은 IBM SPSS Statistics 19로 하고 확인적 요인분석과 변수들 간의 인과관계에 대한 경로분석은 Smart PLS를 사용하여 분석하고자 한다. 분석결과를 바탕으로 이론적 실무적 시사점을 제시하고자 한다.

  • PDF

한국판 통계에 대한 태도 검사(K-SATS) 타당화 (Validation Study of Korean Version of Survey of Attitudes Toward Statistics(K-SATS))

  • 이현숙;전수현
    • 응용통계연구
    • /
    • 제22권5호
    • /
    • pp.1115-1129
    • /
    • 2009
  • 전통적으로 대학에서 개설되는 통계학 강좌의 지향점은 통계적 지식과 기술의 습득 여부에 주된 초점이 맞추어져 있었다. 그러나 최근 연구에서 통계에 대한 태도와 같은 비인지적 요인이 통계학 성취도에 유의미한 영향을 미치는 것으로 나타나 통계 학습에 대한 긍정적인 태도의 함양이 통계 지식 및 기술의 습득 못지않게 중요한 통계학 강좌의 과제로 부각되었다. 이에 해외에서는 통계에 대한 태도를 측정하는 검사의 개발 및 타당화 연구가 많이 이루어졌으나 국내는 아직 미비한 실정이다. 따라서 본 연구에서는 통계에 대한 태도를 가장 타당하게 측정하고 있다고 평가되고 있는 SATS-36(Survey of Attitudes Toward Statistics-36; Schau 등, 1995)을 우리나라 대학생들의 특성에 맞게 수정한 한국판 통계에 대한 태도 검사(K-SATS)를 타당화하고자 하였다. 예비분석 결과 원척도의 6요인이 아닌 흥미, 가치, 인지적 역량, 용이성, 노력의 5요인 구조가 한국 학부생 및 대학원생들에게 적합한 것으로 나타났으며, 본 검사 분석 결과 K-SATS의 신뢰도와 구인타당도가 확인되었다. 또한 K-SATS의 전체 혹은 하위 척도별 점수에서 성별, 강좌 수준, 학위 과정, 전공 계열에 따라 학생들의 통계에 대한 태도에 유의한 차이가 있는 것으로 나타났다. 이러한 연구 결과를 토대로 한국판 통계 태도 검사가 추후 연구와 교수방법에 주는 시사점에 대해 논의하였다.

기계학습 접근법에 기반한 유전자 선택 방법들에 대한 리뷰 (A review of gene selection methods based on machine learning approaches)

  • 이하정;김재직
    • 응용통계연구
    • /
    • 제35권5호
    • /
    • pp.667-684
    • /
    • 2022
  • 유전자 발현 데이터는 각 유전자에 대해 mRNA 양의 정도를 나타내고, 그러한 유전자 발현량에 대한 분석은 질병 발생에 대한 메커니즘을 이해하고 새로운 치료제와 치료 방법을 개발하는데 중요한 아이디어를 제공해오고 있다. 오늘날 DNA 마이크로어레이와 RNA-시퀀싱과 같은 고출력 기술은 수천 개의 유전자 발현량을 동시에 측정하는 것을 가능하게 하여 고차원성이라는 유전자 발현 데이터의 특징을 발생시켰다. 이러한 고차원성으로 인해 유전자 발현 데이터를 분석하기 위한 학습 모형들은 과적합 문제에 부딪히기 쉽고, 이를 해결하기 위해 차원 축소 또는 변수 선택 기술들이 사전 분석 단계로써 보통 사용된다. 특히, 사전 분석 단계에서 우리는 유전자 선택법을 이용하여 부적절하거나 중복된 유전자를 제거할 수 있고 중요한 유전자를 찾아낼 수도 있다. 현재까지 다양한 유전자 선택 방법들이 기계학습의 맥락에서 개발되어왔다. 본 논문에서는 기계학습 접근법을 사용하는 최근의 유전자 선택 방법들을 집중적으로 살펴보고자 한다. 또한, 현재까지 개발된 유전자 선택 방법들의 근본적인 문제점과 앞으로의 연구 방향에 대해 논의하고자 한다.

결측값 대체를 위한 데이터 재현 기법 비교 (Comparison of Data Reconstruction Methods for Missing Value Imputation)

  • 김청호;강기훈
    • 문화기술의 융합
    • /
    • 제10권1호
    • /
    • pp.603-608
    • /
    • 2024
  • 무응답 및 결측값은 표본 탈락, 설문조사에 대한 답변 회피 등으로 발생하며 정보의 손실 및 편향된 추론의 가능성이 있는 문제가 발생하게 되며, 이 경우 결측값을 적절한 값으로 바꾸는 대체가 필요하게 된다. 본 논문에서는 결측값에 대한 대체 방법으로 제안되었던 평균 대체, 다중회귀 대체, 랜덤 포레스트 대체, K-최근접 이웃 대체, 그리고 딥러닝을 기본으로 한 오토인코더 대체와 잡음제거 오토인코더 대체 방법을 비교한다. 결측값을 대체하는 이러한 방법들에 대해 설명하고, 연속형의 모의실험 데이터와 실제 데이터에 접목시켜 각 방법들을 비교하였다. 비교 결과 대부분의 경우에서 다중 대체 방법인 랜덤 포레스트 대체 방법과 잡음제거 오토인코더 대체 방법의 성능이 좋았음을 확인하였다.

대기 중 PM-10 오염원의 정량적 기여도 추정을 위한 PMF 모델의 적용 (Application of the PMF Model for Estimating Quantitative Source Contributions of Ambient PM-10)

  • 황인조;김동술
    • 한국대기환경학회:학술대회논문집
    • /
    • 한국대기환경학회 2003년도 춘계학술대회 논문집
    • /
    • pp.62-63
    • /
    • 2003
  • 대기 중 입자상 및 가스상 오염물질에 대한 오염원의 영향을 확인하고 기여도를 정량화하기 위하여 수용방법론 (receptor methods)이 이용되고 있다. 수용방법론은 각종 응용통계학을 기반으로 한 계량화 학적 분석기술로서, 일반대기 중 수용체에서 가스상ㆍ입자상 오염물질의 물리ㆍ화학적 특성을 분석한 후, 대기질에 영향을 미치는 오염원을 확인하고 기여도를 정량적으로 파악하여 대기오염 관리를 합리적으로 수행할 수 있는 통계적 방법이다. 또한 수용방법론은 입자상 및 가스상 오염물질의 분석에 다각도로 응용할 수 있으며, 합리적인 대기오염 관리를 유도하는 기초기술이라 할 수 있다(황인조 등, 2001). (중략)

  • PDF

빅 데이터 분석을 활용한 스마트폰 플랫폼 키워드에 대한 패턴 (A Pattern on Keyword of the Android through Utilizing Big Data Analysis)

  • 진찬용;남수태
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 춘계학술대회
    • /
    • pp.129-130
    • /
    • 2016
  • 빅 데이터 분석은 기존 데이터베이스 관리 도구로부터 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 말한다. 대부분의 빅 데이터 분석 기술 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 해당된다. 최근 스마트 기기의 발달과 정보통신기술의 발전은 트위터, 페이스북, 인스타그램 등의 소셜 네트워크상에서 유통되는 정보량이 폭발적 증가하고 있다. 이러한 변화는 데이터화가 가속화되고 있는 현대사회에서 데이터의 가치는 점점 높아질 것으로 예상되며, 데이터로부터 가치 있는 정보와 통찰력을 효과적으로 이끌어내는 기업이 경쟁력 확보를 위한 핵심가치가 되었다. 본 연구에서는 다음 커뮤니케이션의 빅 데이터 분석도구인 소셜 매트릭스를 활용하여 키워드 분석을 통해 스마트폰 플랫폼 키워드 의미를 분석하고자 한다.

  • PDF