• 제목/요약/키워드: 언어통계학

검색결과 29건 처리시간 0.027초

빅 데이터 분석을 활용한 스마트폰 플랫폼 키워드에 대한 패턴 (A Pattern on Keyword of the Android through Utilizing Big Data Analysis)

  • 진찬용;남수태
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 춘계학술대회
    • /
    • pp.129-130
    • /
    • 2016
  • 빅 데이터 분석은 기존 데이터베이스 관리 도구로부터 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 말한다. 대부분의 빅 데이터 분석 기술 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 해당된다. 최근 스마트 기기의 발달과 정보통신기술의 발전은 트위터, 페이스북, 인스타그램 등의 소셜 네트워크상에서 유통되는 정보량이 폭발적 증가하고 있다. 이러한 변화는 데이터화가 가속화되고 있는 현대사회에서 데이터의 가치는 점점 높아질 것으로 예상되며, 데이터로부터 가치 있는 정보와 통찰력을 효과적으로 이끌어내는 기업이 경쟁력 확보를 위한 핵심가치가 되었다. 본 연구에서는 다음 커뮤니케이션의 빅 데이터 분석도구인 소셜 매트릭스를 활용하여 키워드 분석을 통해 스마트폰 플랫폼 키워드 의미를 분석하고자 한다.

  • PDF

빅 데이터 분석을 활용한 창조경제 키워드에 대한 패턴 (A Pattern on Keyword of the Creative Economy through Utilizing Big Data Analysis)

  • 진찬용;남수태
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 춘계학술대회
    • /
    • pp.143-144
    • /
    • 2016
  • 빅 데이터 분석은 기존 데이터베이스 관리 도구로부터 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 말한다. 또한, 대량의 정형 또는 비정형 데이터 집합으로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다. 대부분의 빅 데이터 분석 기술 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 해당된다. 글로벌 리서치 기관들은 빅 데이터를 2011년 이래로 최근 가장 주목받는 신기술로 지목해오고 있다. 따라서 대부분의 산업에서 기업들은 빅 데이터의 적용을 통해 가치 창출을 위한 노력을 기하고 있다. 본 연구에서는 다음 커뮤니케이션의 빅 데이터 분석도구인 소셜 매트릭스를 활용하여 키워드 분석을 통해 창조경제 키워드 의미를 분석하고자 한다. 또한, 분석결과를 바탕으로 이론적 실무적 시사점을 제시하고자 한다.

  • PDF

빅데이터 분석을 활용한 콜라겐 키워드에 대한 패턴 (A Pattern Study on Keyword of the Collagen through Utilizing Big Data Analysis)

  • 유옥경;진찬용;남수태
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 추계학술대회
    • /
    • pp.124-125
    • /
    • 2016
  • 빅데이터 분석은 기존 데이터베이스 관리 도구로부터 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 말한다. 또한 대량의 정형 또는 비정형 데이터 집합으로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다. 대부분의 빅데이터 분석 기술 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 해당된다. 글로벌 리서치 기관들은 빅데이터를 2011년 이래로 최근 가장 주목받는 신기술로 지목해오고 있다. 따라서 대부분의 산업에서 기업들은 빅데이터의 적용을 통해 가치 창출을 위한 노력을 기울이고 있다. 본 연구에서는 다음 커뮤니케이션의 빅데이터 분석도구인 소셜 매트릭스를 활용하여 키워드 분석을 통해 콜라겐 키워드에 대한 의미를 분석하고자 한다. 또한 분석결과를 바탕으로 실무적 시사점을 제시하고자 한다.

  • PDF

유사도 기반 이미지 캡션을 이용한 시각질의응답 연구 (Using similarity based image caption to aid visual question answering)

  • 강준서;임창원
    • 응용통계연구
    • /
    • 제34권2호
    • /
    • pp.191-204
    • /
    • 2021
  • 시각질의응답과 이미지 캡셔닝은 이미지의 특징과 문장의 언어적인 특징을 이해하는 것을 요구하는 작업이다. 따라서 두 가지 작업 모두 이미지와 텍스트를 연결해 줄 수 있는 공동 어텐션이 핵심이라고 할 수 있다. 본 논문에서는 MSCOCO 데이터 셋에 대하여 사전 훈련된 transformer 모델을 이용 하여 캡션을 생성한 후 이를 활용해 시각질의응답의 성능을 높이는 모델을 제안하고자 한다. 이때 질 문과 관계없는 캡션은 오히려 시각질의응답에서 답을 맞히는데 방해가 될 수 있기 때문에 질문과의 유사도를 기반으로 질문과 유사한 일부의 캡션을 활용하도록 하였다. 또한 캡션에서 불용어는 답을 맞히는데 영향을 주지 못하거나 방해가 될 수 있기 때문에 제거한 후에 실험을 진행하였다. 기존 시 각질의응답에서 이미지와 텍스트간의 공동 어텐션을 활용하여 좋은 성능을 보였던 deep modular co-attention network (MCAN)과 유사도 기반의 선별된 캡션을 사용하여 VQA-v2 데이터에 대하여 실험을 진행하였다. 그 결과 기존의 MCAN모델과 비교하여 유사도 기반으로 선별된 캡션을 활용했을 때 성능 향상을 확인하였다.

PHP3를 이용한 웹상에서의 통계분석 (Statistical Analysis on the Web Using PHP3)

  • 황진수;엄대호
    • Journal of the Korean Data and Information Science Society
    • /
    • 제10권2호
    • /
    • pp.501-510
    • /
    • 1999
  • 컴퓨터의 발달과 더불어 멀티미디어 산업은 급속히 발전하고 있고, 인터넷 또한 폭발적으로 확산되면서 우리의 컴퓨터 환경을 바꾸어 놓고 있다. 통계학 분야에서도 마찬가지로 인터넷을 이용한 기초통계 교육의 필요성이 대두되고 있다. 본 논문에서는 스크립트 언어인 PHP3을 이용하여 웹상에서 동적인 그래프를 통한 기초 자료 분석 및 간단한 검정을 구현하였다. 또한 데이터베이스의 자료와 연동하여 웹상에서의 설문조사 및 결과를 제시하였다. PHP3는 서버에서 수행이 되며 Apache 웹서버에서 모듈형태로 연계되어 있어 기존의 CGI에 비하여 빠른 처리속도를 얻을 수 있는 스크립트언어이며 인터넷상에서 많은 활용을 기대 할 수 있다.

  • PDF

빅데이터 분석 도구 R 언어를 이용한 비정형 데이터 시각화 (Visualizing Unstructured Data using a Big Data Analytical Tool R Language)

  • 남수태;진금회;신성윤;진찬용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.151-154
    • /
    • 2021
  • 빅데이터 분석은 데이터 저장소에 저장된 대용량 데이터 속에서 의미 있는 새로운 상관관계, 패턴, 추세를 발견하여 새로운 가치를 창출하는 과정이다. 또한 대부분의 빅데이터 분석 기술 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 이에 해당된다. 그리고 빅데이터 분석 도구인 R언어를 이용하여 전-처리된 텍스트 데이터를 이용하여 다양한 시각화 함수를 통해 분석결과를 표현할 수 있다. 본 연구에서 사용된 데이터는 한국정보통신학회 학회지 논문 중에서 2021년 3월호 논문 21편을 대상으로 분석을 하였다. 최종 분석결과는 가장 많이 언급된 키워드는 "데이터"가 305회로 1위를 차지하였다. 따라서 이러한 분석결과를 바탕으로 연구의 한계와 이론적 실무적 시사점을 제시하고자 한다.

  • PDF

빅데이터 분석 도구 R 언어를 이용한 논문 데이터 시각화 (Visualizing Article Material using a Big Data Analytical Tool R Language)

  • 남수태;신성윤;진찬용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.326-327
    • /
    • 2021
  • 최근 빅데이터 활용은 매우 다양한 산업 분야에서 광범위하게 관심을 가지고 있다. 빅데이터 분석은 데이터 저장소에 저장된 대용량 데이터 속에서 의미 있는 새로운 상관관계, 패턴, 추세를 발견하여 새로운 가치를 창출하는 과정이다. 또한 대부분의 빅데이터 분석 기술 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 이에 해당된다. 그리고 빅데이터 분석 도구인 R언어를 이용하여 전-처리된 텍스트 데이터를 이용하여 다양한 시각화 함수를 통해 분석결과를 표현할 수 있다. 본 연구에서 사용된 데이터는 특정 학회지 논문 중에서 29편을 대상으로 분석을 하였다. 최종 분석결과는 가장 많이 언급된 키워드는 "연구"가 743회로 1위를 차지하였다. 따라서 이러한 분석결과를 바탕으로 연구의 한계와 이론적 실무적 시사점을 제시하고자 한다.

  • PDF

Voxceleb과 한국어를 결합한 새로운 데이터셋으로 학습된 ECAPA-TDNN을 활용한 화자 검증 (Speaker verification with ECAPA-TDNN trained on new dataset combined with Voxceleb and Korean)

  • 윤금재;박소영
    • 응용통계연구
    • /
    • 제37권2호
    • /
    • pp.209-224
    • /
    • 2024
  • 화자검증(speaker verification)이란 두개의 음성 데이터로부터 같은 화자의 목소리 인지 아닌지를 판단하는것을 말한다. 범죄현장에서 범인의 목소리만이 증거로 남는경우, 두개의 목소리를 객관적이고 정확하게 비교할 수 있는 화자 검증 시스템 또는 화자 매칭 시스템의 구축이 시급하다. 본 연구에서는 한국어에 대한 화자검증 딥러닝 모형을 새롭게 구축하고, 학습에 필요한 적절한 형태의 학습데이터셋에 대해 연구한다. 음성데이터는 고차원이면서 백그라운드 노이즈를 포함하는 등의 변동성이 큰 특징이 있다. 따라서 화자 검증 시스템을 구축하기위해 딥러닝 기반의 방법 선택하는경우가 많다. 본 연구에서는 ECAPA-TDNN 모형을 선택하여 화자 매칭 알고리즘을 구축하였다. 구축한 모형을 학습시키는데 사용한 Voxceleb은 대용량의 목소리 데이터로 다양한 국적을 가진 사람들로부터 음성데이터를 포함하지만 한국어에 대한 정보는 포함하지 않는 다. 본 연구에서는 한국어 음성데이터를 학습에 포함시켰을때와 포함시키지 않았을때 학습 데이터 내 해당언어의 존재 유무가 모델의 성능에 미치는 영향에 대해 파악하였다. Voxceleb으로만 학습한 모델과 언어와 화자의 다양성을 최대로 하기 위해 Voxceleb과 한국어 데이터셋을 결합한 데이터셋으로 학습한 모델을 비교하였을 때, 모든 테스트 셋에 대해 한국어를 포함한 학습데이터의 성능이 개선됨을 보인다.

단어 임베딩 기법을 이용한 한글의 의미 변화 파악 (Understanding the semantic change of Hangeul using word embedding)

  • 선현석;이영섭;임창원
    • 응용통계연구
    • /
    • 제34권3호
    • /
    • pp.295-308
    • /
    • 2021
  • 최근 들어 많은 사람들이 자신의 관심사를 SNS에 게시하거나 인터넷과 컴퓨터의 기술 발달로 디지털 형태의 문서 저장이 가능하게 됨으로써 생성되는 텍스트 자료의 양이 폭발적으로 증가하게 되었다. 이에 따라 수많은 문서 자료로부터 가치 있는 정보를 창출하기 위한 기술의 요구 또한 증가하고 있다. 본 연구에서는 대통령 연설 기록문과 신문기사 공공데이터를 활용하여 한글 단어들이 시간에 따라 어떻게 의미가 변화되어 가는지를 통계적 기법을 통해 발굴하였다. 이를 이용하여 한글의 통시적 변화 연구에 활용할 수 있는 방안을 제시한다. 기존 언어학자나 원어민의 직관에 의해 연구되던 한글의 이론적 언어 현상 연구에서 벗어나 누구나 사용할 수 있는 공공문서를 통해 수치화된 값을 도출하고 단어의 의미변화 현상을 설명하고자 한다.

빅데이터 분석을 활용한 4차 산업혁명 키워드에 대한 통찰 (A Insight Study on Keyword of 4th Industrial Revolution Utilizing Big Data)

  • 남수태;진찬용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.153-155
    • /
    • 2017
  • 빅데이터 분석은 데이터베이스에 잘 정리된 정형 데이터뿐 아니라 인터넷, 소셜 네트워크 서비스, 모바일 환경에서 생성되는 웹 문서, 이메일, 소셜 데이터 등 비정형 데이터를 효과적으로 분석하는 기술을 말한다. 대부분의 빅데이터 분석 기술 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 이에 해당된다. 글로벌 리서치 기관들은 빅데이터를 2011년 이래로 최근 가장 주목받는 신기술로 지목해오고 있다. 따라서 대부분의 산업에서 기업들은 빅데이터의 적용을 통해 가치 창출을 위한 노력을 기하고 있다. 본 연구에서는 다음 커뮤니케이션의 빅데이터 분석도구인 소셜 매트릭스를 활용하여 2017년 5월, 1개월 시점을 설정하고 "4차 산업혁명" 키워드에 대한 소비자들의 인식들을 살펴보았다. 빅데이터 분석의 결과는 다음과 같다. 첫째, 4차 산업혁명 키워드에 대한 연관 검색어 1위는 "후보"가 빈도수(7,613)인 것으로 나타났다. 둘째, 연관 검색어 2위는 "안철수"가 빈도수(7,297), 3위는 "문재인"이 빈도수(5,183)로 각각 나타났다. 다음으로 "4차 산업혁명" 키워드에 대한 검색어 긍정적 여론 빈도수 1위는 새로운(895)으로 나타났고, 부정적 여론 빈도수 1위는 위기(516)가 차지하였다. 이러한 결과 분석결과를 바탕으로 연구의 한계와 시사점을 제시하고자 한다.

  • PDF