• 제목/요약/키워드: 단어산출

검색결과 84건 처리시간 0.112초

뉴스 빅데이터 분석을 활용한 가뭄지수 재생산 (Reproduction of drought index using news big data analysis)

  • 정진홍;박동혁;안재현
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.386-386
    • /
    • 2020
  • 가뭄은 강수, 증발산, 대기온도, 토양수분 등 다양한 수문기상학적 인자들이 복합적으로 작용하여 발생되기 때문에 가뭄의 정확한 사상을 분석하는 것은 매우 어렵다. 또한 어떤 요인을 중심으로 고려하느냐에 따라 가뭄은 다양한 시각으로 정의되고 있다. 일정기간 평균 강수량보다 적은 강수로 인해 건조한 날이 지속되는 것, 즉 기상요소를 중심으로 가뭄을 정의하는 것을 기상학적 가뭄이라 하며, 작물의 생육에 필요한 수분을 중심으로 고려하는 것을 농업적 가뭄이라 한다. 또한 하천유량, 댐 저수량 등 전반적인 수자원 공급원의 부족을 수문학적 가뭄이라 한다. 이와 같이 다양하게 나타는 가뭄의 발생특성을 정량적으로 해석하기 위해 다양한 가뭄지수가 개발되어 왔다. 그러나 현재까지 개발된 가뭄지수들은 공통적으로 정형데이터를 활용하여 산정한다. 하지만 최근에는 비정형데이터를 활용하여 지수(Index)를 산정하거나, 재난관리에 적용하는 등 비정형 데이터의 활용이 급증하고 있다. 따라서 본 연구에서는 비정형 데이터(뉴스 데이터)를 활용하여 가뭄지수를 산정하고 기존의 가뭄지수들과의 상관성 분석을 실시 한 뒤, 지수결합을 통해 가뭄사상 분석의 새로운 방안을 제시하고자 하였다. 본 연구의 공간적범위는 2014~2015 충남서북부가뭄 지역 중 가장 큰 피해를 입었던 보령지역으로 선정하였으며 시간적범위는 2013~2016년으로 설정하였다. 비정형 데이터의 구축은 크롤링(Crawling)을 활용하여 네이버 뉴스의 기사를 수집하였으며 자료의 신뢰성을 위해 URL이 동일한 중복기사 및 '보령', '가뭄' 단어가 없는 기사는 제거하였다. 구축된 데이터를 기반으로 월별 빈도를 산출하고 표준점수(Z-score)로 환산하여 가뭄지수를 산정하였다. 산정된 가뭄지수가 어떤 가뭄의 유형(기상학적, 농업적, 수문학적)을 보이는지 확인하기 위해 기존의 가뭄지수들과 상관성분석을 실시하였으며, 가장 높은 상관성을 보이는 가뭄지수와 결합을 통해 새로운 가뭄 사상을 분석하였다. 본 연구에서 진행한 가뭄사상 분석은 향후 가뭄만이 아니라 다양한 재난분야에서 비정형 데이터를 활용한 분석의 기초로자료로 활용될 수 있을 것이다.

  • PDF

새로운 자극제시방법을 사용한 P300 문자입력기 (P300 speller using a new stimulus presentation paradigm)

  • 엄진섭;양혜련;박미숙;손진훈
    • 감성과학
    • /
    • 제16권1호
    • /
    • pp.107-116
    • /
    • 2013
  • P300 문자입력기에 사용되는 대표적인 자극제시방법은 행-열 패러다임(RCP)이다. 그러나 RCP는 근접-혼동 오류와 이중-깜박임 문제를 가지고 있다. 본 연구에서는 RCP가 가지고 있는 두 가지 오류의 원천을 효과적으로 통제하는 하위블록 패러다임(SBP)을 제안하고 검증하였다. 15명의 실험참가자에게 RCP와 SBP를 모두 사용하여 문자를 입력하도록 하였다. 뇌파는 Fz와 Cz, Pz, P3, P4, PO7, PO8에서 측정하였다. 각 패러다임은 분류기를 학습시키기 위한 훈련단계와 문자입력기의 성능을 평가하기 위한 검사단계로 구성되어 있다. 훈련단계에서 18개의 문자를 입력하였으며, 검사단계에서 5명은 50개의 단어를 입력하였고 나머지 10명은 25개의 단어를 입력하였다. 정확도를 산출한 결과, SBP의 정확도는 83.73%로 RCP의 정확도 66.40%보다 통계적으로 유의하게 더 높았다. Pz에서 측정한 ERP를 분석하였을 때, 목표자극에 대한 정적 정점의 진폭이 RCP보다 SBP에서 더 크게 나타나 실험참가자들이 SBP에서 특정 문자에 더 많은 주의를 집중한 것으로 보인다. P300 문자입력기에 대한 사용용이성을 7점 척도로 측정하였을 때, SBP가 RCP보다 더 사용하기 쉬운 것으로 나타났다. 특히 RCP의 사용용이성은 대부분의 실험참가자들이 '힘들었다'는 범주에 응답한 반면, SBP의 사용용이성은 모든 피험자들이 '보통'과 '쉬웠다'의 범주에 응답하였다. 전반적으로 SBP가 RCP보다 우월한 것으로 평가되었으며, 논의에 SBP의 한계점에 대해서 기술하였다.

  • PDF

빅데이터 마이닝에 의한 공시지가 민원의 시공간적 분석모델 제시 (A Suggestion for Spatiotemporal Analysis Model of Complaints on Officially Assessed Land Price by Big Data Mining)

  • 조태인;최병길;나영우;문영섭;김세훈
    • 지적과 국토정보
    • /
    • 제48권2호
    • /
    • pp.79-98
    • /
    • 2018
  • 이 연구는 빅데이터 마이닝에 기초하여 공시지가 민원에 대한 시공간적 특성을 분석하는 모델을 제시하는 데 목적이 있다. 특히 이 연구는 행정 민원이 제기되는 원인을 학술적 요인보다는 시공간적 측면에서 찾았고, 그러한 민원 발생의 경향을 시공간적으로 모니터링하는 모델을 제시하였다. 2006년부터 2015년까지 인천광역시 중구의 공시지가에 대한 6,481개의 민원정보가 시간 및 공간적 특성을 고려해 수집되었고 분석을 위해 사용되었다. 텍스트 마이닝 기법을 이용해 주요 키워드의 빈도수를 도출했으며, 소셜 네트워크 분석을 통해 주요 키워드 간의 관계를 분석하였다. 키워드의 가중치와 연관되는 TF(term frequency)와 TF-IDF(term frequency-inverse document frequency)를 산출함으로써, 공시지가의 민원 발생에 대한 주요 키워드를 식별하였다. 마지막으로 Getis-Ord의 $Gi^*$의 통계량에 기초한 핫스팟 분석을 통해 공시지가 민원의 시공간적 특성을 분석하였다. 연구 결과, 공시지가 민원의 특성은 시공간적으로 연계된 군집 형태를 형성하면서 변화하고 있음을 알 수 있었다. 텍스트 마이닝과 소셜 네트워크 분석 방법을 이용하여 자연어 기반의 공시지가 민원에 대한 발생 원인을 정량적으로 규명할 수 있음을 알 수 있었으며, 키워드 가중치인 단어 빈도(TF) 및 단어 빈도와 역문서 빈도의 조합값(TF-IDF)의 상대적인 차이가 있어 시공간적인 민원 특성을 분석하기 위한 주요 설명변수로 활용될 수 있음을 알 수 있었다.

한국어 음소 최소대립쌍의 계량언어학적 연구: 초성 자음을 중심으로 (A quantitative study on the minimal pair of Korean phonemes: Focused on syllable-initial consonants)

  • 정지은
    • 말소리와 음성과학
    • /
    • 제11권1호
    • /
    • pp.29-40
    • /
    • 2019
  • 이 연구의 목적은 한국어 음소의 최소대립쌍 출현 양상에 대해 계량언어학적으로 알아보는 것이다. 최소대립쌍은 한 언어에서 음소의 체계를 세우는 데 중요한 역할을 하고, 기능부담량의 측정에도 중요한 척도가 됨에도 불구하고 아직까지 한국어 음소의 최소대립쌍에 대한 전면적인 연구가 이루어지지 않았다. 이를 위해 "우리말샘"의 표제어 325,715개의 발음을 대상으로 초성 위치에서의 자음 최소대립쌍의 개수를 절대수치와 상대수치로 산출하고, 최소대립쌍을 이루는 두 단어의 품사 관계에 대해서 분석했다. "우리말샘"을 연구의 대상으로 삼은 이유는 최소대립쌍 분석은 기본적으로 사전을 통해서 이루어져야 한다고 판단했고, 한국어 사전 중 규모가 가장 크기 때문이다. 연구 결과는 다음과 같다. 첫째, 최소대립쌍은 총 153가지, 337,135개였다. 개수가 많은 음소 쌍(/ㅅ-ㅈ/, /ㄱ-ㅅ/, /ㄱ-ㅈ/, /ㄱ-ㅂ/, /ㄱ-ㅎ/)은 평음의 비중이 높고, 개수가 적은 음소 쌍(/ㅃ-ㅋ/, /ㄹ-ㅃ/, /ㅉ-ㅋ/, /ㄸ-ㅋ/, /ㅆ-ㅋ/)은 경음의 비중이 높았다. 최소대립쌍 형성에 많은 역할을 담당하는 음소를 개별 음소 단위에서 살펴보면 /ㄱ, ㅅ, ㅈ, ㅂ, ㅊ/ 순으로 높게 나타났는데, 경구개음의 비율이 높게 나타난 것이 특징적이었다. 삼지적 상관속을 이루는 장애음의 최소 대립쌍 관계에도 조음 위치와 조음 방법에 따라 차이가 나타났다. 최소대립쌍의 절대수치와 상대수치의 상관계수는 0.937로 높은 상관관계를 보였다. 둘째, 최소대립쌍을 이루는 두 단어의 품사는 '명사-명사'의 최소대립쌍이 70.25%로 가장 많았고, 그다음으로 '동사-동사' 쌍이 14.77%로 나타나 이 두 유형이 전체 85% 이상을 차지했다. 초성 최소대립쌍의 품사 일치율은 87.91%로 나타나 최소대립쌍은 의미 형태적으로도 비슷한 범주로 묶일 수 있음을 확인할 수 있었다. 이 연구의 결과는 한국어 음소와 관련된 기초 자료로서 국어학, 언어 병리학, 언어 교육, 언어 습득, 음성 공학 등의 다양한 응용 분야에서 유용하게 활용될 수 있을 것이다.

블로그 데이터 감성분석을 통한 북한산둘레길 구간별 선호도 평가 (Evaluation of Preference by Bukhansan Dulegil Course Using Sentiment Analysis of Blog Data)

  • 이성희;손용훈
    • 한국조경학회지
    • /
    • 제49권3호
    • /
    • pp.1-10
    • /
    • 2021
  • 본 연구는 탐방객이 자유롭게 서술한 블로그 텍스트 데이터를 자연어 처리 기술 중 하나인 감성분석을 활용하여 북한산둘레길의 선호도를 평가하고, 선호 요인과 비선호 요인을 도출하는 것을 목적으로 하였다. 이에 2019년 1년 동안 작성된 블로그를 수집하고 21개 둘레길 구간별 텍스트에 나타난 긍정 및 부정 감성 단어 도출을 통해 감성점수를 산출하였다. 이후 내용분석을 통해 탐방객이 어떤 요소로 인해 구간을 선호하거나 선호하지 않는지 파악하였다. 북한산둘레길에 대해 작성된 블로그에서는 긍정적인 단어가 평균적으로 약 73% 출현하고 있었고, 각 구간별 게시물의 감성 극성 비율에서도 긍정적인 문서의 비율이 부정적인 문서의 비율보다 높았다. 이를 통해 탐방객은 북한산둘레길에 대하여 대체로 긍정적으로 인식하고 있는 것으로 나타났다. 그럼에도 감성점수를 도출한 결과, 21개 둘레길 구간에서는 선호하는 구간과 선호하지 않는 구간이 존재하고 있었다. 선호 구간과 비선호 구간에 대해 탐방객은 난이도가 낮고 부담 없이 걸을 수 있는 구간을 선호하고 있었고, 경관에 대한 여러 요소(시각, 청각, 후각 등)가 조화롭고 계절감이 뚜렷해 다양한 경관이 연출되는 곳, 경관 시퀀스의 변화가 존재하는 구간을 선호하는 것으로 나타났다. 또한 탐방객은 전망대, 조망점 등의 뷰포인트 유무를 둘레길에서의 주요 요소로 인식하고 있었고, 접근성이 우수하고 안내판 등 정보 제공이 원활하게 이뤄지는 구간에 대해 선호도가 더 높은 것을 알 수 있다. 반면, 도로와 인접함에 따라 발생되는 주변 소음과 과도한 시가지 비율, 구간별 난이도 불균형 등으로 인한 둘레길 동선 불만족이 비선호 요인으로 크게 작용하고 있었으며, 경관 단절 및 구간에 대한 정보 부족 등이 선호도를 떨어트리는 원인으로 나타났다. 본 연구의 결과는 국립공원뿐만 아니라 근교 산림 녹지 관리에 있어서 둘레길 정비 및 개선방안 마련에 활용될 수 있으며, 연구에 활용된 감성분석은 자연지역에 대한 실제 이용자들의 반응을 지속적으로 모니터링 할 수 있다는 점에 의의가 있다. 다만 사전에 정의된 감성사전을 기반으로 평가하였기에 지속적인 사전 업데이트가 필요하다. 또한 소셜미디어 특성상 부정적인 견해보다는 긍정적인 내용을 공유하는 경향이 존재하기 때문에, 현장 설문조사 등의 분석 결과와 비교, 검토하는 작업이 필요하다.

다차원 구어 단기기억에 따른 전도 실어증 환자의 언어수행력 분석 (Language performance analysis based on multi-dimensional verbal short-term memories in patients with conduction aphasia)

  • 하지완;황유미;편성범
    • 인지과학
    • /
    • 제23권4호
    • /
    • pp.425-455
    • /
    • 2012
  • 다차원 구어 단기기억 기제는 크게 음운적 통로와 어휘-의미적 통로로 구분된다. 전자를 음운단기기억, 후자를 의미단기기억이라고 할 수 있는데, 단기기억 과제를 정상적으로 수행하기 위해서는 두 통로 모두의 정보를 활발히 활용하여야 한다. 그리고 음운단기기억은 다시 음운입력완충기와 음운출력완충기로 나누어지며, 음운입력완충기는 음운자극의 입력 시, 음운출력완충기는 음운 산출 시에 작동한다. 본 연구에서는 유사한 수준의 전도 실어증 증상을 보이는 세 명의 환자에 대해, 각각의 언어 수행력을 구어 단기기억의 다차원적 측면에서 분석하였다. 그러기 위하여 세 명의 전도 실어증 환자들에게 단어 수준과 문장 수준에서 스스로 말하기, 따라말하기, 스스로 쓰기, 받아쓰기의 네 가지 양태의 언어과제를 실시하여 수행력을 비교 분석하였고, 숫자폭검사와 언어학습검사를 이용하여 음운단기기억력과 의미단기기억력을 평가하였다. 그 결과 세 대상자들은 네 양태의 언어 검사에서 다양한 수행력과 오반응 유형을 보였고, 단기기억력 검사 결과도 동일하게 나타나지 않았다. 즉 전도 실어증 환자들의 언어 수행력은 의미단기기억 또는 음운단기기억의 결함으로 설명될 수 있으며, 음운단기기억 가운데에서도 음운입력완충기, 음운출력완충기 혹은 둘 다의 결함 여부에 따라 언어특성이 상이하게 나타날 가능성을 제시하고 있다. 본 연구에서는 전도 실어증 환자들의 언어 검사와 단기기억력 검사 결과를 바탕으로, 언어와 다차원 구어 단기기억력과의 관계에 대하여 논의하고 있다.

  • PDF

4차산업혁명 시대를 대비한 대학의 교수학습 정보화 현황 파악 및 지표 개발 (Understand the Current Status of Teaching and Learning Informatization and Develop Indicators in the 4th Industrial Revolution)

  • 김상우;이명숙
    • 디지털융복합연구
    • /
    • 제18권4호
    • /
    • pp.67-74
    • /
    • 2020
  • 본 연구의 목적은 각각의 대학에서 추진하는 유익한 교수학습 정보화 환경을 여러 대학에서 활용하거나 전파시킬 근거를 제공할 수 있도록 교수학습 정보화 현황을 파악하고 지표 개발을 목표로 한다. 연구 방법은 2002~2015년 KERIS에서 개발한 여러 정보화지표들과 에듀테크, 미래 교육 보고서, 교수학습 현장 보고서 등 최근의 환경들을 분석하여 지표 개발에 반영하였다. 1차 지표, 2차 지표에서 전문가 의견을 반영하여 최종적으로 투입/과정/산출 단계로 분류하여 3차 지표 개발을 완성하였다. 또한 지표에 대한 타당도와 중요도에 대한 지표를 개발하고, 국·내외 대학정보화지표 적용 여부를 파악하여 그 결과를 반영한 교수학습 지표를 완성하였다. 연구의 결과로 대학의 교수학습 정보화 기반구축, 교육자원 공유, 공개 개발과 공유, 자원의 공동구매, 정보화 안전체제 및 리터러시 교육, 현황 파악, 자원 활용이라는 핵심단어를 도출하고 대학마다 교수학습 정보화 수준을 향상시켜 대학별 균형 발전을 달성할 수 있다. 향후 과제로는 설문문항을 작성하여 파일럿 테스트를 통해 문항을 보완하고 전체 대학에 교수학습 정보화 현황을 파악하고자 한다.

문학 텍스트의 머신러닝 활용방안 연구 - 화자 지시어 분석을 위한 규칙 선별을 중심으로 - (A Study on the Application of Machine Learning in Literary Texts - Focusing on Rule Selection for Speaker Directive Analysis -)

  • 권경아;고일주;이인성
    • 문화기술의 융합
    • /
    • 제7권4호
    • /
    • pp.313-323
    • /
    • 2021
  • 본 연구는 문학 텍스트를 활용한 머신러닝 기반 가상 캐릭터(virtual character) 구현을 위해 텍스트 내의 화자 지시어가 지시하는 화자를 판별할 수 있는 규칙을 제안하는 것을 목적한다. 선행 연구에서, 본 연구자는 문학 텍스트를 기계 학습에 적용할 때, 별칭, 별명, 대명사와 같은 화자 지시어들이 특정한 분석 규칙 없이는 기계가 화자를 제대로 파악하지 못하여 학습을 제대로 수행할 수 없다는 점을 발견하였다. 본 연구는 이를 해결하는 방법으로 '화자 지시어(대명사 포함)가 지시하는 화자를 찾는 9가지 규칙'을 소개한다: 위치, 거리, 대명사, 가주어/진주어, 인용문, 화자수, 등장인물 외 지시, 복합 단어 지시, 화자명 분산이 그것이다. 문학 텍스트 내의 등장인물을 가상 캐릭터로 활용하기 위해서는 기계가 이해할 수 있는 방식으로 학습 텍스트를 제공해야 한다. 본 연구자는 본 논문을 통해 제안한 화자 찾기 규칙이 문학 텍스트를 머신러닝에 활용할 때 발생할 수 있는 시행착오를 줄이고, 원활한 학습을 수행하게 하여 질적으로 우수한 학습 결과를 산출할 수 있게 해 줄 것으로 기대한다.

미술품 거래 빅데이터를 이용한 작가 분석 시스템 구현 (Art transaction using big data Artist analysis system implementation)

  • 이승경;임종태
    • 서비스연구
    • /
    • 제11권2호
    • /
    • pp.79-93
    • /
    • 2021
  • 국내 미술시장 규모는 2018년 기준으로 최근 5년간 매년 21.9%씩 증가하는 성장세를 유지하고 있다. 미술품 유통 플랫폼은 화랑과 오프라인 경매 방식, 그리고 온라인 경매로 다양해지고 있다. 미술시장은 작품의 제작(창작), 유통(무역), 소비(매수) 등 3개 분야로 구성되어 있으며, 경제적 가치는 물론 예술적 가치에 대한 인식이 확산되면서 투자 수단으로써 관심도가 높아지고 있다. 작품을 재테크 수단으로 생각하는 소비자는 작품의 객관적 정보에 대한 욕구가 높아지지만, 예술시장 유통 분야의 정보 제공이 폐쇄적이고 불균형해 객관적이고 신뢰할 수 있는 통계를 수집·분석하는 데 한계가 있다. 본 연구는 예술시장 유통 분야에 대한 빅데이터 수집과 정형·비구조적 데이터 분석을 통해 객관적이고 신뢰할 수 있는 미술품 유통 현황을 파악한다. 이를 통해 현재 시장에서 저자의 분석을 객관적으로 제공할 수 있는 시스템을 구현하고자 한다. 본 연구에서는 미술품 유통 사이트에서 저자 정보를 수집하고 일간지 매일경제에서 저자의 기사를 수집·분석해 작가별 연관 단어의 빈도를 산출했다. 이를 통해 본 연구에서는 소비자에게 객관적이고 신뢰할 수 있는 정보를 제공하는 것을 목표로 한다.

Word2Vec을 활용한 제품군별 시장규모 추정 방법에 관한 연구 (A Study on Market Size Estimation Method by Product Group Using Word2Vec Algorithm)

  • 정예림;김지희;유형선
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 인공지능 기술의 급속한 발전과 함께 빅데이터의 상당 부분을 차지하는 비정형 텍스트 데이터로부터 의미있는 정보를 추출하기 위한 다양한 연구들이 활발히 진행되고 있다. 비즈니스 인텔리전스 분야에서도 새로운 시장기회를 발굴하거나 기술사업화 주체의 합리적 의사결정을 돕기 위한 많은 연구들이 이뤄져 왔다. 본 연구에서는 기업의 성공적인 사업 추진을 위해 핵심적인 정보 중의 하나인 시장규모 정보를 도출함에 있어 기존에 제공되던 범위보다 세부적인 수준의 제품군별 시장규모 추정이 가능하고 자동화된 방법론을 제안하고자 한다. 이를 위해 신경망 기반의 시멘틱 단어 임베딩 모델인 Word2Vec 알고리즘을 적용하여 개별 기업의 생산제품에 대한 텍스트 데이터를 벡터 공간으로 임베딩하고, 제품명 간 코사인 거리(유사도)를 계산함으로써 특정한 제품명과 유사한 제품들을 추출한 뒤, 이들의 매출액 정보를 연산하여 자동으로 해당 제품군의 시장규모를 산출하는 알고리즘을 구현하였다. 실험 데이터로서 통계청의 경제총조사 마이크로데이터(약 34만 5천 건)를 이용하여 제품명 텍스트 데이터를 벡터화 하고, 한국표준산업분류 해설서의 산업분류 색인어를 기준으로 활용하여 코사인 거리 기반으로 유사한 제품명을 추출하였다. 이후 개별 기업의 제품 데이터에 연결된 매출액 정보를 기초로 추출된 제품들의 매출액을 합산함으로써 11,654개의 상세한 제품군별 시장규모를 추정하였다. 성능 검증을 위해 실제 집계된 통계청의 품목별 시장규모 수치와 비교한 결과 피어슨 상관계수가 0.513 수준으로 나타났다. 본 연구에서 제시한 모형은 의미 기반 임베딩 모델의 정확성 향상 및 제품군 추출 방식의 개선이 필요하나, 표본조사 또는 다수의 가정을 기반으로 하는 전통적인 시장규모 추정 방법의 한계를 뛰어넘어 텍스트 마이닝 및 기계학습 기법을 최초로 적용하여 시장규모 추정 방식을 지능화하였다는 점, 시장규모 산출범위를 사용 목적에 따라 쉽고 빠르게 조절할 수 있다는 점, 이를 통해 다양한 분야에서 수요가 높은 세부적인 제품군별 시장정보 도출이 가능하여 실무적인 활용성이 높다는 점에서 의의가 있다.