• 제목/요약/키워드: 동사정보

검색결과 275건 처리시간 0.019초

집단지성을 이용한 한글 감성어 사전 구축 (Building a Korean Sentiment Lexicon Using Collective Intelligence)

  • 안정국;김희웅
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.49-67
    • /
    • 2015
  • 최근 다양한 분야에서 빅데이터의 활용과 분석에 대한 중요성이 대두됨에 따라, 뉴스기사와 댓글과 같은 비정형 데이터의 자연어 처리 기술에 기반한 감성 분석에 대한 관심이 높아지고 있다. 하지만, 한국어는 영어와는 달리 자연어 처리가 어려운 교착어로써 정보화나 정보시스템에의 활용이 미흡한 실정이다. 이에 본 연구는 감성 분석에 활용이 가능한 감성어 사전을 집단지성으로 구축하였고, 누구나 연구와 실무에 사용하도록 API서비스 플랫폼을 개방하였다(www.openhangul.com). 집단지성의 활용을 위해 국내 최대 대학생 소셜네트워크 사이트에서 대학생들을 대상으로 단어마다 긍정, 중립, 부정에 대한 투표를 진행하였다. 그리고 집단지성의 효율성을 높이기 위해 감성을 '정의'가 아닌 '분류'하는 방식인 폭소노미의 '사람들에 의한 분류법'이라는 개념을 적용하였다. 총 517,178(+)의 국어사전 단어 중 불용어 형태를 제외한 후 감성 표현이 가능한 명사, 형용사, 동사, 부사를 우선 순위로 하여, 현재까지 총 35,000(+)번의 단어에 대한 투표를 진행하였다. 본 연구의 감성어 사전은 집단지성의 참여자가 누적됨에 따라 신뢰도가 높아지도록 설계하여, 시간을 축으로 사람들이 단어에 대해 인지하는 감성의 변화도 섬세하게 반영하는 장점이 있다. 따라서 본 연구는 앞으로도 감성어 사전 구축을 위한 투표를 계속 진행할 예정이며, 현재 제공하고 있는 감성어 사전, 기본형 추출, 카테고리 추출 외에도 다양한 자연어 처리에 응용이 가능한 API들도 제공할 계획이다. 기존의 연구들이 감성 분석이나 감성어 사전의 구축과 활용에 대한 방안을 제안하는 것에만 한정되어 있는 것과는 달리, 본 연구는 집단지성을 실제로 활용하여 연구와 실무에 활용이 가능한 자원을 구축하여 개방하여 공유한다는 차별성을 가지고 있다. 더 나아가, 집단지성과 폭소노미의 특성을 결합하여 한글 감성어 사전을 구축한 새로운 시도가 향후 한글 자연어 처리의 발전에 있어 다양한 분야들의 융합적인 연구와 실무적인 참여를 이끌어 개방적 협업의 새로운 방향과 시사점을 제시 할 수 있을 것이라 기대한다.

영역별 맞춤형 감성사전 구축을 통한 영화리뷰 감성분석 (Sentiment analysis on movie review through building modified sentiment dictionary by movie genre)

  • 이상훈;최정;김종우
    • 지능정보연구
    • /
    • 제22권2호
    • /
    • pp.97-113
    • /
    • 2016
  • 인터넷상의 데이터가 급속하게 증가함에 따라 막대한 양의 데이터를 목적에 맞게 적절히 활용하는 빅데이터 분석이 활발하게 진행되고 있다. 최근에는 기존의 정형 데이터분석이 가진 한계점을 보완하는 방법으로 비정형 데이터 분석 분야 중 하나인 텍스트마이닝 기법에 대한 연구들이 다수 이루어지고 있으며, 특히 텍스트를 기반으로 문장의 긍정, 부정을 판별하고 분류하는 감성분석과 관련된 연구들이 활발하게 이루어지고 있다. 이러한 연구의 연장선 상에서, 본 연구는 감성분석에 사용되는 감성사전을 데이터의 특성에 맞게 적절하게 변형하여 구축하는 방법을 시도하였다. 데이터가 속한 영역의 특성을 고려하지 않은 기존의 범용 감성사전을 감성분석에 사용할 경우, 해당 영역에서 쓰이는 단어 또는 감정 표현을 반영하지 못하므로 감성분석의 정확성이 떨어질 수 있다. 따라서 감성분석에 있어서 영역 맞춤형 감성사전의 사용 시 데이터 영역의 특성을 정확하게 반영해 분석의 정확성을 높여줄 것으로 기대할 수 있다. 본 연구에서는 영화 리뷰 데이터를 분석 대상으로 선정하였으며, 대표적 영화정보 사이트 IMDb에서 발생된 약 2년간의 영화리뷰 데이터를 수집 분석하였다. 분석에 앞서 영화 장르별 사용되는 단어의 의미가 각각 다를 것을 고려하여 영화를 '액션', '애니메이션', '코메디', '드라마', '공포', '과학공상' 6개 장르로 분류했다. 맞춤형 감성사전 구축을 위한 핵심 기법으로 SO-PMI(Semantic Orientation from Point-wise Mutual Information)를 활용하였으며, 어휘 간 극성이 뚜렷하게 구분되는 형용사에 한정하여 연구를 진행했다. 분석결과 맞춤형사전을 활용한 감성분석 예측정확도는 영화 장르별로 상이했다. '애니메이션'을 제외한 5개 장르에서 기존의 범용 감성사전대비 맞춤형 감성사전의 예측정확도가 통계적으로 유의한 수준의 성능 향상을 보였다. 본 연구에서는 데이터 영역의 특성에 맞는 맞춤형 사전 구축을 통한 감성분석의 예측의 성능 향상을 확인하였다. 향후 감성사전 구축 시 동사, 부사 등 다양한 품사의 어휘를 추가하여 감성분석 예측정확도를 높이는 방안을 모색할 수 있을 것이다.

경남지역 ALS 저해 제초제 저항성 논잡초의 발생 및 분포 (Occurrence and distribution of ALS inhibiting herbicide-resistant weeds in the paddy field of Gyeongnam province)

  • 이용현;심수용;김진원;이정란;박기웅;이증주
    • Weed & Turfgrass Science
    • /
    • 제7권3호
    • /
    • pp.209-218
    • /
    • 2018
  • 본 연구는 2017과 2018년에 토양검정법을 이용하여 경남 지역의 논에서 ALS 저해 제초제 저항성 잡초의 발생과 분포를 조사하기 위해 수행하였다. 2012년도 제초제 저항성 잡초조사의 결과와 비교하여 볼 때 경남지역 각 시 군의 논에서 조사된 ALS 저해 제초제 저항성 발생율은 1.0%에서 66.8%로, 발생면적은 876 ha에서 49,008 ha로 크게 증가하였다. 경남지역의 ALS 저해 제초제 저항성 논잡초의 발생 면적은 울산시(8.4%), 합천군(8.3%), 함안군(7.9%), 고성군(7.9%), 하동군(7.3%), 진주시(7.2%), 창녕군(7.0%), 김해시(6.4%), 밀양시(5.5%), 부산시(4.9%), 의령군(4.6%), 남해군(4.3%), 고성군(4.2%), 창원시(3.8%), 거제시(2.9%), 양산시(1.8%), 산청군(0.9%) 및 통영시(0.4%)순이였고, 함양군에서는 제초제 저항성 잡초가 발생되지 않았다. 가장 우점한 제초제 저항성 잡초는 물달개비였으며, 그 다음으로 논피, 미국외풀, 올챙이고랭이, 여뀌바늘, 알방동사니, 벗풀 및 마디꽃 순으로 발생하였다. 제초제 저항성 물달개비는 경남지역의 대부분의 시 군에서 발생하였으나, 저항성 벗풀과 마디꽃은 김해시에서만 발생하였다. 따라서 이러한 정보는 ALS 저해 제초제 저항성 논잡초의 확산을 방지하고 효율적 관리 방안을 수립하는데 이용할 할 수 있을 것으로 판단된다.

과학과 교육과정 성취기준의 인지적 영역에 대한 국어교육전공자와 과학교육전공자의 해석 차이:설명하기를 중심으로 (The Difference between the Interpretations of Korean Language Experts and Science Education Experts on the Cognitive Domain of Science Achievement Standards: Focus on 'Explain')

  • 송은정;제민경;차경미;유준희
    • 한국과학교육학회지
    • /
    • 제37권2호
    • /
    • pp.371-382
    • /
    • 2017
  • 과학과 교육과정은 모든 독자가 집필자의 의도를 정확히 해석할 수 있도록 서술되어야 한다. 본 연구에서는 과학과 교육과정 성취기준에 대한 국어교육전공자의 해석을 살펴보고, 국어교육전공자와 과학교육전공자의 해석 차이가 나타나는 경우를 분석함으로써, 교과내용 전공자와 비전공자가 이해를 공유할 수 있도록 성취기준을 진술하는 방법에 대해 알아보았다. 국어교육전공자 3인은 '국어교육전공자의 과학과 성취기준 분석틀'을 이용했으며, 과학교육전공자 3인은 'TIMSS 인지적 영역 평가틀'을 기반으로 분석하였다. 두 교과의 해석차이가 나타나는 부분은 면담을 통해 그 이유를 알아보았다. 연구 결과에 따르면, 국어교육전공자와 과학교육전공자는 '설명', '분석', '정의', '인과' 등의 용어에 대한 시각차를 가지고 있었다. 성취기준이 포괄적 의미의 서술어로 진술된 경우 해석이 다양하게 분포하였으며, 과학과 성취기준이 '설명할 수 있다'의 서술어를 자주 사용하고 있음에도 불구하고 국어과의 해석에 따르면 이들 대부분이 설명하기의 하위항목보다 묘사하기의 하위 항목으로 분석되었다. 과학교육전공자는 부사어나 관형어 등으로 표현되는 과정적 지식을 강조하여 해석하는 반면 국어교육전공자는 목적어, 서술어 등 문장의 필수 요소에 강조점을 두어 해석하는 경우에 두 교과의 해석 차이가 발생하였다. 또한 과학교육전공자는 성취기준 문장에서 내용의 범위나 수준에 대한 정보가 충분히 제공되지 않은 경우 암묵적 지식을 기반으로 해석하였으나 국어교육전공자는 문장 구조에만 의존하여 표면적 의미를 해석하여 두 교과의 해석 차이가 발생했다. 교육과정에서 성취기준을 진술할 때 도달해야 할 목표 개념의 범위와 인지적 영역의 수준을 부사어 및 관형어를 포함한 행동 동사로 적확하게 기술하며, 국어교육전공자를 포함한 다양한 전공 영역의 전문가가 검토함으로써 집필자의 의도대로 해석되도록 문장 구조를 명료하게 진술하는 것이 바람직하다. 이와 같이 성취기준이 나타내고자 하는 인지적 영역을 타 교과와 연계하여 분석하고 진술함으로써 교과 융합적 개선 방안을 마련하는 것이 요구된다.

Bi-LSTM 기반의 한국어 감성사전 구축 방안 (KNU Korean Sentiment Lexicon: Bi-LSTM-based Method for Building a Korean Sentiment Lexicon)

  • 박상민;나철원;최민성;이다희;온병원
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.219-240
    • /
    • 2018
  • 감성사전은 감성 어휘에 대한 사전으로 감성 분석(Sentiment Analysis)을 위한 기초 자료로 활용된다. 이와 같은 감성사전을 구성하는 감성 어휘는 특정 도메인에 따라 감성의 종류나 정도가 달라질 수 있다. 예를 들면, '슬프다'라는 감성 어휘는 일반적으로 부정의 의미를 나타내지만 영화 도메인에 적용되었을 경우 부정의 의미를 나타내지 않는다. 그렇기 때문에 정확한 감성 분석을 수행하기 위해서는 특정 도메인에 알맞은 감성사전을 구축하는 것이 중요하다. 최근 특정 도메인에 알맞은 감성사전을 구축하기 위해 범용 감성 사전인 오픈한글, SentiWordNet 등을 활용한 연구가 진행되어 왔으나 오픈한글은 현재 서비스가 종료되어 활용이 불가능하며, SentiWordNet은 번역 간에 한국 감성 어휘들의 특징이 잘 반영되지 않는다는 문제점으로 인해 특정 도메인의 감성사전 구축을 위한 기초 자료로써 제약이 존재한다. 이 논문에서는 기존의 범용 감성사전의 문제점을 해결하기 위해 한국어 기반의 새로운 범용 감성사전을 구축하고 이를 KNU 한국어 감성사전이라 명명한다. KNU 한국어 감성사전은 표준국어대사전의 뜻풀이의 감성을 Bi-LSTM을 활용하여 89.45%의 정확도로 분류하였으며 긍정으로 분류된 뜻풀이에서는 긍정에 대한 감성 어휘를, 부정으로 분류된 뜻풀이에서는 부정에 대한 감성 어휘를 1-gram, 2-gram, 어구 그리고 문형 등 다양한 형태로 추출한다. 또한 다양한 외부 소스(SentiWordNet, SenticNet, 감정동사, 감성사전0603)를 활용하여 감성 어휘를 확장하였으며 온라인 텍스트 데이터에서 사용되는 신조어, 이모티콘에 대한 감성 어휘도 포함하고 있다. 이 논문에서 구축한 KNU 한국어 감성사전은 특정 도메인에 영향을 받지 않는 14,843개의 감성 어휘로 구성되어 있으며 특정 도메인에 대한 감성사전을 효율적이고 빠르게 구축하기 위한 기초 자료로 활용될 수 있다. 또한 딥러닝의 성능을 높이기 위한 입력 자질로써 활용될 수 있으며, 기본적인 감성 분석의 수행이나 기계 학습을 위한 대량의 학습 데이터 세트를 빠르게 구축에 활용될 수 있다.