• 제목/요약/키워드: 자동 주제 분류

검색결과 108건 처리시간 0.025초

감정점수의 전파를 통한 한국어 감정사전 생성 (Generating a Korean Sentiment Lexicon Through Sentiment Score Propagation)

  • 박호민;김창현;김재훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권2호
    • /
    • pp.53-60
    • /
    • 2020
  • 감정분석은 문서 또는 대화상에서 주어진 주제에 대한 태도와 의견을 이해하는 과정이다. 감정분석에는 다양한 접근법이 있다. 그 중 하나는 감정사전을 이용하는 사전 기반 접근법이다. 본 논문에서는 널리 알려진 영어 감정사전인 VADER를 활용하여 한국어 감정사전을 자동으로 생성하는 방법을 제안한다. 제안된 방법은 세 단계로 구성된다. 첫 번째 단계는 한영 병렬 말뭉치를 사용하여 한영 이중언어 사전을 제작한다. 제작된 이중언어 사전은 VADER 감정어와 한국어 형태소 쌍들의 집합이다. 두 번째 단계는 그 이중언어 사전을 사용하여 한영 단어 그래프를 생성한다. 세 번째 단계는 생성된 단어 그래프 상에서 레이블 전파 알고리즘을 실행하여 새로운 감정사전을 구축한다. 이와 같은 과정으로 생성된 한국어 감정사전을 유용성을 보이려고 몇 가지 실험을 수행하였다. 본 논문에서 생성된 감정사전을 이용한 감정 분류기가 기존의 기계학습 기반 감정분류기보다 좋은 성능을 보였다. 앞으로 본 논문에서 제안된 방법을 적용하여 여러 언어의 감정사전을 생성하려고 한다.

소축척 수치지도 자료사전에 관한 연구 (A Study on Data Dictionary of Small Scale Digital Map)

  • 조우석;이하준
    • 한국측량학회지
    • /
    • 제21권3호
    • /
    • pp.215-228
    • /
    • 2003
  • 국토의 효율적인 관리를 위해 국립지리원은 1980년대 중반부터 지도 자동제작을 추진하여왔다. 1995년부터 국가지리정보체계(NGIS) 구축사업의 일환으로 수치지도 제작사업을 본격적으로 착수하여, 우선적으로 1:1,000, 1:5,000, 1:25,000 축척의 수치지형도를 제작$.$갱신하고 있다. 그러나 국토계획의 목적으로 사용되는 1:250,000 축척의 수지지도 제작은NGIS 구축사업에 포함되어 있지 않으며, 1:250,000 수치지도에 대한 기존법규와 작업지침들도 명확하게 규정되어 있지 않은 실정이다. 따라서 수치지도 제작자와 사용자에게 수치지도가 지니고 있는 정보의 특성을 명확하게 제공하고 수치지도가 적절하게 활용될 수 있도록 하며, 또한 다양한 종류의 수치지도들을 연계시킬 수 있는 정보를 제공하기 위해서는 수치지도 자료사전(Data Dictionary)이 필요하다. 이에 본 연구에서는 향후 다양한 그룹의 사용자들을 위한 1:250,000 축척 수치지도 제작을 위하여 1:250,000 축척 수치지도에 표현되어야 하는 지형지물을 기존 국립지리원 지형지물체계 및 새롭게 제안된 지형지물 분류체계에 맞게 제시하였고, 더불어 제시된 지형지물에 대한 자료사전(Data Dictionary)을 작성하였다. 본 연구의 결과물인 자료사전을 이용하여 제작된 1:250,000 축척 수치지도는 다양한 종류의 주제도와 연계가 가능할 것으로 판단된다.

대용량 문서 데이터베이스를 위한 효율적인 점진적 문서 클러스터링 기법 (An Effective Incremental Text Clustering Method for the Large Document Database)

  • 강동혁;주길홍;이원석
    • 정보처리학회논문지D
    • /
    • 제10D권1호
    • /
    • pp.57-66
    • /
    • 2003
  • 컴퓨터의 발전과 인터넷의 급속한 발전으로 정보의 양이 폭발적으로 증가하게 되었고 이러한 방대한 양의 정보들은 대부분 문서 형태로 관리되고 있으며, 문서 단위별 표현된 많은 정보들을 효과적으로 관리하고 검색하기 위한 방법의 연구가 필요하게 되었다. 문서 클러스터링은 문서간의 유사도를 바탕으로 서로 연관된 문서들을 군집화하여 문서들을 주제별로 통합하는 방법으로 대용량의 문서들을 자동으로 분류하고, 검색하는 데 있어서 검색의 정확성을 증대시킬 수 있다. 본 논문에서는 새로운 문서의 추가나 기존문서의 삭제로 인하여 군집화 대상이 되는 문서 집합이 점진적으로 변화하는 환경을 위한 점진적 문서 클러스터링 알고리즘을 제안한다. 점진적 문서 클러스터링 알고리즘은 새로운 문서가 추가되었을 경우 문서 전체를 다시 클러스터링하지 않고, 이미 생성된 클러스터들의 구조를 적극적으로 변화시킴으로써 높은 효율성을 제공할 수 있다. 또한, 문서 클러스터링의 정확도를 높이기 위하여 통계적인 기법으로 불용어를 판별하여 제거하는 알고리즘을 제안하고, 문서 클러스터링에서 정확한 단어가중치 산출을 위해 TF$\times$IDF 공식을 수정한 TF$\times$NIDF 공식을 제안한다.

멀티모달 방법론과 텍스트 마이닝 기반의 뉴스 비디오 마이닝 (A News Video Mining based on Multi-modal Approach and Text Mining)

  • 이한성;임영희;유재학;오승근;박대희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제37권3호
    • /
    • pp.127-136
    • /
    • 2010
  • 정보 통신기술이 발전함에 따라 멀티미디어 데이터를 포함하는 디지털 기록물의 양은 기하급수적으로 증가하고 있다. 특히 뉴스 비디오는 시대상을 반영하는 풍부한 정보를 내포하고 있으므로, 이를 효과적으로 관리하고 분석하기 위한 뉴스 비디오 데이터베이스 및 뉴스 비디오 마이닝은 광범위하게 연구되어왔다. 그러나 현재까지의 뉴스 비디오 관련 연구들은 뉴스 기사에 대한 브라우징, 검색, 요약에 치중되어 있으며, 뉴스 비디오에 내재되어 있는 풍부한 잠재적 지식을 탐사하는 고수준의 의미 분석 단계에는 이르지 못하고 있다. 본 논문에서는 뉴스 비디오 클립과 스크립트를 동시에 이용하는, 멀티모달 방법론과 텍스트 마이닝 기반의 뉴스 비디오 마이닝 시스템을 제안한다. 제안된 시스템은 텍스트 마이닝의 군집분석을 통해 뉴스 기사들을 자동 분류하고, 분류 결과에 대해 기간별 군집 추이그래프, 군집성장도 분석 및 네트워크 분석을 수행함으로써, 뉴스 비디오의 기사별 주제와 관련한 다각적 분석을 수행한다. 제안된 시스템의 타당성 검증을 위하여 "2007년 제2차 남북 정상회담" 관련 뉴스 비디오를 대상으로 뉴스 비디오 분석을 수행하였다.

오피니언 마이닝을 이용한 지능형 VOC 분석시스템 (Intelligent VOC Analyzing System Using Opinion Mining)

  • 김유신;정승렬
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.113-125
    • /
    • 2013
  • 기업 경영에 있어서 고객의 소리(VOC)는 고객 만족도 향상 및 기업의사결정에 매우 중요한 정보이다. 이는 비단 기업뿐만 아니라 대고객, 대민원 업무를 처리하는 모든 조직에 있어서도 동일하다. 때문에 최근에는 기업뿐만 아니라 공공, 의료, 금융, 교육기관 등 거의 모든 조직이 VOC를 수집하여 활용하고 있다. 이러한 VOC는 방문, 전화, 우편, 인터넷게시판, SNS 등 다양한 채널을 통해 전달되지만, 막상 이를 제대로 활용하기는 쉽지 않다. 왜냐하면, 고객이 매우 감정적인 상태에서 고객의 주관적 의사를 음성 또는 문자로 표출하기 때문에 그 형식이나 내용이 정형화되어 있지 않고 저장하기도 어려우며 또한 저장하더라도 매우 방대한 분량의 비정형 데이터로 남기 때문이다. 본 연구는 이러한 비정형 VOC 데이터를 자동으로 분류하고 VOC의 유형과 극성을 판별할 수 있는 오피니언 마이닝 기반의 지능형 VOC 분석 시스템을 제안하였다. 또한 VOC 오피니언 분석의 기준이 되는 주제지향 감성사전 개발 프로세스와 각 단계를 구체적으로 제시하였다. 그리고 본 연구에서 제시한 시스템의 효용성을 검증하기 위하여 의료기관 홈페이지에서 수집한 4,300여건의 VOC 데이터를 이용하여 병원에 특화된 감성어휘와 감성극성값을 도출하여 감성사전을 구축하고 이를 통해 구현된 VOC분류 모형의 정확도를 비교하는 실험을 수행하였다. 그 결과 "칭찬, 친절함, 감사, 무사히, 잘해, 감동, 미소" 등의 어휘는 매우 높은 긍정 오피니언 값을 가지며, "퉁명, 뭡니까, 말하더군요, 무시하는" 등의 어휘들은 강한 부정의 극성값을 가지고 있음을 확인하였다. 또한 VOC의 오피니언 분류 임계값이 -0.50일 때 가장 높은 분류 예측정확도 77.8%를 검증함으로써 오피니언 마이닝 기반의 지능형 VOC 분석시스템의 유효성을 확인하였다. 그러므로 지능형 VOC 분석시스템을 통해 VOC의 실시간 자동 분류 및 대응 우선순위를 도출하여 고객 민원에 대해 신속히 대응한다면, VOC 전담 인력을 효율적으로 운용하면서도 고객 불만을 초기에 해소할 수 있는 긍정적 효과를 기대해 볼 수 있을 것이다. 또한 VOC 텍스트를 분석하고 활용할 수 있는 오피니언 마이닝 모형이라는 새로운 시도를 통해 향후 다양한 분석과 실용 프레임워크의 기틀을 제공할 수 있을 것으로 기대된다.

T-MERGE 연산자에 기반한 분산 토픽맵의 자동 통합 (Automatic Merging of Distributed Topic Maps based on T-MERGE Operator)

  • 김정민;신효필;김형주
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권9호
    • /
    • pp.787-801
    • /
    • 2006
  • 온톨로지 통합은 두 소스 온톨로지들을 통합하여 하나의 새로운 온톨로지를 생성하는 과정으로서 시맨틱 웹, 데이타 통합, 지식관리시스템 등 여러 온톨로지 응용 시스템에서 중요하게 다루는 연구주제이다. 그러나 과거의 연구들은 대부분 두 소스 온톨로지들 사이에 의미적으로 대응되는 공통 요소를 효과적으로 찾기 위한 온톨로지 매칭 기법에 집중되어 있으며 매핑 요소들을 통합하는 과정에서 발생하는 문제를 정의하고 해결하는 방법에 대해서는 간과하고 있다. 본 논문에서는 매칭 프로세스에 의해 주어진 매핑 결과에 기반하여 두 소스 온톨로지들을 통합해 나가는 상세한 통합 프로세스를 정의하고 매핑 요소들 사이에 존재하는 통합 충돌의 유형에 대한 분류 체계 및 충돌을 탐지하고 해결하기 위한 기법을 제안한다. 또한 충돌의 탐지 및 해결을 포함하여 통합 과정을 캡슐화하는 T-MERGE 연산자와 통합 과정의 기록과 오류 복구를 위한 MergeLog를 설계 및 구현한다. 제안하는 통합 모듈의 성능을 보이기 위해 동, 서양 철학 온톨로지들과 야후 및 네이버 백과사전의 일부를 온톨로지로 구현하여 실험 데이타로 활용하였으며 그 결과 전문가의 수작업에 의한 온톨로지 통합과 동일한 결과를 적은 시간과 노력으로 얻을 수 있음을 보인다.

위치 정보를 갖는 사진집합의 계층적 탐색 인터페이스 (Hierarchical Browsing Interface for Geo-Referenced Photo Database)

  • 이승훈;이강훈
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제16권4호
    • /
    • pp.25-33
    • /
    • 2010
  • 디지털 카메라가 널리 보급되면서 사람들은 언제, 어디서나 사진을 찍고 값싼 저장장치에 많은 수의 사진을 저장할 수 있게 되었다. 하지만 많은 수의 사진 중 원하는 사진을 효율적으로 탐색하는 것은 어려운 문제로 남아 있다. 본 논문은 위치 정보를 갖는 대규모 사진집합을 신속하고 직관적으로 탐색하는 새로운 방법을 제안한다. 전체 사진집합을 구조화하기 위해 지리적 거리가 가장 근접한 사진들을 묶어 군집화하고, 이러한 과정을 반복하여 최종적으로 모든 사진이 하나의 군집으로 병합되는 계층적 군집화를 수행한다. 또한 모든 군집의 컨벡스 헐과 넓이를 미리 계산하여 사진 탐색 시에는 미리 계산된 데이터와 현재 탐색 중인 지리 영역에 포함되는 군집들의 넓이를 비교해 적절한 넓이의 군집들을 선택적으로 시각화한다. 이 때 군집은 포함되는 모든 사진의 위치를 보여주는 대신 컨벡스 헐로 시각화하여 군집의 정확한 공간적 범위를 쉽게 파악할 수 있다. 사용자는 관심 군집을 클릭하여 해당 군집으로 신속하게 이동할수 있으며, 시스템은 관심 군집을 지도 영역에 정확히 채워 보일 수 있도록 자동적으로 지도 이동과 축척 조절을 하고 적절한 넓이의 하위 군집들로 분할하여 시각화한다. 특정주제 검색, 사진분류 등의 일반적인 사진탐색 예제를 통하여 제안된 방법의 유용성을 확인하였다.

BERTopic을 활용한 불면증 소셜 데이터 토픽 모델링 및 불면증 경향 문헌 딥러닝 자동분류 모델 구축 (Topic Modeling Insomnia Social Media Corpus using BERTopic and Building Automatic Deep Learning Classification Model)

  • 고영수;이수빈;차민정;김성덕;이주희;한지영;송민
    • 정보관리학회지
    • /
    • 제39권2호
    • /
    • pp.111-129
    • /
    • 2022
  • 불면증은 최근 5년 새 환자가 20% 이상 증가하고 있는 현대 사회의 만성적인 질병이다. 수면이 부족할 경우 나타나는 개인 및 사회적 문제가 심각하고 불면증의 유발 요인이 복합적으로 작용하고 있어서 진단 및 치료가 중요한 질환이다. 본 연구는 자유롭게 의견을 표출하는 소셜 미디어 'Reddit'의 불면증 커뮤니티인 'insomnia'를 대상으로 5,699개의 데이터를 수집하였고 이를 국제수면장애분류 ICSD-3 기준과 정신의학과 전문의의 자문을 받은 가이드라인을 바탕으로 불면증 경향 문헌과 비경향 문헌으로 태깅하여 불면증 말뭉치를 구축하였다. 구축된 불면증 말뭉치를 학습데이터로 하여 5개의 딥러닝 언어모델(BERT, RoBERTa, ALBERT, ELECTRA, XLNet)을 훈련시켰고 성능 평가 결과 RoBERTa가 정확도, 정밀도, 재현율, F1점수에서 가장 높은 성능을 보였다. 불면증 소셜 데이터를 심층적으로 분석하기 위해 기존에 많이 사용되었던 LDA의 약점을 보완하며 새롭게 등장한 BERTopic 방법을 사용하여 토픽 모델링을 진행하였다. 계층적 클러스터링 분석 결과 8개의 주제군('부정적 감정', '조언 및 도움과 감사', '불면증 관련 질병', '수면제', '운동 및 식습관', '신체적 특징', '활동적 특징', '환경적 특징')을 확인할 수 있었다. 이용자들은 불면증 커뮤니티에서 부정 감정을 표현하고 도움과 조언을 구하는 모습을 보였다. 또한, 불면증과 관련된 질병들을 언급하고 수면제 사용에 대한 담론을 나누며 운동 및 식습관에 관한 관심을 표현하고 있었다. 발견된 불면증 관련 특징으로는 호흡, 임신, 심장 등의 신체적 특징과 좀비, 수면 경련, 그로기상태 등의 활동적 특징, 햇빛, 담요, 온도, 낮잠 등의 환경적 특징이 확인되었다.