• 제목/요약/키워드: 주제문

검색결과 190건 처리시간 0.026초

문서 요약 및 비교분석을 위한 주제어 네트워크 가시화 (Keyword Network Visualization for Text Summarization and Comparative Analysis)

  • 김경림;이다영;조환규
    • 정보과학회 논문지
    • /
    • 제44권2호
    • /
    • pp.139-147
    • /
    • 2017
  • 문자 정보는 인터넷 공간에 통용되는 정보의 대다수를 차지하고 있다. 따라서 대용량의 문서의 의미를 빠르게 특히 자동적으로 파악하는 일은 빅 데이터 시대의 중요한 연구 주제중 하나이다. 이 분야의 대표적인 연구 중 하나는 문서의 의미를 요약해주는 주요 주제어의 자동 추출 및 분석이다. 그러나 단순히 추출된 개별 주제어들의 집합만으로 문서의 의미구조를 나타내기에는 부족함이 있다. 본 논문에서는 추출된 주제어들의 연관관계를 그래프로 표현하여 대상 문서의 의미구조를 보다 다양하게 표시하고 추상화할 수 있는 주제어 가시화 방법을 개발하였다. 먼저 각 주제어들 간의 연관관계를 추출하기 위해 주제어별 지배구간 모델과 단어거리 모델을 제안하였다. 이렇게 추출한 주제어 연결성과 그를 형상화한 그래프는 문서의 의미구조를 보다 함축적으로 담고 있으므로 문서의 빠른 내용파악과 요약이 가능하며 이 가시화 그래프를 비교함으로서 문서의 의미적 유사도 비교도 가능하다. 실험을 통하여 문서의 의미파악과 비교에 본 주제어 가시화 그래프는 일반적인 요약문이나 단순 주제어 리스트보다 더 유용함을 보였다.

『중국분류주제사표(中国分类主题词表)』와 『국립국회도서관건명표목표(国立国会図書館件名標目表)』에 나타난 한국 관련 주제명표목에 대한 비교 분석 (A Comparative Analysis of Subject Headings Related to Korea in the CCT and NDLSH)

  • 문지현
    • 한국도서관정보학회지
    • /
    • 제43권3호
    • /
    • pp.121-141
    • /
    • 2012
  • 이 연구는 일본의 NDLSH 2008년판과 중국의 CCT 제2판에 수록된 한국 관련 주제명의 수와 특성을 비교 분석하였다. 분석 결과 NDLSH와 CCT에 수록된 주제명은 258개와 137개로, NDLSH에 수록된 주제명이 2배 정도 많은 수준이다. 하지만 참조어수를 제외한 순수 주제명은 CCT가 더 많고 인명, 단체명, 세목 결합 주제명을 포함시킨다면 NDLSH가 압도적으로 많은 편이다. 한편 CCT는 사회주의적, 친북한적인 성격을 띠고 있는데, 정치, 외교, 군사 분야의 주제명이 상대적으로 많으며 북한의 시각을 담은 주제명도 상당수 수록되어 있다. 국가명칭으로 NDLSH는 최근에서야 '대한민국'과 '조선민주주의인민공화국'으로 변경하였으며, CCT는 '한국' 보다는 '조선'이라는 명칭을 훨씬 더 많이 사용하고 있고 '조선'과 '한국'의 구분도 모호하다. 국가간 논쟁이 되고 있는 '독도', '동해', '두만강', '압록강', '백두산' 등에 대해서는 철저하게 개발 당사국의 입장을 반영하고 있으며, 발해는 양 표목표 모두 중국 역사의 일부로 설정하고 있어 한국 입장에서는 불합리한 배정이라 할 수 있다.

Doc2Vec 문서 임베딩을 이용한 질의문과 판례 자동 연결 방안 연구 (A Study on the Connecting Method of Query and Legal Cases Using Doc2Vec Document Embedding)

  • 강예지;강혜린;박서윤;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.76-81
    • /
    • 2020
  • 법률 전문 지식이 없는 사람들이 법률 정보 검색을 성공적으로 하기 위해서는 일반 용어를 검색하더라도 전문 용어가 사용된 법령정보가 검색되어야 한다. 하지만 현 판례 검색 시스템은 사용자 선호도 검색이 불가능하며, 일반 용어를 사용하여 검색하면 사용자가 원하는 전문 자료를 도출하는 데 어려움이 있다. 이에 본 논문에서는 일반용어가 사용된 질의문과 전문용어가 사용된 판례를 자동으로 연결해 주고자 하였다. 질의문과 연관된 판례를 자동으로 연결해 주기 위해 전문용어가 사용된 전문가 답변을 바탕으로 문서분류에 높은 성능을 보이는 Doc2Vec을 이용한다. Doc2Vec 문서 임베딩 기법을 이용하여 전문용어가 사용된 전문가 답변과 유사한 답변을 제안하여 비슷한 주제의 답변들끼리 분류하였다. 또한 전문가 답변과 유사도가 높은 판례를 제안하여 질의문에 해당하는 판례를 자동으로 연결하였다.

  • PDF

온라인가나다를 위한 주제 분류 기반 유사 질문 검색 시스템 (Similar Question Search System for online Q&A for the Korean Language Based on Topic Classification)

  • 문정민;송영호;진지환;이현섭;이현아
    • 인지과학
    • /
    • 제26권3호
    • /
    • pp.263-278
    • /
    • 2015
  • 국립국어원의 온라인가나다 서비스는 한국어에 대한 질문을 등록하면 전문가가 답변을 작성하는 인터넷 서비스이다. 이러한 서비스는 유사한 질문이 자주 등록되는 문제점이 있다, 만일 새롭게 등록되는 질문과 유사한 질문을 자동으로 찾아 그 질문에 대한 답변을 등록 즉시 제공한다면, 질문자는 빠른 시간에 답변을 얻을 수 있고 서비스 관리자는 수동 답변 작성의 부담을 덜 수 있다. 본 논문에서는 온라인가나다의 특성을 분석하여 자주 질문되는 다섯 개의 주제 분류를 설정하고, 주제 분류 유사도와 함께 음소와 음절단위 수열유사도와 벡터 유사도를 결합하여 유사한 질문을 검색하는 시스템을 제안한다. 평가에서는 본 논문에서 제시한 주제 분류 정보를 활용하여 검색 정확률이 향상되는 결과를 얻었다. 최종 실험에서는 Mean Reciprocal Rank(MRR)가 0.756, 정답이 1위와 5위내에 검색될 확률은 각각 68.31%, 87.32%를 보였다.

한국어 텍스트의 논증 구조 내 담화 관계의 자동 분류 연구 (An Automatic Classification of Discourse Relations in the Arguing Structure of Korean Texts)

  • 이상아;신효필
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.59-64
    • /
    • 2015
  • 최근 온라인 텍스트 자료를 이용하여 대중의 의견을 분석하는 작업이 활발히 이루어지고 있다. 이러한 작업에는 주관적 방향성을 갖는 텍스트의 논증 구조와 중요 내용을 파악하는 과정이 필요하며, 자료의 양과 다양성이 급격히 증가하면서 그 과정의 자동화가 불가피해지고 있다. 본 연구에서는 정책에 대한 찬반 의견으로 구성된 한국어 텍스트 자료를 직접 구축하고, 글을 구성하는 기본 단위들 사이의 담화 관계를 정의하였다. 각 단위들 사이의 관계는 기계학습과 규칙 기반 방식을 이용하여 예측되고, 그 결과는 합성되어 하나의 글에 대응되는 트리 구조를 이룬다. 또한 텍스트의 구조상에서 주제문을 직접적으로 뒷받침하는 문장 혹은 절을 추출하여 글의 중요 내용을 얻고자 하였다.

  • PDF

개연성 규칙과 문장추상화를 활용한 문서요약 (Text Summarization with Abductive Rules and Sentence Abstraction)

  • 김곤;배재학
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.359-362
    • /
    • 2002
  • 본 논문에서는 문장추상화와 문장간 개연적 연결상황을 활용한 문단 기준의 문서요약을 생각하였다. 구상한 문단기준 문서요약 방법론은 다음과 같은 절차로 구성되어 있다: (1) 문단의 문장들을 추상화시킨다, (2) 문장구성성분들의 문장간 개연적 연결상황을 확인한다, (3) 연결집중도가 상대적으로 높은 문장을 문단의 화제를 담고 있는 것으로 인정한다. 본 논문에서는 이 과정에서 문장추상화에 필요한 구문분석기와 온톨로지를 구체화하였고, 문장추상기로 설화문장 추상화를 하였다. 그 후 개연성 규칙을 적용하여 문단의 주제문을 선별하였다.

  • PDF

UNITEX를 이용한 로봇 주제의 자동 질의응답 시스템 (Automatic Query Answering System Using The UNITEX for Robots Domain)

  • 정병호;박충식;우영운
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 추계학술대회
    • /
    • pp.310-313
    • /
    • 2009
  • 기존의 자동 질의응답 시스템은 복잡한 구문처리와 의미분석으로 인하여 그 구현에 많은 어려움이 있다. 본 논문에서는 대화의 주제를 특정 분야로 제한할 경우 구문구(syntactic phrases)와 동의구(synonymous phrases)를 용이하게 처리하는 UNITEX를 사용해 문법을 처리하는 자동응답시스템을 제안한다. 자동응답시스템의 지식표현과 추론, 응답문 생성은 자체 개발한 지식처리시스템인 NEO를 사용한다.

  • PDF

게임사들의 이슈 대응 방식에 대한 사용자들의 반응 분석: 토픽모델링 분석을 중심으로 (Analyzing user reactions to how game companies respond to issues: Focusing on Topic Modeling Analysis)

  • 김유현;김유섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.727-729
    • /
    • 2022
  • 본 연구는 2021 게임업계 연쇄 파동을 통해 게임사 이슈 대응에 대한 사용자들의 인식이 바뀐 것에 주목하여 메이플스토리 확률 조작 사건에서 나타난 사용자들의 반응을 토픽모델링으로 분석하였다. 이를 위해 사건의 발단이 된 메이플스토리 테스트 월드 업데이트 내용이 업로드된 2021년 2월 18일 17시를 기점으로 국내 온라인 게임 커뮤니티 중 하나인 인벤의 자유게시판에서 총 10만 개의 게시물을 수집하고 토픽모델링 분석을 실시하였다. 이후 도출된 주제별 주요 단어를 10개씩 확인하여 주제를 정의했다. 각 토픽을 비교하며 관련성을 확인했고 이를 통해 사용자들의 반응을 분석한 결과 확률 조작으로 인한 보상으로 환불을 원하고 있다는 것과 아이템의 확률을 조작했다는 것에 대한 사용자들의 분노, 디렉터 본인의 직접적인 사과문과 사용자와의 소통 요구, 또 다른 게임으로의 이탈을 확인할 수 있었다.

초등과학영재 어머니들의 자녀 진로에 대한 인식 분석 (An Analysis on Perception of Mothers about Career for Elementary Science-Gifted Children)

  • 권윤아;김효남
    • 한국과학교육학회지
    • /
    • 제37권4호
    • /
    • pp.577-586
    • /
    • 2017
  • 이 연구의 목적은 개념도 연구법을 적용하여 초등과학영재 어머니들의 자녀 진로에 대한 인식을 구조화하는 것이다. 개념도 연구법은 참여자가 자유롭게 주제에 대해 말하고, 그 내용을 진술문으로 추출하여 직접 분류하는 과정을 거친다. 이 연구에 참여한 어머니들은 자녀가 초등학교 5, 6학년이며 과학영재교육대상자로 선발되었다. 다양한 영재 어머니들의 의견이 반영되도록 영재학급, 과학고 영재원, 대학부설 영재원 그룹의 어머니들을 따로 만나 연구를 진행하였다. 먼저 26명을 섭외하여 브레인스토밍을 통해 주제에 대해 이야기 하며 50개 진술문을 추출하였고 그 가운데 10명을 다시 만나 무선화한 진술문 카드를 각자 분류하도록 하였다. 분류결과는 비유사성행렬로 변환하여 SPSS 다차원 척도분석과 군집분석을 하여 개념도를 작성하였다. 그리고 총 140명의 어머니들로부터 리커트 5점으로 진술문에 대한 의견을 조사하였다. 연구 결과, 과학영재 어머니들이 갖고 있는 자녀 진로에 대한 인식은 총 6개의 군집과 50개의 진술문으로 이루어져 있으며 각각의 군집명은 '사교육, 성적, 진학에 대한 부담감', '영재교육원 및 학교의 진로교육에 대한 생각', '자녀 진로교육에 관한 부모역할', '가정에서 겪는 진로지도의 어려움', '진로지도를 위한 부모역량강화 요구', '사회적 지원요구'이다. 군집별 공감 정도 평균은 '사회적 지원요구'가 가장 높았으며 '가정에서 겪는 진로지도의 어려움'과 '사교육, 성적, 진학에 대한 부담감' 군집은 낮은 편이었다. 이 연구결과를 통해 논의하고자하는 시사점은 영재 어머니들이 자녀 진로를 인식할 때 진학, 사교육, 성적이 큰 부담으로 자리 잡고 있다는 점이다. 이러한 부담은 진로교육에 대한 부정적 염려로 이어지고 있으므로 우려스러운 부분이다. 또한, 어머니들은 가정에서 진로지도의 어려움을 겪고 있으며 이를 해결하고자 하는 요구가 높았다. 이를 위한 구체적인 지원 내용과 방법에 있어서는 개별화, 맞춤화된 방법과 문제해결능력 관련 부모역량을 강화하는 내용으로 이루어져야함을 시사한다. 또한 영재 진로지도를 위한 사회적 지원요구가 높으므로 이에 대한 적절한 지원방법에 대한 논의가 이루어져야 한다.

한국어 대화 모델 학습을 위한 디노이징 응답 생성 (Denoising Response Generation for Learning Korean Conversational Model)

  • 김태형;노윤석;박성배;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.29-34
    • /
    • 2017
  • 챗봇 혹은 대화 시스템은 특정 질문이나 발화에 대해 적절한 응답을 해주는 시스템으로 자연어처리 분야에서 활발히 연구되고 있는 주제 중 하나이다. 최근에는 대화 모델 학습에 딥러닝 방식의 시퀀스-투-시퀀스 프레임워크가 많이 이용되고 있다. 하지만 해당 방식을 적용한 모델의 경우 학습 데이터에 나타나지 않은 다양한 형태의 질의문에 대해 응답을 잘 못해주는 문제가 있다. 이 논문에서는 이러한 문제점을 해결하기 위하여 디노이징 응답 생성 모델을 제안한다. 제안하는 방법은 다양한 형태의 노이즈가 임의로 가미된 질의문을 모델 학습 시에 경험시킴으로써 강건한 응답 생성이 가능한 모델을 얻을 수 있게 한다. 제안하는 방법의 우수성을 보이기 위해 9만 건의 질의-응답 쌍으로 구성된 한국어 대화 데이터에 대해 실험을 수행하였다. 실험 결과 제안하는 방법이 비교 모델에 비해 정량 평가인 ROUGE 점수와 사람이 직접 평가한 정성 평가 모두에서 더 우수한 결과를 보이는 것을 확인할 수 있었다.

  • PDF