• 제목/요약/키워드: 질문 주제 분류

검색결과 23건 처리시간 0.019초

주제 분류를 활용한 국립국어원 질의응답 게시판 유사 질문 검색 시스템 (Similar Question Search System for Q&A board of The National Institute of the Korean Language using Topic Classification)

  • 문정민;송영호;진지환;이현섭;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.201-205
    • /
    • 2014
  • 국립국어원의 온라인 가나다 서비스는 한국어에 대한 다양한 질문과 정확한 답변을 제공한다. 만일 새롭게 등록되는 질문에 대해 유사한 질문을 자동으로 찾을 수 있다면, 질문자는 빠른 시간에 답변을 얻을 수 있고 서비스 관리자는 수동 답변 작성의 부담을 덜 수 있다. 본 논문에서는 국립국어원 질의응답게시판의 특성을 분석하여 질문의 주제를 6가지로 분류하고, 주제 분류 정보와 벡터 유사도, 수열 유사도를 결합하여 유사한 질문을 검색하는 시스템을 제안한다. 평가에서는 본 논문에서 제시한 주제 분류 정보를 활용한 결과 1위 정답 검색 정확률이 향상되는 결과를 얻었다. 최종 실험에서는 MRR이 0.62, 정답이 1위, 5위내에 검색될 확률은 각각 54.2%, 78.2%를 보였다.

  • PDF

온라인가나다를 위한 주제 분류 기반 유사 질문 검색 시스템 (Similar Question Search System for online Q&A for the Korean Language Based on Topic Classification)

  • 문정민;송영호;진지환;이현섭;이현아
    • 인지과학
    • /
    • 제26권3호
    • /
    • pp.263-278
    • /
    • 2015
  • 국립국어원의 온라인가나다 서비스는 한국어에 대한 질문을 등록하면 전문가가 답변을 작성하는 인터넷 서비스이다. 이러한 서비스는 유사한 질문이 자주 등록되는 문제점이 있다, 만일 새롭게 등록되는 질문과 유사한 질문을 자동으로 찾아 그 질문에 대한 답변을 등록 즉시 제공한다면, 질문자는 빠른 시간에 답변을 얻을 수 있고 서비스 관리자는 수동 답변 작성의 부담을 덜 수 있다. 본 논문에서는 온라인가나다의 특성을 분석하여 자주 질문되는 다섯 개의 주제 분류를 설정하고, 주제 분류 유사도와 함께 음소와 음절단위 수열유사도와 벡터 유사도를 결합하여 유사한 질문을 검색하는 시스템을 제안한다. 평가에서는 본 논문에서 제시한 주제 분류 정보를 활용하여 검색 정확률이 향상되는 결과를 얻었다. 최종 실험에서는 Mean Reciprocal Rank(MRR)가 0.756, 정답이 1위와 5위내에 검색될 확률은 각각 68.31%, 87.32%를 보였다.

단서표현 기반의 인물관련 질의-응답문 문장 주제 분류 시스템 (A Topic Classification System Based on Clue Expressions for Person-Related Questions and Passages)

  • 이경호;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권12호
    • /
    • pp.577-584
    • /
    • 2015
  • 일반적으로 질의응답 시스템은 입력된 질문에 대한 정답을 찾기 위해 질문과 관련된 문서 또는 단락 단위의 검색을 수행한다. 그렇지만 단어 기반의 검색만으로는 정답을 포함하는 단락을 찾기 어려운 경우가 있다. 본 논문에서는 이러한 문제를 각 문장이 가지고 있는 주제를 통해 해결할 수 있다고 판단하고 이를 위한 질의-응답문의 주제 분류 시스템에 대해 연구하였다. 이러한 시스템을 위해 필요한 인물과 관련한 주제 유형을 소개하고, 주제를 찾기 위한 단서표현을 정의하였다. 또한 단서표현기반으로 문장의 주제를 파악하는 시스템의 구성에 대해 소개하고, 이 시스템의 구성요소들에 대한 성능 평가를 수행하였다.

한국어 질의 응답에서의 화제성을 고려한 딥러닝 기반 정답 유형 분류기 (Deep learning-based Answer Type Classifier Considering Topicality in Korean Question Answering)

  • 조승우;최동현;김응균
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.103-108
    • /
    • 2019
  • 한국어 질의 응답의 입력 질문에 대한 예상 정답 유형을 단답형 또는 서술형으로 이진 분류하는 방법에 대해 서술한다. 일반적인 개체명 인식으로 확인할 수 없는 질의 주제어의 화제성을 반영하기 위하여, 검색 엔진 쿼리를 빈도수로 분석한다. 분석된 질의 주제어 정보와 함께, 정답의 범위를 제약할 수 있는 속성 표현과 육하원칙 정보를 입력 자질로 사용한다. 기존 신경망 분류 모델과 비교한 실험에서, 추가 자질을 적용한 모델이 4% 정도 향상된 분류 성능을 보이는 것을 확인할 수 있었다.

  • PDF

한국의 대학도서관 정보서비스에 있어서 주제전문사서의 현황과 기능에 관한 조사연구 (A Study on Functions and Present Situation of Subject Specialists for Information Services in Korean College and University Libraries)

  • 한상완
    • 정보관리학회지
    • /
    • 제3권2호
    • /
    • pp.42-74
    • /
    • 1986
  • 우리나라 대학도서관에서 정보서비스의 수준을 높이기 위하여 필수적으로 요청되는 것이 정보서비스의 주체인 정보사서의 질을 높여야 한다는 이론을 규명하기 위하여, 우러나라 대학도서관의 정보서비스 현황과 정보사서의 현황을 통계적으로 상세히 분석하였다. 그 결과, 우리나라 정보사서들은 도서관학사학위를 소지한 20대와 30대의 인사들로 주성되어 있었으며, 주제전문사서로 볼 수 있는 비율은 7.6%에 불과했고, 즉답형 질문(42.1%)과, 지시형 질문(32.7%)을 주로 해답하여 주며, 정보서비스의 수준을 향상시키기 위하여 주제전문사서제도를 채택하는 것이 절대 바람직하다고 응답하였다. 주제전문사서가 수행하여야 할 주요 기능은 특정주제분야의 정보서비스, 서지, 안내서, 도서목록, 색인, 초록등의 작성; 정보배포와 최신정보주지 서비스; 균형있는 장서구성; 학과단위, 학생 및 교수와의 긴밀한 교량적 역할; 독장에 대한 자료 및 도서관 이용의 정규 비정규직인 강의와 안내; 및 분류편목의 순서라고 응답하였다. 주제전문사서를 양성하기 위한 가장 좋은 교육제도는 도서관학사를 하여금 대학원에 진학하여 주제전문가로서의 소양을 쌓도록 하여 도서관학석사학위를 수여 하는 것이 바람직하다고 분석되었으며, 주제전문사서제도가 확립되어야만 대학사서의 교수신분을 확보할 수 있다고 보았다.

  • PDF

내용분석법에 의한 문헌정보학 학술지 연구논문 분석 (Recent Trends in Research Methods in Library and Information Science : Content Analysis of the Journal Articles)

  • 이명희
    • 한국문헌정보학회지
    • /
    • 제36권3호
    • /
    • pp.287-310
    • /
    • 2002
  • 본 연구는 한국문헌정보학계의 대표적인 3개 학회지에 발표된 연구논문 597편을 대상으로 연구방법론 단계에서 고찰한 연구주제, 연구방법, 자료수집방법, 자료분석방법, 가설설정의 유무, 근거한 이론의 유무, 연구비 지급 유무 및 종류의 순서로 내용분석하였다. 연구결과, 가장 자주 연구된 주제는 디지털도서관, 도서관경영, 정보검색, 웹정보원, 분류목록, 참고봉사와 정보서비스, 전문직(교육)의 순서로 나타났으며, 문헌연구와 조사연구가 대표적으로 가장 빈번하게 사용되었지만 실험연구방법과 시스템설계 및 구축방법도 큰 폭으로 증가하였다. 웹정보자원의 자료수집방법으로서의 중요성은 계속 증가하고 있는데, 특히 정보관리학회지에서는 웹정보원과 실험이 질문지보다 더욱 중요한 자료수집방법으로 나타났다. 연구비를 지원받은 논문의 경우. 대학으로부터 수혜받은 경우가 144편으로 절대적인 비중을 차지하였으며, 학술진흥재단으로부터 28편, 정보통신부 4편 한국교육학술정보원 4편, 기타 18편의 순이다. 제언으로 웹정보원에 대한 연구방법론 개발, 질적연구, 공동연구, 연구지원금 독려 등에 관해 언급하였다.

중학생의 자유 탐구 보고서에 나타난 특징과 탐구 수행에 대한 학생들의 인식 (Characteristics of Middle School Students' Open-Inquiry Report and Their Perceptions of Conducting Inquiry)

  • 박미현;차정호;김인환
    • 대한화학회지
    • /
    • 제56권3호
    • /
    • pp.371-377
    • /
    • 2012
  • 이 연구에서는 대구 지역 중학교 2학년 165명이 작성한 자유 탐구 보고서를 주제 영역, 탐구 가설, 그리고 탐구 변인의 측면에서 분석하였다. 여름방학이 시작되기 전 2시간 동안 오리엔테이션을 진행하면서 탐구 과정에 대해 소개하고, 주제를 탐색하도록 하였다. 여름방학 동안 학생들은 주제 선정, 실험설계 및 수행, 자료 수집 및 분석, 결과 보고서 작성 등의 과정을 스스로 진행하였다. 여름방학 후, 결과보고서를 제출받으면서 학생들이 주제 선정에서 활용한 자료의 출처, 가설의 정의, 그리고 탐구 과정에서 가장 어려운 단계에 대한 인식도 조사하였다. 보고서의 주제 영역은 물리, 화학, 생물, 지구과학, 생활 영역으로, 보고서에 기술된 가설은 예측 가설과 설명 가설로 분류하였고 가설의 정의에 대한 학생들의 인식과 비교하였다. 탐구 주제, 탐구 가설, 실험 설계 부분에 제시된 탐구 변인을 분석하여 범주형, 연속형, 불확실 유형으로 분류하였다. 연구 결과, 주제 영역 중 화학 영역의 보고서가 가장 많았고, 다음으로 생물과 생활 영역이 많았다. 전체 165개 보고서 중 130개에 탐구 가설을 포함하고 있었는데, 이들 중 대부분은 예측 가설에 해당하였다. 보고서에 제시된 탐구 변인을 분석한 결과, 탐구 주제와 탐구 가설에 기술된 독립 변인과 종속 변인은 불확실 유형이 많았다. 그러나 실험 설계 부분에 기술된 변인들은 불확실 유형이 많이 줄어들었고, 범주형 변인이 증가하였다. 탐구 수행 과정에서 가장 어려운 단계에 대한 질문에 학생들은 주제 선정 단계를 가장 많이 선택하였다.

한국천문학 구술사연구 기획론 (Planning of Oral History of Korean Astronomy)

  • Choi, Youngsil;Kim, Sang Hyuk;Mihn, Byeong-Hee;Seo, Yoon Kyung;Ahn, Young Sook;Yang, Hong-Jin;Choi, Go-Eun
    • 천문학회보
    • /
    • 제44권2호
    • /
    • pp.66.2-66.2
    • /
    • 2019
  • 구술채록은 특정 주제의 연구사 기록화 작업에 있어 후대에 생생한 역사체험을 전승할 수 있는 최적의 연구사업이다. 특히 국내 천문우주과학 분야의 원로들이 대부분 연로하다는 점에서 한국천문학 발전사에 대한 구술채록은 시급성이 더욱 요구되고 있다. 이에 한국천문연구원 고천문연구센터는 그간 기관에서 자체적으로 수행해 온 사료분류체계 수립작업과 단발적인 구술채록 경험을 기반으로 본격적인 구술채록 연구사업을 수행할 계획이다. 이 연구는 한국천문학 발전사 구술채록 사업의 절차적 방법에 대한 기획론이다. 크게 (1)구술채록 로드맵 수립, (2) 구술기록 생산 프로세스, (3) 산출물 관리 및 활용으로 제시하고자 한다. 먼저 구술채록 로드맵 수립에 있어서는 현대 한국천문학 발전의 태동기 1950년대 중반을 기점으로 역사연구 및 주제분류를 중심으로 천문학 구술기록 특성화를 기한다. 이를 기반으로 구술대상자를 선정하고 큰 맥락의 역사와 개인 생애사를 교차하는 분석 틀을 중심으로 인터뷰 질문지를 추출한다. 이 과정에서 구술대상자의 소장 사료를 도출하여 미리 잠재적 사료 수집을 도모하도록 한다. 둘째, 본격적 구술기록 생산 프로세스에서는 전 단계에서 이행한 수집정보를 바탕으로 구술 산출물을 제작한다. 면담일지, 상세녹취록, 요약본, 이용동의서 등 기타 필요한 구술 제반 서식을 바탕으로 구술 동영상을 산출하고 라벨링한다. 이 산출물에 대한 사실관계 검증 후 최종 산출물 완성 및 기타 행정 처리로 제작은 종료된다. 마지막으로 산출물 관리 및 활용에 있어서는 사료 수집 전략의 기반 자료와 다양한 지식정보콘텐츠의 활용체계를 수립한다. 더 나아가 향후 이 연구사업은 구술DB화와 서비스 체계화를 위하여 구술아카이브 시스템을 설계하는 데 성과물을 활용한다. 이 연구기획론은 한국천문학이라는 특정 주제에 대한 것이므로 큰 틀에서의 방법은 기록학적 전개방식을 차용하지만, 역사연구와 기록의 특성화에 있어서는 한국천문학 연구사에 대한 깊은 이해가 동반되어야 한다. 따라서 광범위한 한국천문학 네트워크에 해당하는 다양한 학회, 교육기관, 연구기관 및 각종 사단법인 등의 역사와도 긴밀히 연결되어야 성과물은 비로소 가치 있고 풍부할 것이다. 이 연구를 시발점으로 향후 한국천문학 발전사 구술채록 사업에 대한 다양한 관학연구의 인식 공감대가 마련되기를 기대한다.

  • PDF

아동과 청소년의 흡연 관련 연구 동향 분석: 학술지 게재 논문을 중심으로 (Publication Trends in Smoking-Related Research for Children and Adolescents: An Analysis of Korean Academic Journals)

  • 손현동
    • 한국융합학회논문지
    • /
    • 제10권2호
    • /
    • pp.269-276
    • /
    • 2019
  • 이 연구는 아동과 청소년의 흡연과 관련된 연구 중 국내 학술지에 발표된 연구의 동향을 알아보는 것이 목적이다. 이를 위해 논문 선정, 분류 유목 결정, 평정지침서 작성, 논문 분석, 코딩, 코딩 결과 분석의 절차를 거쳤다. 분석대상은 2018년까지 학술지에 게재된 논문 중 선정 기준에 부합한 350편의 논문이며, 발표 연도, 연구대상, 연구주제, 연구방법에 초점을 두어 분석하였다. 그 결과 아동과 청소년을 대상으로 한 흡연 관련 연구는 1995부터 2000년 사이에 급격하게 증가하였으며, 그 추세가 유지되었다. 주된 연구 대상은 일반 아동과 청소년이었으며, 가장 많이 연구된 주제는 '관련 요인', '개입', '실태', '예방', '특성', '법과 정책', '척도', '개관과 이론'의 순이었다. 연구방법은 양적연구를 가장 많이 사용하였고, 자료는 연구자가 직접 질문지를 활용해 수집하는 형태가 가장 많았으며 점차 패널 데이터의 활용 사례가 늘고 있었다. 향후에는 더 다양한 주제에 대한 연구가 필요하며 질적 및 혼합 연구 방법을 포함한 균형 잡힌 연구 방법도 제안되었다.

Topic Modeling을 이용한 Twitter상에서 스모그 리스크에 관한 대중 인식 분류 연구 (Classification of Public Perceptions toward Smog Risks on Twitter Using Topic Modeling)

  • 김윤기
    • 지적과 국토정보
    • /
    • 제47권1호
    • /
    • pp.53-79
    • /
    • 2017
  • 본 연구의 주된 목적은 토픽 모델링(topic modeling)을 이용하여 트위터 상에서 스모그 리스크(smog risks)에 관한 대중 인식(public perceptions)을 측정하고 분류하는 것이다. 선행연구에 있어서 연구 갭(research gap)을 확인하기 위하여 본 연구는 스모그 리스크와 토픽 모델링에 대한 선행연구를 검토하였다. 그 결과 본 저자는 기존의 연구에서 상당한 연구 갭이 존재하고 있음을 확인하였으며, 이러한 연구 갭을 메우기 위해 다섯 개의 연구 질문을 설정하였다. 연구 질문들에 답을 구하기 위하여 본 연구는 10,000개의 트위터 자료를 추출하였고, 이에 대하여 워드 클라우드 분석(word cloud analysis), 상관분석, LDA를 이용한 토픽 모델링, 스트림그래프(stream graph), 위계적 집락분석(hierarchical cluster analysis)을 실시하였다. 분석 결과 자주 언급되는 단어들(the most frequent terms), 단어네트워크(terms network)의 형태, 상관관계의 유형, 스모그 관련 주제의 변동패턴에 있어서 뉴욕과 런던 사이에 큰 차이가 있음을 확인하였다. 그리하여 본 저자는 다섯 개의 연구 질문 중 네 개에 대하여 긍정적인 답을 구할 수 있었고, 이를 토대로 몇 가지 정책적 시사점을 제시하고, 향후 연구를 위한 제안들을 하였다.