• 제목/요약/키워드: 핵심어

검색결과 366건 처리시간 0.024초

동적 연결 그래프를 이용한 자동 문서 요약 시스템 (A Document Summarization System Using Dynamic Connection Graph)

  • 송원문;김영진;김은주;김명원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권1호
    • /
    • pp.62-69
    • /
    • 2009
  • 문서 요약은 쉽고 빠르게 문서의 내용을 파악할 수 있도록 방대한 내용을 가지는 다양한 형태의 문서로부터 핵심 내용만을 추출하거나 생성하여 제공하는 것을 목적으로 한다. 본 논문에서는 효율적 문서 요약을 위해 주어진 문서의 평균 문장 길이(핵심어 개수)를 고려하여 문장 간의 핵심어 유사도를 나타내는 연결 그래프를 생성하고 분석하여 요약을 생성하는 기법을 제안한다. 또한 이러한 기법을 이용하여 응용 프로그램 문서로부터 자동으로 요약을 생성하는 자동 문서 요약 시스템을 개발한다. 제안한 방법의 객관적인 요약 성능 측정을 위해 정확한 요약문이 실린 20개의 테스트 문서를 이용하여 생성된 요약에 대해 precision(정확률)과 recall(재현율), F-measure를 측정하였으며, 실험 결과를 통해 기존 기법에 비해 우수한 요약 성능을 보임을 증명하였다.

500단어급 핵심어 검출기에서 화자적응 성능 평가 (Speaker Adaptation Performance Evaluation in Keyword Spotting System)

  • 서현철;이경록;김진영;최승호
    • 대한음성학회지:말소리
    • /
    • 제43호
    • /
    • pp.151-161
    • /
    • 2002
  • This study presents performance analysis results of speaker adaptation for keyword spotting system. In this paper, we implemented MLLR (Maximum Likelihood Linear Regression) method on our middle size vocabulary keyword spotting system. This system was developed for directory services of universities and colleges. The experimental results show that speaker adaptation reduces the false alarm rate to 1/3 with the preservation of the mis-detection ratio. This improvement is achieved when speaker adaptation is applied to not only keyword models but also non-keyword models.

  • PDF

전화망을 통한 핵심어 검출 시스템에서의 채널왜곡 보상벙법의 성능비교 (Performance Comparision of Channel distortion Compensation Techniques in Keyword Spotting System over the Telephone Network)

  • 이교혁
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1996년도 영남지부 학술발표회 논문집 Acoustic Society of Korean Youngnam Chapter Symposium Proceedings
    • /
    • pp.56-60
    • /
    • 1996
  • 본 논문에서 핵심어 검출(Keyword spotting ) 시스템에서의 채널 왜곡에 대한 보상방법등의 성능을 비교하였다. 훈련을 음성과 인식실험용 음성은 서로 다른 환경에서 수집되었으며, 특별히 인식실험용 음성으로는 전화망을 통한 음성 데이터를 이용하였다. 전화망을 통한 음성인식에서는 채널왜곡과 부가잡음에 의해서 음성신호에 왜곡이 생기므로 이들에 대한 적적한 보상이 필요하다. 본 논문에서는 채널 왜곡보상을 위한 처리방법으로 널리 사용되고 있는 global cepstral mean substraction (GCMS), local cepstral mean subtraction(LCMS) 그리고 RASTA processing을 적용하였다. 그리고 인식성능의 개선을 위해 이들 방법을 likelihood ration scorning 에 의한 후처리 과정을 적용하였다. 인식실험결과 이들 방법 모두 채널왜곡 보상을 하지 않았을 경우와 비교하여 더 좋은 인식성능을 얻을 수 있었으며, 그 중 후처리를 적용한 LCMS 방법이 가장 우수한 성능을 나타내었다.

  • PDF

Wikipedia에서 온톨로지 개념 인식을 위한 핵심어 추출 (Term Extraction for Ontology Concept Recognition in Wikipedia)

  • 고병규;김판구
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.344-347
    • /
    • 2010
  • 최근 주목받고 있는 의미적 정보처리의 지식베이스인 온톨로지는 정형화된 표현을 통해 정확한 지식 처리와 추론관계를 명시해야 하기 때문에 온톨로지 확장에 대한 중요성 역시 강조되고 있다. 온톨로지 확장을 위한 기존의 방법들은 전문가를 통한 수작업 형태이거나 보편화된 사전이나 시소러스 집단의 분석을 통한 통계의 확률분포를 이용하는 반자동화된 방법들이 있다. 이에 본 논문에서는 Wikipedia에서 특정 도메인 문서들만을 수집한 후 중요문장 추출과정을 통해 해당 문서 내의 핵심어를 파악하여 이를 온톨로지의 개념 인식을 위한 정보로 활용할 수 있는 방안을 제시하고자 한다.

신문만화 색인에 관한 연구 (A Study on the Indexing Editorial Cartoons)

  • 이지영;이나니
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1998년도 제5회 학술대회 논문집
    • /
    • pp.215-218
    • /
    • 1998
  • 신문만화는 신문에 실린 기사중 가장 핵심적인 내용을 간략한 그림으로 함축하여 정보를 전달한다. 그러나 만화의 함축성과 비유, 짤막한 텍스트 때문에 객관적인 색인어의 추출이 어려운 것이 사실이다. 본 연구에서는 신문만화에서 키워드를 추출하기 위하여 만화의 내용과 관련이 있는 신문기사에서 색인어를 추출하는 방안에 대해 논하였다. 연구에서는 조선일보에 게재된 한컷만화과 네컷만화를 각 1점씩 예로 들어 비주제색인어와 주제색인어를 부여하였다. 특히 주제색인어는 내용상의 연관성이 있는 신문기사를 선정하여 추출하였다.

  • PDF

언어 네트워크 분석을 이용한 신종 감염병 보도 분석: 다제내성균 보도 사례를 중심으로 (A semantic network analysis of news reports on an emerging infectious disease by multidrug-resistant microorganism)

  • 박기수;이귀옥;최명일
    • 디지털융복합연구
    • /
    • 제12권2호
    • /
    • pp.343-351
    • /
    • 2014
  • 이 연구는 여러 항생제에 내성을 지닌 다제내성균에 대해 미디어가 어떻게 보도하는지를 알아보기 위해, 기사 제목에 나타난 핵심어를 언어 네크워크 분석을 이용하여 살펴보았다. 이를 위해 한국언론진흥재단의 기사검색사이트인 카인즈(www.kinds.or.kr)와 언론사의 홈페이지를 통해 약 28개 언론사를 대상으로 2010년 6월 1일부터 2011년 12월 31일까지 229개의 다제내성균 관련 기사를 분석하였다. 먼저, 뉴스 제목에 나타난 핵심어를 분석한 결과, 기사 제목에서 '슈퍼박테리아'(155건)가 가장 많이 사용된 것으로 나타났으며, 불안감을 촉발시키는 '감염'(63건) 용어도 많은 것으로 나타났다. 신종 감염병 보도의 전체 네트워크 구조는 '국내', '다제내성균', '첫', '항생제', '슈퍼박테리아', '발생', '감염' 등의 핵심어를 중심으로 형성된 반면, '관련주', '의료진', '안전' 등은 네크워크 중심에서 크게 벗어나 있었다.

언어 네트워크 분석을 통해 살펴본 한국 언론학 분야 연구의 연구동향 분석 (Research Trends of Korean Journalism and Communication Studies Using a Semantic Network Analysis)

  • 이성준
    • 한국콘텐츠학회논문지
    • /
    • 제16권7호
    • /
    • pp.179-189
    • /
    • 2016
  • 본 연구는 국내 언론학 분야에서의 연구 경향 및 지식 체계를 파악할 목적으로 언론학 분야의 대표적인 저널인 "한국언론학보"에 2005년부터 2015년까지 게재된 논문들 초록에 나타난 핵심어들을 중심으로 언어 네트워크 분석을 실시하였다. 연구 결과, 이 기간동안 논문 초록에 가장 많이 출현한 핵심어들은 프레임, 트위터, 내용분석, 소셜미디어 등으로 나타났으며, 연결 중앙성과 위세 중앙성이 가장 높은 핵심어들은 사회자본, 신뢰, 트위터로 나타났다. 시기별로 연구 동향을 살펴본 결과 2010년 이전에는 주로 이용과 충족 이론, 의제 설정 이론, 프레이밍 이론 등 전통 매스 미디어 효과 이론을 기반으로 한 연구들이 많이 존재하였으나, 2011년 이후에는 스마트폰, 트위터 등 새로운 형태의 특정 미디어에 주목하면서 이루어진 연구들이 많이 등장하고 있는 것으로 나타났다. 본 연구를 통해 나타난 결과는 향후 국내 언론학 관련 커리큘럼 구성이나 연구 시스템 등을 구축하는 데 실무적인 가이드라인으로 활용될 수 있다는 점에서 의미를 지닌다.

문서 분류를 위한 용어 가중치 기법 비교 (Comparison of term weighting schemes for document classification)

  • 정호영;신상민;최용석
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.265-276
    • /
    • 2019
  • 문서-용어 빈도행렬은 텍스트 마이닝에서 분석하고자 하는 개체 정보를 가지고 있는 일반적인 자료 형태이다. 본 연구에서 문서 분류를 위해 문서-용어 빈도행렬에 적용되는 기존의 용어 가중치인 TF-IDF를 소개한다. 추가하여 최근에 알려진 용어 가중치인 TF-IDF-ICSDF와 TF-IGM의 정의와 장단점을 소개하고 비교한다. 또한 문서 분류 분석의 질을 높이기 위해 핵심어를 추출하는 방법을 제시하고자 한다. 추출된 핵심어를 바탕으로 문서 분류에 있어서 가장 많이 활용된 기계학습 알고리즘 중에서 서포트 벡터 머신을 이용하였다. 본 연구에서 소개한 용어 가중치들의 성능을 비교하기 위하여 정확률, 재현율, F1-점수와 같은 성능 지표들을 이용하였다. 그 결과 TF-IGM 방법이 모두 높은 성능 지표를 보였고, 텍스트를 분류하는데 있어 최적화 된 방법으로 나타났다.

A Study on the Finding of Promising Export Items in Defense industry for Export Market Expansion-Focusing on Text Mining Analysis-

  • Yeo, Seoyoon;Jeong, Jong Hee;Kim, Seong Ho
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권10호
    • /
    • pp.235-243
    • /
    • 2022
  • 경쟁이 심화되는 글로벌 방산수출환경은 다양한 비정형적 데이터의 체계적인 분석을 통해 수출목표국가에 대한 수출유망분야를 선정한 후 수출방향에 대한 전략적 맞춤화가 필요한 시점이다. 이에 본 연구는 방산수출품목 시장확대를 목적으로 수출목표국가를 독일, 영국, 프랑스로 선정하고 해당국가별 향후 10년간 무기체계 획득계획에 대한 비정형 예측 데이터를 확보하고자 하였다. 이후 텍스트 마이닝 분석 중 TF-IDF 기법을 활용하여 3개국의 데에터에서 자주 등장하는 핵심어를 도출하고자 하였다. 분석결과, 각 국의 주요 획득사업에 대한 핵심어를 도출할 수 있었고 이를 토대로 3국의 공통적 획득계획이 있는 핵심어를 유사한 의미로 분류하여 현 시점의 방산수출에 대한 유망수출품목을 발굴할 수 있었다.

의미 연결망 분석을 활용한 대학 홈페이지 FAQ 개선방안 (Improving University Homepage FAQ Using Semantic Network Analysis)

  • 안수현;이상준
    • 디지털융복합연구
    • /
    • 제16권9호
    • /
    • pp.11-20
    • /
    • 2018
  • 민원 질의응답의 소통수단으로 보편화된 Q&A 게시판에는 반복된 질문들이 자주 등록되어 민원업무를 효율적으로 관리할 필요성이 제기된다. 본 연구는 대학 홈페이지의 Q&A 게시판에 게재된 비정형 데이터를 중심으로 학생 중심의 질의응답집(FAQ)을 구성하고자 한다. 이에 최근 3년간 690건의 게시물에서 주요 핵심어를 추출하고 의미 연결망 분석을 통해 중심성 분석 및 핵심어 사이의 관계성을 파악하여 네트워크 시각화를 진행하였다. 분석결과 민원질의에서 가장 중심성이 높은 핵심어는 신청, 교과목, 학점, 이수, 졸업, 승인, 기간, 전공, 포털, 학과 등의 순이었다. 또한 주요 핵심어들은 수업, 학적, 학생활동, 장학금, 도서관, 생활관, 정보화, 통학 영역의 8개 군집으로 구분되었다. 이를 토대로 질의횟수가 많은 내용을 분야별로 정리하여 FAQ를 구성한다면 반복적인 질문에 대한 민원응대 프로세스를 간소화함으로써 수요자의 편의성과 행정의 효율성 향상에 기여하고 나아가 대학 구성원간의 원활한 양방향 소통이 가능할 것으로 기대한다.