• 제목/요약/키워드: 키워드 추출 방법

검색결과 355건 처리시간 0.031초

멀티 온톨로지 기반의 키워드 연관성을 이용한 전문가 검색 시스템 (The Expert Search System using keyword association based on Multi-Ontology)

  • 정계동;황치곤;최영근
    • 한국정보통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.183-190
    • /
    • 2012
  • 본 연구는 연구논문 및 저자 프로파일을 기반으로 상호 협력이 가능한 전문가 검색 시스템을 구축한다. 제안한 방법론은 다음과 같다. 첫째, 입력 키워드와 가장 연관성 높은 키워드를 검색하기 위한 가중치 부여 기법을 제안하고, 둘째, 이 기법을 통해 전문가를 효율적으로 검색하는 방안을 제안한다. 우선적으로 논문에서 키워드와 저자 프로파일을 추출하고, 이를 통하여 전문가를 검색할 수 있도록 한다. 이것은 소셜 네트워크의 여러 분야에서 활용할 수 있다. 이러한 정보는 여러 시스템에 분산되어 있다. 이렇게 분산된 데이터를 통합하기 위한 기술로 멀티 온토롤지를 이용하는 기법을 제안한다. 멀티 온톨로지는 메타 온톨로지, 인스턴스 온톨로지, 로케이션 온톨로지와 연관관계 온톨로지로 구성되고, 연관관계 온톨로지는 동적으로 키워드 연관관계 분석을 통해 구축된다. 이 멀티 온톨로지를 이용하여 전문가 망을 제공하고, 이것은 키워드의 연관관계 추적을 통한 전문가 검색이 가능하도록 한다. 이를 통하여 전문가들의 연구물을 확인할 수 있도록 제공함으로써 세부 전문분야를 확인할 수 한다.

논문의 저자 키워드를 이용한 실시간 연구동향 분석시스템 설계 및 구현 (Design and Implementation of Real-Time Research Trend Analysis System Using Author Keyword of Articles)

  • 김영찬;진병삼;배영철
    • 한국전자통신학회논문지
    • /
    • 제13권1호
    • /
    • pp.141-146
    • /
    • 2018
  • 저자가 작성하는 논문의 저자 키워드는 논문 내용의 특징을 나타내는 가장 중요한 요소이며, 이를 실시간으로 분석하여 사용자에게 제공하게 함으로써, 연구동향을 파악하는 것이 가능하다. 서지로 작성된 논문의 비정형 데이터를 데이터베이스로 구축 하고, 이를 활용하여 실시간 탐색이 가능하도록 색인데이터 구조를 만든다. 특정 키워드가 포함된 논문을 색인데이터 구조에서 탐색하고, 저자키워드를 대상으로 추출, 클러스터링 하여 가중치에 따라 크기별로 나타낼 수 있는 워드클라우드로 사용자에게 제공하여, 연구동향을 가시화 하는 방법을 설계하였다. 또한, 구현된 시스템에서 "바이러스"와 "홍채인식" 키워드를 통하여 연구동향 분석 결과를 제시하였다.

문법형태소 네트워크를 이용한 자동색인 시스템의 설계 (Design of Automatic Indexing System Using Korean Morpheme Network)

  • 안성현;장재우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.13-17
    • /
    • 1995
  • 본 논문은 한국어 특성을 적용하여 키워드를 자동으로 추출하는 기법을 제시한다. 기존에 제안된 명사 추출 시스템인 문법형태소 네트워크를 확장하여 단일 명사 뿐만 아니라 복합 명사를 색인어로 추출한다. 복합 명사는 단일 명사에 비해 보다 한정적 개념을 가지므로, 색인어로 추출될 때 문헌의 식별력을 높일 수 있다. 복합 명사를 구성하는 각각의 단일 명사를 인식함으로써 복합 명사를 분해하고, 간단한 구단위 구문분석을 수행하는 명사 결합 규칙에 따라 단일 명사들을 복합 명사로 합성하는 방법을 제시한다. 마지막으로 이와 같이 추출된 복합 명사에, 복합 명사를 구성하는 단일 명사간의 연관성을 고려하여 보다 정확한 가중치를 부여할 수 있는 새로운 가중치 부여 방안을 제시한다.

  • PDF

난이도 자동제어가 구현된 객관식 문항 생성 시스템 (A Sentence Generation System for Multiple Choice Test with Automatic Control of Difficulty Degree)

  • 김용범;김유섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.1404-1407
    • /
    • 2007
  • 본 논문에서는 객관식 문항을 난이도에 따라 자동으로 생성하는 방법을 고안하여, 학습자 수준에 적합하도록 다양하고 동적인 형태로 문항 제시를 할 수 있는 시스템을 제안하였다. 이를 위해서는 주어진 문장에서 형태소 분석을 통해 키워드를 추출하고, 각 키워드에 대하여 워드넷의 계층적 특성에 따라 의미가 유사한 후보 단어를 제시한다. 의미 유사 후보 단어를 제시할 때, 워드넷에서의 어휘간 유사도 측정 방법을 사용함으로써 생성된 문항의 난이도를 사용자가 원하는 수준으로 조정할 수 있도록 하였다. 단어의 의미 유사도는 동의어를 의미하는 수준 0에서 거의 유사도를 찾을 수 없는 수준 9 까지 다양하게 제시할 수 있으며, 이를 조절함으로써 문항의 전체 난이도를 조절할 수 있다. 후보 어휘들의 의미 유사도 측정을 위해서, 본 논문에서는 두 가지 방법을 사용하여 구현하였다. 첫째는 단순히 두 어휘의 워드넷 상에서의 거리만을 고려한 것이고 둘째는 두 어휘가 워드넷에서 차지하는 비중까지 추가적으로 고려한 것이다. 이러한 방법을 통하여 실제 출제자가 기존에 출제된 문제를 토대로 보다 다양한 내용과 난이도를 가진 문제 또는 문항을 보다 쉽게 출제하게 함으로써 출제에 소요되는 비용을 줄일 수 있었다.

국내.외 U-City 논문의 연구동향 (Research Trends of U-City Theses in Korea and Oversea)

  • 김걸;천정윤;신동빈;임시영
    • 대한공간정보학회지
    • /
    • 제19권1호
    • /
    • pp.53-61
    • /
    • 2011
  • 본 연구는 U-City 논문의 연구동향을 파악하여 미래도시나 U-City 연구의 향후 과제를 도출하고 발전방향을 제시하는데 목적이 있다. 이를 위해 1990년대 중반부터 2010년까지의 국내 외 U-City 및 미래도시 관련 논문을 대상으로 메타키워드를 추출하고, 시계열적 키워드 분석을 통해 국내 외 논문의 연구경향을 비교분석 하였다. 연구 결과 국내 논문과 해외 논문 모두 기술에 관련된 연구가 많았지만 국내에서는 기술과 방법론, 서비스, 계획 및 관리 분야가 초기부터 지속적으로 연구된 반면 해외 논문은 기술 및 방법론에 대한 연구가 선행된 후 모델을 통해 도시에 적용하는 연구가 이어지는 경향을 파악할 수 있었다. 또한 국내에서는 도시재생이나 도시의 공간적 스케일을 고려한 다양한 주제별 연구가 부족한 것으로 나타났다. 따라서 향후에는 U-City가 도시에 적용될 수 있는 다양한 주제의 연구가 필요하다.

효과적인 브라우징을 위한 뉴스 기사 요약에 관한 연구 (A Study on Skimming of News Article for an Efficient Browsing)

  • 이주호;정승도;조정원;최병욱
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2000년도 제13회 신호처리 합동 학술대회 논문집
    • /
    • pp.219-222
    • /
    • 2000
  • 수많은 종류의 비디오 데이터를 효율적으로 검색하기 위해서는 데이터를 분석하여 사용자에게 먼저 전체 비디오의 요약을 제시하는 것이 효과적이다. 본 논문에서는 기사 단위로 분할된 뉴스 기사 전체를 보여주지 않으면서도 기사의 내용을 왜곡됨이 없이 요약하여 효과적으로 사용자에게 보여주기 위한 방법을 제안한다. 본 논문에서는 사용자에게 시각적인 요약 정보를 앵커 프레임 추출 및 대표 프레임 추출을 통해 필름 스트림(film trip)의 형태로 제시하고, 기사를 소개하는 앵커의 첫 대사를 폐쇄 자막(closed-caption)을 이용하여 추출하여, 이를 기사의 내용에 대한 요약으로 필름 스트립과 같이 제시하도록 하였다. 앵커 프레임을 추출하기 위해 본 논문에서는 폐쇄 자막에서의 "앵커:" 태그가 존재하는 시간 구간과 동기된 프레임을 선정한다. 또한 대표 프레임은 공개형 자막(open-cpation)이 존재하는 프레임과 빈도에 기반한 가중치가 높은 .폐쇄 자막에서의 키워드와 동기된 프레임을 선정하도록 하였다. 본 논문의 뉴스 기사 요약 시스템은 시각적인 프레임제시와 함께 기사의 내용을 바탕으로 하는 기사 요약문을 같이 사용자에게 제공함으로써 기존의 필름 스트립형태만 제공하던 시스템에 비하여 사용자 중심의 지능형 요약 서비스가 가능함을 실험을 통해 보인다.

  • PDF

유전체 서열의 정렬 기법을 이용한 소스 코드 표절 검사 (Applying Genomic Sequence Alignment Methodology for Source Codes Plagiarism Detection)

  • 강은미;황미녕;조환규
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제9권3호
    • /
    • pp.352-367
    • /
    • 2003
  • 일반적인 컴퓨터 프로그램의 구성적, 구문적 특징은 소스 코드로부터 추출한 키워드들의 서열로 나타낼 수 있다. 따라서 추출한 키워드의 서열을 비교하면 두 프로그램의 유사성과 상이점에 대해서 잘 파악할 수 있다. 서열의 유사성을 측정하는 여러 가지 방법은 생물학적 유전자 서열을 다루는 생물정보학에서 활발한 연구가 이루어져왔다. 본 논문에서 우리는 두 프로그램간의 유사성을 측정하고 서열 정렬 방법을 이용하여 부분 표절 검출을 하는 새로운 방법을 제안한다. 제시한 방법의 성능을 평가하기 위해서, 2001년 자료구조 수업에 참석한 수강생들이 제출한 프로그램을 실험 데이타로 사용하여 표절을 검사하였다. 실험결과는 제안된 기법이 표절 검사에 있어 가장 널리 사용되는 지문법(fingerprint)보다 더 효과적임을 보여 주었다.

키워드를 위한 시퀀셜 패턴 평가 지표와 SNS 팔로워의 관계를 이용한 사용자 관심사항 추출방법 (Extracting Method of User's Interests by Using SNS Follower's Relationship and Sequential Pattern Evaluation Indices for Keyword)

  • 신봉희;전혜경
    • 한국융합학회논문지
    • /
    • 제8권8호
    • /
    • pp.71-75
    • /
    • 2017
  • SNS 등의 보급으로 인해 Web 기반의 소비자 생성 데이터는 기하급수적으로 늘어나는 추세이다. 수많은 데이터 속에서 사용자의 관심에 맞는 콘텐츠를 정확히 추출하는 것은 여러 분야에서 중요하다. 특히 비즈니스 분야에서는 많은 사용자들 속에서 자신들에게 적합한 고객을 찾아 마케팅 정책을 수립하는 것이 중요하다. 본 논문에서는 트위터의 팔로우-팔로잉 관계를 통해 각 계정에 관심이 있는 고객들을 중심으로 중요한 정보를 얻고자 한다. 현재 트위터의 팔로워 간의 관계는 사용자의 세부 관심 사항을 반영하지 않는다. 그러므로 본 연구에서는 팔로우들의 트윗에 대한 키워드 추출 방법을 사용하여 세부 관심 사항을 파악하려고 한다. 이를 위해 국내 상업 트위터 계정 2곳을 선정하여 팔로워로부터 수집한 텍스트 데이터의 마이닝 핵심 문구에 대한 순차 패턴 평가 지표를 적용한다.

스팸 문자 필터링을 위한 변형된 한글 SMS 문장의 정규화 기법 (A Normalization Method of Distorted Korean SMS Sentences for Spam Message Filtering)

  • 강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권7호
    • /
    • pp.271-276
    • /
    • 2014
  • 휴대폰에서 문자 메시지 전송 기능은 현대인들에게 매우 편리한 새로운 형태의 의사소통 방식이다. 반면에 문자 메시지 기능을 악용한 광고성 문자들이 너무 많이 쏟아져서 휴대폰 사용자들은 스팸 문자 공해에 시달리는 심각한 부작용을 낳게 되었다. 광고성 문자를 발송하는 사람들은 문자 메시지가 자동으로 차단되는 것을 회피하기 위해 한글 문장을 다양한 형태로 변형하거나 왜곡시키고 있으며, 이러한 문자 메시지를 자동으로 차단하기 위해서는 변형되거나 왜곡된 문장들을 정상적인 한글 문장으로 정규화하는 기술이 필수적이다. 본 논문에서는 변형되거나 왜곡된 광고성 문자 메시지를 정상적인 문장으로 정규화하고 정규화된 문장으로부터 자동 띄어쓰기 및 복합명사 분해 과정을 거쳐 키워드를 추출하기 위한 방법을 제안하였다.

Computational Thinking(CT) 관련 국내 연구 동향 분석 : CT 용어 사용을 중심으로 (The Analysis on Research Trends for Computational Thinking in Korea : Based on Terminology of CT)

  • 한정민;김성원;이영준
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2017년도 제56차 하계학술대회논문집 25권2호
    • /
    • pp.223-226
    • /
    • 2017
  • 소프트웨어 교육이 활성화됨에 따라 CT의 중요성이 증가하고 있지만, CT는 다양한 단어로 혼용되고 있다. 이와 같은 현황은 CT 연구에 어려움을 유발하고 있다. 따라서 본 연구에서는 CT 용어 사용의 표준화를 위하여 CT 관련 연구에서 사용하고 있는 CT의 용어를 분석하였다. 이러한 연구를 위하여 선행 연구를 통해 '컴퓨팅 사고(력)', 'computational thinking(CT)', '계산적 사고(력)', '알고리즘적 사고(력)', '컴퓨터적 사고(력)', '컴퓨터 과학적 사고(력)', '정보적 사고(력)', '정보 과학적 사고(력)'이라는 키워드를 추출하였다. 추출한 키워드를 기반으로 학술연구정보서비스에서 CT 관련 논문을 수집한 후 CT 관련 논문 중, 제목에 CT 관련 용어가 포함된 123편의 논문을 최종 연구 대상으로 선정하였다. 이와 같은 논문을 분석한 결과, CT 관련 연구는 2008년부터 지금까지 꾸준히 증가해 왔으며 특히 2014년과 2015년 사이에 큰 폭으로 증가한 것을 알 수 있었다. 또한 CT를 표현하는 여러 용어들이 혼재하는 기간을 거쳐 CT의 한글 용어에 대한 합의가 '컴퓨팅 사고력'으로 귀결되고 있는 것을 확인 할 수 있었다. 이를 출발점으로 연구주제, 연구방법, 연구대상 등을 중심으로 한 CT 관련 연구동향 연구가 추후 이루어져야 함을 제안한다.

  • PDF