• 제목/요약/키워드: 키워드 추출 방법

검색결과 355건 처리시간 0.022초

스타일 기반 키워드 추출 (Keyword Extraction based on Style)

  • 이준휘;이원석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (하)
    • /
    • pp.1049-1052
    • /
    • 2002
  • 기존의 키워드 추출 방법은 출현회수(frequency)에 기반한 가중치(weight) 부여 방식이 많이 쓰였다. 본 논문에서는 HTML 문서와 같이 스타일이 적용된 문서의 경우 출현회수와 함께 단어에 적용된 스타일을 고려하여 가중치를 부여해 키워드를 추출하는 방법을 제안한다. 가중치를 부여할 스타일 항목과 항목별 가중치 부여방법을 정의하고 이를 단어별로 합산하고 정규화(normalization)하는 방법을 정의하여 스타일에 기반 해 키워드를 추출하였다. 내용이 특정된 도메인으로부터 순위(ranking)가 매겨진 도메인 키워드 리스트를 뽑아서 이를 기준으로 삼아 기존의 출현회수 기반의 키워드 추출 방식과 양적, 질적인 비교를 수행하여 우월함을 보였다.

  • PDF

텍스트 정보와 시각 특징 정보를 이용한 효과적인 웹 이미지 캡션 추출 방법 (An Efficient Web Image Caption Extraction Method based on Textual and Visual Information)

  • 황지익;박주현;낭종호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.346-348
    • /
    • 2006
  • 기존의 웹 이미지 검색 시스템들은 웹 페이지에 포함된 텍스트들의 출현빈도, 태그유형 등을 고려해 각 키워드들의 중요도를 평가하고 이를 이용해 이미지의 캡션을 결정한다. 하지만 텍스트 정보만으로 캡션을 결정할 경우, 키워드와 이미지 사이의 관련성을 평가할 수 없어 부적절한 캡션의 배제가 어렵고, 사람의 인지와 맞지 않는 캡션이 추출되는 문제점이 있다. 본 논문에서는 기존의 웹 이미지 마이닝 방법을 통해 웹 페이지로부터 캡션 후보 키워드를 추출하고, 자동 이미지 주석 방법을 통해 이미지의 개념 부류 키워드를 결정한 후, 두 종류의 키워드를 결할하여 캡션을 선택한다. 가능한 결합 방법으로는 키워드 병합 방법, 공통 키워드 추출 방법, 개념 부류 필터링 방범 캡션 후보 필터링 방법 등이 있다. 실험에 의하면 키워드 병합 방법은 높은 재현율을 가져 이미지에 대한 다양한 주석이 가능하고 공통 키워드 추출 방법과 개넘 부류 키워드 필터링 방법은 정확률이 높아 이미지에 대한 정확한 기술이 가능하다. 특히, 캡션 후보 키워드 필터링 방법은 기존의 방법에 비해 우수한 재현율과 정확률을 가지므로 기존의 방법에 비해 적은 개수의 캡션으로도 이미지를 정확하게 기술할 수 있으며 일반적인 웹 이미지 검색 시스템에 적용할 경우 효과적인 방법이다.

  • PDF

개념 규칙을 이용한 키워드 도출방법 (The Method of Deriving Keywords Using Concept Rules)

  • 이태헌;박기홍
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.685-687
    • /
    • 2002
  • 일반적으로 인간이 사용하는 몇 개의 주요단어를 이용하여, 문서의 분야나 주제어가 되는 일본어 키워드를 추출하는 점에 주목한다. 먼저, 학술논문에서 저자 자신이 부여한 키워드 중 분야 명이나 주제어가 문서 중에 출현하지 않는 경우를 분석하고, 단어의 개념정보를 기초로 복합어 생성규칙을 구축한다. 문서 의미와 상관없는 키워드의 추출을 억제하기 위해 중요도 결정법을 새롭게 제안한다. 추출된 키워드의 타당성 검사를 위해 자연.음성언어에 관한 일본어 논문 65파일의 타이틀과 초록부분을 이용하여 추출된 키워드의 타당성에 대한 실험을 한 결과 추출 정밀도는 중요도의 상위 1개를 출력한 경우 75%가 되어 제안방법의 유효성을 확인할 수 있었다.

  • PDF

국어정보 질의응답을 위한 키워드 추출 (Keyword Extraction for Korean Language Q&A)

  • 전석종;이수인;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.213-215
    • /
    • 2015
  • 국립국어원 온라인가나다에서 제공되는 질의응답 문서를 이용한 국어정보에 대한 Q&A시스템은 언어 자체에 대한 질문과 답변의 특성으로 조사나 어미로 끝나는 표현이 주어로 등장하는 등의 특이한 문장이 자주 나타난다. 이러한 이유로 형태소 분석을 거쳐 명사를 키워드로 추출하는 일반적인 키워드 추출 방식은 좋은 성능을 얻기 어렵다. 본 논문에서는 국어정보 질의응답 문서의 특징에 맞는 키워드 추출 방법을 제안한다. 제안하는 방식에서는 문장 단위로 분할된 결과에서 연결어미로 문장을 추가로 분할한 뒤에 조사 앞에 나타나는 단어열을 키워드로 추출한다. 덧붙여 다자비교형 질의에서의 키워드 추출을 위해 편집거리를 이용한 키워드 추출 방법을 제안한다.

  • PDF

의존관계에 근거한 키워드 추출방법 (Keyword Abstraction Method to be based in Dependence)

  • 정규철;이진관;이태헌;박기홍
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (하)
    • /
    • pp.1221-1224
    • /
    • 2001
  • 논문의 키워드는 논문을 읽을지 여부를 알아보는 아주 중요한 요소로 존재이다. 그러나 키워드가 되는 단어가 원문 중에 존재하지 않고, 키워드의 구성 단어로 분리하여 존재하는 경우에는 대처할 수 없다. 본 논문에서는 문서를 읽기 위한 판단의 재료가 되는 키워드의 추출을 목적으로 하고, 특히 복합명사 생성 규칙을 이용하여 키워드의 구성 단어로 분리되어 존재하는 키워드를 추출하는 방법을 제안한다.

  • PDF

과거 대화 정보를 사용한 개인화된 대화 키워드 추출 (Personalized Keyword Extraction using Dialogue History)

  • 고준호;손정우;송현제;박세영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.267-269
    • /
    • 2012
  • 본 논문에서는 대화에서 그래프 기반 키워드를 추출하는 방법을 제안한다. 대화의 특성상 길이가 짧고, 생략이 많아 키워드 간의 연결 정도를 판단하기 힘들다. 이를 보완하기 위해 본 논문에서는 과거의 개인 대화 정보를 활용한다. 과거 대화 정보는 시간의 흐름이 반영된 현재 대화가 이뤄지기 전 말하고 듣는 것을 지칭하며, 이를 활용함으로써 개인화된 키워드를 발견할 수 있게 도와준다. 키워드 추출에 있어 현재 대화에서만을 고려하는 기존 연구와 달리, 제안한 방법은 앞서 구축된 과거 정보를 활용하여 그래프를 확장한 후 키워드를 추출한다. 실험을 통해 제안하는 방법이 베이스라인보다 현재 문장을 잘 반영할 수 있는 키워드를 추출함을 보인다.

질의문의 구문정보를 이용한 키워드 추출 (Keyword Extraction Using Syntactic Information of Question)

  • 양수정;서영훈
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2003년도 추계종합학술대회 논문집
    • /
    • pp.190-194
    • /
    • 2003
  • 자연언어 질의문에서 추출된 키워드들은 정답추출에 미치는 비중이 다른 경우가 많지만 키워드들에 대해 상대적인 가중치를 부여하기가 어렵다. 본 논문에서는 이러한 문제점을 해결하기 위하여 질의 문장의 구문 정보를 이용하여 중심키워드와 일반키워드들로 구분하였으며 이를 기반으로 키워드들 간의 가중치 부여 방법을 제안한다. 질의문 코퍼스로부터 질문 유형을 분석하여 구문을 추출하고 추출된 구문정보를 이용하여 질의문에서 키워드들을 추출한다. 이렇게 얻어진 키워드들을 이용하여 다량의 문서들 속에서 중심키워드와 일반키워드들 간의 불린 검색을 통해 질의문의 정답이 포함되었을 가능성이 큰 단락을 추출하고, 질의문과 추출된 단락간의 유사도 측정을 통해 단락을 순위화 한다. 본 논문에서 제안하는 시스템은 질의문의 정답이 포함된 단락추출에 대한 정확도를 향상시킬 것으로 기대된다.

  • PDF

비감독 학습 기법에 의한 한국어의 키워드 추출 (Keyword Extraction in Korean Using Unsupervised Learning Method)

  • 신성윤;이양원
    • 한국정보통신학회논문지
    • /
    • 제14권6호
    • /
    • pp.1403-1408
    • /
    • 2010
  • 한국어 정보검색에서는 문서를 대표하는 색인어 또는 키워드로서 명사를 사용하는데, 이러한 명사 및 키워드 추출이란 문서 내에 존재하는 모든 명사를 찾아내는 작업이다. 본 논문에서는 기 구축된 사전을 이용하여 키워드를 추출하는 방법을 제시한다. 이 방법은 불필요한 연산을 줄여서 수행 시간을 단축시켰다. 그리고 대용량의 문서에서도 정확도에 크게 영향을 미치지 않으면서 명사를 추출할 수 있다. 본 논문에서는 명사의 출현 특성을 이용한 명사추출 방법 및 비감독 학습 기법에 의한 키워드 추출 방법을 제시한다.

한국어 정보처리를 위한 명사 및 키워드 추출 (Noun and Keyword Extraction for Information Processing of Korean)

  • 신성윤;이양원
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권3호
    • /
    • pp.51-56
    • /
    • 2009
  • 언어에서 명사 및 키워드 추출은 정보처리에서 매우 필수적인 요소이다. 하지만, 한국어 정보처리에서 명사 추출과 키워드 추출은 아직도 많은 문제점을 안고 있다. 본 논문에서는 명사의 등장 특성을 고려한 효율적인 명사 추출 방법에 대해서 제시하였다. 제시한 방법은 대량의 문서를 빠르게 처리해야 하는 정보 검색과 같은 분야에서 유용하게 쓰일 수 있다. 또한 대량의 문제를 자동으로 분류하기 위하여 비감독 학습 기법에 의해 카테고리별 키워드를 구성하기 위한 방법을 제안하였다. 제안된 방법은 감독 학습 기법의 키워드 추출기법 중에서 우수하다고 알려진 X2기법과 DF 기법보다 우수한 분류 성능을 보였다.

학문목적영어(EAP)를 위한 키워드 추출 (Keyword Extraction for English for Academic Purposes)

  • 이제영
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2018년도 춘계 종합학술대회 논문집
    • /
    • pp.255-256
    • /
    • 2018
  • 영어로 진행하는 전공 수업, 영어로 쓰여진 교재의 사용 등이 빈번한 대학 수준 이상에서의 학업을 위해서는 학문목적영어와 관련된 능력을 갖추는 것이 필수적이다. 영어로 진행되는 공부에 어려움을 경험하는 학생들을 돕기 위해 많은 학자들은 해당 분야의 키워드, 즉 전문어휘 목록 작성을 통해 해당 분야의 어휘 학습을 돕는 것이 중요하다고 강조하고 있다. 이에 본 연구에서는 해당분야의 전문 어휘 추출과 관련한 핵심 개념과 선행연구를 살펴본 후, 각기 상이한 키워드 추출 방법을 채택한 2개의 선행연구를 통해 실제 키워드 추출이 이루어지는 방법 및 각각의 장단점에 대해 살펴보고자 한다.

  • PDF