DOI QR코드

DOI QR Code

의존관계에 기초한 일본어 키워드 추출방법

The Method of Deriving Japanese Keyword Using Dependence

  • 이태헌 (군산대학교 컴퓨터정보과학과) ;
  • 정규철 (군산대학교 컴퓨터정보과학과) ;
  • 박기홍 (군산대학교 컴퓨터정보과학과)
  • 발행 : 2003.02.01

초록

본 논문에서 일본어 키워드 추출을 목적으로 요약문서 중에 떨어진 문자열을 합성하고, 그 문장에 나타난 규칙을 가지고 단어 정보(표기, 품사)와 구문 정보를 이용하여 복합명사고로 된 키워드 추출 방법을 제안한다. 저자 자신이 부여한 학술 논문의 키워드 중에서 문서 중에 그대로 존재하지 않는 키워드의 특징을 분석한 결과로 의존 관계에 의한 복합명사 생성 규칙을 구축한다. 또 문장의 내용과 다른 키워드의 추출을 억제하기 위해 생성규칙에 대한 제약과 중복 단어를 고려한 중요도 결정법을 제안한다. 자연ㆍ 음성언어처리에 관한 일본어 논문 65파일의 타이틀과 초록부분을 이용하여 추출된 키워드의 타당성에 대한 실험을 한 결과 추출 정밀도는 중요도의 상위 1개를 출력한 경우 63%가 되어 추출 방법의 유효성을 확인 할 수가 있었다.

This thesis composes separated words in text for extracting keywords from Japanese, proposes extracting indexing keywords which consist of a compound noun using words and sentences information with the rules in the sentences. It constructs generative rules of compound nouns to be based In dependence as a result of analysing character of keywords in the text not the same way as before. To hold other extracting keywords and the content of sentence, and suggest how to decide importance concerned some restriction and repetition of words about generative rules. To verify the validity of keywords extracting, we have used titles and abstracts from Japanese thesis 65 files about natural language and/or voice processing, and obtain 63% in outputting one in the top rank.

키워드

참고문헌

  1. okumura M. et al., '텍스트 자동 요약에 관한 연구 동향', 자연어처리학회, VoI.6, No.6, pp.1-26, 1999(in Japan)
  2. Hara, M. et al., '텍스트의 포맷과 단어의 범위 내 중요도를 이용한 키워드 추출', 정보처리학회논문지, VoI.38, No.2, pp. 299-309, 1997(in Japan)
  3. Ogawa, Y. et al., '복합어 키워드의 자동 추출법', 정보처리 자연언어연구회, 97-15, pp.103-110, 1993(in Japan)
  4. Kimot, H., '일본어 신문 기사에서의 키워드 자동 추출과 중요도 평가', 전자정보통신학회논문지, VoI.J74-D-I, No.8, pp. 556-566, 1991(in Japan)
  5. Tokunaga, T., '정보 검색과 언어 처리', 동경대학 출판회, 동경, 1999(in Japan)
  6. Suzuki, H. et al., '단어의 의미 분류의 출현 경향을 고려한 키워드 추출의 시험', 정보처리 자연언어연구회, 98-10, pp.73-80, 1993(in Japan)
  7. Uchiyama, K. et al., '중요 키워드 추출 방식과 그 활용 방법', 정보처리 데이터베이스 시스템연구회, 84-19, pp.151-161, 1991 (in Japan)
  8. Ito, S. et al., '이용 목적에 따른 최적 가능한 키워드 추출 방법', 전자 정보 통신학회, NLC93-53, pp.41-46, 1993(in Japan)
  9. Morohashi, M., '자동 색인 첨가 연구의 동향', 정보처리학회, VoI.25, No.9, pp.918-925, Sep., 1984(in Japan)
  10. Katoh, N. et al., '국소적 요약 지식의 자동 확득 방법', 자연언어처리논문지, VoI.6, No.7, pp.73-92, 1999(in Japan)
  11. NACSIS Test Collection for IR Systems, 학술정보센터, 1999(in Japan)
  12. Miyazaki M. et aI., '의존해석을 이용한 복합어의 자동 분할', 정보처리학회논문지, VoI.25, No.6, pp.970-979, 1984(in Japan)
  13. Andou K. et al., '일본어 정형 표현의 패턴 기술 규칙과 효율적인 조합 알고리즘', 전자정보통신학회논문지, Vol.J80-DII, No.7, pp.1860-1869, 1997(in Japan)
  14. Ohata U. et al., '연접이 다르게 되는 단어의 수에 의한 전문용어 추출', 정보처리 자연언어연구회, 136-16, pp.119-126, 2000(in Japan)