• 제목/요약/키워드: 중요어

검색결과 864건 처리시간 0.036초

한국어 신조어 말뭉치 구축 및 신조어 중요도 측정 방법에 대한 연구 (A Study of the construct Korean New Word Corpus and Metric of New Word Importance)

  • 김현지;정상근;황태욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.14-19
    • /
    • 2020
  • 신조어는 자연어처리에 있어 대단히 중요하며, 시스템의 전체 성능에 직접적인 영향을 미친다. 일단위, 주단위로 신규 발생하는 어휘들에 대해, 자동으로 신규성 및 중요도가 측정되어 제공된다면, 자연어처리 연구 및 상용시스템 개발에 큰 도움이 될 것이다. 이를 위해, 본 연구는 한국어 말뭉치 KorNewVocab을 새로이 제시한다. 먼저, 신조어가 가져야 할 세부 중요 조건을 1)신규 어휘 2)인기 어휘 3)지속 사용 어휘로 정의하고, 이 조건을 만족하는 신조어 말뭉치를 2019.01~2019.08까지의 뉴스기사를 중심으로 신조어 412개와 4,532 문장으로 구성된 신조어 말뭉치를 구축하였다. 또한, 본 말뭉치의 구축에 활용된 반자동 신규어휘 검출 및 중요도 측정 방법에 대해 소개한다.

  • PDF

관계성 확률을 이용한 XML 태그의 가중치 결정 (Weight decision of the XML Tag using Relationship Probability)

  • 정혜진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.699-702
    • /
    • 2007
  • 보다 효과적인 색인어 추출 및 색인어 가중치 결정을 위하여 문서의 내용뿐 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있는데, 대부분의 연구들이 XML 태그의 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하거나 HTML 문서 태그의 중요도 결정에 관한 연구들이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 상식적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 태그 정보를 이용한 자동색인을 위하여, 논문을 구성하는 주요 태그의 가중치를 계산하는 방법을 제안한다. 보다 객관적인 가중치 결정을 위하여 인용된 문서간의 관계를 알아보고 서로 연관이 있을 확률을 계산하여 그 기대치만큼 색인어에 대한 가중치에 반영한다. 그리고 기존 태그 중요도 결정 방법을 적용하여 계산된 색인어 가중치를 이용한 검색성능과 비교함으로써 본 논문에서 제안한 방법을 적용하여 계산된 색인어 가중치의 효과를 검증한다.

  • PDF

XML 태그 분류에 따른 가중치 결정 (The eight decision which it follows in XML tag classification)

  • 정혜진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.703-706
    • /
    • 2007
  • 보다 효과적인 색인어 추출 및 색인어 가중치 결정을 위하여 문서의 내용뿐 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있는데, 대부분의 연구들이 XML 태그의 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하는게 일반적이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 상식적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 태그 정보를 이용한 자동색인을 위하여, 논문을 구성하는 주요 태그를 중요도에 따라 분류하고, 낮은 태그에서 추출된 용어 가중치를 계산하고, 그 가중치로 높은 가중치의 태그에서 추출된 용어의 가중치를 갱신해 가면서 최종 가중치를 계산하는 방법을 제안한다. 보다 객관적인 가중치 결정을 위하여 사용자가 중요하게 생각하는 태그를 실험해 보고 그에 따라 중요도를 분류하여 가중치 계산에 반영한다. 그리고 기존 태그 중요도 결정 방법을 적용하여 계산된 색인어 가중치를 이용한 검색성능과 비교함으로써 본 논문에서 제안한 방법을 적용하여 계산된 색인어 가중치의 효과를 검증한다.

  • PDF

개념 규칙을 이용한 키워드 도출방법 (The Method of Deriving Keywords Using Concept Rules)

  • 이태헌;박기홍
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.685-687
    • /
    • 2002
  • 일반적으로 인간이 사용하는 몇 개의 주요단어를 이용하여, 문서의 분야나 주제어가 되는 일본어 키워드를 추출하는 점에 주목한다. 먼저, 학술논문에서 저자 자신이 부여한 키워드 중 분야 명이나 주제어가 문서 중에 출현하지 않는 경우를 분석하고, 단어의 개념정보를 기초로 복합어 생성규칙을 구축한다. 문서 의미와 상관없는 키워드의 추출을 억제하기 위해 중요도 결정법을 새롭게 제안한다. 추출된 키워드의 타당성 검사를 위해 자연.음성언어에 관한 일본어 논문 65파일의 타이틀과 초록부분을 이용하여 추출된 키워드의 타당성에 대한 실험을 한 결과 추출 정밀도는 중요도의 상위 1개를 출력한 경우 75%가 되어 제안방법의 유효성을 확인할 수 있었다.

  • PDF

연관률 기반 복합어를 이용한 개선된 정보검색 시스템 (Improved Information Retrieval System Using Multi word Based On Association Ratio)

  • 이병희;최종필;박승규;김민구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.163-165
    • /
    • 2004
  • 복합어의 추출은 정보 검색 및 온톨로지 분야의 연구에 있어서 중요한 비중을 차지하고 있다. 이 분야의 연구는 언어학적인 필터링 및 통계적 기법에 기반 한 연구와 최근의 문맥정보 및 사전 점보를 이용하는 기법 등으로 구분될 수 있다. 복합어를 정보 검색 및 온톨로지 분야에 응용하기 위해서는 복합어의 정확한 추출뿐만 아니라 그 복합어가 문서를 표현할 수 있는 정도를 측정하는 기법이 필요하다. 특히 정보검색 분야에서는 추출된 복합어에 대해 어떻게 가중치를 부여할 것인 가가 중요한 문제이다. 본 논문에서는 연관률(Association Ratio)에 기반 하여 복합어를 추출하고, 추출된 복합어에 대친 적절한 가중치를 부여함으로써 검색 시스템의 성능을 향상시킬 수 있는 방법을 제안한다.

  • PDF

가중치를 가지는 웹문서 색인기법에 관한 연구 (A Study of Indexing Methods with weight-value of Web document)

  • 김종영;김철수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.2459-2462
    • /
    • 2002
  • 검색된 문헌들에 대한 항해 시간을 줄이기 위해서 검색된 문헌들의 문헌 순위화가 필수적이다. 문헌 순위화를 위해서는 문헌 순위화를 위한 순위화 정보가 필요하다. 본 논문에서는 검색된 문헌들에 대한 순위화를 보다 효율적으로 수행하기 위한 정보를 제공하기 위하여 HTML 문서에 대한 색인 과정에서 다양한 가중치를 가지는 색이어 추출 방법에 관하여 연구하였다. 웹문서들은 태그로 이루어지며 중요한 색인어들은 특정 태그 속에 포함되어 있다는 것에 착안하여 색인어의 중요도에 영향을 줄 수 있는 태그를 선별하고, 선별된 태그들에 대해 휴리스틱 정보를 이용하여 중요도를 부여한 후 선별된 태그에 영향을 받는 문장들에서 추출된 색인어에 대하여 가중치를 부여하는 방법을 이용하였다. 색인어 추출을 형태소 분석기를 이용하였다. 색인어들이 다양한 가중치를 가지므로 검색 과정에서 검색된 문헌들에 대하여 효율적인 순위화가 가능하여 관련 문헌을 보다 빠르게 찾을 수 있는 환경을 제공할 수 있다.

  • PDF

키워드 가중치 방식에 근거한 도서 본문 주제어 추출 (Thematic Word Extraction from Book Based on Keyword Weighting Method)

  • 안희정;최건희;김승훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2015년도 제51차 동계학술대회논문집 23권1호
    • /
    • pp.19-22
    • /
    • 2015
  • 본 논문에서는 문장 및 문단에서 키워드의 역할에 따른 가중치에 근거하여 도서 본문에서 주제어를 추출하는 방법을 제안한다. 기존의 주제어 추출 방식은 도서 본문이 아닌 신문이나 논문에 대한 방식이므로 도서 본문에서의 주제어 추출에 그대로 적용하기에는 어려움이 있다. 따라서 본 논문에서는 빈도수뿐만 아니라 문장 내 중요 요소에 대한 가중치와 중요 문장에 대한 가중치를 후보 키워드에 부여하는 방식을 제안하였다. 제안한 계산 방식을 비문학 도서에 대하여 실험한 결과, 빈도수만으로 주제어를 추출한 기존 방식보다 본 논문에서 제안한 방식의 주제어 추출 결과의 정확도가 향상되는 것을 확인하였다.

  • PDF

베이지안 추론망 기반 색인어의 심층 분석 방법 (Deep Analysis on Index Terms Using Baysian Inference Network)

  • 송사광;이승우;정한민
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.84-87
    • /
    • 2012
  • 대분분의 검색 엔진에서 색인어의 추출 및 가중치의 부여방법은 매우 중요한 연구주제로, 검색 엔진의 성능에 큰 영항을 미친다. 일반적으로, 불용어 리스트를 통해 성능에 긍정적인 영향을 미치지 않는 색인어를 제거하거나, 핵심어 또는 전문용어 등 상대적으로 중요한 색인어를 강조하는 방식을 사용하여 검색엔진의 성능을 향상시킨다. 하지만, 어절 분리, 형태소 분석, 불용어 처리 등 검색엔진의 단계열 처리 과정에서, 개별적인 색인어가 검색엔진에 미치는 영향을 분석하고 이를 반영한 검색 엔진 성능 향상 기법은 제시되지 않고 있다. 따라서 본 연구에서는 각 단계별 처리 과정에서 생성된 색인어가 미치는 영항을 계랑화하여 긍정적/부정적 색인어를 분류하는 방법론을 소개하고, 이를 기반으로 색인어 가중치를 조절함으로써 검색 엔진의 성능 또한 향상 가능한 방법을 소개한다.

  • PDF

이상(Lee Sang)의 시작품에 구사되는 프랑스어와 반문체 (A Command of French and anti-style used in Lee Sang's poetic work)

  • 이병수
    • 비교문화연구
    • /
    • 제49권
    • /
    • pp.229-248
    • /
    • 2017
  • 본 논고는 한국 시문학사에서 형이상학적 스캔들로 불리는 이상의 시편들에 구사 되는 프랑스어 연구이다. 이상의 시에서 프랑스어가 차지하는 비중은 식민지 시대에 일본어를 제외하면 가장 중요한 시어로 활용되고 있음을 알 수 있다. 우리의 연구는 기호적인 프랑스어, 기하학적이고 회화적인 프랑스어 활용에 대해 분석하고, 아울러 반복적이고 나열적인 단어와 문장의 구성에 응용되는 프랑스어에 대해 분석했다. 이상의 시편들에서 프랑스어의 활용은 비시어적인 기호의 혼용으로 볼 수 있으며, 전통적인 모국어와 시창작의 문법을 거부한 반문체적인 특성으로 나타남을 확인 할 수 있다. 그의 시에서 프랑스어는 아방가르드적인 시적 재료와 실험적인 창작기법의 중요한 요소 중에 하나로 나타난다. 시인에게 프랑스어는 언어의 범주를 벗어난 건축학적이고 회화적인 재료들과 함께 한글의 틀을 거부한 전혀 낯선 표현기법의 중요한 요소로 적용되고, 시인의 예술정신을 구현하기 위한 전위적인 언어로 응용되고 있다. 이상에게 프랑스어는 분열적이고 열패적인 자신의 내면적 갈등을 표현하기 위한 도구로 활용되고 있으며, 시인은 프랑스어가 갖는 기표와 기의적인 특성을 이용하여 근대한국문학에 유래를 찾아 볼 수 없는 실험적인 문체를 보여주었다. 이상의 시에서 프랑스어는 식민지하의 억눌린 자의식을 해방시킨 자유의 언어이며, 한국문학뿐만 아니라 세계문학 속에서도 유례를 찾아볼 수 없는 반문체적이고, 형이상학적인 시편들을 구성하는 중요한 요소로 볼 수 있다.

방류량에 따른 강정고령보 인공하도식 어도에서 River2D 모형을 이용한 유인효율 분석 -피라미를 대상으로- (Analysis of Attraction Efficiency at Kangjung-Goryeng Weir By-pass Fishway Using River2D Simulation Model According to Discharge Flow - Focused on Zacco Platypus -)

  • 이정민;구영훈;백경오;김영도
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2015년도 학술발표회
    • /
    • pp.176-176
    • /
    • 2015
  • 최근 대하천사업을 통하여 낙동강에 총 8개의 다기능보가 설치되었으며, 이러한 하천 내 수공 구조물은 하천에 서식하는 어류의 이동과 군집의 변화, 유전적 단절, 서식처 변화와 같은 다양한 문제점을 유발할 수 있으며, 특히 어류의 산란기에는 하천의 유로를 따라 상류로 이동하거나 하류로 이동하는 회유성 어류들에게는 심각한 문제를 야기한다. 이러한 다기능보의 상 하류의 단절로 인한 문제를 해결하기 위해 낙동강 8개의 다기능보에 자연형 및 인공형 어도가 설치되었으며, 이를 평가하기 위한 어도의 유인효율에 대한 연구가 중요하다. 어류는 최대 유속이 발생하는 지점인 유심선에서 소상하려는 특성을 보이는데, 어도의 입구부의 유속이 중요하게 작용한다. 어도 입구부의 유속분포 및 수심에 따라 유인효율은 다르게 나타날 수 있으며, 2차원 수리해석을 통해 WUA를 산정함으로써 어도의 유인효율을 평가할 수 있다. 본 연구에서는 2차원 흐름해석 모형인 River2D를 이용하여 어류의 소상이 중요한 산란기를 기준으로 강정고령보의 가동보 운영실적을 이용하여 수리해석을 실시하였으며, 연구결과를 바탕으로 자연형어도의 유인효율을 평가하였다.

  • PDF