• 제목/요약/키워드: 검색어 추출

검색결과 329건 처리시간 0.031초

사전과 말뭉치를 이용한 한국어 단어 중의성 해소 (Korean Word Sense Disambiguation using Dictionary and Corpus)

  • 정한조;박병화
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.1-13
    • /
    • 2015
  • 빅데이터 및 오피니언 마이닝 분야가 대두됨에 따라 정보 검색/추출, 특히 비정형 데이터에서의 정보 검색/추출 기술의 중요성이 나날이 부각되어지고 있다. 또한 정보 검색 분야에서는 이용자의 의도에 맞는 결과를 제공할 수 있는 검색엔진의 성능향상을 위한 다양한 연구들이 진행되고 있다. 이러한 정보 검색/추출 분야에서 자연어처리 기술은 비정형 데이터 분석/처리 분야에서 중요한 기술이고, 자연어처리에 있어서 하나의 단어가 여러개의 모호한 의미를 가질 수 있는 단어 중의성 문제는 자연어처리의 성능을 향상시키기 위해 우선적으로 해결해야하는 문제점들의 하나이다. 본 연구는 단어 중의성 해소 방법에 사용될 수 있는 말뭉치를 많은 시간과 노력이 요구되는 수동적인 방법이 아닌, 사전들의 예제를 활용하여 자동적으로 생성할 수 있는 방법을 소개한다. 즉, 기존의 수동적인 방법으로 의미 태깅된 세종말뭉치에 표준국어대사전의 예제를 자동적으로 태깅하여 결합한 말뭉치를 사용한 단어 중의성 해소 방법을 소개한다. 표준국어대사전에서 단어 중의성 해소의 주요 대상인 전체 명사 (265,655개) 중에 중의성 해소의 대상이 되는 중의어 (29,868개)의 각 센스 (93,522개)와 연관된 속담, 용례 문장 (56,914개)들을 결합 말뭉치에 추가하였다. 품사 및 센스가 같이 태깅된 세종말뭉치의 약 79만개의 문장과 표준국어대사전의 약 5.7만개의 문장을 각각 또는 병합하여 교차검증을 사용하여 실험을 진행하였다. 실험 결과는 결합 말뭉치를 사용하였을 때 정확도와 재현율에 있어서 향상된 결과가 발견되었다. 본 연구의 결과는 인터넷 검색엔진 등의 검색결과의 성능향상과 오피니언 마이닝, 텍스트 마이닝과 관련한 자연어 분석/처리에 있어서 문장의 내용을 보다 명확히 파악하는데 도움을 줄 수 있을 것으로 기대되어진다.

자율 학습에 의한 실질 형태소와 형식 형태소의 분리 (A Korean Language Stemmer based on Unsupervised Learning)

  • 조세형
    • 정보처리학회논문지B
    • /
    • 제8B권6호
    • /
    • pp.675-684
    • /
    • 2001
  • 본 논문은 태그가 없는 단순 말뭉치만을 가지고 자율학습을 이용하여 정보 검색을 위한 색인어의 추출 등에 이용될 수 있도록 한국어의 실질 형태소와 형식 형태소를 분리해내는 기법에 대하여 기술한다. 본 기법은 사전 등의 언어 관련 지식을 요구하지 않으며 오직 단순 말뭉치만을 필요로 한다. 또한 자율학습을 이용함으로써 사람의 간섭이 필요하지 않아 학습에 필요한 시간과 노력이 거의 들지 않는다. 본 방식은 잘 확립된 통계적 방법론을 이용하기 때문에 일반적인 휴리스틱과는 달리 이론적인 기반이 확고하여 확장 및 발전이 용이하다. 본 결과는 한국어에 우선 적용되었으나 한국어에 종속적인 방법이 아니어서 다른 교착어에도 쉽게 적용될 수 있을 것이다.

  • PDF

Diazinon과 Carbofuran의 송사리(Oryzias latipes)와 미꾸리(Misqurnus anguillicaudatus)에 대한 선택적 독성과 Acetylcholinesterase저해 (Selective Toxicity and Acetylcholinesterase Inhibition of Diazinon and Carbofuran to Killifish(Oryzias latipes) and Loach(Misgurnus anguillicaudatus))

  • 김영배;이성규;김용화;노정구
    • 한국환경농학회지
    • /
    • 제7권2호
    • /
    • pp.117-123
    • /
    • 1988
  • 본 연구에서는 diazinon과 carbofuran의 송사리와 미꾸리에 대한 선택적 어독성 기작을 규명코자 뇌와 몸체에서 acetylcholinesterase(AchE)를 추출하여 활성을 측정하였다. 또 농약에 의한 효소의 활성저해도(IC50)를 측정하였으며 이를 급성 어독성 실험에서 얻어진 LC5O값과 비교하였는데 그 결과는 다음과 같았다. 송사리의 AchE의 활성은 미꾸리의 활성보다 2배 높았고, diazinon과 carbofuran의 선택적 독성은 diazinon의 대사산물인 diazoxon의 두 어종에 대한 IC50 값이 미꾸리가 송사리보다 4배 낮고, carbofuran의 IC50값은 송사리가 미꾸리보다 약 3.4배 낮으므로,IC50 값에 의하여 부분적으로는 설명될 수 있었다. 따라서 AchE을 이용하여 유기인계 및 카바메이트계 농약의 독성을 검색하는데 있어 동일농약인 경우 어종간의 감수성을 부분적으로 설명할 수 있기 때문에 농약의 독성을 1차적으로 검색할 수 있는 수단이 될 것으로 사료된다. 그러나 위의 방법이 본격적으로 사용될 수 있기 위해서는 농약의 종류와 어종을 다양화한 실험과 흡수, 체내에서의 대사 등에 관한 연구를 통하여 급성 독성 현상과 AchE의 저해도와의 관계가 먼저 정리되어야 할 것으로 본다.

  • PDF

검색엔진 최적화를 위한 GAN 기반 웹사이트 메타데이터 자동 생성 (GAN-based Automated Generation of Web Page Metadata for Search Engine Optimization)

  • 안소정;이오준;이정현;정재은;용환성
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2019년도 춘계학술대회
    • /
    • pp.79-82
    • /
    • 2019
  • 본 논문에서는 검색엔진 최적화(SEO; Search Engine Optimization)에 인공지능 기법을 접목하여, 자동화된 SEO 도구 설계 및 구현을 목표로 한다. 기존의 SEO 온-페이지(On-page) 최적화 기법들은 웹페이지 관리자들의 경험적 지식에 의존하는 한계점을 보이고 있다. 이는 SEO 성능에 영향을 끼칠 뿐 아니라, 웹페이지 관리자들에게도 SEO 도입의 장벽으로 작용한다. 따라서, 위 문제를 해결하기 위하여 메타데이터의 효과적인 구성을 위해 다음과 같은 3단계의 접근법을 제안하고자 한다. i) 상위 랭킹 웹사이트들의 메타데이터를 추출한다. ii) 어텐션 메커니즘에 기반한 LSTM(Long Short Term Memory)을 이용하여 사용자 질의어와의 관련성 높은 메타데이터를 생성한다. iii) GAN(Generative Adversarial Network) 모델을 통하여 학습함으로써 전반적으로 성능을 높여주는 기법을 제안한다. 본 연구결과는 기업의 온라인 마케팅 프로세스를 평가하고 개선하기 위한 최적화 도구로서 유용하게 활용될 것으로 기대한다.

  • PDF

칼라공간과 키워드를 이용한 내용기반 화상검색 시스템 설계 및 구현 (A Design and Implementation of a Content_Based Image Retrieval System using Color Space and Keywords)

  • 김철원;최기호
    • 한국정보처리학회논문지
    • /
    • 제4권6호
    • /
    • pp.1418-1432
    • /
    • 1997
  • 일반적인 내용기반 화상 검색 기법은 검색 인덱스로서 칼라와 텍스쳐를 사용하며, 칼라기법인 칼라히스토그램과 칼라쌍 검색 기법은 공간정보와 텍스트가 부족하다. 따라서 본 논문은 칼라공간과 키워드를 결합한 내용 기반 화상 검색시스템을 설계하고 구현하였다. 화상검색을 위한 전처리기에서는 기존의 HSI(Hue, Saturation, Intensity) 좌표계를 사용하였고, 화상으로부터 색채 영역과 비색채영역을 검출해 내었다. 화상의 크시는 200*N 또는 N*200으로 정규화하고 256칼라로 변환시킨다. 칼라 공간으로 칼라 선택을 결정하기 위해서는 배경과 색채를 위한 2개의 칼라히스토그램을 사용한다. 공간정보는 최대 엔트로피 이산화를 사용함으로써 얻어진다. 키워드는 화상의 종류, 칼라, 모양, 위치, 크기를 선택 가능하도록 했으며, 입력되는 색채에 대해서는 한국 공업 규격의 유채색과 무채색 15가지 색으로 제한하였다. 화상검색 방법은 유사도 검색의 특징 키로 사용하였고, 화상 검색시 특정 성분의 가중치에 따른 검색을 위해 사용자는 질의어 입력시 칼라공간 ${\alpha}(%),\;키워드\;{\beta}(%)$등의 가중치를 화상 내용 특징에 따라 그 값을 조절하여 부여할 수 있는 방안을 개발하였다. 질의 화상에 대한 칼라공간, 키워드와 같은 추출된 특징중 하나의 특징으로 검색 실험한 결과는 가중치를 부여하여 실험한 결과보다 검색 효율이 낮았으며 가중치를 부여한 경우 측정된 파라메타의 평균치는 Precision(0.858), Recall(0.936), RT(1), MT(0)를 보임으로써 칼라공간, 키워드 내용기반 화상 검색 시스템들 보다 높은 검색 효율을 입증해 보였다.

  • PDF

Structural SVM을 이용한 백과사전 문서 내 생략 문장성분 복원 (Restoring Omitted Sentence Constituents in Encyclopedia Documents Using Structural SVM)

  • 황민국;김영태;나동열;임수종;김현기
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.131-150
    • /
    • 2015
  • 영어와 달리 한국어나 일본어 문장의 경우 용언의 필수격을 채우는 명사구가 생략되는 무형대용어 현상이 빈번하다. 특히 백과사전이나 위키피디아의 문서에서 표제어로 채울 수 있는 격의 경우 그 격이 문장에서 더 쉽게 생략된다. 정보검색, 질의응답 시스템 등 주요 지능형 응용시스템들은 백과사전류의 문서에서 주요한 정보를 추출하여 수집하여야 한다. 그러나 이러한 명사구 생략 현상으로 인해 양질의 정보추출이 어렵다. 본 논문에서는 백과사전 종류 문서에서 생략된 명사구 즉 무형대용어를 복원하는 시스템의 개발을 다루었다. 우리 시스템이 다루는 문제는 자연어처리의 무형대용어 해결 문제와 거의 유사하나, 우리 문제의 경우 문서의 일부가 아닌 표제어도 복원에 이용할 수 있다는 점이 다르다. 무형대용어 복원을 위해서는 먼저 무형대용어의 탐지 즉 문서 내에서 명사구 생략이 일어난 곳을 찾는 작업을 수행한다. 그 다음 무형대용어의 선행어 탐색 즉 무형대용어의 복원에 사용될 명사구를 문서 내에서 찾는 작업을 수행한다. 문서 내에서 선행어를 발견하지 못하면 표제어를 이용한 복원을 시도해 본다. 우리 방법의 특징은 복원에 사용된 문장성분을 찾기 위해 Structural SVM을 사용하는 것이다. 문서 내에서 생략이 일어난 위치보다 앞에 나온 명사구들에 대해 Structural SVM에 의한 시퀀스 레이블링(sequence labeling) 작업을 시행하여 복원에 이용 가능한 명사구인 선행어를 찾아내어 이를 이용하여 복원 작업을 수행한다. 우리 시스템의 성능은 F1 = 68.58로 측정되었으며 이는 의미정보의 이용 없이 달성한 점을 감안하면 높은 수준으로 평가된다.

Coreference Resolution을 위한 3인칭 대명사의 선행사 결정 규칙 (Antecedent Decision Rules of Personal Pronouns for Coreference Resolution)

  • 강승식;윤보현;우종우
    • 정보처리학회논문지B
    • /
    • 제11B권2호
    • /
    • pp.227-232
    • /
    • 2004
  • 정보 검색 시스템에서 문서의 내용을 대표하는 용어를 추출하거나 정보 추출 및 텍스트 마이닝에서 특정 정보만을 추출하려면 고유명사에 대한 대용어 문제가 해결되어야 한다. 대용어 해소 문제는 인칭 명사에 대한 대명사의 선행사 결정 문제가 대표적이다. 본 논문에서는 한국어에서 문서의 내용을 보다 정확히 분석하기 위해 3인칭 대명사 “그/그녀/그들/그녀들”의 선행사를 결정하는 방법을 제안한다. 일반적으로 3인칭 대명사의 선행사는 현재 문장 또는 이전 문장의 주어인 경우가 많고, 또한 3인칭 대명사가 2회 이상 반복되는 경우가 자주 발생한다. 이러한 특성을 이용하여 현재 문장과 이전 문장에 출현한 인칭 명사들 중에서 선행사로 사용되는 경우를 조사하여 선행사 결정 규칙을 발견하였다. 이 경험 규칙은 3인칭 대명사의 격에 따라 조금씩 달라지기 때문에 대명사의 격에 따라 주격, 목적격, 소유격으로 구분하여 기술하였다. 제안한 방법의 타당성을 검증하기 위하여 신문 기사의 정치 관련 문서에서 대명사의 격에 따라 100개씩 총 300개의 실험 대상을 선정하였으며, 실험 결과로 3인칭 대명사의 선행사 결정 정확도는 재현율이 79.0%, 정확률이 86.8%로 나타났다.

문서 영상의 그림 영역에서 통계적 분석을 이용한 단어 영상 추출 (Word Image Decomposition from Image Regions in Document Images using Statistical Analyses)

  • 정창부;김수형
    • 정보처리학회논문지B
    • /
    • 제13B권6호
    • /
    • pp.591-600
    • /
    • 2006
  • 본 논문에서는 문서 영상의 그림 영역에서 통계적 분석을 통한 단어 영상을 추출하는 방법을 제안한다. 제안 방법은 그림 영역의 구성 요소를 문자 성분과 그래픽 성분으로 분류하기 위하여 연결요소에 대한여 통계적 분석 방법인 상자그림 분석을 적용하고, 분류된 문자 성분들에 대하여 지역적 밀집도를 분석하여 문자 영역을 추출한다. 추출된 문자 영역에서 투영 히스토그램 분석을 통하여 문자열을 추출하고, 문자열을 단어단위 영상으로 분리하기 위하여 투영 히스토그램 분석과 갭 군집화, 특수 기호 검출 등을 수행한다. 제안 방법은 임계값의 사용 대신에 그림 영역의 구성 요소들에 대하여 통계적 분석을 수행하기 때문에 그림의 형태 변화에 민감하지 않으며, 지역적 밀집도 분석으로 보다 정확한 문자 영역을 추출하였다. 또한 제안 방법의 응용 분야인 주제어 검색을 위한 오프라인의 전처리에 해당하는 문서 영상의 단어단위 영상 추출에 적용하여 제안 방법에 대한 연구의 필요성을 제시하였다.

의도된 의견 대상의 추출을 위한 경험적 방법 (A Heuristic Method for Extracting True Opinion Targets)

  • 소윤규;김한우;정성훈;김동주
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권9호
    • /
    • pp.39-47
    • /
    • 2012
  • 일반적으로 사람들은 특정 상품에 관한 의견을 표현할 때 그 상품이 갖는 개별속성에 대해 긍부정 성향을 표시한다. 어떤 경우에는 상품이 갖는 동질의 개별 속성에 대해 포괄적으로 긍부정 성향을 표현하거나 상품 자체에 대해 표현하기도 한다. 따라서 의견검색 분야에서 추출 대상이 되는 의견 속성명에는 상품의 개별 속성명, 이 개별 속성들을 포함하는 전체어, 그리고 상품명이 존재한다. 그러나 의견 대상을 상품명이나 전체어로 표현할 때, 경우에 따라 의견문장 표면에 나타나는 속성명과 의견 작성자가 의도한 실제 대상이 일치하지 않을 수도 있다. 본 논문에서는 의견문장으로부터 의견 대상을 추출하는 방법을 제시한다. 무엇보다 우리는 의도한 대상과 일치하지 않는 속성명으로부터 의도한 대상을 추출하기 위한 새로운 방법을 제안한다. 제시하는 방법에서는 단어간 의존관계를 이용하여 의견속성 후보쌍을 추출하고, 추출된 후보쌍들 중 의견 대상과 일반적으로 빈번히 불일치하는 속성명을 선택한다. 선택된 속성명을 작성자가 의도한 개별속성으로 변경한 뒤, 이를 포함한 전체 의견속성 후보쌍들로부터 적합한 의견속성을 추출하기 위해 사람들이 관심 있어할만한 순으로 재배열하게 된다.

Word2Vec를 이용한 한국어 단어 군집화 기법 (Korean Language Clustering using Word2Vec)

  • 허지욱
    • 한국인터넷방송통신학회논문지
    • /
    • 제18권5호
    • /
    • pp.25-30
    • /
    • 2018
  • 최근 인터넷의 발전과 함께 사용자들이 원하는 정보를 빠르게 획득하기 위해서는 효율적인 검색 결과를 제공해주는 정보검색이나 데이터 추출등과 같은 연구 분야에 대한 중요성이 점점 커지고 있다. 하지만 새롭게 생겨나는 한국어 단어나 유행어들은 의미파악하기가 어렵기 때문에 주어진 단어와 의미적으로 유사한 단어들을 찾아 분석하는 기법들에 대한 연구가 필요하다. 이를 해결하기 위한 방법 중 하나인 단어 군집화 기법은 문서에서 주어진 단어와 의미상 유사한 단어들을 찾아서 묶어주는 기법이다. 본 논문에서는 Word2Vec기법을 이용하여 주어진 한글 문서의 단어들을 임베딩하여 자동적으로 유사한 한국어 단어들을 군집화 하는 기법을 제안한다.