• Title/Summary/Keyword: 명사추출

Search Result 262, Processing Time 0.021 seconds

Automatic Product Attribute Extraction from Reviews Using Web Search Engine (상품평 데이터와 웹 검색엔진을 이용한 상품별 평가항목 자동 추출)

  • Lee, Woo-Chul;Lee, Hyun-Ah
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.05a
    • /
    • pp.107-110
    • /
    • 2008
  • 상품평은 인터넷 쇼핑 이용자들의 최종 구매결정에 큰 영향을 미치는 것으로 알려져 있다. 많은 쇼핑몰에서 상품평 활성화를 위해 노력하고 있지만, 상품평을 모으는 것에만 주력할 뿐 기존에 수집된 상품평을 제공하는 방법에 있어서는 원시적인 수준에 그치고 있다. 상품평을 좀 더 효율적으로 제공하려면 사용자들이 상품평에서 찾게 될 평가항목들을 미리 예측하여 그 항목에 따라 상품평을 분류/요약해서 제공하는 방법을 생각할 수 있다. 본 논문에서는 상품평과 웹 검색엔진을 이용하여 각 상품별 평가항목들을 자동으로 추출하는 방법을 제안한다. 상품평 데이터의 특성상 노이즈가 많기 때문에 먼저 데이터를 정제하고, 정제된 상품평 데이터를 형태소 분석하여 후보명사들을 선택한다. 선택된 후보명사를 웹 검색엔진에 질의하여 반환된 결과 값으로 상품 카테고리와 후보명사 간 연관도를 계산하여 평가항목을 추출한다. 실험은 5개 상품 카테고리의 170,294개 실제 상품평을 대상으로 각 카테고리별 평가항목을 추출하였다.

The development of a document retrieval system using thesaurus and signature file (시소러스 및 요약화일을 이용한 문서 검색시스템)

  • Jeong, Sang-Cheol;Shin, Dong-Wook
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.400-408
    • /
    • 1994
  • 본 논문에서는 요약화일을 이용하여 복합명사를 효율적으로 처리하며 시소러스를 이용하여 검색하는 한글문서 검색시스템을 제안한다. 본 한글문서 검색 시스템은 한글문서를 대상으로 색인하는 자동색인기와 사용자의 질의를 받아 관련된 문서를 검색하는 검색기로 구성된다. 자동색인기는 우선 한글문서를 대상으로 최장일치 방법으로 명사들을 출출한 후 복합명사의 패턴을 분석하여 복합명사의 가능성이 높은 것들을 복합명사화한다. 두번째로 이들 복합명사들을 1+2SP 방식으로 코딩한 후 요약화일 방법을 이용하여 요약화일을 작성한다. 검색기는 사용자 질의어를 받아 명사들을 추출한 후 시소러스를 이용하여 질의어를 확장한다. 다음 확장된 질의어를 1+2SP 방식으로 코딩한 후 관련된 문서를 검색한다. 본 논문에서는 한국통신에서 만든 코퍼스를 이용하여 제안된 방법의 성능을 평가하였는데 복합명사 처리 및 시소러스 이용방식이 효율적임이 입증되었다. 또한 KAIST에서 개발한 문서검색 시스템보다 동일한 코퍼스로 실험하였을 경우 재현률 및 정확률이 $7{\sim}8%$ 정도 앞서 기존의 시스템보다도 성능이 우수하다는 것이 밝혀졌다.

  • PDF

Analysis of Korean Compound Noun using Semantic Information (의미 정보를 이용한 한국어 복합명사 분석)

  • 김수남;원상현;권혁철;주종철;이상기
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.195-197
    • /
    • 1998
  • 복합명사 분석은 조합이 자유롭고 제한이 없으므로 여러 가지 모호성을 발생시킨다. 이러한 모호성을 해결하는 기존 방법으로 사전을 이용하는 방법[2]과 통계적 정보를 이용하는 방법[3,4]이 있다. 본 논문에서는 하위 범주화된 어휘 정보를 가진 전자사전을 이용하여 복합명사를 분석한다. 그리고 어휘 정보만으로 처리했을 때 의미상으로 잘못된 분석이 발생할 수 있으므로 본 논문은 복합명사를 구성하는 어휘의 정보와 특정단어의 의미에 따른 복합명사 제약조건을 규칙베이스로 구축하여 분석에 이용한다. 또한 분석에 실패한 복합명사의 유형을 분석하여 각 유형에 따른 교정 방법도 제시한다. 실험 데이터는 부산일보, 교과서, 그리고 각종 문서에서 무작위로 추출한 27,945개의 복합명사를 사용하였다. 본 논문에서 제시한 의미적 제약조건을 이용하여 분석했을 때 복합명사로 잘못 쓴 어절의 검사율이 21% 향상되었다.

  • PDF

A Reverse Segmentation Algorithm of Compound Nouns (복합명사의 역방향 분해 알고리즘)

  • Lee, Hyun-Min;Park, Hyuk-Ro
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.56-59
    • /
    • 2000
  • 한국어에서 복합명사는 명사간 결합이 자유롭고, 단위명사로 띄어쓰는 것을 원칙으로 하나 붙여써도 무방하다. 따라서, 정보검색분야, 기계번역분야에서 복합명사의 정확한 분해는 시스템의 성능에 많은 영향을 미치게 된다. 본 논문에서는 ETRI의 태깅된 코퍼스로부터 추출한 복합명사를 역방향 분해 알고리즘을 이용하여 단위명사로 분해한다. 분해되지 않은 3119개의 복합명사에 대해 실험한 결과 약 96.6%의 정확도를 얻었다. 또한, 미등록어나 접사에 대한 처리에도 비교적 정확한 결과를 얻을 수 있었다.

  • PDF

Chunking of Contiguous Nouns using Compound Noun Dictionary of Length Two (두 개의 명사쌍으로 이루어진 복합명사사전을 이용한 연속된 명사열의 구묶음)

  • Ahn, Kwangmo;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.176-180
    • /
    • 2009
  • 구문분석에서 구문중의성(syntactic ambiguation)은 구문분석의 성능에 많은 영향을 미친다. 구문중의성을 일으키는 많은 요인들이 있지만, 특히 조사가 발달된 한국어의 구문분석에서 조사가 생략된 명사들은 구문중의성을 증가시키는 큰 요인 중 하나이다. 그렇기 때문에 조사가 없거나 생략된 연속된 명사열(contiguous nouns)의 길이가 길어질수록 구문중의성은 지수적으로 증가하게 된다. 따라서 현재까지의 연구에서는 이런 명사열들을 마치 하나의 명사처럼 구묶음을 하여 처리하는 경우가 많았다. 하지만, 조사가 없는 명사열들을 모두 하나의 명사구처럼 처리하여 구문분석을 수행할 경우, 주요 문장성분들이 잃어버리게 되는 경우가 발생한다. 따라서 본 논문에서는 하나의 명사처럼 쓰일 수 있는 조사가 없는 연속된 명사열을 복합명사구라고 정의하고, 두 개의 명사쌍으로 구축된 복합명사사전만을 이용하여 세 개 이상의 명사로 구성된 복합명사구들을 사전에 등록하지 않고도 복합명사구를 구묶음하는 방법에 대하여 기술한다. 실험을 위해 세종사전 150,546개의 예문에서 두 개 이상의 조사가 생략된 21,482개의 명사쌍을 추출하여 복합명사사전으로 변환하였으며, 총 6,316개의 사전 데이터가 구축되었다. 복합명사 구묶음 모듈은 조사가 생략된 명사열을 입력으로 받아서 우에서 좌로 검색하며 구묶음이 가능한 명사들을 연결하고, 연결된 명사들끼리 하나의 복합명사로 구묶음을 한다. 실험은 사전을 구축할 때 쓰였던 말뭉치와 사전을 구축할 때 쓰이지 않은 말뭉치를 이용하여 수행하였다. 결과는 사전을 구축할 때 쓰인 말뭉치를 이용하였을 때는 96.76%의 정확도를 보였으며, 사전을 구축할 때 쓰이지 않은 말뭉치를 이용하였을 경우는 12.23%의 정확도를 보였다.

  • PDF

The Korean Analysis System by The Using of The Korean/Japanese Maching Translation's Dictionary (한일기계번역시스템의 사전을 사용한 한국어 형태소분석시스템)

  • Kang, Yong-Hee;Tanaka, Kouichi;Matsuda, Junichi
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10d
    • /
    • pp.106-116
    • /
    • 1999
  • 한일기계번역시스템의 형태소 해석 프로그램의 중간버퍼를 표준안에 맞추어 명사추출 및 품사태킹을 시도해 보았다. 기존의 모델을 유지하면서 사전의 표제어를 보충하여 출력의 형태를 바꾸는 방법으로 표준안의 출력에 가깝게 출력을 함으로써 기존의 프로그램의 장점과 단점을 보완하는 것과, 표준안에 관한 문제제기가 본 연구의 목적이다. 특히 품사개념이 다른 사전에서 태킹 및 명사추출을 실시할 경우 표제어의 등록여부와 정확률의 인과관계는 높다고 판단된다. 그러므로 표준안의 품사기준은 그에 따른 시스템의 성패를 좌우한다.

  • PDF

A Korean Compound Noun Analysis Method for Effective Indexing (효율적인 색인어 추출을 위한 복합명사 분석 방법)

  • Jang, Dong-Hyun;Myaeng, Sung-Hyun
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.32-35
    • /
    • 1996
  • 정보 검색 기술은 적용 분야, 질의어, 데이터가 달라질 경우, 결과 또한 달라질 수 있음을 최근의 연구 결과로부터 알 수 있다. 사용되는 언어에 따라서도 고유한 문제가 제기될 수 있는데, 특히 한국어의 경우 복합명사는 명사끼리의 조합이 자유롭고 길이에 제한이 없기 때문에 이를 단위 명사로 분할하는 작업이 어렵다. 또한 영어와는 달리 복합명사가 문서 내에서 많은 부분을 차지하며 문서의 내용을 대표하는 경우가 많이 있기 때문에, 정보 검색 기술을 한국어에 적용하기 위해서는 수정, 보완하는 노력이 필요하다. 본 연구에서는 어휘에 관한 사전 및 코퍼스 정보를 트라이(trie)에 저장한 후 어휘들간의 공통 부분에 더미 노드(dummy node)를 삽입하여 복합명사를 단위 명사로 분할하는 기법을 제시하였다.

  • PDF

Chunking of Contiguous Nouns using Noun Semantic Classes (명사 의미 부류를 이용한 연속된 명사열의 구묶음)

  • Ahn, Kwang-Mo;Seo, Young-Hoon
    • The Journal of the Korea Contents Association
    • /
    • v.10 no.3
    • /
    • pp.10-20
    • /
    • 2010
  • This paper presents chunking strategy of a contiguous nouns sequence using semantic class. We call contiguous nouns which can be treated like a noun the compound noun phrase. We use noun pairs extracted from a syntactic tagged corpus and their semantic class pairs for chunking of the compound noun phrase. For reliability, these noun pairs and semantic classes are built from a syntactic tagged corpus and detailed dictionary in the Sejong corpus. The compound noun phrase of arbitrary length can also be chunked by these information. The 38,940 pairs of 'left noun - right noun', 65,629 pairs of 'left noun - semantic class of right noun', 46,094 pairs of 'semantic class of left noun - right noun', and 45,243 pairs of 'semantic class of left noun - semantic class of right noun' are used for compound noun phrase chunking. The test data are untrained 1,000 sentences with contiguous nouns of length more than 2randomly selected from Sejong morphological tagged corpus. Our experimental result is 86.89% precision, 80.48% recall, and 83.56% f-measure.

A Study on Korean Language Processing of Degree Adverb modifying Stative Noun (한국어에서 상태성 명사 수식 정도부사의 처리에 관한 연구)

  • Park, Sung-Won;Min, Chang-Woo;Kim, Seong-Mook
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.373-380
    • /
    • 2001
  • 한국어에서 부사는 관형사와 구별하여 통사적으로 명사 등의 체언을 수식할 수 없다고 분석하는 것이 일반적이다. 의미적으로 상태성 명사와 수식관계를 가질 수 있는 정도부사의 경우에도 명사를 직접 수식하는 것이 아니라 그 명사를 보어로 취하는 지정사를 포함한 지정사구 전체를 수식한다는 것이 현재의 이론언어학에서의 입장이다. 본 논문에서는 말뭉치에 나타난 실제 문장을 기계적으로 처리하는 관점에서 정도부사의 수식을 받는 것은 지정사구가 아니라 상태성 명사 자체로 설정하고자 한다. 이러한 근거로서 말뭉치에서 추출한 실제 문장을 중심으로 정도부사의 수식을 받는 지정사구에 지정사가 생략되는 경우와 지정사구 형태가 아닌 다양한 명사구 형태 역시 정도부사의 수식을 받는 경우가 존재함을 보인다. 또한 정도 부사와 결합하는 명사들이 갖는 의미적 특성을 통해 정도부사와 명사와 결합시켜야 수식 관계의 처리에 용이함을 보이고 정도부사에 대한 이론적 설명에도 타당함을 보인다. 마지막으로 말뭉치에 나타난 정도부사의 수식을 받는 명사의 용례를 분석하여 빈도 및 하위 분류 특성을 살펴본다.

  • PDF

Korean Automatic Indexing System Using the PDA (PDA를 이용한 한국어 자동 색인 시스템)

  • Park, Pyeung-Koo;Chung, In-Jeong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.10a
    • /
    • pp.375-378
    • /
    • 2000
  • 인터넷의 급속한 발달로 사용자는 자신의 질의에 적합한 검색결과를 빠르고 정확하게 보장하는 검색도구를 요구하게 되었다. 이러한 사용자의 요구는 검색도구의 성능향상에 필수적인 문서의 내용을 대표하는 색인어를 추출하는 색인 시스템에 대한 관심을 가지게 되었다. 기존의 한국어에서의 자동 색인 방법에는 어절 중심 색인법, 형태소 중심 색인법과 최근에 n-gram 중심 색인법 등이 주류를 이루어 왔다. 그러나 한국어에서 색인어를 추출하는 기존의 방법은 복합명사의 색인과 복잡한 문법적 지식이 필요하고 잘못된 색인어를 추출하는 등의 검색효율에 문제점을 가지고 있다. 본 논문에서는 PDA를 이용한 정형화된 한국어와 영어문장의 자동 색인 방법을 제안한다. 제안하는 방법은 별도의 사전지식이 필요하지 않고 단일 명사와 복합명사의 색인이 가능하며 인터넷으로의 확장과 다양한 언어로 확장성이 좋은 장점 등을 갖는다. 성능 평가로써 한국통신의 KTSET으로 MS사의 IIS를 웹 서버로 ASP를 이용하여 인터넷 환경에서 테스트를 통하여 한국어 뿐 아니라 영어문장의 정형화되고 이용이 간편한 자동색인 결과를 보여준다.

  • PDF