• 제목/요약/키워드: 내부용어집합

검색결과 10건 처리시간 0.025초

Evaluation of English Term Extraction based on Inner/Outer Term Statistics

  • Kang, In-Su
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권4호
    • /
    • pp.141-148
    • /
    • 2020
  • 용어추출은 도메인 텍스트 모음으로부터 도메인 용어 목록을 인식하는 작업이다. 용어추출의 기존 효과적인 방법들은 비교사 방식으로 동작하며, 후보 용어 집합을 추출하는 작업과 후보 용어에 용어중요도를 할당하는 작업을 주요 단계로 포함한다. 후보 용어의 용어중요도 계산과 관련하여 본 논문에서는 후보 용어의 내부 및 외부용어집합을 활용한다. 내부용어집합은 후보 용어에 포함된 다른 짧은 용어들의 집합이며, 외부용어집합은 후보 용어가 포함된 다른 긴 용어들의 집합이다. 본 논문에서는 후보 용어의 내부 혹은 외부용어집합으로부터 후보 용어의 용어 강도를 계산하는 다양한 강도 함수들을 제시하고, 이들 용어 강도 값들과 C-value 점수를 결합하는 용어중요도 계산 방법을 소개한다. 생물학 및 전산언어학 분야 영어 데이터셋을 사용한 성능 평가에서는 제안된 방법의 용어추출 성능을 비교하고 분석한다. 제안된 방법은 생물학 및 전산언어학 분야 데이터셋에 대해 각각 최대 1%와 3% 차이의 성능 향상을 보였다.

군집 주제의 유의어와 유사도를 이용한 문서군집 향상 방법 (Enhancing Document Clustering Method using Synonym of Cluster Topic and Similarity)

  • 박선;김철원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1538-1541
    • /
    • 2011
  • 본 논문은 군집 주제의 유의어와 유사도를 이용하여 문서군집의 성능을 향상시키는 방법을 제안한다. 제안된 방법은 비음수행렬분해의 의미특징을 이용하여 군집 주제(topic)의 용어들을 선택함으로서 문서 군집 집합의 내부구조를 잘 표현할 수 있으며, 군집 주제의 용어들에 워드넷의 유의어를 사용하여서 확장함으로써 문서를 용어집합(bag-of-words)으로 표현하는 문제를 해결할 수 있다. 또한 확장된 군집 주제의 용어와 문서집합에 코사인 유사도를 이용하여서 군집의 주제에 적합한 문서를 잘 군집하여서 성능을 높일 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 다른 문서군집 방법에 비하여 좋은 성능을 보인다.

용어 가중치에 의한 문서요약 (Document Summarization using Term Weighting)

  • 박선;김철원
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2012년도 추계학술대회
    • /
    • pp.704-706
    • /
    • 2012
  • 본 논문은 용어 가중치에 의한 문서요약 방법을 제안한다. 제안된 방법은 의사연관피드백을 이용하여 사용자의 간섭을 최소화 시키며, 의미특징으로부터 유도된 용어의 가중치는 문장집합의 내부 특징을 잘 나타나기 때문에 문서요약의 질을 향상할 수 있다.

  • PDF

군집 주제의 유의어와 유사도를 이용한 문서군집 향상 방법 (Enhancing Document Clustering Method using Synonym of Cluster Topic and Similarity)

  • 박선;김경준;이진석;이성로
    • 대한전자공학회논문지SP
    • /
    • 제48권5호
    • /
    • pp.30-38
    • /
    • 2011
  • 본 논문은 군집 주제의 유의어와 유사도를 이용하여 문서군집의 성능을 향상시키는 방법을 제안한다. 제안된 방법은 비음수 행렬분해의 의미특징을 이용하여 군집 주제(topic)의 용어들을 선택함으로서 문서 군집 집합의 내부구조를 잘 표현할 수 있으며, 군집 주제의 용어들에 워드넷의 유의어를 사용하여서 확장함으로써 문서를 용어집합(BOW, bag-of-words)으로 표현하는 문제를 해결할 수 있다. 또한 확장된 군집 주제의 용어와 문서집합에 코사인 유사도를 이용하여서 군집의 주제에 적합한 문서를 잘 군집하여서 성능을 높일 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 다른 문서군집 방법에 비하여 좋은 성능을 보인다.

클라우드 기반의 용어가중치 재산정을 이용한 문서요약 (Document Summarization using Term Reweighting based on Cloud)

  • 박선;원정호;바트;양진호;최상길;추종윤;최호수;이성로
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 추계학술대회
    • /
    • pp.418-420
    • /
    • 2013
  • 본 논문은 클라우드 기반의 연관피드백과 비음수행렬분해의 의미특징에 의한 용어 가중치 재 산정에 의한 문서요약 방법을 제안한다. 제안된 방법은 연관피드백을 이용하여 사용자의 의도를 문서요약 결과에 반연하며, 클라우드 기반의 비음수행렬분해의 의미특징으로 용어의 가중치를 재 산정함으로서 문장집합의 내부 특징을 잘 나타나기 때문에 문서요약의 질을 향상할 수 있다. 또한 클라우드 기반으로 대량의 빅데이터로부터 효율적으로 문서를 요약할 수 있다.

  • PDF

의사연관피드백과 용어 가중치에 의한 문서요약 (Document Summarization using Pseudo Relevance Feedback and Term Weighting)

  • 김철원;박선
    • 한국정보통신학회논문지
    • /
    • 제16권3호
    • /
    • pp.533-540
    • /
    • 2012
  • 본 논문은 의사연관피드백과 의미특징기반의 용어 가중치에 의한 문서요약 방법을 제안한다. 제안된 방법은 의사연관피드백을 이용하여 사용자의 간섭을 최소화 시키며, 의미특징으로부터 유도된 용어의 가중치는 문장집합의 내부 특징을 잘 나타나기 때문에 문서요약의 질을 향상할 수 있다. 또한 가중치가 부여된 의미특징과 확장된 질의를 이용하여서 사용자의 요구사항과 제안방법의 요약결과 사이의 의미적 차이를 감소시킨다. 실험결과 제안방법이 용어의 가중치를 부여하지 않은 방법에 비해서 좋은 성능을 보인다.

클라우드 기반의 가중치에 의한 문서요약 (Document Summarization using Weighting based on Cloud)

  • 박선;김철원
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 추계학술대회
    • /
    • pp.305-306
    • /
    • 2013
  • 본 논문은 클라우드 기반의 가중치에 의한 문서요약 방법을 제안한다. 제안된 방법은 연관피드백을 이용하여 사용자의 간섭을 최소화 시키며, 클라우드 기반의 비음수 행렬분해를 이용한 의미특징으로부터 유도된 용어의 가중치는 문장집합의 내부 특징을 잘 나타나기 때문에 문서요약의 질을 향상할 수 있다.

  • PDF

클라우드 기반의 가중치에 의한 문서요약 (Document Summarization using Weighting based on Cloud)

  • 박선;김철원
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 추계학술대회
    • /
    • pp.968-969
    • /
    • 2013
  • 본 논문은 클라우드 기반의 가중치에 의한 문서요약 방법을 제안한다. 제안된 방법은 연관피드백을 이용하여 사용자의 간섭을 최소화 시키며, 클라우드 기반의 비음수 행렬분해를 이용한 의미특징으로부터 유도된 용어의 가중치는 문장집합의 내부 특징을 잘 나타나기 때문에 문서요약의 질을 향상할 수 있다.

  • PDF

NMF 기반의 용어 가중치 재산정을 이용한 문서군집 (Document Clustering using Term reweighting based on NMF)

  • 이주홍;박선
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권4호
    • /
    • pp.11-18
    • /
    • 2008
  • 문서군집은 정보검색의 많은 응용분야에 사용되는 중요한 문서 분석 방법이다. 본 논문은 비음수 행렬 분해(NMF, non-negative matrix factorization)를 기반한 용어 가중치 재산정 방법을 이용하여서 사용자의 요구에 적합한 군집결과를 얻도록 하는 새로운 군집모델을 제안한다. 제안된 모델은 군집형태에 대한 사용자 요구와 기계에 의한 군집 형태의 차이를 최소화하기 위하여 사용자 피드백에 의한 가중치가 재계산된 용어를 이용한다. 또한 제안방법은 용어의 가중치 재계산과 문서군집에 문서집합의 내부구조를 나타내는 의미특징행렬과 의미변수행렬 이용하여 문서군집의 성능을 높일 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 적용하지 않은 문서군 방법에 비하여 좋은 성능을 보인다.

  • PDF

웹 정보의 관리에 있어서 의미적 접근경로의 형성에 관한 연구 (Semantic Access Path Generation in Web Information Management)

  • Lee, Wookey
    • 한국컴퓨터정보학회논문지
    • /
    • 제8권2호
    • /
    • pp.51-56
    • /
    • 2003
  • 웹 정보가 폭발적으로 증가하는 정보의 바다 한 가운데에서 이러한 웹 정보를 구조화하는 문제는 매우시의성이 크다. 본 연구는 웹을 노드와 링크로 구성된 그래프로 인식함을 그 출발점으로 한다. 이때 노드는 각 웹 페이지를 나타내고, 링크는 각 페이지를 연결하는 하이퍼텍스트 링크 즉, URL을 나타낸다. 그러면 웹은 웹 페이지와 그들 간의 링크로 연결된 유방향 그래프의 집합이 되는 것이다. 그러나 문제는 이러한 웹 정보가 지수적으로 증가하면서 웹 그래프 역시 지나치게 복잡해짐으로 인해 사용자 즉, 사람 및 검색로봇이 웹 정보를 파악하고 검색함에 있어 복잡성으로 인한 혼란이 야기된다는 것이며, 이를 이름하여 웹 공간에서의 위치혼란(lost in cyber space)라고 부른다. 따라서 이를 적절히 및 추상화하여 방향성(orientation)을 제시하고 전체적으로 웹 공간의 정보를 일목요연하게 표현하는 노력이 필요한 것이다. 이것을 위하여 웹 페이지를 계량적 수치로 나타내야할 필요가 있으며 여기서는 tf-idf를 그 방법론으로 삼았다. tf-idf란 빈도 및 반빈도(term frequency/inverse document frequency)곱을 일컫는 것으로서, 웹 페이지를 용어(keyword)의 벡터로 인식하고, 사용자가 제시하는 용어와의 상관성을 거리공간 벡터값으로 계산하는 과정을 의미한다. 이렇게 웹 정보를 계량화하는 것을 의미적 표현(semantic representation)이라 하고, 그것을 구조화하는 것을 의미적 접근경로라고 하였다. 본 연구의 목표는 궁극적으로는 웹 정보를 의미적 접근경로를 포함하는 계층적 형식(Hierarchical Structure)으로 축약하여 사용자로 하여금 웹 정보 검색의 차원을 혁신코자 하는 것이다. 식 재하도록 하였다. 소단 내 수목식재에 있어서는 교목식재가 가능한 한 남측 사면은 20m 간격으로 교목 2열 교호식재를 하며, 소단상부는 각 구간별로 계절감을 연출할 수 있는 식물을 도입하는 방안을 제안하였다. 제작된 보정물에 대해서는 무게가 너무 가벼워 모든 피험자들이 양 쪽 가슴의 균형이 잘 맞지 않는다고 답하였으며 특히, 운동을 즐기고 활동이 많은 피험자의 경우 스펀지로 제작된 보정물에 대해 큰불만을 표시하였다. 바람직한 자녀의 인성발달 및 여러 영역에 걸친 발달을 위하여 항상 애정과 관심을 가지고 적극적으로 참여해야 할 것이다. 자녀양육은 더 이상 어머니 혼자의 역할이 아닌 부모 둘 다의 몫이며 교임이므로 부모들은 좋은 가정을 만들고 좋은 부모가 되기 위해서 끊임없이 자신을 갈고 닦으며 노력을 기울여야 할 것이다.서 이들 4개 지표로서 전체의 927%를 설명할 수 있다. 7. 자치구별 평가는 모든 음식점에서 식재료 보관시설(냉장, 냉동), 불량부정식품 사용여부, 남은 반찬의 폐기, 식당상태 등에서는 비교적 양호하였으나, 주방의 청결상태, 식재료 창고의 관리 및 주방 근무직원의 위생상태는 열악하였다. 평가 지표 14개의 총 평가결과가 가장 우수한 자치구는 동작구였으며, 다음으로 서대문구, 금천구, 성동구, 마포구의 순서이었다. 나머지 20개 자치구는 모두 보통이상으로 평가되었다. 8. 음식점 업태 별로 주방과 식당의 청결도 평가에서 가장 중요한 요인은 주방의 내부설비(바닥, 벽면, 천장, 환풍기, 기구 등) 또는 주방종업원의 근무 환경(주방의 환기설비, 설치 및 쾌적한 환경상태유지)이었다. 그러나 음식점 유형에 관계없이 주방과 식당의 청결도 평가에 가장 큰 영향을 주는 인자는 주방종업원의 근무환경이었다. 우리나라의 2002년도 섭취장소별

  • PDF