• 제목/요약/키워드: 용어 출현 빈도

검색결과 49건 처리시간 0.024초

교육학 분야 국내 학술 논문 저자키워드 출현 순서에 따른 빈도가 저자키워드의 논문 제목 출현 빈도에 미치는 영향에 관한 연구 (A Study on the Effects of the Appearance Sequence of Author Keyword on the Appearance Frequency of Article Title in the Education)

  • 윤은빈
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2014년도 제21회 학술대회 논문집
    • /
    • pp.119-122
    • /
    • 2014
  • 본 연구는 교육학 분야에서 국내 학술 논문 저자키워드 출현 순서에 의미가 있는지 알아보기 위하여 저자키워드 출현 순서별로 빈도를 조사하고 동 저자 키워드가 제목에 출현하는지를 살펴본 후, 학술논문 저자키워드 출현 순서에 따른 빈도가 저자키워드의 논문 제목 출현 빈도에 미치는 영향에 대해 연구하고자 한다. 연구의 배경은 구조적 학술용어사전의 구축과 관련해서 효율적인 용어 선정이나 용어 분류 방법을 찾는 것이다. 연구의 목적을 위해 교육학 분야 저자키워드의 출현 빈도수가 1인 것을 제외하고 고빈도 순으로 400개 용어를 추출하였다. 저자키워드의 몇 번째 출현 순서가 저자키워드의 제목 출현에 가장 큰 영향을 미치는지 알아본 결과, 저자키워드의 첫 번째 출현이 아닌 두 번째 출현이 가장 큰 영향을 미친다는 것을 알 수 있었다.

  • PDF

용어 가중치와 역범주 빈도에 의한 자동문서 범주화 (Automatic Text Categorization by Term Weighting and Inverted Category Frequency)

  • 이경찬;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.14-17
    • /
    • 2003
  • 문서의 확률을 이용하여 자동으로 문서를 분류하는 문서 범주화 기법의 대표적인 방법이 나이브 베이지언 확률 모델이다. 이 방법의 기본 형식은 출현 용어의 확률 계산 방법이다. 하지만 실제 문서 범주화 과정에서 출현하지 않는 용어들도 성능에 많은 영향을 줄 수 있으며, 출현 용어들에 대한 빈도 이외의 역범주 빈도나 용어가중치를 적용하여 문서 범주화 시스템의 성능을 향상시킬 수 있다. 본 논문에서는 나이브 베이지언 확률 모델에 출현 용어와 출현하지 않는 용어들에 대한 smoothing 기법을 적용하여 실험하였다. 성능 평가를 위해 뉴스그룹 문서들을 이용하였으며, 역범주 빈도와 가중치를 적용했을 때 나이브 베이지언 확률 모델에 비해 약 7% 정도 성능 개선 효과가 있었다.

  • PDF

구조적 학술용어사전 데이터베이스 구축에 있어서 용어의 의미관계 형성에 영향을 미치는 요인에 관한 연구 (A Study on the Factors Influencing Semantic Relation in Building a Structured Glossary)

  • 권선영
    • 한국문헌정보학회지
    • /
    • 제48권2호
    • /
    • pp.353-378
    • /
    • 2014
  • 본 연구는 구조적 정의에 의한 학술 용어 사전 데이터베이스 구축을 위해 학술용어의 의미관계 형성에 미치는 요인이 무엇인지를 찾아내고 이러한 요인이 어떠한 영향을 미치고 있는지를 밝히고자 하였다. 이를 위해 2007년부터 2011년 사이에 한국연구재단 등재학술지에 등재된 학술논문에서 학술논문 주제어를 추출하여 이를 대상으로 주제복합성, 언어 네트워크 특성, 출현빈도, 출현패턴을 분석하고 구축된 STNet의 의미관계 형성정도인 용어의 의미적 연결관계 노드의 수와 유형의 수와의 영향 관계를 살펴보았다. 가설 검증을 통해 구조적 학술용어사전의 구축에 있어 의미관계 형성정도에 주요한 영향을 미치는 요인으로 매개 중심성, 출현빈도, 구조적 공백성의 효과크기라는 것을 알 수 있었다. 그리고 용어의 중요성은 일반적으로 알려진 출현빈도를 통한 방법 외에도 연결정도 중심성, 근접 중심성, 매개 중심성, 위세 중심성과 같은 측정방법에 따라서도 판단할 수 있음을 확인하였다. 또한 주제복합성은 직접적으로 의미관계 형성정도에 영향을 미치지는 않지만 용어의 근접 중심성에 영향을 미치기 때문에 크게 4가지의 요인을 고려하여 용어를 선정할 경우 의미관계 형성정도는 높아질 수 있는 것으로 파악 되었다. 본 연구의 결과는 지금까지 용어를 선정하는 프로세스의 주된 방법론인 용어의 출현빈도를 활용하는 방법 이외에도 용어 네트워크상에서의 용어의 위치나 주제복합성 같은 방법론을 적용하여 용어를 선정할 수 있다는 것을 보여준다. 따라서 전문용어 사전을 구축할 때 용어의 네트워크에서의 매개 중심성, 출현빈도, 구조적 공백성의 효과크기, 용어의 주제복합성을 면밀히 판단하여 다각도로 용어를 선정할 경우 전문용어 사전의 질적인 향상과 완성도가 높아질 것을 기대할 수 있다.

웹페이지의 의학용어 출현 빈도와 하이퍼링크에 기반한 웹사이트 분류 (Website Classification based on Occurrence Frequency of Medical Terms and Hyperlinks in Webpage)

  • 이인근;김화선;조훈
    • 한국지능시스템학회논문지
    • /
    • 제23권2호
    • /
    • pp.126-132
    • /
    • 2013
  • 본 논문은 웹페이지에 포함된 의학용어의 출현 빈도와 웹페이지 간의 하이퍼링크로 이루어진 웹사이트의 구조에 기반하여 인터넷 웹사이트를 분류하는 방법을 제안한다. 제안하는 방법에서는 (1)웹페이지에 포함된 전체 용어에서의 의학용어 출현빈도와 (2)웹페이지에 포함된 중복을 제거한 용어에서의 의학용어 출현 빈도를 인자로 하여 웹페이지의 의학분야 적합도를 측정한다. 그리고 (3)홈페이지로부터 특정 웹페이지에 접근하기 위해 거쳐야 하는 하이퍼링크의 개수를 이용한 전체 웹페이지의 적합도 연산을 통해 웹사이트의 의학분야 적합도를 측정한다. 인터넷 포털 사이트의 디렉토리 검색 서비스에 등록된 80 개의 의학분야 웹사이트와 127 개의 비 의학분야 웹사이트를 대상으로 제안한 방법에 기반하여 웹사이트 분류 실험을 수행하였고, 82.5 %의 분류 정확률을 확인하였다.

자질 중요도 계산 기법에 의한 자동문서 범주화 (Automatic Document Categorization by the Importance of Features)

  • 이경찬;강승식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.537-539
    • /
    • 2003
  • 문서 범주화를 위해 자질을 선별하는 기법으로는 자질의 출현 빈도에 따라 범주를 대표하는 자질들을 선별하는 것이 일반적이다. 출현 빈도에 의한 자질을 선별하는 통계적인 기법은 문서의 내용을 대표하는 용어들의 중요도를 간과하는 문제가 발생한다. 본 논문에서는 학습 문서 및 실험 문서에서 자질의 중요도에 의해 범주 대표어를 선별하는 문서 범주화 기법을 제안하였으며, 역범주 빈도 및 카이제곱 통계량에 의해 자질을 선별하는 방법과 비교-실험을 하였다. 문서 범주화 모델로는 나이브 베이지언 확률 모델을 이용하였으며, 성능 평가를 위해서 웹 디렉토리에서 수집된 데이터를 이용하여 실험하였다. 본 논문에서 제안한 자질 중요도에 의한 자질 선별 기법은 용어의 출현 빈도 및 카이제곱 통계량에 의해 자질을 선별한 방법보다 더 나은 성능을 보였다.

  • PDF

인문학 및 사회과학 분야 국내 학술논문의 저자키워드 출현빈도와 피인용횟수의 상관관계 연구 (A Study on the Correlation between the Appearance Frequency of Author Keyword and the Number of Citation in the Humanities and Social Science Journal Articles of the Korea Citation Index (KCI))

  • 고영만;송민선;김비연;민혜령
    • 정보관리학회지
    • /
    • 제30권2호
    • /
    • pp.227-243
    • /
    • 2013
  • 본 연구의 목적은 저자키워드의 출현빈도와 해당 키워드가 속한 논문들의 총피인용횟수 간 상관관계 여부를 확인하고자 하는 것이다. 연구의 배경은 인문사회과학 분야 학술용어사전을 구축하는데 있어서 실제 연구에서의 활용도가 높고 다른 키워드와의 의미적 연관관계가 많은 학술용어를 추출하기 위한 방법론을 개발해 보고자 하는 것이다. 본 연구의 목적을 이루기 위해 한국연구재단 한국학술지인용색인(KCI)에 수록된 2007년에서 2011년까지의 인문학 및 사회과학 분야 학술지 논문의 저자키워드와 피인용횟수를 분석하였다. 분석 결과 저자키워드의 출현빈도와 해당 키워드가 속한 논문들의 총피인용횟수는 통계적으로 상관관계가 있으며, 저자키워드의 출현빈도가 늘어날수록 논문의 총피인용횟수도 많아지는 것으로 나타났다.

구조적 학술용어사전 구축에 있어서 인문사회분야 복합명사의 한자어 접미사 형태분석에 의한 용어의 개념화에 관한 연구 (A Study on the Conceptualization of Terminology for Construction of Structured Glossary - A Morphological Analysis of Sino-Korean Suffixes of Compound Noun in Humanities & Social Sciences)

  • 박성은;신유정
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2013년도 제20회 학술대회 논문집
    • /
    • pp.123-128
    • /
    • 2013
  • 본 연구는 한자어 접미사를 가진 학술용어 복합명사의 형태를 분석하고, 한자어 접미사를 가진 복합 명사의 범주화를 위한 알고리즘을 제시하는 것을 목적으로 한다. 연구의 배경은 구조적 학술용어사전의 구축과 관련하여 용어의 효율적인 개념화 방법론을 개발하는 것이다. 연구 목적을 이루기 위해 한자어 접미사를 가진 인문사회분야 복합명사의 형태를 분석하여, 출현 빈도가 10회 이상인 한자어 접미사를 각 분야별로 14개씩 추출하였다. 그리고 각 한자어 접미사가 배정된 개념범주와 개념범주 배정 빈도를 분석한 결과, 동음이의 한자어 접미사를 가진 경우 개념범주가 다양하게 배정될 수 있지만, 동음동형 한자어 접미사를 가진 경우에는 그렇지 않다는 특징을 파악하였다. 또한 특정 한자어 접미사가 하나의 개념범주에 배정된 빈도가 높고 그 외의 개념범주에 배정된 빈도는 현저히 낮을 경우 빈도가 높은 개념범주에 배정되는 것이 더 타당한 것으로 분석되었다.

  • PDF

사회적 감성과 주가의 상관성 분석 (Correlation Analysis of Social Sentiment and Stock Prices)

  • 윤홍원
    • 한국정보통신학회논문지
    • /
    • 제19권7호
    • /
    • pp.1593-1598
    • /
    • 2015
  • 본 논문에서는 사회적 감성과 주가의 상관성을 분석한다. 먼저, 주가 폭락 또는 폭등 기간과 그 직전의 극성을 각각 분석하고 이 결과를 이용하여 사회적 감성과 주가 사이의 상관관계를 분석한다. 본 연구를 위하여 과거의 다우존스산업평균지수 데이터를 수집하고 주가의 폭등과 폭락 시점을 검출한다. 검출한 시점에 근거하여 뉴욕 타임즈 기사를 수집하고 극성을 분석한다. 분석 결과에 의하면 주가 폭락 기간보다 폭등 기간에는 부정적 용어의 출현 빈도가 감소하고 긍정적 용어의 출현 빈도가 증가한다. 주가 폭락 또는 폭등 직전에는 부정적 용어의 출현 빈도와 긍정적 용어의 출현 빈도 사이에 차이가 커지 않다. 상관관계 분석에 의하면, 주가 폭락과 폭등 기간에는 사회적 감성과 주가 사이에 양의 상관관계를 보인다. 반면에, 주가 폭락과 폭등 직전에는 사회적 감성과 주가 사이에 유의한 수준의 상관관계를 나타내지 않는다.

정보 검색에서 질의문 길이에 대한 가중치와 질의어 출현 빈도 가중치 적용 (Applying the Weight for Query Length and the Frequency of Query Term to Information Retrieval)

  • 강승식;전영진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.763-766
    • /
    • 2005
  • 정보검색 시스템에서 긴 문장으로 질의가 들어올 경우 질의문의 길이와 시스템이 정답이라고 판단한 문서에서 질의문을 분석하여 추출한 질의어들이 출현한 빈도수를 가중치로 준다면 좀더 정확한 결과를 보일 수 있을 것이라 가정하였다. 즉 벡터 모델을 이용하여 문서와 질의와의 유사도를 계산하고 여기에 질의문의 길이에 대한 가중치와 유사도를 이용하여 얻은 결과 문서에서 질의문을 분석하여 얻은 질의 용어들의 출현 빈도에 대한 가중치를 적용하는 방법을 제안하였다.

  • PDF

수식어구를 이용한 한국어 용어의 전문성 측정 (Measuring the Specificity of Korean Terms Using Modifiers)

  • 구희관;정한민;이병희;성원경
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.439-441
    • /
    • 2005
  • 용어의 전문성은 전문용어의 판넬 기준을 정하고 그 계층구조를 밝히는데 유용하다. 본 논문에서는 말뭉치로부터 추출한 한국어 용어의 전문성을 측정하는 효과적인 방법을 제안한다. 말뭉치에서 관형형 전성어미('ㄴ/은/는')가 부여된 전문용어와 함께 출현하는 수식어구는 일반명사의 수식어구보다 제한적인 형태로 나타난다. 이런 점에 착안하여 본 논문에서는 수식어구를 포함하는 문맥정보에 대해 엔트로피를 측정하여 용어의 전문성을 측정하였다. 이를 위해 한국어 수식어구를 분석하고 기존 전문성 측정 방법에서 간과되어진 수식어구 출현빈도를 고려하여 엔트로피를 상대적 비율로 계산함으로써 한국어에 적합한 전문성 측정을 하였다. 400만 어절의 신문 말뭉치에서 추출한 전문용어와 ETRI 시소러스를 이용하여 실험을 해 본 결과 본 논문에서 제안하는 한국어 용어 전문성 측정방법이 효과적임을 알 수 있었다.

  • PDF