• Title/Summary/Keyword: 출현정보

Search Result 1,404, Processing Time 0.038 seconds

A Study on the Effects of the Appearance Sequence of Author Keyword on the Appearance Frequency of Article Title in the Education (교육학 분야 국내 학술 논문 저자키워드 출현 순서에 따른 빈도가 저자키워드의 논문 제목 출현 빈도에 미치는 영향에 관한 연구)

  • Yoon, Eun-Bin
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2014.08a
    • /
    • pp.119-122
    • /
    • 2014
  • 본 연구는 교육학 분야에서 국내 학술 논문 저자키워드 출현 순서에 의미가 있는지 알아보기 위하여 저자키워드 출현 순서별로 빈도를 조사하고 동 저자 키워드가 제목에 출현하는지를 살펴본 후, 학술논문 저자키워드 출현 순서에 따른 빈도가 저자키워드의 논문 제목 출현 빈도에 미치는 영향에 대해 연구하고자 한다. 연구의 배경은 구조적 학술용어사전의 구축과 관련해서 효율적인 용어 선정이나 용어 분류 방법을 찾는 것이다. 연구의 목적을 위해 교육학 분야 저자키워드의 출현 빈도수가 1인 것을 제외하고 고빈도 순으로 400개 용어를 추출하였다. 저자키워드의 몇 번째 출현 순서가 저자키워드의 제목 출현에 가장 큰 영향을 미치는지 알아본 결과, 저자키워드의 첫 번째 출현이 아닌 두 번째 출현이 가장 큰 영향을 미친다는 것을 알 수 있었다.

  • PDF

Word Ambiguity Resolution for Concept-based Text Classification (개념 기반 문서 분류를 위한 단어 애매성 해소)

  • 강원석;황도삼
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.167-169
    • /
    • 2000
  • 문서 분류 시스템은 문서에 나타난 용어나 개념의 출현 정보를 이용한다. 개념 기반문서분류는 용어를 사용하지 않고 문서의 단어에 나타난 의미를 이용한다. 단어가 중의성을 가지는 경우 그 뜻을 정확히 가리지 않으면 문서에 출현하지 않은 의미를 이용하게 되므로 문서 분류 시스템의 성능이 저하된다. 본 논문은 개념 기반 문서분류를 위하여 단어 애매성 해소를 시도하였다. 문서에 출현된 의미 정보를 이용하여 의미들간의 공기정보를 구하고 이를 이용하여 단어의 애매성을 해소하였다. 단어의 의미정보는 시소러스 도구를 통해 획득하고 의미들간의 공기정보는 의미들간의 동시 출현 정보를 획득하여 구축하였다. 본 시스템은 문서 분류 등 자연어처리 분야에 이용할 수 있어 효용가치가 높다.

  • PDF

Collaborative Recommendation for Songs Based on Co-Occurrence Analysis Method (동시출현정보분석을 이용한 음원 협력추천 서비스에 대한 연구)

  • Choi, Sanghee
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2013.08a
    • /
    • pp.129-132
    • /
    • 2013
  • 협력추천은 이용자가 가지고 있던 지식과 경험 또는 정보를 활용하는데 사용하였던 지식을 토대로 다른 이용자들이 효율적으로 정보를 획득할 수 있도록 지원하는 것을 목적으로 하는 서비스이다. 이 연구에서는 음원 서비스의 기존 이용자들이 구축해놓은 공개앨범에 나타난 정보를 분석하는 과정에 동시인용분석기법을 적용하여 음원을 찾고자 하는 이용자들에게 선호할 만한 음악을 추천해주는 방안을 제시하였다. 동시출현한 정보를 기반으로 구축된 가수 네트워크에서는 연관 가수 집단이 폭 넓게 표현될 수 있었고, 동시출현한 빈도가 높은 상위 곡은 이용자에게 직접적으로 유사정보를 추천하는 방안으로 활용될 수 있는 것으로 나타났다.

  • PDF

A Construction of Josa/Eomi Dictionary using Relative Frequency (상대적 출현 빈도를 이용한 조사/어미 사전의 구성)

  • Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.188-194
    • /
    • 1995
  • 한글 문서에서는 일부 조사와 일부 어미가 자주 출현하며 그 외의 조사/어미는 출현 빈도가 낮을 것으로 추측되고 있다. 본 연구에서는 실험에 통해서 이러한 사실을 확인하고 자주 출현하는 통합형 조사와 어미의 빈도를 구하기 위하여 한국어 말뭉치에서 통합형 조사와 통합형 어미의 상대적 출현 빈도를 조사하였다. 통합형 조사의 상대적 출현 빈도를 조사한 결과 말뭉치의 분야에 따라 약간의 차이가 있으나 평균 상위 9개의 통합형 조사가 전체 조사의 70%를 차지하고 있으며 상위 20개, 32개, 69개의 통합형 조사가 각각 90%, 95%, 99%를 차지하고 있음을 확인하였다. 통합형 어말어미의 경우에는 상위 10개의 통합형 어말어미가 전체 어말어미의 70%를 차지하고 상위 33개, 54개, 117개의 통합형 어미가 각각 90%, 95%, 99%를 차지하고 있다. 본 논문에서는 조사, 어미의 상대적 출현 빈도에 따라 계층적으로 조사/어미 사진을 구성함으로써 형태소 분석 효율을 높이고 형태소 분석기가 다양한 응용 분야에 쉽게 적응할 수 있도록 하는 방법을 제안한다. 또한 통합형 조사, 어미의 상대적 출현 빈도는 미등록어 추정을 용이하게 하거나 형태론적 모호성을 해결할 때에도 유용하게 활용될 수 있음을 보인다.

  • PDF

Improving Indexing Performance by using Occurrence Pattern Information of Proper Nouns (고유 명사 출현 패턴을 이용한 색인의 성능 향상에 관한 연구)

  • Jung, Rae-Jung;Kim, Jun-Tae
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.68-72
    • /
    • 1996
  • 본 논문에서는 고유 명사 출현 패턴 정보와 부가 정보를 이용한 미등록 고유 명사의 색인 방법을 제안한다. 정보 검색 시스템에서 고유 명사의 처리는 정확하고 의미 있는 색인을 위해 매우 중요하다. 본 논문은 형태소 분석 결과에 고유 명사 출현 패턴과 패턴 부가 정보를 사용하여 인명, 기관명, 회사명 등의 고유 명사 추출의 정확도를 높이는 방법을 제시한다. 총 827개의 인명과 기관 및 회사명을 포함하고 있는 조선일보 경제면 기사 100개 7416 어절에 대하여 본 시스템으로 실험한 결과, 인명의 경우 89%의 정확률을 보였다. 본 논문에서 제시한 출현 패턴과 고유 명사의 부가 정보를 적용했을 때 단순한 형태소 분석 결과에 비하여 고유 명사 추출 오류가 크게 개선되었다.

  • PDF

Analysis of Singer's Image Using User Recommended Song Data (이용자 추천정보를 기반으로 한 가수 이미지 분석)

  • Choi, Sanghee
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2014.08a
    • /
    • pp.7-10
    • /
    • 2014
  • 이 연구에서는 음원 서비스의 이용자들이 공개앨범에서 추천한 음원 리스트에 특성가수와 동시출현한 곡들의 정보를 분석하여 특성가수의 이미지를 네트워크 기법으로 표현하였고 동시출현한 곡의 통계분석을 통하여 해당 가수를 선택한 이용자가 선호할 만한 연관 곡을 추천하고자 하였다. 분석결과 추천되는 음원리스트에 동시 출현되는 가수들의 장르적 특성으로 특정가수의 이미지가 표현되었고 시기별로 가수의 이미지가 변화되는 것이 추적되었다. 이 연구에서 제시된 방법은 이용자에게 변화하는 가수의 이미지에 따라 연관 정보를 유연하게 추천할 수 있는 방안으로 활용될 수 있다.

  • PDF

Applying the Weight for Query Length and the Frequency of Query Term to Information Retrieval (정보 검색에서 질의문 길이에 대한 가중치와 질의어 출현 빈도 가중치 적용)

  • Kang, Seung-Shik;Chun, Young-Jin
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.763-766
    • /
    • 2005
  • 정보검색 시스템에서 긴 문장으로 질의가 들어올 경우 질의문의 길이와 시스템이 정답이라고 판단한 문서에서 질의문을 분석하여 추출한 질의어들이 출현한 빈도수를 가중치로 준다면 좀더 정확한 결과를 보일 수 있을 것이라 가정하였다. 즉 벡터 모델을 이용하여 문서와 질의와의 유사도를 계산하고 여기에 질의문의 길이에 대한 가중치와 유사도를 이용하여 얻은 결과 문서에서 질의문을 분석하여 얻은 질의 용어들의 출현 빈도에 대한 가중치를 적용하는 방법을 제안하였다.

  • PDF

Automatic Text Categorization by Term Weighting and Inverted Category Frequency (용어 가중치와 역범주 빈도에 의한 자동문서 범주화)

  • Lee, Kyung-Chan;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.14-17
    • /
    • 2003
  • 문서의 확률을 이용하여 자동으로 문서를 분류하는 문서 범주화 기법의 대표적인 방법이 나이브 베이지언 확률 모델이다. 이 방법의 기본 형식은 출현 용어의 확률 계산 방법이다. 하지만 실제 문서 범주화 과정에서 출현하지 않는 용어들도 성능에 많은 영향을 줄 수 있으며, 출현 용어들에 대한 빈도 이외의 역범주 빈도나 용어가중치를 적용하여 문서 범주화 시스템의 성능을 향상시킬 수 있다. 본 논문에서는 나이브 베이지언 확률 모델에 출현 용어와 출현하지 않는 용어들에 대한 smoothing 기법을 적용하여 실험하였다. 성능 평가를 위해 뉴스그룹 문서들을 이용하였으며, 역범주 빈도와 가중치를 적용했을 때 나이브 베이지언 확률 모델에 비해 약 7% 정도 성능 개선 효과가 있었다.

  • PDF

Hanja Information in the Entries of Korean Unabridged Dictionary (국어대사전의 표제어에 나타나는 한자 정보)

  • Kim, Cheol-Su
    • The Journal of the Korea Contents Association
    • /
    • v.10 no.4
    • /
    • pp.438-446
    • /
    • 2010
  • For language information processing that includes both Hangul and Hanja, an electronic dictionary supporting Hangul and Hanja simultaneously is necessary. This paper examined statistical information on Hanja entries of Korean Unabridged Dictionary such as the number of entries that include Hanja based on the KSC-5601 character set, the frequency of the pronunciation and meaning of each character of Hanja included in the entries, the frequency per part of speech of Hanja in entries and the average number of Hanja characters per entry. At least one or more of Hanja characters appear in 303,951 entries out of 440,594, accounting for 68.99% of the total. 858,595 characters of Hanja are included in the 440,594 entries, which is 1.95 Hanja characters per entry. As the average syllable length of the entries is 3.56 and the average count of the Hanja characters per entry is 1.96, it can be said that 54.7% of all the characters of the entries are in Hanja. Among 4,888 Hanja character codes, 4,660 are used once or more, whereas 228 Hanja codes never appear in any entry. There were 5 characters which appear more than 4,000 times. A total of 858,595 Hanja characters used in all the entries correspond to 471 Hangeul codes.

Modeling the Spatial Distribution of Roe Deer (Capreolus pygargus) in Jeju Island (제주 노루(Capreolus pygargus)의 서식지 선호도 분석)

  • KIM, A-Reum;LEE, Jae-Min;JANG, Gab-Sue
    • Journal of the Korean Association of Geographic Information Studies
    • /
    • v.20 no.4
    • /
    • pp.139-151
    • /
    • 2017
  • The habitat preference of roe deers(Capreolus pygargus) in Jeju island, South Korea was analyzed by using their occurrence probability in MaxEnt model in this study. Totally 490 surveying data were gathered and 15 environmental variables were chosen for the model in which 6 variables out of 15 ones were filtered and finally removed because of there being higher correlation(over 0.7 in correlation coefficient). According to the modeling, roe deers were known to prefer the area ranging from 200 to 700 meter and over 1,500 meter in sea level, where there were not many dominant tree and/or dominant vegetation with low density so that understory vegetation can grow well with plentiful sunlight and can be used as a food of herbivore like roe deers. Otherwise, the region ranging from 700 to 1,500 meter was mostly covered with high density vegetation which cut off sunlight trying to penetrate through the dominant vegetation. It can cause a lower density of vegetation on surface, which can not attract to roe deers.