• 제목/요약/키워드: 키워드 구성 단어

검색결과 57건 처리시간 0.023초

동시링크를 이용한 웹 문서 클러스터링 실험 (Clustering of Web Document Exploiting with the Co-link in Hypertext)

  • 김영기;이원희;권혁철
    • 한국도서관정보학회지
    • /
    • 제34권2호
    • /
    • pp.233-253
    • /
    • 2003
  • 인간은 지식의 조직을 통해 세계를 이해한다. 정보검색분야에서 연구되고 있는 정보의 조직화에는 분류와 클러스터링이라는 두 가지 유형이 있다. 분류는 미리 정의된 범주에 각 항목을 배정하는 행위인 반면, 클러스터링은 유사하거나 관련된 항목을 집단화함으로써 정보를 조직한다. 인터넷 정보자원의 조직은 웹 문서에 출현하는 단어들에서 키워드를 추출하여 역파일을 작성함으로써 검색에 활용하는 것이 일반적인 방법이다. 그러나 키워드의 출현 위치나 단어빈도를 통한 문서유사도 기법은 사용된 언어가 다르거나 대부분이 앵커텍스트만으로 구성되어 있는 대문페이지처럼 적용하기 어려운 경우가 많다. 이 연구는 계량정보학적 분석 기법 중에서 동시인용 기법을 웹 문서의 하이퍼링크에 적용하여, 웹 문서의 클러스터링 가능성을 실험한다.

  • PDF

전화통화 빅데이터 분석에 관한 연구 (A Study on Phon Call Big Data Analytics)

  • 김정래;정찬기
    • 정보화연구
    • /
    • 제10권3호
    • /
    • pp.387-397
    • /
    • 2013
  • 본 연구는 전화통화에 의해 생성된 데이터에 대한 빅데이터 분석 접근을 제안한다. 전화통화 데이터의 분석모형은 자연어의 어휘식별을 위한 PVPF(Parallel Variable-length Phrase Finding) 알고리즘과 키워드의 사용빈도 측정을 위한 워드 카운트 알고리즘으로 구성된다. 제안한 분석모형에서는 먼저 PVPF 알고리즘에 의해 연계 단어 추출을 통해 어휘를 식별하며, MapReduce의 워드 카운트 알고리즘을 사용하여 식별된 어휘 및 단어의 사용빈도를 측정한다. 그 결과는 다양한 관점에서 해석될 수 있다. 제안 분석모형의 효과성을 보이기 위해 HDFS(Hadoop Distributed File System)를 기반으로 분석모형을 설계 구현하였으며, 전화통화 데이터를 실험 적용한다. 실험결과, 키워드 상관관계 분석 및 사용빈도 변화 분석을 통해 유의미한 결과를 도출한다.

코퍼스로부터 구문 분석을 위한 사전 구성 (A Dictionary Composition for Syntactic Analyzer from Corpus)

  • 정민수;정규철;박기홍
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.159-161
    • /
    • 1998
  • 한글은 중심어 후행성과 어순의 자유성, 격을 결정하는 조사의 생략 등으로 인해 영어권에서 연구되어진 변형 생성 문법이나 어휘 함수 문법, 구구조문법류 등이 적용되기 어려운 문제점을 가지고 있고 관형적인 표현이 많아 구문 규칙 만으론 분석하기 쉽지 않기 때문에 사전에 의존해야 하는 경우가 많으므로 이에 적합한, 사전을 구성하고자 한다. 그러나 기존의 태그와 키워드만으로 구성된 사전만으로 어려운 점이 많고, 이 때문에 문법 규칙을 같이 적용하게 되는데 이 규칙을 보통 알고리즘을 이나 수작업을 통해 사전으로 구성하므로 정확성도 떨어진다. 저자는 이 과정을 코퍼스를 통해 구성하여 시간을 줄이고 결합 정보 또한 보다 견고하게 구성하기 위해 통계 정보-코퍼스 내에서 결합이 사용된 빈도-에 따라 순위를 결정할 수 있도록 구성하였다. 이를 보다 확장하여 구문분석 시에도 활용할 수 있도록 분석된 단어간의 결합 정보와 그 결합이 사용된 빈도를 포함하여 구문 결합 정보 사전을 구성하고자 한다. 이는 기존의 의존 문법이나 구문 관계를 이용하여 구문분석을 할 경우 올바른 트리의 결합 관계를 검색할 때 쓰여질 수 있다.

  • PDF

마이크로블로그를 통한 그래프 기반의 토픽 추출에 관한 연구 (A Study on Graph-based Topic Extraction from Microblogs)

  • 최돈정;이성우;김재광;이지형
    • 한국지능시스템학회논문지
    • /
    • 제21권5호
    • /
    • pp.564-568
    • /
    • 2011
  • 오늘날 마이크로블로그는 스마트폰의 보급과 더불어 대중적인 정보전달 방식의 하나로 자리 잡고 있으며, 기존의 정보매체에 비해 사용자들의 관심사 변화를 보다 빠르게 반영하는 특징을 지닌다. 특히 다수 사용자의 관심을 끌고 있는 토픽의 경우, 다양한 정보 출처로부터 풍부한 정보를 제공할 수 있는 잠재력을 보유하고 있기도 하다. 그럼에도 불구하고 높은 비율로 존재하는 노이즈 등으로 인해 마이크로블로그로부터 유용한 정보를 획득하기란 쉽지 않은 문제로 남아있다. 지금까지 특정 문서로부터 주제를 효율적으로 추출, 추적하는 다양한 방법이 제안되었으나, 마이크로블로그와 같은 단문의 문서가 대량으로 생산되는 경우에 활용하기에는 미흡한점이 있었다. 본 논문에서는 특정 주제어가 주어졌을 때, 키워드 그래프를 구성함으로써 그에 대한 사용자들의 관심사가 어떻게 변화하는지를 효과적으로 파악하는 방법을 제안한다. 제안 방법은 크게 마이크로블로그 내에서의 단어 동시출현빈도를 이용하여 단어간 키워드 그래프를 생성하는 과정과, 네트워크 분할 기법을 이용하여 그래프를 적절히 분할함으로써 사용자의 관심사 별로 나누는 과정을 포함한다. 선별된 주제어에 대해 제안된 방법을 적용해 봄으로서 적은 비용으로 효과적인 주제 발견 및 분할이 가능함을 확인하였다.

A Method for Compound Noun Extraction to Improve Accuracy of Keyword Analysis of Social Big Data

  • Kim, Hyeon Gyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권8호
    • /
    • pp.55-63
    • /
    • 2021
  • 소셜 빅데이터는 신조어나 고유명사를 포함하는 경우가 많으며, 이들을 처리하기 위해 단어별 출현 빈도수를 기반으로 한 통계적인 형태소 분석 방법이 많이 활용되고 있다. 그러나 이들 방법에서는 복합 명사를 제대로 인지하지 못해, 키워드 추출의 정확도가 떨어지는 문제점이 지적되고 있다. 본 논문에서는 소셜 빅데이터의 키워드 분석에 있어 복합 명사를 추출하기 위한 방법을 제안한다. 제안 방법은 형태소 분석 단계를 통해 얻어진 단어를 조합하여 복합 명사 후보군을 만들고, 주어진 리뷰에서 이들의 출현 빈도를 조사하여 얻어진 빈도수를 기반으로 복합 명사를 추출한다. 복합 명사 후보군을 구성하는 방법에 따라 두 가지 알고리즘을 제안하였으며, 각 알고리즘의 성능을 수식으로 표현하고 비교한다. 그리고 온라인에서 수집된 실제 데이터를 대상으로 실험을 통해 비교 결과를 검증하는 동시에, 제안 방법이 실시간 처리에도 적합함을 보여준다.

개념 기반 이미지 검색 시스템을 위한 WordNet 적용 방안 (Applying Method WordNet for Concept based Image Retrieval system)

  • 조미영;최준호;김판구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.487-489
    • /
    • 2002
  • 기존의 키워드 기반 이미지 검색에서는 의미적 내용 인식을 위해 일반적으로 어휘적 정보나 텍스트 정보를 인간이 주석 형태로 달아주었다. 그러나 이런 텍스트 정보 기반 이미지 검색은 개념적 매칭이 아닌 스트링 매칭이므로 주석을 달아놓은 단어와 정확한 매칭이 없다면 찾을 수가 없다. 이러한 문제를 해결하기 위해 본 논문에서는 개념 기반 이미지 검색 시스템을 위한 WordNet의 적용 방안에 대해 연구했다. WordNet은 단언형이 아닌 단어의 의미 즉 synset이 구성 요소라는 특징을 이용해 각각의 이미지에 텍스트 정보 대신 적합한 개념의 Synset번호를 저장한다. 그리고 검색시 개념간의 유사성 측정을 이용해 검색어와 개념적으로 유사한 모든 이미지를 검색하도록 한다.

  • PDF

시맨틱 네트워크 분석을 이용한 원천기술 분야의 잠재적 기술수요 발굴기법에 관한 연구 (Identifying potential buyers in the technology market using a semantic network analysis)

  • 서일원;전채남;이덕희
    • 기술혁신연구
    • /
    • 제21권1호
    • /
    • pp.279-301
    • /
    • 2013
  • R&D 성과활용을 위한 기술마케팅의 중요성은 지속적으로 증가함에도 불구하고 특히, 수요기업 발굴을 위한 분석방법론에 대한 구체적인 연구는 미흡한 실정이다. 이에 본 연구에서는 기술속성과 기업정보와의 관계를 분석함으로써 기술과 관련성이 높은 기업정보를 인터넷에서 발굴하는 방법론을 제시한다. 이를 위해 첫째, 대상기술의 속성을 반영한 기술 키워드를 검색하여 수집한 상위 20개의 핵심단어를 추출하였다. 둘째, 핵심단어들로 구성된 매트릭스를 구성하여 단어들 간의 공출현빈도와 거리를 측정함으로써 기업정보와 기술 속성과의 관련성에 대해 분석하였다. 셋째, 각 키워드별 분석결과를 비교하여 중복횟수가 높은 기업을 잠재 수요기업으로 선정하였다. 발굴기법의 신뢰성 확인을 위해, 국내 원천 기초연구 분야 출연연구원의 특허기술에 적용한 결과 총 100개의 잠재 수요기업 후보를 발굴하였으며 키워드별 결과를 비교하여 총 7개의 기업이 잠재 수요기업으로 도출되었다. 각 기업의 사업분야 확인을 거쳐 해당 기술과의 관련성이 높은 최종 5개의 기업이 최종 잠재 수요기업으로 선정되었다. 본 연구를 통해 시맨틱 네트워크 분석방법을 잠재적 기술수요자 발굴분야에 활용함으로써 네트워크 분석의 활용범위를 확장하였다는 점에서 학술적인 의의를 찾아볼 수 있으며, 기술수요 기업을 발굴하기 위한 실증적인 방법을 제공했다는 점에서 의미를 부여할 수 있다.

  • PDF

동시출현단어 분석을 활용한 오픈액세스 분야의 지적구조 분석: 2013년부터 2018년까지 출판된 문헌정보학 저널을 기반으로 (Domain Analysis on the Field of Open Access by Co-Word Analysis: Based on Published Journals of Library and Information Science during 2013 to 2018)

  • 김선겸;김완종;서태설;최현진
    • 한국도서관정보학회지
    • /
    • 제50권1호
    • /
    • pp.333-356
    • /
    • 2019
  • 기존 상업 출판사 중심의 학술 커뮤니케이션 체제가 가져온 위기를 해소할 수 있는 대안으로 오픈액세스가 등장하였다. 본 연구는 계량정보분석 기법 가운데 하나인 동시출현단어 분석을 활용하여 오픈액세스 분야의 최신 연구 경향을 반영하는 지적구조를 제시하고 주제영역이 어떻게 구성되었는지 확인하는 것을 주된 목적으로 두며, 기존에 수행되었던 오픈액세스 지적구조 분석 연구와 비교분석하였다. 이를 위해 Web of Science로부터 오픈액세스 관련 키워드 검색을 통하여 2013년 1월 1일부터 2018년 11월 31일까지 출판된 문헌정보학 분야 논문 총 761편을 수집하였으며, 이들 논문 가운데 제목과 초록으로부터 명사구 형태의 키워드 총 2,321개를 추출하였다. 오픈액세스 지적구조 분석을 위해 네트워크 분석을 통하여 13개의 세부 주제영역이 추출되었으며, 지적관계를 시각화하여 전역 및 지역 중심성이 높은 키워드를 도출하였다. 또한 군집분석을 실시하고 이 결과를 다차원축적지도에 표시하여 키워드들과의 상관관계를 분석하였다. 이를 통해 앞으로 오픈액세스 영역에서의 연구 방향성 모색에 도움이 될 것으로 기대한다.

언어 네트워크 분석 방법을 활용한 학술논문의 내용분석 (A Content Analysis of Journal Articles Using the Language Network Analysis Methods)

  • 이수상
    • 정보관리학회지
    • /
    • 제31권4호
    • /
    • pp.49-68
    • /
    • 2014
  • 본 연구의 목적은 국내 학술논문 데이터베이스에서 검색한 언어 네트워크 분석 관련 53편의 국내 학술논문들을 대상으로 하는 내용분석을 통해, 언어 네트워크 분석 방법의 기초적인 체계를 파악하기 위한 것이다. 내용분석의 범주는 분석대상의 언어 텍스트 유형, 키워드 선정 방법, 동시출현관계의 파악 방법, 네트워크의 구성 방법, 네트워크 분석도구와 분석지표의 유형이다. 분석결과로 나타난 주요 특성은 다음과 같다. 첫째, 학술논문과 인터뷰 자료를 분석대상의 언어 텍스트로 많이 사용하고 있다. 둘째, 키워드는 주로 텍스트의 본문에서 추출한 단어의 출현빈도를 사용하여 선정하고 있다. 셋째, 키워드 간 관계의 파악은 거의 동시출현빈도를 사용하고 있다. 넷째, 언어 네트워크는 단수의 네트워크보다 복수의 네트워크를 구성하고 있다. 다섯째, 네트워크 분석을 위해 NetMiner, UCINET/NetDraw, NodeXL, Pajek 등을 사용하고 있다. 여섯째, 밀도, 중심성, 하위 네트워크 등 다양한 분석지표들을 사용하고 있다. 이러한 특성들은 언어 네트워크 분석 방법의 기초적인 체계를 구성하는 데 활용할 수 있을 것이다.

디지털 인문학 연구 동향 분석 - Digital Humanities 학술대회 논문을 중심으로 - (An Investigation on Digital Humanities Research Trend by Analyzing the Papers of Digital Humanities Conferences)

  • 정은경
    • 한국문헌정보학회지
    • /
    • 제55권1호
    • /
    • pp.393-413
    • /
    • 2021
  • 디지털 정보기술과 인문학적 연구 문제의 결합을 통해 새롭고 혁신적인 지식을 창출하는 디지털인문학은 대표적인 다학제적 융합 학문 분야라고 볼 수 있다. 이러한 디지털인문학 분야의 지적구조를 규명하기 Digital Humanities 학술대회 최근 2년간(2019, 2020)의 논문 441건을 대상으로 저자사항과 키워드 동시출현 네트워크 분석을 수행하였다. 저자와 키워드 분석 결과를 살펴보면, 유럽, 북미 지역, 동아시권의 일본 중국의 저자의 활발한 활동을 찾아볼 수 있다. 공저자 네트워크를 통해서는 11개의 분절된 네트워크를 확인할 수 있으며, 이는 폐쇄적인 공저활동의 결과로 볼 수 있다. 키워드 분석을 통해서는 16개의 세부 주제 영역을 규명할 수 있으며, 이는 기계학습, 교육학, 메타데이터, 토픽모델링, 문체, 문화유산, 네트워크, 디지털아카이브, 자연언어처리, 디지털도서관, 트위터, 드라마, 빅데이터, 신경망 네트워크, 가상현실, 윤리으로 구성된다. 이러한 군집 구성은 디지털 정보기술이 주된 세부 주제 영역으로 자리매김하고 있음을 알 수 있다. 또한 출현빈도가 높은 키워드들은 인문학 기반 키워드, 디지털 정보기술 기반 키워드, 융합 키워드으로 구분될 수 있으며, 디지털인문학의 성장과 발전 과정의 역동성을 찾아볼 수 있다.