• 제목/요약/키워드: 키워드 그래프

검색결과 50건 처리시간 0.031초

의미정보기반 검색시스템의 설계 및 구현 (Design and Implemantation of Information Retrieval System based on Semantic Information)

  • 박창근;양기철
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2004년도 추계 종합학술대회 논문집
    • /
    • pp.265-268
    • /
    • 2004
  • 현재 대부분의 정보검색시스템에서 사용되고 있는 키워드 매칭기법은 기하급수적으로 늘어나는 정보를 효과적으로 처리하기에는 부적합하다. 이러한 문제는 의미정보를 활용하여 해결할 수 있으며, 본 논문에서는 의미정보를 효과적으로 활용할 수 있는 한 방법을 제시한다. 본 논문에서 제안한 기법은 의미정보를 개념그래프를 이용하여 표현하고, 이를 정보검색에 활용한다. 구현된 시스템은 완전 매칭과 부분 매칭이 가능한 시스템이다. 부분 매칭은 구문적 부분 매칭과 의미적 부분 매칭 두 가지가 있다. 의미적 유사도는 온톨로지 내의 서브클래스 관계로 계산된다. 이러한 기법은 정보검색 뿐만 아니라 동적 하이퍼링크의 구현 등 다양한 분야에서 적용될 수 있다.

  • PDF

한의학 약재 온톨로지 뷰어 시스템 개발 (Development of Ontology Viewer System for the Oriental Medicine)

  • 류동호;차승준;유정연;송미영;이규철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.154-158
    • /
    • 2008
  • 시간이 지날수록 처리해야 하는 정보가 점점 늘어나고 있어서 각 분야에서는 온톨로지를 구축하여 그것을 기반으로 보다 정확한 결과를 얻으려는 시도를 하고 있다. 한의학 분야에서도 온톨로지를 이용한 약재 정보 관리를 시도하고 있다. 하지만 한의학 약재 온톨로지에서는 약재 사이의 연관성 파악이 중요하지만, 기존의 검색은 키워드 기반의 검색으로 약재 사이의 연관성을 확인하게 어려움이 있다. 온톨로지의 구조적 내용을 파악하기 위한 기존의 온톨로지 뷰어들이 존재하지만 약재 온톨로지가 가지는 계층구조 위주의 탐색이 어렵고, 다양한 속성이 속성에 관계없이 그래프 상에 고르게 분포하기 때문에 속성에 따른 약재의 구분이 어렵다는 문제점이 존재한다. 따라서 기존의 뷰어를 수정 및 보완하여 한의학 약재 온톨로지에서 계층구조 파악 및 속성 별 약재 분류를 파악할 수 있는 뷰어를 개발하였다. 이러한 뷰어시스템을 통해 향후 한의학 전반적인 분야의 자원을 단계별로 체계화하여 관리함으로써 사용자 중심의 통합되고 현대화된 전통 의학 정보의 서비스의 기초시스템으로 활용될 수 있을 것이다.

  • PDF

특허 문서로부터 키워드 추출을 위한 위한 텍스트 마이닝 기반 그래프 모델 (Text-mining Based Graph Model for Keyword Extraction from Patent Documents)

  • 이순근;임영문;엄완섭
    • 대한안전경영과학회지
    • /
    • 제17권4호
    • /
    • pp.335-342
    • /
    • 2015
  • The increasing interests on patents have led many individuals and companies to apply for many patents in various areas. Applied patents are stored in the forms of electronic documents. The search and categorization for these documents are issues of major fields in data mining. Especially, the keyword extraction by which we retrieve the representative keywords is important. Most of techniques for it is based on vector space model. But this model is simply based on frequency of terms in documents, gives them weights based on their frequency and selects the keywords according to the order of weights. However, this model has the limit that it cannot reflect the relations between keywords. This paper proposes the advanced way to extract the more representative keywords by overcoming this limit. In this way, the proposed model firstly prepares the candidate set using the vector model, then makes the graph which represents the relation in the pair of candidate keywords in the set and selects the keywords based on this relationship graph.

R프로그래밍을 활용한 공유경제의 한국인 집단지성: 텍스트 마이닝 및 시계열 분석 (Korean Collective Intelligence in Sharing Economy Using R Programming: A Text Mining and Time Series Analysis Approach)

  • 김재원;윤유동;정유진;김기연
    • 인터넷정보학회논문지
    • /
    • 제17권5호
    • /
    • pp.151-160
    • /
    • 2016
  • 본 연구의 목적은 최근 창조경제 또는 사회적 경제 관점에서 주목받고 있는 공유경제라는 키워드에 관해 현대 한국인들이 가지고 있는 대중적인 문화 및 사회적 인식, 즉 집단지성의 변화 추세를 조사하는 것이다. 이를 위해, 본 연구는 빅데이터 분석 관점의 텍스트 마이닝 기법을 적용하여 최근 5년 간 사회 문화적 집단지성의 객관적이고 가시적인 연간 변화 및 패턴들을 발견하고 이해하고자 한다. 월드 와이드 웹에서 크롤링(crawling) 기법과 구글링(googling)을 통해 분석에 필요한 2010년부터 2014년까지 축적된 상당한 양의 공유경제를 주제로 한 기존 문헌들의 시계열 웹 메타 데이터를 수집하였다. 결과적으로, 많은 양의 가공되지 않은 공유경제 키워드 관련 원 자료들은 R프로그래밍 분석을 통해 보다 의미 있는 가치 있는 '워드 클라우딩' 형태의 그래프나 그림으로 분석처리 되었다. 아직까지 시기적으로 공유경제에 관해 축적된 자료나 집단지성이 양적으로 미비함에도 불구하고, 본 연구는 지식처리 관점에서 시계열 빅데이터 분석을 수행한 선행연구라는 점에서 의미가 있다. 따라서 본 연구의 결과는 향후 산학 분야에서 공유경제 관련 시장분석과 소비자 행동학 관련 후속 연구들을 위해 1차 자료로서 학문적 시사점을 제공할 수 있다.

빅데이터 분석을 활용한 워터파크 현황 및 인식 분석 (Analysis of Waterpark Status and Recognition Using Big Data Analysis)

  • 김재환;이재문
    • 디지털융복합연구
    • /
    • 제15권10호
    • /
    • pp.525-535
    • /
    • 2017
  • 본 연구는 최근 워터파크와 관련된 키워드를 통해 소비자 인식, 워터파크 현황을 살펴보고자 한다. 본 연구는 네이버와 다음을 수집채널로 선정하였으며, 키워드는 '워터파크'를 사용하였다. 자료 분석기간은 2015년 1월 1일부터 2016년 12월 31일까지 총 2년간을 연구기간으로 한정하였다. 분석결과 첫째, 빈도수를 살펴본 결과, 2015년 몰래카메라, 롯데워터파크, 검거, 용의자, 김해 2016년 롯데워터파크, 물놀이, 여름, 개장, 입장권 순으로 나타났다. 둘째, 연결정도 중심성 분석결과, 2015년 몰래카메라, 검거, 용의자, 여성, 샤워실 2016년 물놀이, 롯데워터파크, 여름, 원마운트, 입장권 순으로 나타났다. 셋째, N-GRAM 네트워크 그래프를 실시한 결과, 2015년 워터파크/몰래카메라, 몰래카메라/몰래카메라, 용의자/검거, 김해/롯데워터파크, 워터파크/용의자, 2016년 원마운트/워터파크, 김해/롯데워터파크, 워터파크/입장권, 워터파크/워터파크, 워터파크/개장 순으로 나타났다. 넷째, CONCOR분석을 실시한 결과, 2015년 3개의 그룹과 2016년 2개의 그룹이 형성되었다.

18대 대통령 선거 후보자의 연설문 네트워크 분석: 단어의 가시성(visibility)과 단어 간 연결성(connectivity)을 중심으로 (Presidential Candidate's Speech based on Network Analysis : Mainly on the Visibility of the Words and the Connectivity between the Words)

  • 홍주현;윤해진
    • 한국콘텐츠학회논문지
    • /
    • 제14권9호
    • /
    • pp.24-44
    • /
    • 2014
  • 이 연구는 제18대 대통령 선거에 출마했던 후보자들의 연설문 담화를 네트워크 관점에서 접근 해 구조적으로 분석하고 연설문에 내재된 의미를 파악하고자 했다. 이를 위해 연설문 담화에서 언급된 단어의 가시성(visibility)과 단어 간 연결성(connectivity)을 살펴보았다. 단어의 가시성은 특정 단어가 얼마나 자주 등장 하는지로, 단어 간 연결성은 네트워크 분석을 통해 연설문에 언급된 단어 간 상호작용을 그래프로 나타내 파악하였다. 박 후보의 경우 '국민행복'과 '약속'이 핵심 키워드로, 문 후보의 경우 '정권교체'와 '한반도,' 안 후보의 경우 '국민'과 '변화'가 핵심 키워드로 나타났다. 이 단어를 중심으로 어떤 단어들이 서로 연결되었는지 네트워크 분석을 하였다. 단어 간 중심성을 분석한 결과 박 후보의 경우 국민과 대한민국, 국민행복, 신뢰가, 문 후보의 경우 대한민국, 보통사람, 국민, 정권교체가, 안 후보의 경우 국민, 정치, 변화가 단어들 간의 관계에서 중심 역할을 하는 것으로 나타났다. 이 연구는 이론적인 측면에서 단어의 네트워크 분석을 통해 대통령 연설문에 내재된 의미를 실증적으로 파악했다는 점에서 의미가 있다. 방법론적인 측면에서는 대통령 후보자의 연설문 담화에 대한 단어 간 연결성을 구조적 측면에서 파악했다는 점에서 정치 커뮤니케이션 연구 분야의 확장에 기여하였다.

GO Guide : 생물학 온톨로지를 위한 브라우저 및 질의 변환 (GO Guide : Browser & Query Translation for Biological Ontology)

  • 정준원;박형우;임동혁;이강표;김형주
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제12권3호
    • /
    • pp.183-191
    • /
    • 2006
  • 생물학 분야에서 유전자에 대한 연구가 활발하게 이루어지면서 유전자에 대한 정보 구축 및 통합에 대한 필요성이 대두 되었다. 그 결과 Gene Ontology Consortium은 W3C에서 제정한 온톨로지 기술언어인 OWL로 유전자에 대한 정보와 분류를 담고 있는 Gene Ontology를 구축하였다. 하지만 Gene Ontology를 위한 기존의 브라우저들은 키워드, 트리, 그래프 기반의 단순 검색만을 지원할 뿐 다양한 관계를 고려한 고급 정보 검색이 불가능하다. 본 논문은 실제 생물학 연구를 수행하는 사용자들이 Gene Ontology를 효과적이고 편리하게 사용할 수 있도록 하기 위해 다양한 온톨로지 검색 기법을 통합적으로 지원하는 방법을 제안하였다. 또한 질의어 입력대신 검색 중에 손쉽게 질의를 생성하는 기법과 생성된 질의를 SeRQL 질의로 변환하는 기법을 제안함으로써 온톨로지에서 지원하는 질의어에 독립적으로 손쉽게 질의를 생성하고 고급정보를 얻을 수 있도록 하였다. 그리고 이렇게 구축한 GO Guide 브라우저를 통해 Gene Ontology의 방대한 정보를 효과적으로 이용할 수 있음을 확인하였다.

국민청원글의 토픽 모델링을 통한 교육이슈 분석 (Analysis of Educational Issues through Topic Modeling of National Petitions Text)

  • 심재권
    • 정보교육학회논문지
    • /
    • 제25권4호
    • /
    • pp.633-640
    • /
    • 2021
  • 교육과 관련된 이슈는 다양한 집단과 상황이 서로 복잡하게 연계된 사회문제로 교육과 관련된 현상을 분석하여 이슈와 문제를 구체적으로 발견하는 것은 쉽지 않은 일이다. 한국어 기반 텍스트 분석은 정량적인 형태로 분석이 가능하고, 텍스트 분석기법의 발전에 따라 연구적인 성과를 내고 있어 교육과 관련된 이슈를 한국어 텍스트로 된 데이터에서 도출하는데 충분히 활용할 수 있다. 본 연구는 청와대 국민청원 홈페이지 게시판의 육아/교육 분야의 청원글을 수집하고 텍스트 분석방법을 활용하여 교육계의 이슈와 문제를 도출하고자 하였다. 분석은 토픽 모델링 기법 중 잠재 디리클레 할당(LDA)을 통해 6개 토픽을 도출하였고, 주요 키워드의 연관규칙을 분석하여 그래프로 시각화하였다. 기존의 설문을 통한 교육의 이슈를 도출하는 방법 이외에 추가로 텍스트 기반의 분석방법을 통해 이슈를 충분히 발견할 수 있다는 점에서 향후 연구의 방향과 정책에 시사점을 제공할 수 있다.

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.

네트워크 그래프를 활용한 자율주행차에 대한 인식 분석 (The Perception Analysis of Autonomous Vehicles using Network Graph)

  • 박효경;유연휘;용성중;이서영;문일영
    • 실천공학교육논문지
    • /
    • 제15권1호
    • /
    • pp.97-105
    • /
    • 2023
  • 최근 인공지능 기술의 발달에 따라 사용자의 편의성을 위한 기술이 많이 개발되고 있다. 그중 자율주행차에 대한 관심이 나날이 증가하고 있다. 현재 많은 자동차 기업에서 자율주행차 상용화를 목표로 하고 있다. 상용화를 뒷받침할 정부의 새롭고 합리적인 정책 수립의 기반을 조성하기 위하여 뉴스 기사 데이터를 통해 여론의 변화와 인식을 분석하고자 하였다. 따라서 본 논문에서는 최근 3년간 자율주행차와 유사한 용어가 언급된 뉴스 기사 데이터 35,891건을 수집하고, 네트워크 분석하였다. 분석결과, '자율주행', 'AI', '미래', '현대자동차', '자율주행차', '자동차', '산업', '전기차' 등의 주요 키워드가 도출되었다. 또한, 자율주행차 산업은 자동차 기업뿐만 아니라, 반도체 기업, 빅테크 기업 등 다양한 산업과 융합되며 더욱 빠르고 다양한 플랫폼과 서비스 산업으로 발전하고 있으며, 산업의 융복합에 주목하고 있는 것으로 나타났다. 여론의 변화와 인식을 지속적으로 확인하기 위해 SNS 데이터나 기술 트렌드의 지속적인 분석을 통한 인식 분석이 필요할 것으로 판단된다.