• 제목/요약/키워드: 동시단어 분석

검색결과 186건 처리시간 0.024초

다중색인에 의한 정보검색 시스템 구현 (Implementation of an Information Retrieval System with Multiple Indexing)

  • 이준영;강상배;양장모;박승;박현주;김민정;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.63-67
    • /
    • 1996
  • 이 논문에서는 대량의 신문기사나 일반 텍스트 문서를 효율적으로 저장 및 검색 할 수 있는 정보검색 시스템을 구현한다. 이 시스템은 문서의 주제, 저자, 날짜, 출판사 또는 사용자 정의에 의한 속성과 본문에 대한 색인어와 색인관련정보를 생성한다. 모든 색인어는 최대 64가지의 속성정보와 문서별 단어빈도(tf)를 가질 수 있다. 색인은 형태소 분석을 이용하는 방법과 N-gram을 이용하는 방법이 동시에 사용되며, 색인어는 가중치를 가진다. 이 논문에서 구현한 시스템을 이용하여 7개월치 신문자료를 색인한 결과, 생성된 데이터베이스의 크기는 원래 문서의 약 22%이며 문서의 개수가 증가함에 따라 점점 그 비율은 감소한다.

  • PDF

단어동시출현분석을 통한 한국의 국가 R&D 연구동향에 관한 탐색적 연구 (An Exploratory Study on the Korean National R&D Trends Using Co-Word Analysis)

  • 서원철;박현석;윤장혁
    • Journal of Information Technology Applications and Management
    • /
    • 제19권4호
    • /
    • pp.1-18
    • /
    • 2012
  • This paper identifies technology trends of national research and development (national R&D) by exploiting Korean national R&D patents, ranging from 2007 to 2010. In this paper, co-word analysis (CWA), which is a method to identify the relationship among technology terms by using their co-occurrences, is incorporated into network analysis to visualize the relationships among technology keywords of national R&D patents and calculate network indexes concerning inter-relationship diversity and strength of technology keywords. As a result, this research found that inter-relationship among technology keywords in national R&D are getting increasingly strengthening in an overall sense. In addition, the keyword inter-relationship diversity-strength map proposed in this paper revealed some significant technological keywords of national R&D : core technology keywords including "sensor", "film" and "fuel" and emerging keywords including "biosensor" and "thermoelectric". Because the proposed approach helps identify interdisciplinary trends of technology keywords from a massive volume of national R&D patents in a visual and quantitative way, we expect that the approach can be incorporated as a preliminary into the R&D planning process to assist R&D policy makers to understand technology convergence of national R&D and develop relevant R&D policies.

키 프레임 영상을 이용한 실시간 시각 루프 결합 탐지기의 설계 (Design of a Real-Time Visual Loop Closure Detector using Key Frame Images)

  • 김혜숙;김주희;김동하;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.809-812
    • /
    • 2014
  • 본 논문에서는 키 프레임 영상을 이용한 효과적인 실시간 시각 루프 결합 탐지기를 제안한다. 시각 루프 결합 탐지기는 과거에 지나온 위치들 중 하나를 다시 재방문하였는지를 판단하기 위해, 새로운 입력 영상을 이미 지나온 위치들에서 수집한 과거 영상들과 모두 비교해 보아야 한다. 따라서 새로운 위치나 장소를 방문할수록 비교 대상 영상들이 계속해서 증가하기 때문에, 일반적으로 루프 결합 탐지는 높은 정확도와 실시간성을 동시에 만족하기 어렵다. 이러한 문제점을 극복하기 위해, 본 시스템에서는 입력 영상들 중에서 키 프레임들만을 골라 비교함으로써, 루프 결합 탐지에 필요한 비교 연산량을 효과적으로 줄이는 방법을 채택하였다. 또한 본 시스템에서는 루프 결합 탐지의 정확도와 효율성을 높이기 위해, 키 프레임 영상들을 시각 단어들의 집합(BoW)으로 표현하고, DBoW 데이터베이스 시스템을 이용해 키 프레임 영상들에 대한 색인을 구성하였다. TUM 대학의 벤치마크 데이터들을 이용한 성능 분석 실험을 통해, 본 논문에서 제안한 시각 루프 결합 탐지기의 높은 성능을 확인할 수 있었다.

의미처리 기반의 한글-한자 변환 시스템 (korean-Hanja Translation System based on Semantic Processing)

  • 김홍순;신준철;옥철영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.398-401
    • /
    • 2011
  • 워드프로세서에서의 한자를 가진 한글 어휘의 한자 변환 작업은 사용자에 의해 음절/단어 단위의 변환으로 많은 시간이 소요되어 효율이 떨어진다. 본 논문에서는 한글 문장의 의미처리를 통해 문맥에 맞는 한자를 자동 변환하는 시스템을 제안한다. 문맥에 맞는 한글-한자 변환을 위해서는 우선 정확한 형태소 분석 및 동형이의어 분별이 선행되어야 한다. 이를 위해 본 논문에서는 은닉마르코프모델 기반의 형태소 및 동형이의어 동시 태깅 시스템을 구현하였다. 제안한 시스템은 형태의미 세종 말뭉치 1,100만여 어절을 이용하여 unigram과 bigram을 추출 하였고, unigram을 이용하여 어절의 생성확률 사전을 구축하고 bigram을 이용하여 전이확률 학습사전을 구축하였다. 그리고 품사 및 동형이의어 태깅 후 명사를 표준국어대사전에 등재된 한자로 변환하는 시스템을 구현하였다. 구현된 시스템의 성능 확인을 위해 전체 세종 말뭉치를 문장단위로 비학습 말뭉치를 구성하여 실험하였고, 실험결과 한자를 가진 동형이의어에 대한 한자 변환에서 90.35%의 정확률을 보였다.

주제어 기반 분류에 관한 연구 - 미국 공공도서관의 사례를 중심으로 - (Analysis of Word Based Classification of U.S. Public Libraries and its Implications)

  • 백지원
    • 한국문헌정보학회지
    • /
    • 제44권4호
    • /
    • pp.179-201
    • /
    • 2010
  • 본 연구는 이용자 편의를 목적으로 기존의 DDC 분류를 대체하거나 보완하는 주제어 기반 분류를 적용하고 있는 미국 공공도서관의 사례를 분석하여 그 효과와 문제점을 논의하고, 이러한 시도에 대한 향후 국내에서의 논의에 필요한 시사점을 제시하는데 목적이 있다. 이를 위하여 주제어 기반 분류를 사용하는 대표적인 미국 공공도서관 사례 11개를 선정하여 새로운 분류법을 적용하게 된 배경과 과정을 구체적으로 분석하고, 현재 사용되고 있는 주제어기반 분류의 유형을 구분하여 그 실례를 시행 시기, 시행 이유, 장서 규모, 적용 범위, 적용 과정 등으로 나누어 분석하였다. 이러한 분석의 결과, 주제어 기반 분류는 도서관 이용과 운영면에서 긍정적인 효과를 보이고 있었으나 동시에 여러 가지 한계를 가지고 있다는 결론을 얻게 되었다. 이러한 분석을 바탕으로 향후 국내에서의 논의에 필요한 시사점을 도서관계의 수용성, 국내 여건에 대한 고려, 적절한 유형 선택, 사서의 전문직에 미치는 영향, 주제명표 개발의 필요성, 그리고 이용자 지원의 필요성 등으로 나누어 제안하였다.

한국어 병렬문의 통사, 의미, 문맥 분석을 위한 결합범주문법 (Combinatory Categorial Grammar for the Syntactic, Semantic, and Discourse Analyses of Coordinate Constructions in Korean)

  • 조형준;박종철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권4호
    • /
    • pp.448-462
    • /
    • 2000
  • 자연언어처리에 있어서 병렬구문은 분석의 복잡성, 단어의 애매성, 서술어 생략 등에 따른 처리의 어려움을 내포하고 있다. 본 논문에서는 한국어에서 발생하는 병렬문의 통사적 특징을 능력문법 (competence grammar)의 입장에서 접근하고 분석된 결과를 기반으로 하여 한국어 병렬문 해석을 위한 결합범주문법 (Combinatory Categorial Grammar)을 제안한다. 제안된 결합범주문법을 사용해서 병렬문에 대한 각각 다른 수준의 통사적, 의미적, 문맥적 정보들이 사전에 어휘적으로 통합될 수 있고 통합된 정보를 이용하여 통사적, 의미적, 문맥적 분석들이 각각 다른 수준의 처리를 거치지 않고 동시에 점진적으로 유도될 수 있음을 보인다. 유도된 정보들을 통해 일반적으로 한국어 병렬문의 주된 기능이라고 생각되는 두 문장이 가지는 정보를 대조, 비교하는 기능이 표현될 수 있음을 보인다. 말뭉치를 분석하여 병렬문이 한국어 처리에서 차지하는 비중과 제시한 문법으로 처리할 수 없는 문형들에 대한 논의를 제공한다.

  • PDF

디지털 인문학 연구 동향 분석 - Digital Humanities 학술대회 논문을 중심으로 - (An Investigation on Digital Humanities Research Trend by Analyzing the Papers of Digital Humanities Conferences)

  • 정은경
    • 한국문헌정보학회지
    • /
    • 제55권1호
    • /
    • pp.393-413
    • /
    • 2021
  • 디지털 정보기술과 인문학적 연구 문제의 결합을 통해 새롭고 혁신적인 지식을 창출하는 디지털인문학은 대표적인 다학제적 융합 학문 분야라고 볼 수 있다. 이러한 디지털인문학 분야의 지적구조를 규명하기 Digital Humanities 학술대회 최근 2년간(2019, 2020)의 논문 441건을 대상으로 저자사항과 키워드 동시출현 네트워크 분석을 수행하였다. 저자와 키워드 분석 결과를 살펴보면, 유럽, 북미 지역, 동아시권의 일본 중국의 저자의 활발한 활동을 찾아볼 수 있다. 공저자 네트워크를 통해서는 11개의 분절된 네트워크를 확인할 수 있으며, 이는 폐쇄적인 공저활동의 결과로 볼 수 있다. 키워드 분석을 통해서는 16개의 세부 주제 영역을 규명할 수 있으며, 이는 기계학습, 교육학, 메타데이터, 토픽모델링, 문체, 문화유산, 네트워크, 디지털아카이브, 자연언어처리, 디지털도서관, 트위터, 드라마, 빅데이터, 신경망 네트워크, 가상현실, 윤리으로 구성된다. 이러한 군집 구성은 디지털 정보기술이 주된 세부 주제 영역으로 자리매김하고 있음을 알 수 있다. 또한 출현빈도가 높은 키워드들은 인문학 기반 키워드, 디지털 정보기술 기반 키워드, 융합 키워드으로 구분될 수 있으며, 디지털인문학의 성장과 발전 과정의 역동성을 찾아볼 수 있다.

2011년 전후의 과학교육분야에서의 융합교육 연구동향의 변화 탐색 (Exploring the Research Trend Changes on Convergence Education of Before and After 2011 in Science Education)

  • 송영욱;백성혜
    • 한국과학교육학회지
    • /
    • 제40권5호
    • /
    • pp.531-542
    • /
    • 2020
  • 이 연구의 목적은 과학교육분야에서 꾸준히 지속해 오고 있는 융합교육을 선행연구와 비교를 통해 2011년 이후 융합교육 연구동향의 변화를 알아보고자 하였다. 과학교육분야의 융합교육관련 논문 발행 편수, 연구대상, 연구내용, 주제연계를 선행연구와 비교 분석하고, 최근 연구동향을 알아보는 네트워크 분석방법을 활용하여 융합교육의 변화를 알아보았다. 과학교육분야에서 융합교육관련 논문 편수는 8.0%이상 꾸준하게 발행되었으며 2012년부터 증가했다가 다시 2015년부터 낮아지고 2017년부터 다시 서서히 증가하는 경향성이 나타났다. 연구대상은 초등학생 대상이 높은 반면 중학생, 고등학생, 대학생 대상은 낮았다. 현직 교사는 증가한 반면에 예비 교사는 감소했고, 문헌과 일반은 다소 증가하였다. 연구내용에서 효과연구는 감소한 반면에 개발연구는 증가했으며, 이론 및 인식연구는 비슷하였다. 주제연계에서 과학 내 연계는 23.9%이고, 과학 외 연계는 76.1%이며, 과학 외 연계에서 공학·기술, 예술 연계가 높았다. 네트워크 분석에서 초등, 과학, STEAM, 프로그램 단어는 출현빈도가 높은 동시에 다른 단어들과 함께 등장하여 네트워크를 주도하고 있었다. 융합교육 연구동향에 대한 교육적 함의는 앞으로 과학교육분야에서 융합교육은 지속될 것이며, 교육 현장에 뿌리를 내리기 위해서는 중등학생을 대상으로 하는 연구가 더욱 활발히 이루어져야 한다는 것이다. 또한 STEAM 중심의 프로그램 개발 및 효과에 대한 연구에서 벗어나 융합교육의 철학적 근거 및 이론적 확립을 위한 연구가 늘어날 필요가 있다.

음악 장르에 따른 분위기와 색상 분포의 특성 (Mood and Color Distribution Characteristics of Music Genres)

  • 문창배;김현수;송민균;김병만
    • 감성과학
    • /
    • 제14권1호
    • /
    • pp.59-72
    • /
    • 2011
  • 스트레스는 다양한 질병의 원인이 되며 스트레스의 해소는 질병 예방에 중요한 요인이라 할 수 있을 것이다. 스트레스를 해소시키는 방법 중 한 가지는 청각이나 시각을 이용하는 것으로 스트레스 해소에 맞는 음악을 제공하거나 조명을 제공해 주면 될 것이다. 또한 청각과 시각을 동시에 이용할 수 있다면 그 효과를 극대화 할 수 있을 것이다. 이러한 맥락에서 본 논문에서는 음원의 분위기와 분위기 단어의 색상을 수집한 후 수집한 데이터를 이용하여 음악 장르에 따른 분위기 분포와 분위기 단어에 따른 색상분포를 분석하였고, 두 가지 수집된 데이터를 이용하여 음악 장르에 따른 색상 분포가 다르다는 것을 확인하기 위해 Minitab을 이용하여 $X^2$-test를 실시하였다. 분석결과, P<0.001로 음악 장르에 따라 분위기 색상이 다르게 분포되며 분위기에 따라 색상 및 명도, 채도의 분포도 다르게 나타남을 확인하였다. 이 결과를 음악 분위기에 따라 감성을 표현하는 조명 개발에 활용할 수 있을 것이고, 이를 심리 치료에 적용할 수 있을 것으로 기대된다. 다만, 심리 치료의 경우 임상 실험인 점을 고려한다면 더 많은 데이터의 수집과 분석이 필요할 것이다.

  • PDF

빅데이터 클러스터에서의 추출된 형태소를 이용한 유사 동영상 추천 시스템 설계 (A Design of Similar Video Recommendation System using Extracted Words in Big Data Cluster)

  • 이현섭;김진덕
    • 한국정보통신학회논문지
    • /
    • 제24권2호
    • /
    • pp.172-178
    • /
    • 2020
  • 최근 널리 이용되고 있는 동영상 공유 서비스에서는 콘텐츠 추천 시스템이 매우 중요한 요소이다. 콘텐츠 추천을 위해서 일반적으로 사용자 선호도와 동영상(아이템) 유사도를 동시에 고려하는 협업 필터링을 사용하고 있다. 그러한 서비스는 주로 사용자의 검색 키워드와 시청시간과 같은 개인 선호도를 활용하여 사용자의 편의를 도모한다. 또한 동영상에 지정한 키워드를 중심으로 랭킹화한다. 그러나 한정된 키워드만을 이용한 동영상 유사도를 분석한다는 한계가 있다. 이런 경우 지정한 키워드가 아이템을 제대로 반영하지 못하는 경우 그 문제가 심각해진다. 이 논문에서는 교육 동영상으로부터 차별화된 의미를 갖는 모든 단어를 고려하여 유사도를 분석하며, 이런 경우 데이터와 연산의 규모가 방대하기 때문에 빅데이터 클러스터에서 처리하는 방법을 적용한다. 제안한 시스템은 빅데이터 영상 분석을 통해 동영상 공유 서비스 플랫폼의 기본 모듈로 활용될 것으로 기대한다.