• 제목/요약/키워드: 과학 텍스트

검색결과 601건 처리시간 0.04초

텍스트마이닝 기술을 이용한 공간정보 분야의 연구 동향에 관한 고찰 -국가연구개발사업 보고서 및 논문을 중심으로- (A Study on the Research Trends in the Area of Geospatial-Information Using Text-mining Technique Focused on National R&D Reports and Theses)

  • 임시영;이미숙;진기호;신동빈
    • Spatial Information Research
    • /
    • 제22권4호
    • /
    • pp.11-20
    • /
    • 2014
  • 본 연구의 목적은 텍스트마이닝 기법을 활용하여 공간정보 분야의 연구동향을 파악하는 것이다. 이를 위하여 국가과학기술도서관에서 국가연구개발보고서와 논문을 추출하여 키워드에 대한 전처리를 수행한 후 분야별로 정리하였다. 정리된 키워드들을 통해 보고서 및 논문에서 키워드의 시기별 출현 빈도 및 변화를 살펴보고 이를 통해 공간정보 분야의 연구동향을 확인하였다. 분석결과 공간정보 분야에서는 시스템 관련 연구가 줄어드는 반면 활용 관련 연구가 늘어가는 추세가 있음을 확인하였다.

문자 수준 컨볼루션 뉴럴 네트워크를 이용한 추천시스템에서의 행렬 분해법 개선 (Improving on Matrix Factorization for Recommendation Systems by Using a Character-Level Convolutional Neural Network)

  • 손동희;심규석
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제24권2호
    • /
    • pp.93-98
    • /
    • 2018
  • 추천시스템은 기업의 매출을 최대화 하기 위해, 사용자에게 관심도가 높은 제품을 제공해준다. 행렬 분해법은 추천시스템에서 자주 사용되는 방법으로 불완전한 사용자-제품 평점 행렬을 기반으로 한다. 하지만 제품과 사용자의 수가 점점 많아지면서, 데이터의 희소성문제로 인해 정확한 추천이 힘들어졌다. 이러한 문제점을 극복하기 위해, 제품과 관련된 텍스트 데이터를 사용하는 행렬 분해법 알고리즘이 최근에 제시되었다. 이런 행렬 분해법 알고리즘 중, 단어 수준 컨볼루션 뉴럴 네트워크를 사용하는 방법이 단어수준 특징들을 추출하여 텍스트 데이터를 효과적으로 반영한다. 하지만 단어수준 컨볼루션 뉴럴 네트워크에서는 학습해야 하는 파라미터의 수가 많다는 문제점이 있다. 그러므로 본 논문에서는 텍스트 데이터로부터 문자 수준 특징들을 뽑아 내기 위해 문자 수준 컨볼루션 뉴럴 네트워크를 사용하는 행렬분해법을 제안한다. 또한 제안하는 행렬 분해법의 성능을 검증하기 위해 실제 데이터를 이용하여 실험을 진행하였다.

투영 프로파일, GaP 및 특수 기호를 이용한 텍스트 영역의 어절 단위 분할 (Decomposition of a Text Block into Words Using Projection Profiles, Gaps and Special Symbols)

  • 정창부;김수형
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권9호
    • /
    • pp.1121-1130
    • /
    • 2004
  • 본 논문에서는 인쇄체 텍스트 영상에 대한 문자열 분리 방법과 어절 분리 방법을 제안한다. 문자열 분리 방법은 수평 투영 프로파일을 분석하고, 오분리된 문자열에 대하여 재귀적 투영 프로파일 (Recursive Projection Profile) 분석을 수행한다. 어절 단위 분리는 문자열에 대한 연결요소 분석을 통하여 gap을 검출한 후, 계층적 군집화 기법에 의해 어절과 어절 사이에 존재하는 gap을 판별하여 어절 분리점을 결정한다. 또한 어절과 어절 사이에 존재하는 특수기호를 검출하여 어절 분리점을 추가하기 위해서, 연결요소의 종횡비와 골격선(skeleton)의 형태적 특징을 고려한다. 제안 방법의 성능 평가를 위하여 총 84 개의 텍스트 영상에 대하여 실험하였고, 국내 상용 OCR 소프트웨어인 아르미와 성능 비교하였다. 최종 어절 분리에 대하여 제안 방법과 아르미가 각각 99.92%와 97.58%의 성능으로 측정됨으로써 제안 방법이 아르미에 비해 우수함을 보였다.

GPGPU를 활용한 인공신경망 예측기반 텍스트 압축기법 (Neural Predictive Coding for Text Compression Using GPGPU)

  • 김재주;한환수
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권3호
    • /
    • pp.127-132
    • /
    • 2016
  • 인공신경망을 압축에 적용하여 더 높은 압축 성능을 보이기 위한 알고리즘들이 몇 가지 연구되어 있다. 그러나 그동안 이러한 알고리즘들은 한정된 계산 능력의 하드웨어를 가지고 있기에 작은 크기의 신경망을 사용할 수밖에 없었으며 적용하는 대상 역시 실제로 사용하기에는 너무 작은 크기의 파일들이었다. 본 논문에서는 GPGPU의 계산능력을 신경망 학습에 이용하여 만든 텍스트 문맥 기반 문자 등장 확률 예측기와 함께 허프만 부호화의 성능을 높일 수 있는 변환 방법을 제시한다. 앞먹임 신경망과 GRU 회귀 신경망에 대해 실험을 수행하였으며, 회귀 신경망 모델은 앞먹임 신경망에 비해 뛰어난 예측 성공률과 압축률을 보였다.

텍스트의 정서 단어 추출을 통한 문학 작품의 정서 분석 (Analyzing Emotions in Literature by Extracting Emotion Terms)

  • 함준석;이신영;고일주
    • 감성과학
    • /
    • 제14권2호
    • /
    • pp.257-268
    • /
    • 2011
  • 본 논문에서는 단위 시단 동안 주로 작용하는 정서를 '지배적 정서(dominant emotion)'라고 정의하고, 문학작품의 지배적 정서 흐름을 자동적으로 추출하기 위한 방법론을 제시한다. 한국어는 언어 구조적 특성상 접미어에 따라 의미가 역전되거나 달라질 수 있다. 하지만 소설이나 수필 같이 일정 이상의 분량을 가진 텍스트에서 정서 단어를 추출한다면 어느 정도 추출이 잘못되어도 지배적 정서 흐름을 판단하는 것이 가능한 것이다. 문학작품에서 지배적 정서를 추출하기 위한 절차는 다음과 같다. 먼저 문학작품의 전제 텍스트에서 형태소를 분석하여 형태소 단위의 단어를 추출한다. 추출된 단어를 정서 단어 데이터베이스와 매칭하여 정서적 의미를 담고 있는 단어를 분리해 낸다. 분리된 단어들을 정서 모델에 사상하여 해당 단어가 갖고 있는 정서를 도출한다. 도출된 정서 단어들을 통해 지배적 정서를 분석한다. 제안한 방법론에 따라 현진건의 현대소설 '운수 좋은 날'과 윤오영의 수필 '방망이 깎던 노인'을 분석한 결과, 지배적 정서의 흐름을 파악할 수 있었다.

  • PDF

집합 기반 POI 검색을 이용한 문장 유사도 측정 기법 (Sentence Similarity Measurement Method Using a Set-based POI Data Search)

  • 고은별;이종우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권12호
    • /
    • pp.711-716
    • /
    • 2014
  • 최근 논문 표절 논란과 지능형 텍스트 검색서비스에 대한 관심이 증가하면서 문장 유사도 측정의 필요성이 증가하고 있다. n-gram, 편집거리, LSA 등 기존의 다양한 방향으로 선행 연구가 있었지만 각 기법마다 장단점이 존재한다. 본 논문에서는 집합 기반 POI 검색 기법을 이용한 새로운 방향의 문장 유사도 측정 기법을 제안한다. 집합 기반 POI 검색 기법은 하드매칭에 비해 단어의 도치, 누락, 삽입, 변경에 현저한 성능 향상을 보인다. 이 기법을 이용하면 보다 정확하고 빠른 문장 유사도 측정이 가능하다. 제안하는 기법은 기존 집합 기반 POI 검색 기법의 데이터 로딩 알고리즘과 텍스트 검색 알고리즘을 변형하고 어절 연산 알고리즘을 추가하여 두 문장의 유사도를 백분율로 표현한다. 실험을 통해 본 논문에서 제시하는 기법이 정확도와 속도에서 n-gram과 기존 집합 기반 POI 검색 기법에 비해 우수함을 확인하였다.

웹문서 내의 극좌표계 텍스트 배치를 위한 CSS3 확장사양 설계 (Design of CSS3 Extensions for Polar-Coordinate Text Layout in Web Documents)

  • 심승민;임순범
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권10호
    • /
    • pp.537-545
    • /
    • 2016
  • 최근 스마트워치 등 원형 기기들이 출시되고, 빅데이터 시대로 데이터 시각화 분야가 주목을 받으면서 글자의 원형 배치에 대한 요구가 증가하고 있다. 하지만 현재 웹문서에서 글자를 원형이나 부채꼴로 배치하는 방법을 따로 지원하지 않는다. 이에 따라 본 연구는 웹브라우저 환경에서 CSS 스타일시트와 HTML로 표현되어 있는 웹문서 내의 글자를 원이나 부채꼴의 중심을 기준으로 하는 극좌표계로 배치할 수 있도록 CSS3 사양을 확장하였다. CSS3 사양 확장에 앞서 사례조사를 통하여 극좌표계 표현에 대한 요구사항을 분석하였으며 기존의 사각형이 아닌 부채꼴 서식모델을 제안하고 이에 맞추어 세부적인 텍스트 배치 사양을 정의하였다. 또한, 확장된 CSS3 사양으로 작성한 콘텐츠를 기존 브라우저에서 확인할 수 있도록 전처리기를 구현하고 샘플 콘텐츠를 작성하여 제안한 확장사양의 적합성을 검증하였다.

상호 관계 기반 자동 이미지 주석 생성 (Correlation-based Automatic Image Captioning)

  • Hyungjeong, Yang;Pinar, Duygulu;Christos, Falout
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권10호
    • /
    • pp.1386-1399
    • /
    • 2004
  • 본 논문에서는 상호 관계에 기반한 자동 이미지 주석 생성 방법을 보인다 새로운 실험 이미지를 위한 자동 주석의 생성은 훈련 데이타 내의 주석과 함께 주어진 이미지들을 이용하여 이미지의 시각적 속성과 텍스트 속성의 상호 관계를 발견해 냄으로 수행된다. 본 논문에서 제시하는 상호 관계 기반 자동주석 생성 모델은 1) 시각적 속성의 적절한 군집화, 2) 시각적 속성과 텍스트 속성의 가중치 부여, 3) 노이즈 제거를 위한 차원 축소 등의 요소를 고려하여 설계된다. 실험은 680 MB의 Corel 이미지 데이터를 이용하여 각 10개의 데이타 집합에 대해 수행되었으며, 실험 결과, 시각적 속성과 텍스트 속성에 대한 가중치 부여와 시각적 속성의 적절한 군집화가 모델의 성능을 향상시키며, 본 논문에서 제시한 상호 관계기반 모델이 기존의 EM을 이용한 자동 주석 생성 모델에 비해 45%의 상대적 성능 향상을 보인다.

FolksoViz: Wikipedia 본문을 이용한 상하위 관계 기반 폭소노미 시각화 기법 (FolksoViz: A Subsumption-based Folksonomy Visualization Using the Wikipedia)

  • 이강표;김현우;장충수;김형주
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제14권4호
    • /
    • pp.401-411
    • /
    • 2008
  • 다수의 사용자들의 협력태깅으로 생성되는 폭소노미는 웹 2.0을 이끌고 있는 대표적인 요소이다. 태그는 어떤 웹 문서를 기술하는 웹 메타데이타라고 할 수 있는데, 협력태깅으로 이루어진 태그들 사이의 의미적인 상하위 관계를 밝혀내 이를 시각화한다면, 사용자들이 문서의 메타데이타를 보다 직관적으로 이해하는 데 도움을 줄 수 있다. 이에 본 논문에서는 del.icio.us의 태그들을 대상으로 하여, Wikipedia 텍스트를 이용한 태그들간 상하위 관계 산출 기법을 제안한다. 이를 위해 태그들이 Wikipeida 텍스트상에서 출현하는 빈도수를 기반으로 태그들간 상하위 관계를 산출하는 통계적인 모델링을 제안하였고, 각각의 태그를 그에 상응하는 Wikipedia 텍스트에 매핑시키는 TSD 기법을 제안하였다. 이렇게 산출된 상하위 관계 짝들은 시각화 기법을 통하여 효과적으로 화면에 표현되었다. 실제로 우리가 제안하는 알고리즘이 태그들간의 상하위 관계들을 높은 정확도로 찾아내었음을 실험을 통해 확인하였다.

사용자의 정서 단어 분류에 기반한 정서 분류와 선택 방법 (A Classification and Selection Method of Emotion Based on Classifying Emotion Terms by Users)

  • 이신영;함준석;고일주
    • 감성과학
    • /
    • 제15권1호
    • /
    • pp.97-104
    • /
    • 2012
  • 최근에 사용자에 의한 대량의 텍스트 데이터가 발생하면서 사용자의 정보, 의견 등을 분석하는 오피니언 마이닝이 중요하게 부각되고 있다. 오피니언 마이닝 중 특히 정서 분석은 제품, 사회적 이슈, 정치인에 대한 호감 등에 대한 개인적 의견이나 정서를 분석하여 긍정, 부정이나 행복, 슬픔 등의 정서를 분석하는 연구 분야이다. 정서 분석을 위해서 정서 차원 이론의 정서가와 각성 차원의 2차원 공간을 사용하고, 이 공간에서 정서가 분포하는 영역을 설정하여 매핑하는 방법을 사용한다. 그러나 기존에는 정서의 분포 영역을 임의로 설정하는 문제가 있었다. 본 논문에서는 이 문제를 해결하기 위해, 한국어 정서 단어 목록을 사용해 사용자 설문을 실시하여 2차원 상에 12개 정서의 분포를 구성하였다. 또한 2차원 상의 특정 정서 상태가 여러 개의 정서에 중첩되는 경우, 정서에 소속될 확률을 사용한 룰렛휠 방법을 사용하여 하나의 정서를 선택하는 방법을 제안하였다. 제안한 방법을 사용하여 텍스트에서 정서 단어를 추출하여 텍스트를 정서로 분류할 수 있다.

  • PDF