• 제목/요약/키워드: 공간 텍스트

검색결과 418건 처리시간 0.03초

위키피디어 기반 개념 공간을 가지는 시멘틱 텍스트 모델 (A Semantic Text Model with Wikipedia-based Concept Space)

  • 김한준;장재영
    • 한국전자거래학회지
    • /
    • 제19권3호
    • /
    • pp.107-123
    • /
    • 2014
  • 텍스트마이닝 연구의 기본적인 난제는 기존 텍스트 표현모델이 자연어 문장으로 기술된 텍스트 데이터로부터 의미 또는 개념 정보를 표현하지 않는데 기인한다. 기존 텍스트 표현모델인 벡터공간 모델(vector space model), 불리언 모델(Boolean model), 통계 모델(statistical model), 텐서공간 모델(tensor space model) 등은 'Bag-of-Words' 방식에 바탕을 두고 있다. 이러한 텍스트 모델들은 텍스트에 포함된 단어와 그것의 출현 횟수만으로 텍스트를 표현하므로, 단어의 함축 의미, 단어의 순서 및 텍스트의 구조를 전혀 표현하지 못한다. 대부분의 텍스트 마이닝 기술은 대상 문서를 'Bag-of-Words' 방식의 텍스트 모델로 표현함을 전제로 하여 발전하여 왔다. 하지만 오늘날 빅데이터 시대를 맞이하여 방대한 규모의 텍스트 데이터를 보다 정밀하게 분석할 수 있는 새로운 패러다임의 표현모델을 요구하고 있다. 본 논문에서 제안하는 텍스트 표현모델은 개념공간을 문서 및 단어와 동등한 매핑 공간으로 상정하여, 그 세 가지 공간에 대한 연관 관계를 모두 표현한다. 개념공간의 구성을 위해서 위키피디어 데이터를 활용하며, 하나의 개념은 하나의 위키피디어 페이지로부터 정의된다. 결과적으로 주어진 텍스트 문서집합을 의미적으로 해석이 가능한 3차 텐서(3-order tensor)로 표현하게 되며, 따라서 제안 모델을 텍스트 큐보이드 모델이라 명명한다. 20Newsgroup 문서집합을 사용하여 문서 및 개념 수준의 클러스터링 정확도를 평가함으로써, 제안 모델이 'Bag-of-Word' 방식의 대표적 모델인 벡터공간 모델에 비해 우수함을 보인다.

웹 문서상의 공간 텍스트 위치 맵핑과 질의 기법 (Techniques for Location Mapping and Querying of Geo-Texts in Web Documents)

  • 하태석;남광우
    • 한국산업정보학회논문지
    • /
    • 제27권3호
    • /
    • pp.1-10
    • /
    • 2022
  • 웹 기술의 발전과 함께 대량의 웹 문서들이 생산되고 있다. 이 웹 문서에는 다양한 공간적 텍스트들을 포함하고 있으며, 이 텍스트들을 공간정보로 변환함으로서 공간질의로 텍스트 문서를 검색할 수 있는 기반이 된다. 이러한 공간 텍스트들에는 행정지명이나 관심 지역(POI)이름 뿐만이 아니라 우편번호나 지역 전화번호 등까지 폭넓은 영역으로 구성되어 있다. 이 논문은 웹 문서내 내에 존재하는 공간 텍스트 정보를 기반으로 위치를 맵핑 할 수 있는 알고리즘들을 제시하고 있다. 이 알고리즘들을 통해 웹 문서들을 일반 웹 단어 기반 문서 검색 뿐만 아니라, 지도상에서 공간 영역과 텍스트의 복합형태로 해당 지역을 설명하는 문서들을 검색할 수 있게 된다. 마지막으로 이 논문에서는 제안된 알고리즘들을 이용하여 웹 공간 텍스트 질의 시스템을 구현함으로써 유용함을 보였다.

텍스트와 공간이미지의 구조 - "갈매기" 의 극공간 구조와 의미작용을 중심으로 - (The Structure of Text and Spatial Image - Focused on the Signification and Dramatic Space of ${\ulcorner}$the Sea-gull${\lrcorner}$ -)

  • 오경환
    • 디자인학연구
    • /
    • 제14권4호
    • /
    • pp.199-207
    • /
    • 2001
  • 극의 공연은 희곡 텍스트를 무대라는 시각적 이미지로 바꾸어 표현하고 전달하는 것이 본질이다. 시각적 이미지는 두대라는 골간을 통해 형성된다. 무대는 시각적 이미지의 모태이다. 다시 말해서 극의 시각적 이미지는 결국 총체적인 공간이미지가 되는 것이다. 본 연구는 극텍스트의 공간이미지를 기호학적 관점에서 해석해 보고, 그것을 통하여 구현되는 공간의 구조와 체계를 파악해 보고자 하는 시도이다. 특히 본고에서 관심을 갖는 것은 이미지 속에 도입된 문자의 기호학이 아니라 텍스트의 언술내용 자체를 도입하는 공간의 이미지텍스트, 극공간의 구조와 의미작용을 파악하는 과정과 내용이며, 결국 이를 통하여 텍스트 그리고 실제 기념적·상징적 공간의 해석방법론으로서 기호학적 측면에서의 '공간 구현의 체계'를 제시하였다.

  • PDF

공간 시멘틱 웹을 위한 텍스트 공간정보의 위치 맵핑 기법 (Location Mapping Techniques of Textual Spatial Information for Spatial Semantic Web)

  • 하태석;하수욱;남광우
    • 한국GIS학회:학술대회논문집
    • /
    • 한국GIS학회 2010년도 춘계학술대회
    • /
    • pp.71-73
    • /
    • 2010
  • 웹에서 다양한 웹 지리 지역 정보를 검색할 수 있는 시스템에 대한 요구가 증가하고 있다. 그러나 현재의 웹 검색 시스템은 사용자가 키워드로 지역 웹 문서를 검색하고 해당 웹 문서를 지도와 비교하여 공간정보를 취득하며, 다른 관련 정보를 얻기 위해서는 검색과 비교를 반복해야 하는 어려움이 있다. 따라서 본 논문에서는 비구조화 된 텍스트 웹 자원으로부터 지리정보 온툴로지(geo-ontology)를 확장할 수 있는 통합된 검색시스템을 제안한다. 이를 위해 문서의 정보에서 위치 정보를 추출하고 공간정보 위치 맵핑 기법을 적용하여 텍스트의 공간정보를 추출한다.

  • PDF

압축된 써픽스 배열 구축 알고리즘의 성능 분석 (Performance Analysis of Construction Algorithms for Compressed Suffix Arrays)

  • 박치성;조준하;심정섭;김동규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (A)
    • /
    • pp.409-411
    • /
    • 2006
  • 써픽스 배열은 사전적 순서로 정렬된 써픽스들의 인덱스를 저장한 인덱스 자료구조로서, 긴 텍스트에서 반복되는 패턴 검색 시 효율적으로 사용 될 수 있다. 하지만 O($n\;log{\Sigma}$) 비트의 텍스트보다 큰 O(n log n) 비트 공간을 차지하기 때문에 대용량의 텍스트에 대해서는 큰 공간을 필요로 하는 문제점이 있다. 이를 해결하기 위해 압축된 써픽스 배열이 제안되었지만, 구축 시 이미 만들어진 써픽스 배열을 이용하기 때문에 실제 사용 공간을 줄이지는 못했다. 최근 써픽스 배열 없이 텍스트에서 직접 압축된 써픽스 배열을 구축할 수 있는 두 가지 알고리즘이 개발되었다. 본 논문에서는 이 두 가지 알고리즘을 구현한 후, 구축 시간과 사용 공간 등의 실험을 통해 기존의 써픽스 배열들과의 성능을 비교하고 분석한다.

  • PDF

그래프 기반 텍스트 마이닝의 연구 동향 (Research Trends of Graph-Based Text Mining)

  • 장재영;한종빈;좌태빈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1074-1077
    • /
    • 2013
  • 텍스트 마이닝은 비정형 데이터를 가정하므로 텍스트를 단순화된 모델로 표현하는 것이 필요하다. 현재까지 가장 많이 사용되고 있는 모델은 텍스트를 단순한 단어들의 집합으로 표현한 벡터공간 모델이다. 그러나 최근 들어 단어들의 의미적 관계까지 표현하기 위해 그래프를 이용한 텍스트 표현 모델을 많이 사용하고 있다. 본 논문에서는 텍스트 마이닝을 위한 기존의 연구 중에서 그래프에 기반한 텍스트 표현 모델의 방법들과 그들의 특징들을 주제별로 제시한다.

정서 차원 공간에서 소설의 지배 정서 분석 및 분류 (Analyzing and classifying emotional flow of story in emotion dimension space)

  • 이신영;함준석;고일주
    • 인지과학
    • /
    • 제22권3호
    • /
    • pp.299-326
    • /
    • 2011
  • 소설, 블로그, 채팅 메시지, 상품평 등의 텍스트는 전반적인 정서의 흐름을 가지고 있다. 텍스트 간의 정서 흐름의 유사도를 비교하면 유사한 정서 흐름을 갖는 텍스트를 분류할 수 있고, 상품 추천이나 의견 수집 등에 활용할 수 있다. 본 논문에서는 텍스트에서 정서 단어를 순차적으로 추출하고 쾌-불쾌, 활성화의 2차원으로 분석하여 텍스트의 정서 흐름을 파악하였다. 또한 텍스트의 순차적인 흐름을 시간 차원으로 설정하여 텍스트의 전반적인 정서 흐름인 '지배 정서(dominant emotion)'를 파악하기 위하여 쾌-불쾌, 활성화, 시간의 3차원 공간에서 정서 흐름을 탐색하였다. 또한 이 3차원 공간 안에서 유클리드 거리를 사용하여 지배 정서 흐름의 유사도를 계산함으로써 유사한 정서 흐름을 가지는 텍스트를 분류하는 방법을 제안하였다. 제안한 방법을 통해 한국 근대 단편 소설들을 분석하여 지배 정서를 분석하였고 유사한 지배 정서를 가지는 소설들을 분류하였다.

  • PDF

마돈나 의상에 나타난 포스트모던 정체성없음 (A Study on the Postmodern Identity in Madonna Costume -Focusing on the intertextuality-)

  • 김주영;양숙희
    • 복식
    • /
    • 제51권8호
    • /
    • pp.123-139
    • /
    • 2001
  • 본고는 공간, 시간, 계급, 종교 등 하위문화 텍스트의 병행인용 즉 상호텍스트성(intertextuality)을 통해, 20세기 대중 문화의 상징 마돈나 뮤직 비디오와 공연 등의 인체, 의상, 이미지 등에 나타난 포스트모던 정체성을 연구함으로써, 현대 미디어 문화를 관통하는 주체적 여성 정체성과 미적 주관성을 이해하고자한다. 첫째, 상호공간텍스트성 복식은 스패니쉬룩. 태국룩. 게이샤룩, 테크노펑크룩, 테크노 카우걸룩 등의 동서양의 지리적 소외감을 통해 비권위적 다양한 시선을 제시함으로써, 다국적 자본주의와 함께 확장된 미적 체험을 하게 한다.; 둘째, 상호시간텍스트성 복식은 중세 엠파이어 드레스, 18세기 로코코시대의 robe'a la francaise, 미래적 제 3의 종 룩 등 동시적 몽환적 이미지를 통해 유희적 유토피아를 지향하였다.; 셋째, 상호계급텍스트성 복식은 그라피티룩, 펑크룩, 키치룩, 먼로 룩, 보깅(voguing), 에비타 룩 등 상하류층, 하위문화, 빈부, 권력의 유무를 병행인용하여, 좋은/나쁜 취향, 창녀/성녀 이분법을 해체하고 반부르조아적 저항과 물질주의를 찬양하는 탈계급적, 양면적 정체성을 구축하였다. ; 넷째, 상호종교텍스트성 복식은 상징적 가부장인 카톨릭교 텍스트를 인용하여 펑키크리스찬 룩, 에로틱 크리스찬 룩 등의 선/악, 신성성/관능성, 미추, 정숙성/비정숙성의 이분법, 비장미를 해체함으로써 예술의 자율성, 무의식이 강조된 쾌락주의적, 반권위주의적 정체성을 주장한다. 섹슈얼리티에 있어, 시선, 권력, 쾌락의 주체가 됨으로써, 미적 범주에 있어 선악, 미추, 정숙성과 비정숙성의 이분법을 해체함으로써, 유동적 자아를 구성한 마돈나 의상의 포스트모던 정체성은 여성에게 확대된 가능성을 제공하며 내부로부터 해체된 열린 복식을 지향한다.

  • PDF

카메라 획득 영상에서의 색 분산 및 개선된 K-means 색 병합을 이용한 텍스트 영역 추출 및 이진화 (Text Detection and Binarization using Color Variance and an Improved K-means Color Clustering in Camera-captured Images)

  • 송영자;최영우
    • 정보처리학회논문지B
    • /
    • 제13B권3호
    • /
    • pp.205-214
    • /
    • 2006
  • 이미지에 포함된 텍스트는 이미지의 내용을 함축적이고 구체적으로 표현하는 정보로서 이러한 정보를 실시간에 찾아내서 인식한다면 다양한 응용에 활용할 수 있다. 본 논문에서는 카메라로 취득한 다양한 종류의 이미지로부터 텍스트를 추출하는 방법과 추출된 영역에서 텍스트를 분리하는 방법을 새롭게 제안한다. 텍스트 영역 추출을 위해서 RGB 색 공간에서 색 분산을 특징으로 제안하며, 텍스트 영역 분리를 위해서 RGB 색 공간에서 개선된 K-means 병합을 제안한다. 실험은 디지털 카메라와 핸드폰 카메라로 취득한 다양한 종류의 문서유형 이미지와 실내외의 일반적인 자연이미지를 사용하였으며, ICDAR 콘테스트[1] 이미지의 일부도 사용하였다.

전자해도의 텍스트 중첩 해결 방안 연구 (Study on the management of text clutter on ENC portrayal)

  • 강동우;오세웅;심우성
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2013년도 추계학술대회
    • /
    • pp.176-177
    • /
    • 2013
  • 전자해도 표현 측면에서 구분한 종류는 공간적 위상관계를 표현하는 정보, 사물을 표현하는 오브젝트, 그리고 오브젝트의 속성정보를 표현하는 텍스트가 있다. 텍스트가 필요 유무의 구분 없이 동시에 화면에 표출될 때, 각각의 텍스트가 서로 중첩되면서 의미 파악이 힘들뿐만 아니라 화면 가독성에 많은 영향을 미친다. S-52 표준에서는 텍스트의 화면 표출 여부를 선택할 수 있도록 기능을 제공하고 있으나, 이는 모든 텍스트를 동시에 표출하는 것과 하지 않는 것일 뿐 텍스트 중첩 문제는 해결되지 않는다. 이를 해결하기 위하여 본 연구에서는 텍스트 중첩 유무 및 각 오브젝트의 정보를 바탕으로 텍스트의 표출 여부를 판단하는 방안을 제안하였고 이를 통해 전자해도의 가독성을 높이고 텍스트의 의미전달이 용이하도록 하였다.

  • PDF