• 제목/요약/키워드: 텍스트 자료

검색결과 629건 처리시간 0.025초

공통기술표현포맷에 기반한 다매체자료의 검색효율 향상에 관한 연구 (A Study on the Improvement of Retrieval Efficiency Based on the CRFMD)

  • 박일종;정기태
    • 정보관리학회지
    • /
    • 제23권3호
    • /
    • pp.5-21
    • /
    • 2006
  • 최근 수년 동안 영상자료와 음성자료 분석에 대한 이론들이 텍스트자료 검색 시스템과 함께 사용되기 위해서 제안되어 왔으며 데이터 처리 속도의 급격한 향상과 함께 발전되어 왔다. 일반적 검색 방법들은 단지 텍스트만을 사용하지만 텍스트와 그림을 동시에 사용하는 검색 방법 또한 최근에 제안되어 왔다. 본 연구는 다매체자료의 공통기술표현포맷(CRFMD)이라는 이름으로 화상자료와 텍스트자료를 하나의 자료 구조로 통합하는 방법을 제안하고 있으며, 주어진 테스트자료에 대한 화상자료의 유사성 분석에서 텍스트와 그림의 형태소를 함께 사용하였을 때 현격히 개선되어 짐을 보여주고 있다. CRFMD는 의료문서 검색, WWW 검색, 박물관 소장품 검색과 같은 다양한 분야의 다매체자료 검색 및 처리에 응용될 수가 있을 것이다.

한국어 텍스트의 논증 구조 내 담화 관계의 자동 분류 연구 (An Automatic Classification of Discourse Relations in the Arguing Structure of Korean Texts)

  • 이상아;신효필
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.59-64
    • /
    • 2015
  • 최근 온라인 텍스트 자료를 이용하여 대중의 의견을 분석하는 작업이 활발히 이루어지고 있다. 이러한 작업에는 주관적 방향성을 갖는 텍스트의 논증 구조와 중요 내용을 파악하는 과정이 필요하며, 자료의 양과 다양성이 급격히 증가하면서 그 과정의 자동화가 불가피해지고 있다. 본 연구에서는 정책에 대한 찬반 의견으로 구성된 한국어 텍스트 자료를 직접 구축하고, 글을 구성하는 기본 단위들 사이의 담화 관계를 정의하였다. 각 단위들 사이의 관계는 기계학습과 규칙 기반 방식을 이용하여 예측되고, 그 결과는 합성되어 하나의 글에 대응되는 트리 구조를 이룬다. 또한 텍스트의 구조상에서 주제문을 직접적으로 뒷받침하는 문장 혹은 절을 추출하여 글의 중요 내용을 얻고자 하였다.

  • PDF

음성 언어 자료 확보를 위한 Workbench의 설계 및 구현 (Design and implementation of workbench for spoken language data acquisition)

  • 김태환
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.375-379
    • /
    • 1998
  • 음성 언어 자료의 확보 및 활용을 위해서는 다양한 소프트웨어의 도움이 필요하다. 본 논문에서는 본 연구실에서 설계 및 개발한 PC용 Workbench에 대하여 기술한다. Workbench는 음성 언어 자료의 확보를 위한 텍스트 처리 모듈들과 음성 데이터의 처리를 위한 신호처리 모듈들로 구성되어 있다. Workbench에 포함된 모듈로는 텍스트를 자동 읽기 변환하는 철자 음운 변환기, 발성 목록 선정 모듈, 끝점 검출기를 이용한 음성 데이터 편집 모듈, 끝점 검출기를 이용한 음성 데이터 편집 모듈, 다단계 레이블링 시스템, 텍스트에서 원하는 음운 환경을 포함하고 있는 문자열을 다양한 조건으로 검색할 수 있는 음운 환경 검색기를 포함하고 있다.

  • PDF

한국어 텍스트 마이닝의 특성과 2011 한국 경제총조사 자료에의 응용 (Text Mining for Korean: Characteristics and Application to 2011 Korean Economic Census Data)

  • 구주나;김경아
    • 응용통계연구
    • /
    • 제27권7호
    • /
    • pp.1207-1217
    • /
    • 2014
  • 한국 전체 사업체 대한 최초의 전수조사인 2011 경제총조사 중 한식 음식점업 사업체 자료는 취급 메뉴에 대한 텍스트 자료와 영업 지역, 창립연월, 매출액 등 사업체의 특성을 나타내는 구조화 자료로 구성되어 있는 빅데이터이다. 본 연구에서는 취급 메뉴 자료에 텍스트 마이닝을 실시하는 과정에서 발생하는 통계 및 기술적 문제점들을 살펴보고, 이를 통해 한국어 텍스트 마이닝의 특징을 고찰하였다. 또한 텍스트 마이닝의 결과를 사업체 특성 자료와 결합하여 한식 메뉴와 이를 취급하는 사업체 특성 간의 연관성을 탐색하였다. 2010년 기준 가장 많은 사업체가 취급하는 인기 메뉴는 삼겹살구이로 특히 강원도와 대전광역시에 인구 대비 취급 사업체가 많았다. 신생 사업체의 인기 메뉴는 육회와 돈가스였고, 닭백숙과 매운탕 등이 장수 사업체가 많이 취급하는 메뉴였다. 이러한 결과들은 한식 음식점 창업시 메뉴 선정 가이드라인으로 활용될 수 있으며 관련 정부 부처가 영세 사업체들의 메뉴 변경 유도를 통한 폐업 방지등의 정책을 마련하는데 도움이 될 것이다.

독서교육시스템을 위한 텍스트수준 측정 공식 구성에 관한 연구 (A Study on Modelling Readability Formulas for Reading Instruction System)

  • 최인숙
    • 정보관리학회지
    • /
    • 제22권3호
    • /
    • pp.213-232
    • /
    • 2005
  • 본 고의 목적은 초등학생용 독서자료의 텍스트수준에 영향을 미치는 요인들을 규명하여 텍스트수준 측정 공식을 구성함으로써 텍스트의 수준 평가를 자동화하는 데에 있다. 컴퓨터로 계량화할 수 있는 언어적 요인들을 대상으로 표본집단에 부여된 텍스트수준 점수와의 상관관계를 검토한 결과 글자수, 어절수, 이형어절수, 문장수, 단락수 요인이 텍스트수준을 결정하는 요인으로 드러났다. 단순회귀분석을 통해 도출된 회귀방정식들 중에서 이형어절수 모형이 최적의 공식으로 드러났으나, 중회귀분석을 한 결과 이형어절수요인과 새 어절출현비율요인을 결합한 모형은 설명력이 더욱 향상된 공식으로 밝혀졌다. 공식에 따라 측정된 텍스트수준 점수는 학년 내에서 매우 세분된 단계까지 나타내고 있으므로 각 학생별로 그들의 독서능력에 적합한 자료를 추천할 수 있다.

웹 기반 사용자 질의 영상 검색 (Web base User Query Image Retrieval)

  • 황병곤;이상열
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 춘계학술발표대회논문집
    • /
    • pp.728-731
    • /
    • 2003
  • 영상 검색 시스템들은 아직까지 내용 기반에 의한 검색 기술이 실용적으로 쓰일 만큼 높은 성능을 보이고 있지 않기 때문에 대부분 텍스트기반에 의한 검색을 지원하고 있다. 본 논문에서는 웹 에이젼트를 이용하여 웹상에서 멀티미디어 정보를 검색하는 것으로 HTML문서에 나타나는 텍스트 중 영상 이름이나 링크에 붙어 있는 텍스트를 추출하여 멀티미디어 자료를 데이터베이스화하였다. 이 데이터베이스에 저장된 영상 자료는 웹 브라우저에서 질의자의 스케치에 의한 검색과 그리고 예제 영상 질의로 검색하는 방법을 제시하여 질의 효율성을 개선하였다.

  • PDF

하이퍼텍스트 한글백과사전의 개발 (Development of Hypertext Encyclopedia)

  • 전경헌;강현규;김용일;박상규;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.59-70
    • /
    • 1993
  • 개인용 컴퓨터가 많이 보급되고, CD-ROM과 같은 대용량의 기록장치가, 널리 퍼지면서, 전자화된 사전이 널리 사용되게 되었다. 그러나 이러한 전자사전들은 대개 매우 단순화된 탐색기능만을 제공하므로, 전자화의 잇점을 크게 살리지 못하고 있다. 따라서, 컴퓨터의 힘을 빌린, 보통의 종이로된 사전보다 훨씬 유용한 전자사전을 생각해 볼 수 있을 것이다. 이러한 노력이 과거 80년대 말에 하이퍼텍스트로 시작되어 이제는 매우 상업적인 곳에까지 사용되어지고있다. 국내에서도 전자사전의 개발은 다양하게 진행되어오고 있으나, 대부분 컴퓨터를 위한 사전, 다시 말하면, 빠른 접근시간, 적은 메모리사용만을 고려한 사전에 그치고 있다. 본 논문에서는 이러한 필요성에 부합하여, 백과사전자료를 가지고 사람을 위한 전자백과사전을 개발하는 방법을 소개한다. 특히, 이러한 개발과정을 자동화 할 수 있음을 보이고, 백과사전을 하이퍼텍스트로 자동변환하는 방법을 자세히 기술한다. 이 방법은 원시 자료를 하이퍼텍스트로 변환하기 좋은 정형화된 중간자료로 바꾸고, 이 중간자료와 기초적인 명사추출 알고리즘을 이용하여, 각 노드들 사이에 링크를 만드는 것이다. 또한, 이 방법을 이용하여 개발한 HE(Hypertext Encyclopedia) 시스템을 소개한다.

  • PDF

이동에이전트를 이용한 XML 정보의 수집 및 분류 (Information Gathering Agent System using XML)

  • 서효정;방대욱
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.131-133
    • /
    • 1999
  • 요즘처럼 웹을 이용하여 저오 검색시 너무나 많은 양의 정보를 수집, 정리, 관리해야 하는 문제에 직면하게 되었다. 또한 인터넷상에는 기존의 텍스트 자료 이외에도 이미지, 사운드, 데이터 베이스 등 우리가 원하는 여러 유형의 자료가 존재한다. 하지만 웹상에서는 텍스트만을 위주로 자료를 검색, 수집, 분류를 한다. 이러한 문제점을 해결하기 위해 XML를 이용하여 정보의 종류에 관계없이 수집할 수 있다. 이 논문에서는 이동 에이전트를 이용한 정보 검색 모형을 제시하고 이때 이동에이전트가 정보의 표현방법으로 XML를 사용한다. 또한 XML의 계층적인 특성을 활용하여 XML 문서의 분류, 병합을 할 수 있다. 따라서 수집된 정보의 정리된 형태로 쉽게 얻을 수 있다.

  • PDF

자동 Deep Tagging 에 의한 하이퍼비디오 브라우저의 설계와 구현 (Design and Implementation of Hyper-Video Browser by Automatic Deep Tagging)

  • 조명지;김성환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.153-156
    • /
    • 2007
  • 멀티미디어 자료는 빠르게 증가하고 있는 반면, 텍스트 기반의 검색엔진을 이용한 멀티미디어 자료 검색은 자료 내부를 검색할 수 없는 단점으로 인하여 검색된 정보의 정확성과 정확한 정보의 위치를 찾는 것이 어렵다. 그래서 이러한 문제를 해결하고자 멀티미디어 Deep Tagging 개념을 이용하여 비디오 파일에 자동으로 Deep Tagging 을 생성하고 또한 기존 하이퍼텍스트 기반의 하이퍼링크를 하이퍼비디오로 확장한 브라우저를 제안한다.

한국 현대시 텍스트의 맥락 효과에 관한 인지.화용론적 연구 (A Cognitive Pragmatic Approach to Contextual Effects in Modern Korean Poetry)

  • 이현호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.227-240
    • /
    • 1993
  • 본 연구의 목적은 한국 현대시 텍스트가 독자에게 전달하는 시적 효과를 담화 텍스트 언어학 및 인지적 화용론의 관점에서 분석하는 것이다. 담화 텍스트 언어학은 텍스트의 언어 자료 자체보다는 이를 생산하고 수용하는 인지 과정에 주목하는 인지과학의 한 분야이며, 적합성 원리로 되는 인지적 화용론은 텍스트 언어학에서 규명하는 바 여러 인지적 조작 절차들의 심리학적 근거가 된다. 많은 인지적 책략 및 조작 절차들이 집약되어 있는 한국 현대시 텍스트를 인지 화용론적 관점에서 분석한 결과, 이제까지 모호하게 개진되어 오던 많은 시적 효과가 텍스트 언어학 및 인지적 화용론의 분석 장치들에 의해서 명쾌하게 설명될 수 있음이 밝혀졌다. 즉, 정보성의 격상 및 격하, 각별한 결속구조의 사용 및 그 수용 과정, 작가의 상황점검과 상황관리 과정에 의한 전국적 인지 패턴의 활성화 및 수정 등의 인지적 절차를 통해서 독자의 맥락이 수정, 확장되는 효과가 일어나고 바로 이것이 궁극적으로는 시적 효과를 낳는다는 점을 설명할 수 있다.

  • PDF