• 제목/요약/키워드: 텍스트

검색결과 5,010건 처리시간 0.03초

텍스트의 상부구조를 이용한 전문탐색 기법의 타당성 고찰 (A Study on Feasibility of Full-text Search Using Super-structure of Text)

  • 이병기
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1996년도 제3회 학술대회 논문집
    • /
    • pp.19-22
    • /
    • 1996
  • 본 연구는 전문 D/B의 본문 필드를 텍스트 언어학적 상부구조로 분할하고 태그를 부여함으로써 이용자의 목적이나 상황에 따라서 필요한 부분만을 검색할 수 있는 전문탐색기법의 타당성을 고찰하였다. 한 문헌은 다수의 텍스트 단위로 구성되며, 이 텍스트는 의사소통이나 인지과정의 기본 단위로써 문헌 전체를 통괄하는 상부구조에 의해 연결된다. 상부구조는 텍스트의 생성과 이해에 중요한 매개체 역할을 하며, 정보요구의 상황이나 목적과 밀접하게 관련되어 있음을 밝히고 정보검색시스템의 주요 대상인 학술문헌의 상부구조를 고찰하였다.

  • PDF

영상검색엔진을 위한 가중치 N-Gram색인 방법 (Weighted N-Gram Indexing for Image Search Engine)

  • 이상열;정성호;황병곤
    • 한국정보기술응용학회:학술대회논문집
    • /
    • 한국정보기술응용학회 2002년도 추계공동학술대회 정보환경 변화에 따른 신정보기술 패러다임
    • /
    • pp.412-416
    • /
    • 2002
  • 멀티미디어 검색 시스템들은 아직까지 내용 기발에 의한 검색기술이 실용적으로 쓰일 만큼 높은 성능을 보이고 있지 않기 때문에 텍스트에 의한 검색만을 지원하고 있는 실정이다. HTML 문서에 나타나는 텍스트 중 이미지 아래에 붙은 표제나 이미지 링크에 붙어 있는 텍스트를 골라내어 이미지의 색인 정보로 이용하여 텍스트를 추출하는 기법을 제안하였다. 텍스트를 추출하기 위해 N-Gram 색인 방법을 사용하였으며 한편 검색 효율을 높이기 위해서 질의 의도가 큰 단어에 가중치를 부여하였다.

  • PDF

홈쇼핑 사이트를 위한 데이터베이스로부터의 한국어 텍스트 생성 (Korean Text Generation from Relational Database for Homeshopping Sites)

  • 노지은;강신재;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.373-375
    • /
    • 2001
  • 국내에서는 한국어 생성에 있어서 기계 번역에 기반한 자연스러운 한국어 문장(sentence)의 생성에 관한 연구가 주로 이루어졌었다. 반면에 다양한 지식원으로부터 여러 문장이 긴밀히 결합되어 하나의 텍스트를 생성하는 텍스트 생성에 관한 연구는 거의 이루어지지 않았었다. 문장 단위의 기계 번역에서의 한국어 생성과는 또 다른 다양한 논점을 가지고있는 텍스트 생성에 관해, 본 논문에서는 테이터베이스를 지식원으로 하여 하나의 일관된 정보를 전달하는 단락 단위의 자연스러운 한국어 텍스트를 생성하는 시스템을 제안한다.

  • PDF

텍스트 기반 채팅에서 미디어 메시지의 지원 (Supporting Media Messages on a Text based Chatting)

  • 김경덕;여재욱;조우찬
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.283-285
    • /
    • 2001
  • 본 논문은 텍스트 기반 채팅에서 다양한 미디어 메시지를 대화 행위에 지원하는 방법을 제안한다. 기존 텍스트 기반 채팅은 단순한 텍스트 기반 메시지를 사용함으로써, 미디어의 전송 및 공유 뷰(view)의 지원이 어렵다. 그러므로, 본 논문에서는 XML과 XSLT를 이용하여 텍스트 및 미디어 메시지를 생성하며, 미디어에 대해서는 앵커를 사용하여 웹브라우저에 프레젠테이션을 지원한다. 그리고, XML 태그의 확장 및 변경으로 다양한 효과의 생성과 변경이 용이하다. 이러만 미디어 메시지의 지원으로 다양한 대화 행위의 지원이 가능하며, 응용 분야는 온라인 교육, 게임 등이다.

  • PDF

영상검색엔진을 위한 가중치 N-Gram색인 방법 (Weighted N-Gram Indexing for Image Search Engine)

  • 이상열;정성호;황병곤
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2002년도 추계공동학술대회
    • /
    • pp.412-416
    • /
    • 2002
  • 멀티미디어 검색 시스템들은 아직까지 내용 기반에 의한 검색기술이 실용적으로 쓰일 만큼 높은 성능을 보이고 있지 않기 때문에 텍스트에 의한 검색만을 지원하고 있는 실정이다. HTML 문서에 나타나는 텍스트 중 이미지 아래에 붙은 표제나 이미지 링크에 붙어 있는 텍스트를 골라내어 이미지의 색인 정보로 이용하여 텍스트를 추출하는 기법을 제안하였다. 텍스트를 추출하기 위해 N-Gram 색인 방법을 사용하였으며 한편 검색 효율을 높이기 위해서 질의 의도가 큰 단어에 가중치를 부여하였다.

  • PDF

한글 텍스트를 위한 요약 화일 기법의 설계 (Design of the Signature File Method for Hangul Text)

  • 장재우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1991년도 제3회 한글 및 한국어정보처리 학술대회
    • /
    • pp.247-256
    • /
    • 1991
  • 텍스트를 이용하는 새로운 데이타베이스 응용을 효율적으로 지원하기 위해 여러 가지 텍스트 검색 기법이 연구되었으며, 이러한 연구 가운데 효율적인 검색 기법으로 요약 화일 (signature file) 방법이 제안되었다. 그러나 이러한 연구는 모두 영문 텍스트를 위한 연구이며, 한글 텍스트를 위한 요약 화일 기법에 관한 연구는 거의 전무한 상태이다. 따라서 본 논문에서는 한글의 특성에 맞는 요약 화일 기법을 설계하고 아울러 제안한 기법의 실용성과 타당성을 검토한다.

  • PDF

체인 정합과 확장된 그룹핑 방법을 사용한 곡선형 텍스트 라인 추출 (Extracting curved text lines using the chain composition and the expanded grouping method)

  • ;윤진선;송영준;김남;김용기
    • 정보처리학회논문지B
    • /
    • 제14B권6호
    • /
    • pp.453-460
    • /
    • 2007
  • 본 논문은 정형화되지 않은 텍스트 라인들을 추출하기 위한 방법을 보여주고 있다. 텍스트 라인들은 각기 다른 각도로 구성되고, 심하게 굴곡이 있는 모양, 그리고 텍스트 라인내의 약간의 단어 사이의 공간이 생기게 된다. 그러한 텍스트 라인들은 포스터, 주소, 그리고 예술 문서 등에서 발견된다. 제안하는 방법은 기존의 직관적인 그룹핑 방법에 기반을 두고 있지만, 하나의 라인에서 발생하는 불충분한 특징점들과 모호한 회전 등을 극복하기 위한 방법을 개발하였다. 본 논문에서 텍스트 라인들은 몇 개의 연결된 성분들로 구성되고, 이 성분들은 하나의 문자 또는 연결된 문자들의 검은색 화소들의 집합이라고 가정하였다. 제안하는 방법은 반복적으로 증가되는 임계값과 가까운 성분들은 하나의 체인으로 병합하게 되고 확장되어 길어진 체인들은 라인의 원시 체인으로서 인지된다. 그때 원시 체인들은 텍스트 라인의 부분적 회전에 따라 좌우로 확장되어 진다. 텍스트 라인의 부분적인 회전은 원시 체인이 확장될 때, 체인들의 각 면에서 재구성될 것이다. 이러한 과정을 통해서 모든 텍스트 라인들이 구성되어 진다. 제안 방법은 로고와 슬로건에서 사용된 곡면으로 쓰여진 텍스트 라인들에 대해서 실험한 결과 직선 텍스트 라인은 98%, 곡선 텍스트 라인은 94%로서 높은 추출율을 보여주고 있다.

이미지 내의 텍스트 데이터 인식 정확도 향상을 위한 멀티 모달 이미지 처리 프로세스 (Multi-modal Image Processing for Improving Recognition Accuracy of Text Data in Images)

  • 박정은;주경돈;김철연
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.148-158
    • /
    • 2018
  • 광학 문자 인식(OCR)은 텍스트를 포함한 이미지에서 텍스트 영역을 인식하고 이로부터 텍스트를 추출하는 기술이다. 전체 텍스트 데이터 중 상당히 많은 텍스트 정보가 이미지에 포함되어 있기 때문에 OCR은 데이터 분석 분야에 있어 중요한 전처리 단계를 담당한다. 대부분의 OCR 엔진이, 흰 바탕의 검정 글씨의 단순한 형태를 가진 이미지와 같은, 텍스트와 배경의 구분이 뚜렷한 저 복잡도 이미지에 대해서는 높은 인식률을 보이는 반면, 텍스트와 배경의 구분이 뚜렷하지 않은 고 복잡도 이미지에 대해서는 저조한 인식률을 보이기 때문에, 인식률 개선을 위해 입력 이미지를 OCR 엔진이 처리하기 용이한 이미지로 변형하는 전처리 작업이 필요하게 된다. 따라서 본 논문에서는 OCR 엔진의 정확성 증대를 위해 텍스트 라인별로 이미지를 분리하고, 영상처리 기법 기반의 CLAHE 모듈과 Two-step 모듈을 병렬적으로 수행하여 텍스트와 배경 영역을 효율적으로 분리한 후 텍스트를 인식한다. 이어서 두 모듈의 결과 텍스트에 대하여 N-gram방법과 Hunspell 사전을 결합한 알고리즘으로 인식률을 비교하여 가장 높은 인식률의 결과 텍스트를 최종 결과물로 선정하는 방법론을 제안한다. 대표적인 OCR 엔진인 Tesseract와 Abbyy와의 다양한 비교 실험을 통해 본 연구에서 제안하는 모듈이 복잡한 배경을 가진 이미지에서 가장 정확한 텍스트 인식률을 보임을 보였다.

동적 정보 저장을 위한 자동 하이퍼텍스트 색인 기법의 개발 (Development of an Automatic Hypertext Indexer for Dynamic Information Storage)

  • 이동애;장덕성
    • 한국정보처리학회논문지
    • /
    • 제4권9호
    • /
    • pp.2333-2341
    • /
    • 1997
  • 하이퍼텍스트 정보를 저장할 때 정보가 삽입, 삭제, 변경되면, 인접한 정보들에 대한 하이퍼텍스트 링크도 변화되어야 한다. 하이터텍스트 링크는 하이터텍스트 색인어를 기준으로 관련있는 다른 정보를 찾는 수단을 제공한다. 따라서 하이퍼텍스트 색인어를 관리하는 것이 동적 정보 저장의 핵심이 된다. 본 논문에서는 새로운 정보가 삽입, 삭제, 변경될지라도 시스템이 안정성을 유지하며, 변경된 부분에 대한 하이퍼텍스트 색인어와 하이퍼텍스트 링크가 동적으로 결정될 수 있는 방법을 제시한다. 이를 위해 동적 색인기를 만들고, 동적 색인기의 동작을 돕기 위해 색인어 사전, 불용어 사전, 조사 사전, 역색인 파일, 시소러스 등을 구성한다.

  • PDF

독서교육시스템을 위한 텍스트수준 측정 공식 구성에 관한 연구 (A Study on Modelling Readability Formulas for Reading Instruction System)

  • 최인숙
    • 정보관리학회지
    • /
    • 제22권3호
    • /
    • pp.213-232
    • /
    • 2005
  • 본 고의 목적은 초등학생용 독서자료의 텍스트수준에 영향을 미치는 요인들을 규명하여 텍스트수준 측정 공식을 구성함으로써 텍스트의 수준 평가를 자동화하는 데에 있다. 컴퓨터로 계량화할 수 있는 언어적 요인들을 대상으로 표본집단에 부여된 텍스트수준 점수와의 상관관계를 검토한 결과 글자수, 어절수, 이형어절수, 문장수, 단락수 요인이 텍스트수준을 결정하는 요인으로 드러났다. 단순회귀분석을 통해 도출된 회귀방정식들 중에서 이형어절수 모형이 최적의 공식으로 드러났으나, 중회귀분석을 한 결과 이형어절수요인과 새 어절출현비율요인을 결합한 모형은 설명력이 더욱 향상된 공식으로 밝혀졌다. 공식에 따라 측정된 텍스트수준 점수는 학년 내에서 매우 세분된 단계까지 나타내고 있으므로 각 학생별로 그들의 독서능력에 적합한 자료를 추천할 수 있다.