• 제목/요약/키워드: 텍스트 처리

검색결과 1,355건 처리시간 0.036초

SOM 기반 웹 이미지 분류에서 고수준 텍스트 특징들의 효과 (The Effectiveness of High-level Text Features in SOM-based Web Image Clustering)

  • 조수선
    • 정보처리학회논문지B
    • /
    • 제13B권2호
    • /
    • pp.121-126
    • /
    • 2006
  • 본 논문에서는 웹 이미지의 분류 효과를 높이기 위해 이미지 자체에서 추출된 저수준의 비주얼 특징뿐만 아니라 이미지와 관련된 텍스트 정보로부터 나온 고수준 시맨틱 특징들을 이용하는 분류 방법을 제안한다. 이 고수준의 텍스트 특징들은 이미지 URL, 파일명, 페이지 타이틀, 하이퍼링크 및 이미지 주변 텍스트로부터 얻어진다. 분류 엔진으로는 Kohonen의 SOM(Self Organizing Map)을 사용한다. 고수준의 텍스트 특징들과 저수준의 비주얼 특징들을 동시에 사용하는 SOM 기반의 이미지 분류에서는 10개의 카테고리로부터 수집된 200개의 테스트 이미지들이 사용되었다. 분류 성능을 평가하기 위해 간단하면서도 새로운 두 가지 척도, 즉 동일 카테고리 이미지들의 산포 정도와 집적 정도를 나타내는 각각의 척도를 정의하고 사용하였다. 실험결과, SOM기반의 웹 이미지 분류에서는 고수준의 텍스트 특징들이 보다 유용한 것임이 밝혀졌다.

단문 텍스트의 자연어 처리 기법을 통한 크라우드 펀딩 추천 시스템 개발 (Development of a Recommendation System for Crowdfunding Using NLP in Short Text)

  • 이영아;이선명;이주연;이기용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.466-469
    • /
    • 2021
  • 최근 자연어 처리에 대한 관심이 증가함에 따라 자연어 처리 기술을 활용한 다양한 추천 시스템이 등장하고 있다. 본 논문에서는 자연어 처리를 이용한 서비스를 개발한다. 본 논문에서 개발한 서비스는 KoNLPy 와 Word2Vec 을 이용하여 크라우드 펀딩 프로젝트 창작자 및 후원자에게 키워드 및 키워드와 유사한 단어가 제목에 포함되는 프로젝트를 추천해준다. 단문 텍스트로서 프로젝트 제목을 사용하여 데이터를 자연어 처리 한 후, 딥러닝 모델에 적용시켜 추출한 데이터를 기반으로 창작자와 후원자에게 추천해주는 방식이다. 따라서 본 서비스는 프로젝트 제목 정보를 통한 추천 시스템의 개발로, 나아가 영화, 도서와 같은 콘텐츠 추천 분야에도 적용할 수 있을 것으로 기대한다.

하이퍼링크 연관성을 이용한 유해사이트의 자동분류 (Automatic Harmful Website Rating System Based on Hyperlink Relationship)

  • 장영헌
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.1573-1576
    • /
    • 2005
  • 인터넷의 발전과 함께 유해사이트의 급속한 증가로 유해사이트 분류의 신뢰도를 높일 필요성이 높아지고 있다. 기존의 유해사이트 분류방식에는 텍스트 기반의 분류방식과 Skin-Color Detection 알고리즘을 이용한 이미지 기반 방식이 있으며, 현재 텍스트 기반의 사이트 분류방식이 보편적으로 사용되고 있다. 본 논문은 기존 유해사이트 분류의 신뢰도를 높이기 위하여 유해사이트에 포함된 링크 정보를 기반으로 유해사이트 분류의 정확성을 검증할 수 있음을 증명하였다.

  • PDF

단위 또는 약어의 의미에 맞는 풀 네임(fulI name) 음성 출력 방법에 관한 연구 (A Study on Smart Text Reader for converting Text through TTS)

  • 박안나;손병준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.806-808
    • /
    • 2014
  • 현재까지의 음성 출력 시스템은 텍스트를 있는 그대로 읽어 주는 것에 불과했다. 단위, 약어의 경우 알파벳을 그대로 읽어 주게 되어 그 본래의 의미를 제대로 파악하기 어려웠다. 본 연구에서는 단위나 약어의 본래의 의미를 찾아서 풀어서 음성 변환해 주는 방법을 제안함으로써 시각 장애인에게도 텍스트의 정확한 정보를 전달할 수 있다는 장점이 있다.

텍스트 입력 기반 지화 및 수화 애니메이션 자동 생성에 관한 연구 (A Study on Auto-Generation of Dactylology and Chirology Animation from Text Inputs)

  • 이금용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (하)
    • /
    • pp.1151-1154
    • /
    • 2002
  • Unicode 와 지화, 수화의 공통점은 각국 언어의 자모 혹은 단어에 고유한 표현양식이 1:1 로 대응되어 있다는 것이다. Unicode 의 경우 각 자모별 고유의 헥사코드가 지정되어 있고 지화, 수화의 경우 각 자모별, 단어별로 고유한 동작을 표현하는 손동작이 지정되어 있는 것이다. 본 논문에서는 텍스트 입력에 대응하는 지화, 수화 손동작 그림을 연속적으로 렌더링함으로써 애니메이션 효과를 낼 수 있는 알고리즘과 그 구현에 관한 연구를 소개한다.

  • PDF

감성분석 연구 동향 (Sentimental Analysis Research Trends)

  • 이정훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.358-361
    • /
    • 2018
  • 비정형 데이터 증가로 텍스트 마이닝을 사용해 데이터를 분석하는 연구가 주목받고 있다. 감성분석은 단어와 문맥을 분석하여 텍스트의 감정을 파악하는 기술이다. 본 논문에서는 감성분석 연구 동향, 적용분야, 방법론에 관해 분석하고 기술하려 한다. 감성분석은 2001년 채팅의 감정을 분석하면서 시작되었고, 2008년부터 본격적으로 연구가 진행되었다. 감성분석은 SNS, 상품 후기, 영화평, 뉴스 기사 등 다양한 데이터에 적용되고 있으며, 사회이슈 찬반 분석과 장소 선호도 분석 등 다양한 연구에서 사용되었다. 감성분석 방법은 감성사전을 이용하는 방식과 기계학습을 사용하는 방식으로 나누어지며 분석 방법을 발전시키기 위한 연구가 진행되고 있다.

점자 가독성 향상을 위한 세밀점 부호화 및 IR 인식에 의한 시각장애인용 도서 개발 (Dot Coding and IR Recognition Scheme for Braille Readability Improvement)

  • 김정은;김성환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.351-352
    • /
    • 2009
  • 점자 체계와 CMYK 모델을 이용하여 시각 장애인과 일반인이 읽을 수 있는 책을 만들기 위한 방법론을 제시한다. CMYK 의 K 를 이용해 8 개의 점으로 구성된 셀 문자를 텍스트에 삽입하여, 텍스트 스캔 시 빠르고 정확한 문자 인식이 가능하게 한다.

텍스트 추출을 위한 모바일 응용 구현 (An Implementation of a Mobile Function for Extracting and Retrieving as Text)

  • 고은비;박영호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1237-1239
    • /
    • 2011
  • 본 논문에서는 다양한 상황에서의 정보 접근성을 향상시키기 위해 이미지를 검색 수단으로 사용하는 검색 시스템을 제안한다. 본 콘텐츠는 안드로이드 플랫폼 기반의 스마트폰에서 이미지를 얻어 텍스트를 추출하고, 이를 검색 엔진의 키워드로 입력하여 그 결과를 출력하는 과정을 거친다. 또한, 검색 결과를 스마트폰의 내장 데이터베이스에 저장하고, 이를 관리하여 추후에 재사용할 수 있도록 한다.

FastText 와 BERT 를 이용한 자동 용어 추출 (FastText and BERT for Automatic Term Extraction)

  • 최규현;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.612-616
    • /
    • 2021
  • 자연어 처리의 다양한 task 들을 잘 수행하기 위해서 텍스트 내에서 적절한 용어를 골라내는 것은 중요하다. 텍스트에서 적절한 용어들을 자동으로 추출하기 위해 다양한 모델들을 학습시켜 용어의 특성을 잘 반영하는 n 그램을 추출할 수 있다. 본 연구에서는 기존에 존재하는 신경망 모델들을 조합하여 자동 용어 추출 성능을 개선할 수 있는 방법들을 제시하고 각각의 결과들을 비교한다.

  • PDF

자동 Deep Tagging 에 의한 하이퍼비디오 브라우저의 설계와 구현 (Design and Implementation of Hyper-Video Browser by Automatic Deep Tagging)

  • 조명지;김성환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.153-156
    • /
    • 2007
  • 멀티미디어 자료는 빠르게 증가하고 있는 반면, 텍스트 기반의 검색엔진을 이용한 멀티미디어 자료 검색은 자료 내부를 검색할 수 없는 단점으로 인하여 검색된 정보의 정확성과 정확한 정보의 위치를 찾는 것이 어렵다. 그래서 이러한 문제를 해결하고자 멀티미디어 Deep Tagging 개념을 이용하여 비디오 파일에 자동으로 Deep Tagging 을 생성하고 또한 기존 하이퍼텍스트 기반의 하이퍼링크를 하이퍼비디오로 확장한 브라우저를 제안한다.