• Title/Summary/Keyword: 텍스트 연구

Search Result 3,492, Processing Time 0.035 seconds

Context Visualizing SMS Based on Decision Tree (의사결정트리 기반의 컨텍스트 시각화 SMS)

  • Gahng, Shinwook;Oh, Jehwan;Lee, Eunseok
    • Annual Conference of KIPS
    • /
    • 2009.04a
    • /
    • pp.515-518
    • /
    • 2009
  • 이동단말기가 보급이 확산됨에 따라 많은 사용자들이 이동단말기를 사용하고 필연적으로 많은 통신행동을 하고 있다. 특히 SMS 는 시간과 장소의 제한이 적어 사용자들의 통신행동 중 큰 비중을 차지하고 있다. SMS 통신행동에서 이모티콘의 사용이 많이 나타나고 있으며 이는 텍스트 기반의 의사소통의 한계를 극복하기 위한 방안으로 볼 수 있다. SMS 로부터 사용자의 감정을 추론하려는 기존의 연구가 있었지만 SMS 텍스트에 국한된다는 문제점이 있다. 본 논문에서는 최근 휴대폰, PDA, 스마트폰 등 이동단말기의 발전에 따라 통신행동 기록, 위치 정보와 같은 컨텍스트 정보를 수집하고 이용할 수 있음에 착안하여 SMS 텍스트와 함께 이동단말기의 컨텍스트 정보를 추론에 사용하였다. 의사결정트리를 이용하여 가용한 컨텍스트 정보로부터 추론한 정황 정보를 SMS 통신에서 사용하여 기존의 텍스트 기반의 의사소통의 한계를 극복할 수 있는 Visual SMS 를 제안한다. 사전에 정의한 훈련 데이터 집합을 통하여 의사결정트리를 생성하고 이를 기반으로 Visual SMS 를 구현, 시뮬레이션하여 추론 결과를 통해 그 기대효과를 확인한다.

Development of Matching Algorism for System Recognizing Text in the Construction Field (건설분야 텍스트 인식시스템의 매칭알고리즘 개발)

  • Song, Jong-Kwan;Jeong, Suk
    • Annual Conference of KIPS
    • /
    • 2011.04a
    • /
    • pp.1525-1527
    • /
    • 2011
  • 현재 모든 분야에 IT산업이 융합되어 있지만 건설분야에서는 IT산업과의 융합이 많이 시도되고 있음에도 불구하고 타 산업에 비해 미비한 실정이다. 특히, 설계단계 공사비정보는 설계자의 의사결정을 지원하는 중요한 자료원임에도 불구하고 작성자에 따라 내역서에 쓰이는 작업항목 및 규격의 표현방식이 다르고 외래어 표음 및 오타, 그리고 부가정보 표기로 인해 단가축적의 시스템 및 DB화 가 이루어지지 않고 있다. 따라서 본 연구는 시공단계에서 발생된 실적단가를 설계단계에서 효과적으로 활용하기 위해 동일한 작업항목의 상이한 표현을 동일하게 인식할 수 있는 텍스트 인식시스템의 알고리즘을 제시한다. 텍스트 인식알고리즘에는 "유사어 및 단어테이블", "기준작업항목 테이블", "인식된 작업항목 테이블" 등으로 구성된 DB, 최소의미단위 단어를 비교 분절하기 위한 문자열 매칭 알고리즘, 그리고 동일하지 않은 텍스트를 인식하고 사용자의 의사결정을 지원하기 위한 유사도 계산으로 구성하였다.

Data Analysis Web Application Based on Text Mining (텍스트 마이닝 기반의 데이터 분석 웹 애플리케이션)

  • Gil, Wan-Je;Kim, Jae-Woong;Park, Koo-Rack;Lee, Yun-Yeol
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.103-104
    • /
    • 2021
  • 본 논문에서는 텍스트 마이닝 기반의 토픽 모델링 웹 애플리케이션 모델을 제안한다. 웹크롤링 기법을 활용하여 키워드를 입력하면 요약된 논문 정보를 파일로 저장할 수 있고 또한 키워드 빈도 분석과 토픽 모델링 등을 통해 연구 동향을 손쉽게 확인해볼 수 있는 웹 애플리케이션을 설계하고 구현하는 것을 목표로 한다. 제안 모델인 웹 애플리케이션을 통해 프로그래밍 언어와 데이터 분석 기법에 대한 지식이 부족하더라도 논문 수집과 저장, 텍스트 분석을 경험해볼 수 있다. 또한, 이러한 웹 시스템 개발은 기존의 html, css, java script와 같은 언어에 의존하지 않고 파이썬 라이브러리를 활용하였기 때문에 파이썬을 기반으로 데이터 분석과 머신러닝 교육을 수행할 경우 프로젝트 기반 수업 교육 과정으로 채택이 가능할 것으로 기대된다.

  • PDF

A Chrome Plug-in for Harmful Text Filtering based on CNN-LSTM (CNN-LSTM 기반 유해 텍스트 필터링 크롬 플러그인)

  • Hwang, Hyun-Bin;Kim, Han-Kyum;Chung, Jinwoo;Chung, Hyuk-Soon;Seo, Choong-Won;Lee, Soowon
    • Annual Conference of KIPS
    • /
    • 2021.05a
    • /
    • pp.543-546
    • /
    • 2021
  • 최근 온라인 매체에서 무분별한 비속어나 욕설 사용이 늘어남에 따라 유해한 텍스트를 자동으로 필터링하는 시스템의 필요성이 증가하고 있다. 유해 텍스트 필터링 관련 기존의 접근방법은 채팅 프로그램 등 특정 프로그램에 한하여 적용이 되거나 특정 포탈의 웹페이지에 국한되어 적용이 되는 한계가 있다. 따라서 본 연구에서는 AI를 활용하여 모든 웹 페이지의 유해 텍스트를 필터링할 수 있는 Chrome Extension을 구현하고 그 유효성을 검증한다.

EyeBERT: Eye tracking based Human Reading for Extractive Text Summarization (EyeBERT: 아이트래킹 기반의 휴먼 리딩을 반영한 추출 요약 기법)

  • Lee, Seolhwa;Hur, Yuna;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.522-526
    • /
    • 2019
  • 추출 요약(Extractive summarization)은 문서내에 주요한 요약정보가 되는 문장 또는 단어를 추출하여 요약을 생성하는 기법이다. 딥러닝 기법들이 많이 발전하면서 요약 기법에도 sequence-to-sequence와 같은 많은 시도들이 있었지만 대부분의 방법론들은 딥러닝의 모델 구조관점으로 접근하거나 요약에 있어서 단순히 입력 텍스트를 넣고 알고리즘이 처리하는 머신 리딩(Machine reading)관점으로 접근한다. 텍스트 요약 태스크 자체는 사람이 텍스트에 대한 정보 파악을 요약문을 통해 빠르게 하고 싶은 궁극적인 목표가 있으므로, 사람이 텍스트 요약에 필요한 인지처리과정을 반영할 필요가 있다. 결국, 기존의 머신 리딩보다는 휴먼 리딩(Human reading)에 관한 이해와 구조적 접근이 필요하다. 따라서 본 연구는 휴먼 리딩을 위한 인지처리과정을 위해 아이트래킹 데이터 기반의 새로운 추출 요약 모델을 제안한다.

  • PDF

Clinical Note Generation Model Based on Multimodal Learning of Medical Data (의료 데이터의 멀티 모달 학습을 기반으로 한 임상 기록 생성 모델)

  • Minseo Yoo;Hyon Hee Kim
    • Annual Conference of KIPS
    • /
    • 2024.10a
    • /
    • pp.1146-1147
    • /
    • 2024
  • 대한민국 의료공백에 의해 영상의학 진단이 지체됨에 따라 많은 환자들이 치료 시기를 놓치고 있다. 본 연구에서는 진단 가속을 위해 흉부 X-ray 이미지와 임상 노트 텍스트로 구성된 데이터를 멀티모달 학습시키고, 흉부 X-ray 이미지에 대한 임상 기록을 생성하는 모델을 제안하였다. 이미지 임베딩 생성에는 PubMed 텍스트/이미지 쌍을 학습한 BiomedCLIP을 사용하고, 이미지 임베딩을 텍스트화하고 최종 텍스트 생성하는 과정에는 PLM 모델 T5를 사용한다. T5는 경량화된 모델이므로 컴퓨팅 자원이 부족한 의료 실무 환경에서도 충분히 임상 노트를 생성을 수행할 수 있으며, 이를 통한 정밀의학의 실용화를 기대할 수 있다.

Addressing and Improving Compositional Inference in Vision-Language Model(VLM) (VLM(Vision-Language Model)의 구성적 추론 문제 해결 및 향상)

  • Kyung-Yoon Yoon;Yeong-Jun Cho
    • Annual Conference of KIPS
    • /
    • 2024.10a
    • /
    • pp.649-652
    • /
    • 2024
  • 본 논문은 Vision-Language Model(VLM)의 성능을 향상시키고, 구성적 추론 문제를 해결하는 새로운 접근을 제시한다. VLM 은 시각적 정보와 언어적 정보를 결합하여 다양한 다운스트림 작업에서 뛰어난 성능을 보였지만, 여전히 이미지와 텍스트 간의 복잡한 관계를 완전히 이해하지 못하는 문제를 안고 있다. 특히, VLM 이 텍스트와 이미지의 구조적 차이를 인식하고 올바르게 매칭하는 데 한계가 있으며, 이는 주로 학습 데이터의 불균형과 손실 함수의 한계로 인해 발생한다. 이 문제를 해결하기 위해 다양한 연구들이 데이터셋과 손실 함수의 개선에 집중해 왔다. 본 논문에서는 제안하는 아키텍처는 두 가지 주요 구성 요소를 통해 문제를 해결한다. 첫 번째는 노이즈가 많은 Raw 데이터를 전처리하는 모델로, 잘못된 이미지-텍스트 쌍이나 단일 데이터를 처리하여 정제된 데이터를 출력한다. 두 번째는 하드 네거티브 데이터를 생성하여 VLM 의 구성적 추론 능력을 향상시키는 모델이다. 이를 통해 이미지와 텍스트 간의 구조적 차이를 더욱 명확히 구별할 수 있으며, 대조 학습을 통해 모델의 성능을 최적화한다.

LSTM based Language Model for Topic-focused Sentence Generation (문서 주제에 따른 문장 생성을 위한 LSTM 기반 언어 학습 모델)

  • Kim, Dahae;Lee, Jee-Hyong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.07a
    • /
    • pp.17-20
    • /
    • 2016
  • 딥러닝 기법이 발달함에 따라 텍스트에 내재된 의미 및 구문을 어떠한 벡터 공간 상에 표현하기 위한 언어 모델이 활발히 연구되어 왔다. 이를 통해 자연어 처리를 기반으로 하는 감성 분석 및 문서 분류, 기계 번역 등의 분야가 진보되었다. 그러나 대부분의 언어 모델들은 텍스트에 나타나는 단어들의 일반적인 패턴을 학습하는 것을 기반으로 하기 때문에, 문서 요약이나 스토리텔링, 의역된 문장 판별 등과 같이 보다 고도화된 자연어의 이해를 필요로 하는 연구들의 경우 주어진 텍스트의 주제 및 의미를 고려하기에 한계점이 있다. 이와 같은 한계점을 고려하기 위하여, 본 연구에서는 기존의 LSTM 모델을 변형하여 문서 주제와 해당 주제에서 단어가 가지는 문맥적인 의미를 단어 벡터 표현에 반영할 수 있는 새로운 언어 학습 모델을 제안하고, 본 제안 모델이 문서의 주제를 고려하여 문장을 자동으로 생성할 수 있음을 보이고자 한다.

  • PDF

Generating Literature-Style Sentences based on Summarized Text (요약문 기반 문학 스타일 문장 생성)

  • Bugwang Choe;Eunchan Lee;Sangtae Ahn
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.67-70
    • /
    • 2022
  • 최근 자연어 생성 연구는 딥러닝 기반의 사전 학습 모델을 중심으로 활발하게 연구되고 있다. 하위 분야 중 하나인 텍스트 확장은 입력 텍스트를 출력에 잘 반영하는 것이 무엇보다도 중요하다. 기존 한국어 기반 텍스트 확장 연구의 경우 몇 개의 개념 집합에 기반해 문장을 생성하도록 한다. 그러나 이는 사람의 실제 발화 길이에 비해 짧고 단순한 문장만을 생성한다는 문제점이 존재한다. 본 논문은 이러한 문제점을 개선하면서 문학 스타일의 문장들을 생성하는 모델을 제안하였다. 또한 동일 모델에 대해 학습 데이터의 양에 따른 성능도 비교하였다. 그 결과, 짧은 요약문을 통해 문학 스타일의 여러 문장들을 생성하는 것을 확인하였고, 학습 데이터를 추가한 모델이 성능이 더 높게 나타나는 것을 확인하였다.

  • PDF

Image Logging Technique of a Web URL Page on the Tiny Web Server (Web URL Page 의 Image Logging 기법)

  • Yoo, Seung-Hee;Cho, Dong-Sub
    • Annual Conference of KIPS
    • /
    • 2008.05a
    • /
    • pp.679-682
    • /
    • 2008
  • 기존의 웹서버는 텍스트형식의 로그파일을 기록한다. 웹 서버에서 로그파일은 클라이언트의 웹서버에 대한 접속정보와 웹서버의 처리상황 등 모든 상황을 기록하고 저장한다. 이 정보를 분석하면 웹 서비스를 하는데 있어서 웹 서비스의 질을 높이는데 좋은 참고자료가 될 뿐 아니라 웹 서버에 이상이 생겼을 경우 발생한 오류를 조기에 발견하는 데에도 사용되는 중요한 자료이다. 현재 이러한 로그파일은 텍스트 파일로 저장되어있기 때문에 조작의 가능성도 있고 오랜 시간이 지나 해당 웹 페이지가 삭제되었을 경우 로그파일에 기록된 그 시각의 웹 페이지를 볼 수 없다. 본 연구에서는 로그파일에 기록된 그 시간의 웹 URL 페이지 이미지를 저장하여 이미지 로그파일을 만드는 시스템을 구현해 봄으로써 텍스트형식 로그파일의 단점을 보안하고 오랜 시간이 지난 후에도 그 웹 페이지를 볼 수 있는 기법을 연구하였다. 이 기법은 로그파일로써의 역할 뿐만 아니라 Digital Forensics 로 범죄 수사에도 많은 도움이 될 수 있고 휴대전화에서 풀 인터넷 브라우징 연구에도 적용될 수 있다.