• 제목/요약/키워드: 텍스트 기반 검색

검색결과 373건 처리시간 0.024초

TVA 메타데이터 전송과정에서 단편화에 의한 성능 감소를 회피하기 위한 효율적인 캡슐화 방식 (An Efficient Scheme of Encapsulation Method to Avoid Fragmentation Degradation During TVA Metadata Delivery)

  • 오봉진;박종열;김상형;유관종
    • 한국통신학회논문지
    • /
    • 제37권7C호
    • /
    • pp.627-636
    • /
    • 2012
  • 최근에 XML은 가독성과 확장성이란 장점 때문에 IPTV나 디지털방송 서비스 분야에서 서비스나 콘텐츠 정보 표현 및 검색을 위한 기술로 많이 사용되고 있다. 특히 TV-Anytime에서 정의한 스키마나 전송 프로토콜을 기본 규격으로 채택하고 필요한 기능을 수용하기 위하여 규격을 확장하는 경향을 보이고 있다. 그러한 장점에도 불구하고 XML은 텍스트 기반으로 정보를 표현함으로써 정보의 양이 커진다는 문제가 존재하고 이를 위하여 다양한 인코딩 방식이 제공되고 있다. 그러나 전송과정에서 문서를 독립된 조각으로 단편화하여 블록단위로 캡슐화 하는 과정을 거치면서 인코딩 효율이 급격하게 떨어지게 되는 문제가 발생한다. 본 논문에서는 XML 문서를 캡슐화하는 과정에서 단편화를 통해 감소되는 인코딩 효율을 보완할 수 있는 블록 단위의 문자열 테이블 방식을 제안하고 실험을 통한 성능 분석을 제공하였다.

Development of Artificial Intelligence-based Legal Counseling Chatbot System

  • Park, Koo-Rack
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권3호
    • /
    • pp.29-34
    • /
    • 2021
  • 4차 산업혁명 시대의 도래와 함께 IT기술은 기존의 다양한 산업과 분야에 융합되어 기존에 없던 새로운 서비스들을 만들어내고 있다. 특히 인공지능 분야의 챗봇과 최신 기술은 자연어처리 기술의 발전과 함께 그 성능이 비약적으로 발전하여 다양한 업무처리를 챗봇을 통해 처리하고 있다. 본 연구는 슬롯필링(Slot Filling) 기반의 챗봇 기술을 통해서 법률 질의에 대한 구조적인 폼(Structual Form)을 만들고 정해진 형태의 질문을 입력하여 사용자가 찾고자 하는 질문에 근접한 답변을 제공하는 시스템에 대한 연구이다. 제안 시스템을 이용하여 텍스트 형태의 비정형 데이터인 법률 정보를 보다 구조화된 형태로 질의응답 데이터를 구축할 수 있다. 또 축적된 질의응답 데이터를 하이브(Apache Hive)와 같은 빅데이터 저장 시스템을 통해 관리하여 학습에 데이터를 재활용하는 것으로 응답의 신뢰성을 지속적 향상을 기대할 수 있다.

인문·지역연구에서의 정보시각화 활용 방안 연구 (A Study on Utilization Method of Information Visualization in the Humanities and Area Studies)

  • 강지훈;이동열;문상호
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제5권5호
    • /
    • pp.59-68
    • /
    • 2015
  • 학제 간 융합은 학문의 발전을 위해 서로의 경계를 넘어 상이한 학문 간의 협업 연구를 통해 새롭고 의미 있는 지식을 창출할 수 있다. 최근에는 특히 인문학과 ICT가 융합된 형태인 디지털인문학이 주목받고 있다. 연구방법론 관점에서의 디지털인문학은 인문지식, 인문정보 등을 정보시스템을 활용하여 저장, 검색, 공유, 확산하고 연구를 위한 도구로 사용가능하며, 정보시스템 측면에서의 디지털인 문학은 다양한 시스템 형태로 구축 및 활용되고 있다. 그 중에서 다양한 정보나 지식을 일반적인 텍스트가 아닌 이미지나 멀티미디어, 기타 인터페이스를 활용해 시각화하여 나타내는 정보시각화와 연계된 디지털인문학 시스템에 관한 연구가 활발하다. 본 논문에서는 디지털인문학 기반의 정보시각화 유형 및 사례를 분석한 후에, 인문·지역연구에서의 정보시각화 활용 방안에 대하여 제안한다.

Word2Vec 기반의 의미적 유사도를 고려한 웹사이트 키워드 선택 기법 (Web Site Keyword Selection Method by Considering Semantic Similarity Based on Word2Vec)

  • 이동훈;김관호
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.83-96
    • /
    • 2018
  • 문서를 대표하는 키워드를 추출하는 것은 문서의 정보를 빠르게 전달할 수 있을 뿐만 아니라 문서의 검색, 분류, 추천시스템 등의 자동화서비스에 유용하게 사용 될 수 있어 매우 중요하다. 그러나 웹사이트 문서에서 출현하는 단어의 빈도수, 단어의 동시출현관계를 통한 그래프 알고리즘 등의 기반으로 키워드를 추출할 경우 웹페이지 구조상 잠재적으로 주제와 관련이 없는 다양한 단어를 포함하고 있는 문제점과 한국어 형태소 분석의 정확성이 떨어지는 형태소 분석기 성능의 한계점 때문에 의미적인 키워드를 추출하는데 어려움이 존재한다. 따라서 본 논문에서는 의미적 단어 위주로 구축된 후보키워드들의 집합과 의미적 유사도 기반의 후보 키워드를 선택하는 방법으로써 의미적 키워드를 추출하지 못하는 문제점과 형태소 분석의 정확성이 떨어지는 문제점을 해결하고 일관성 없는 키워드를 제거하는 필터링 과정을 통해 최종 의미적 키워드를 추출하는 기법을 제안한다. 실 중소기업 웹페이지를 통한 실험 결과, 본 연구에서 제안한 기법의 성능이 통계적 유사도 기반의 키워드 선택기법보다 34.52% 향상된 것을 확인하였다. 따라서 단어 간의 의미적 유사성을 고려하고 일관성 없는 키워드를 제거함으로써 문서에서 키워드를 추출하는 성능을 향상시켰음을 확인하였다.

한반도 해역 해양지질 및 지구물리 자료 통합 DB시스템 개발 (Development of an Integrated DataBase System of Marine Geological and Geophysical Data Around the Korean Peninsula)

  • 김성대;백상호;최상화;박혁민
    • 한국지리정보학회지
    • /
    • 제19권2호
    • /
    • pp.47-62
    • /
    • 2016
  • 본 연구는 한반도 해역 해양지질 및 지구물리 자료의 통합 DB시스템을 2009년부터 2013년까지 구축하였으며, 현재까지 시스템 운영 및 정보업데이트를 수행하고 있다. 해양수산부 연구사업에서 생산한 해저퇴적물의 입도분석자료, 층별 단면도, X-ray 영상, 중금속 분석자료, 유기탄소 분석자료와 함께 지구물리탐사 결과인 천부탄성파, 심부탄성파, 자력, 중력 자료를 수집하였다. 더불어, 국내 국 공립기관이 보유하고 있는 기존 자료와 미국, 일본의 한반도 해역 자료도 추가로 수집하였다. 자료포맷은 텍스트 파일, 엑셀 파일, PDF 파일, 이미지 파일, SEG-Y 이진파일 등으로 다양하였으며, 원본자료는 Archive DB에 원형 그대로 저장하여 향후의 재가공과 재분석에 대비하였다. 또한, 수집 자료의 비교분석을 목적으로 GIS 기반 데이터베이스와 검색시스템도 개발하였다. 모든 자료를 ArcGIS 툴을 이용하여 shape 파일로 변환하였으며, 오라클과 ArcGIS를 이용하여 GIS DB를 구축하였다. 클라이언트/서버 방식의 GIS 어플리케이션 개발을 통해 자료검색과 과학 자료 표출기능을 구현하였으며, 가시화를 위해 ChartFX 프로그램과 새로 개발한 전용 프로그램을 이용하였다.

얼굴 메이크업을 도와주는 지능형 스마트 거울 앱의설계 (Design of an Intellectual Smart Mirror Appication helping Face Makeup)

  • 오선진;이윤석
    • 문화기술의 융합
    • /
    • 제8권5호
    • /
    • pp.497-502
    • /
    • 2022
  • 최근 젊은 세대를 중심으로 정보의 유통이나 공유 수단으로 텍스트보다는 비주얼 기반의 정보 전달을 선호하는 경향이 뚜렷하며, 인터넷상의 유투브나 1인 방송 등을 통한 정보의 유통이 일상화되고 있다. 즉, 젊은 세대들은 대부분의 원하는 정보를 이러한 유통 과정을 거쳐 습득하게 되며 활용하는 상황이다. 또한, 많은 젊은 세대들은 자신을 개성있게 꾸미고 장식하는 데에 매우 과감하고 적극적이다. 얼굴 화장이나 헤어 스타일링 및 패션 연출에 있어 남녀구분 없이 적극적인 표현과 시도를 통해 개인의 개성을 거리낌이 없이 연출하는 경향이 있다. 특히, 얼굴 메이크업은 여자들은 물론이고 최근 남자들 사이에서도 관심의 대상이 되고 있으며, 자신의 개성을 표출할 수 있는 중요한 수단으로 인식되는 상황이다. 본 연구에서는 이러한 시대적 흐름에 발맞추어 자신의 독특한 개성을 나타내기 위한 얼굴메이크업을 연출하기 위해 자신의 얼굴 모양, 헤어 컬러 및 스타일, 피부 톤, 패션 스타일과 의상 컬러 등과 잘 어울리는 얼굴 메이크업을 구현하도록 인터넷상의 유명한 전문 메이크업 아티스트 들의 유투브나 1인 방송 영상 중 관련영상을 효율적으로 검색하여 추천하고, 사용자의 평소 검색 패턴과 외모 특징들을 학습시켜 축적된 정보를 바탕으로 최적의 솔루션을 제공할 수 있도록 인공지능 기법을 도입하며, 추천된 영상을 통해 자세한 메이크업 과정을 실제 단계별로 수행하면서 메이크업 스킬을 습득하도록 하는 지능형 스마트 거울 앱을 설계하고 구현하고자 한다.

ChatGPT를 활용한 대학 교육 방안 연구 (A Study on A Study on the University Education Plan Using ChatGPTfor University Students)

  • 김현주;이진영
    • 문화기술의 융합
    • /
    • 제10권1호
    • /
    • pp.71-79
    • /
    • 2024
  • 미국 오픈AI사가 개발한 대화형 인공지능(AI) 챗봇 'ChatGPT'가 전 세계적으로 큰 반향을 일으키고 있다. 일부 학계에서는 ChatGPT를 학생들이 표절에 사용할 수 있다며 우려를 표하고 있는 실정이나, ChatGPT는 마케팅문구나 웹사이트 문구를 쓰는 데 활용되는 등 긍정적인 방향으로도 많이 사용되고 있다. 또한 ChatGPT가 '검색'의 새로운 미래가 될 수 있다는 의견도 생겨나고 있으며, 지나친 규제보다 육성에 초점을 맞춰야 한다는 분석도 제기되는 상황이다. 본 연구는 ChatGPT와 표절검사시스템에 대한 인식도 조사를 통해 대학생들의 ChatGPT에 대한 의식을 분석하고, ChatGPT와 표절검사시스템을 활용한 교육지원 모델 구축 방안을 마련하였고 ChatGPT와 표절검사시스템을 활용한 교육지원 모델 구축 방안을 제시하기 위하여 ChatGPT에 대한 기존의 연구들과 표절검사시스템에 대하여 조사하고 분석하였다. 그리고, 이것을 토대로 ChatGPT를 활용한 대학 교육 지원 모델을 구축하였다. ChatGPT를 활용한 교육 모델은 텍스트, 디지털, 예술 등의 기반으로 교육 모델를 설정하고 그 아래로 4차 산업혁명시대에 필요한 세부적인 역략으로 구성하였다. 그리고, 학습 목표에 따라 수업의 교수자가 ChatGPT가 생성하는 콘텐츠의 허용 범위를 결정한 후, 표절검사시스템에서 제공하는 ChatGPT 감지 기능을 활용하여 학생들이 허용된 범위 내에서 ChatGPT를 활용하도록 지도하도록 구성하였다. 이와 같은 방식으로 ChatGPT와 표절검사시스템을 연계하여 활용함으로써 ChatGPT의 우수한 능력이 교육에 악용되는 상황을 막을 수 있을 것으로 기대된다.

Sequence-to-sequence 학습을 이용한 한국어 약어 생성 (Korean Abbreviation Generation using Sequence to Sequence Learning)

  • 최수정;박성배;김권양
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권3호
    • /
    • pp.183-187
    • /
    • 2017
  • 스마트폰 사용자들은 텍스트를 쉽게 읽고 빠르게 입력하기를 원한다. 이런 흐름에 따라 사용자들은 채팅 용어에서부터 전문 분야, 뉴스 기사에 이르기까지 여러 단어로 이루어진 어휘를 축약한 약어를 많이 사용한다. 그러므로 약어를 모아 데이터를 구축한다면 정보 검색과 추천 시스템 등에 유용하게 사용될 수 있다. 하지만 약어는 새로운 콘텐츠가 등장할 때마다 계속해서 생겨나기 때문에 수동으로 모으는 일은 쉽지 않으므로, 약어를 자동으로 생성하는 방법이 필요하다. 기존 연구들은 약어를 자동으로 생성하기 위해 규칙 기반 방법을 사용하였으나, 불규칙한 약어들은 생성할 수 없다는 한계점이 있다. 또한 규칙에 의해 생성된 후보 약어들 중에서 올바른 약어를 결정해야하는 문제도 발생한다. 따라서 본 논문에서는 이런 한계점을 극복하기 위해 시퀀스 투 시퀀스 학습 방법을 사용하여 약어를 자동으로 생성한다. 시퀀스투 시퀀스 학습 방법은 심층 신경망으로 기존의 규칙 기반 방법으로 생성할 수 없던 불규칙한 약어들을 생성할 수 있다. 게다가 후보 약어들 중 올바른 약어를 결정할 문제가 발생하지 않기 때문에 자동으로 약어를 생성하는 문제에 적합하다. 본 논문에서는 제안한 방법을 평가한 결과, 기존의 연구에서 생성할 수 없던 불규칙적인 약어를 생성하여 제안한 모델이 효과적임을 증명하였다.

멀티모달 개념계층모델을 이용한 만화비디오 컨텐츠 학습을 통한 등장인물 기반 비디오 자막 생성 (Character-based Subtitle Generation by Learning of Multimodal Concept Hierarchy from Cartoon Videos)

  • 김경민;하정우;이범진;장병탁
    • 정보과학회 논문지
    • /
    • 제42권4호
    • /
    • pp.451-458
    • /
    • 2015
  • 기존 멀티모달 학습 기법의 대부분은 데이터에 포함된 컨텐츠 모델링을 통한 지식획득보다는 이미지나 비디오 검색 및 태깅 등 구체적 문제 해결에 집중되어 있었다. 본 논문에서는 멀티모달 개념계층모델을 이용하여 만화 비디오로부터 컨텐츠를 학습하는 기법을 제안하고 학습된 모델로부터 등장인물의 특성을 고려한 자막을 생성하는 방법을 제시한다. 멀티모달 개념계층 모델은 개념변수층과 단어와 이미지 패치의 고차 패턴을 표현하는 멀티모달 하이퍼네트워크층으로 구성되며 이러한 모델구조를 통해 각각의 개념변수는 단어와 이미지패치 변수들의 확률분포로 표현된다. 제안하는 모델은 비디오의 자막과 화면 이미지로부터 등장 인물의 특성을 개념으로서 학습하며 이는 순차적 베이지안 학습으로 설명된다. 그리고 학습된 개념을 기반으로 텍스트 질의가 주어질 때 등장인물의 특성을 고려한 비디오 자막을 생성한다. 실험을 위해 총 268분 상영시간의 유아용 비디오 '뽀로로'로부터 등장인물들의 개념이 학습되고 학습된 모델로부터 각각의 등장인물의 특성을 고려한 자막 문장을 생성했으며 이를 기존의 멀티모달 학습모델과 비교했다. 실험결과는 멀티모달 개념계층모델은 다른 모델들에 비해 더 정확한 자막 문장이 생성됨을 보여준다. 또한 동일한 질의어에 대해서도 등장인물의 특성을 반영하는 다양한 문장이 생성됨을 확인하였다.

대학생 대상 비대면 온라인 수업에서의 강의 콘텐츠 운영 실태 연구 (A Study on the Operating Conditions of Lecture Contents in Contactless Online Classes for University Students)

  • 이종문
    • 한국비블리아학회지
    • /
    • 제32권4호
    • /
    • pp.5-24
    • /
    • 2021
  • 본 연구의 목적은 대학생을 대상으로 비대면 온라인 수업에서의 강의 콘텐츠 운영 실태를 조사 분석하기 위해 수행되었다. 93명의 응답지를 분석한 결과, 첫째 응답자의 93.3%가 실시간 화상 강의(47.7%) 또는 녹화 강의(45.6%)의 형태의 온라인 강의를 수강한 것으로 나타났다. 둘째 교재로 사용한 콘텐츠를 분석한 결과, 교양(47.3%)과 전공(39.8%) 모두에서 전자책(자료)과 종이 책(자료)을 혼용하거나 전자 책 또는 자료(각각 36.6%, 37.6%)를 사용한 것으로 나타났다. 교재 이외에 외부자료는 전공과 교양 모두 웹자료(각각 47.6%, 40.5%)와 유튜브 자료(각각 33.3%, 48.0%) 활용이 높은 것으로 나타났다. 셋째 강의 내용 공유를 위한 콘텐츠는 교양 전공 모두에서 교수자가 정리, 저술한 PT 또는 텍스트 형태의 전자파일(각각 62.9%, 58.1%), 인터넷 자료(각각 16.7%, 19%), 종이 책 또는 자료(각각 10.4%, 12.3%) 순으로 나타났다. 전공과목에서는 93.5%가, 교양과목에서는 90.2%가 화면 현시 강의 콘텐츠에 만족하는 것으로 나타났다. 분석결과를 토대로, 첫째 멀티미디어 기반의 강의 콘텐츠를 개발할 것과 실시간 시험 감독 등이 가능한 평가 솔루션을 개발할 것을 제언하였다. 둘째 과제물에 대한 AI 기반의 표절검색, 과제지도, 과제평가 등이 가능한 과제물관리시스템을 개발할 것을 제언하였다. 셋째 유비쿼터스 개념에서 수업이 가능하도록 강의 교재 전자화를 위한 저작권문제 해결 방안을 제도화할 것을 제언하였다.