• 제목/요약/키워드: 텍스트 데이터

검색결과 1,778건 처리시간 0.03초

다양한 단말에 맞춤형 서비스를 위한 적응적 장면 기술 방법 연구 (Adaptive Scene Description Method for Heterogeneous Devices)

  • 김병철;김규헌
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2010년도 추계학술대회
    • /
    • pp.248-251
    • /
    • 2010
  • 현재의 멀티미디어 서비스는 기존의 텍스트 위주의 사용자 환경에서 벗어나 오디오, 비디오뿐만 아닌 이미지, 그래픽, 텍스트 및 미디어 관련 정보 등의 다양한 데이터를 포함하는 멀티미디어 서비스 환경으로 변화하고 있다. 이러한 멀티미디어 서비스는 과거 TV와 컴퓨터 등 한정된 기기에서만 제공되었지만, 최근 휴대폰, MP3 플레이어, PMP 등 미디어 기기의 발전에 따라, 다양한 단말을 대상으로 서비스를 확장하고 있다. 이러한 멀티미디어 서비스를 다양한 단말을 대상으로 제공하기 위하여, 기존의 기술에서는 동일한 콘텐츠를 각각의 단말의 환경에 따라 서로 다른 서비스를 통해 제공하였다. 그러나 IPTV와 홈 네트워크 시스템 등 방송과 통신이 융합되고, 유선과 무선 간에 자유롭게 데이터를 주고받는 환경에서 단말 마다 서로 다른 서비스를 제공하는 것은 서비스 시나리오의 복잡도를 높이고, 다양한 단말을 사용하는 사용자에게 통합되지 않은 서비스를 제공 받게 되는 결과를 가져오게 된다. 이에 본 논문에서는 콘텐츠의 메타데이터를 활용하여 동일한 멀티미디어 서비스를 단말기의 다양한 환경에 따라 맞춤형 서비스를 제공할 수 있는 방법인 적응적 장면 기술을 제시하고, 그 효율성에 관하여 검증한다.

  • PDF

컴퓨터관련 대학 수업에서 학습자가 원하는 것 (What Do Students Want In The Classroom?)

  • 안동규;최정웅
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제54차 하계학술대회논문집 24권2호
    • /
    • pp.155-156
    • /
    • 2016
  • 대학 교육현장에서 수많은 비정형화된 데이터가 생산되고 있는데 그중 관심 있게 볼 부분은 학생들의 서술적 강의평가이며, 본 논문에서는 대학에서 시행하는 서술적 강의평가를 활용하여 컴퓨터를 활용하는 수업에서 학생들이 원하는 상호작용을 분석하였다. 분석을 위해 빅데이터에서 활용하는 텍스트 마이닝 기법을 활용하였으며 분석결과 컴퓨터관련 관련 수업에서 필요한 학습자 상호작용은 주로 흥미, 기회, 열정, 재미, 참여, 유익, 친절 등으로 나타났다. 현재 5점 척도로 보여 지는 강의평가 점수는 진정 학습자가 원하는 것이 무엇인지 파악이 어렵기 때문에 관련 연구가 지속적으로 필요하다. 또한 향후 컴퓨터를 활용하지 않은 수업과 비교함으로써 대학 컴퓨터 관련 수업의 특징을 구분할 필요가 있을 것으로 여겨진다.

  • PDF

학습데이터를 이용하여 생성한 규칙과 사전을 이용한 명사 추출기 (A Noun Extractor based on Dictionaries and Heuristic Rules Obtained from Training Data)

  • 장동현;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.151-156
    • /
    • 1999
  • 텍스트로부터 명사를 추출하기 위해서 다양한 기법이 이용될 수 있는데, 본 논문에서는 학습 데이터를 이용하여 생성한 규칙과 사전을 이용하는 단순한 모델을 통해 명사를 효과적으로 추출할 수 있는 기법에 대하여 기술한다. 사용한 모델은 기본적으로 명사, 어미, 술어 사전을 사용하고 있으며 명사 추정은 학습 데이터를 통해 생성한 규칙을 통해 이루어진다. 제안한 방법은 복잡한 언어학적 분석 없이 명사 추정이 가능하며, 복합명사 사전을 이용하지 않고 복합 명사를 추정할 수 있는 장점을 지니고 있다. 또한, 명사추정의 주 요소인 규칙이나 사전 등록어의 추가, 갱신 등이 용이하며, 필요한 경우에는 특정 분야의 텍스트 분석을 위한 새로운 사전의 추가가 가능하다. 제안한 방법을 이용해 "제1회 형태소 분석기 및 품사 태거 평가대회(MATEC '99')"의 명사 추출기 분야에 참가하였으며, 본 논문에서는 성능평가 결과를 제시하고 평가결과에 대한 분석을 기술하고 있다. 또한, 현재의 평가기준 중에서 적합하지 않은 부분을 규정하고 이를 기준으로 삼아 자체적으로 재평가한 평가결과를 제시하였다.

  • PDF

XML 기반 학술지 데이터베이스 저장관리시스템의 개발 (A Development of XML-Based ]Repository Management System for a thesis database)

  • 조남선;김우성;서인홍
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2001년도 춘계학술대회 발표논문집
    • /
    • pp.330-333
    • /
    • 2001
  • 학술지 데이터 베이스 구축에 있어서 가장 주요한 문제점온 기존 문헌의 디지털화이다. 기존 문헌을 디지털화함에 있어서 택할 수 있는 방법은 문서 인식기(OCR)를 통한 자동인식과 수작업을 통해서 컴퓨터로 입력하는 방법이 있다. 전자의 방법은 현재의 한글 문서 인식기술로 볼 때 인식률이 저조하고, 인식기를 통한 자동인식에서 발생된 오류를 수정하는 비용이 수작업으로 입력하는 비용에 비해 더 크다고 판단된다. 따라서 자료의 입력은 수작업으로 하는 것이 효율적이다 학술지 데이터 베이스들 구축하고 이를 서비스하기 위해 서는 입력된 텍스트 데이터를 표준화하여 구조적으로 변환/편집해야 한다. 이는 구조문서 표준이라 할 수 있는 XML의 이용이 필요하다는 말이기도 할 것이다. 또한 디지털화 된 문서를 효율적으로 활용하고 관리하기 위해서는 비쥬얼한 구조문서 저장 관리기가 필요하다. 본 논문에서는 디지털화 된 텍스트를 구조적인 XML문서로 변환하여 효과적으로 저장 관리 할 수 있는 저장관리기를 설계하고 개발하였다.

텍스트 마이닝 기법을 활용한 한국의 경제연구 동향 분석 (Trend Analysis of Korean Economy in the Economic Literature by text mining techniques)

  • 송혜지;박경수;정혜은;송민
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2013년도 제20회 학술대회 논문집
    • /
    • pp.47-50
    • /
    • 2013
  • 빅데이터를 활용한 데이터 분석 기법 중 비정형 데이터 분석의 하나인 텍스트 마이닝 기법을 활용하여, 외국 학술지에 나타난 한국의 경제 분야 트렌드를 분석한다. 데이터베이스로 Web of Knowledge의 연구논문을 활용하였으며, 키워드 분석, 네트워크 분석, 토픽모델링 분석을 통해 연구 동향 및 지적구조를 파악하는 데 그 목적이 있다.

  • PDF

비트맵 필터를 이용한 효율적인 유사 문자열 검색 기법 (Efficient Approximate String Searches using Bitmap Filter)

  • 권인택;김종익
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1298-1301
    • /
    • 2011
  • 텍스트 데이터는 표현 방식의 차이, 타이핑 오류 등을 포함하고 있어 정확히 일치하는 검색으로는 유용한 정보를 얻기 어렵다. 따라서 유사도 기반 검색 방법이 많이 연구되고 있으며 효율적인 유사도 기반 검색을 위해 텍스트 데이터에 대한 역 리스트를 구성한다. 그리고 이를 병합하여 질의와 일정 기준 이상 유사한 데이터를 찾는다. 본 논문에서는 역 리스트 병합 과정에서 역 리스트의 탐색 비용을 줄이기 위해 비트맵 필터를 사용하는 기법을 제안한다. 비트맵 필터를 사용하여 역 리스트의 탐색 여부를 결정하여 불필요한 역 리스트 탐색을 회피함으로써 역 리스트 병합 비용을 줄인다. 실험을 통하여 제안된 기법이 기존의 연구에서 제안된 역 리스트 병합 알고리즘의 성능을 30~40% 정도 개선함을 보인다.

AI 스피커를 활용한 어텐션 메커니즘 기반 멀티모달 우울증 감지 시스템 (Multimodal depression detection system based on attention mechanism using AI speaker)

  • 박준희;문남미
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.28-31
    • /
    • 2021
  • 전세계적으로 우울증은 정신 건강 질환으로써 문제가 되고 있으며, 이를 해결하기 위해 일상생활에서의 우울증 탐지에 대한 연구가 진행되고 있다. 따라서 본 논문에서는 일상생활에 밀접하게 연관되어 있는 AI 스피커를 사용한 어텐션 메커니즘(Attention Mechanism) 기반 멀티모달 우울증 감지 시스템을 제안한다. 제안된 방법은 AI 스피커로부터 수집할 수 있는 음성 및 텍스트 데이터를 수집하고 CNN(Convolutional Neural Network)과 BiLSTM(Bidirectional Long Short-Term Memory Network)를 통해 각 데이터에서의 학습을 진행한다. 학습과정에서 Self-Attention 을 적용하여 특징 벡터에 추가적인 가중치를 부여하는 어텐션 메커니즘을 사용한다. 최종적으로 음성 및 텍스트 데이터에서 어텐션 가중치가 추가된 특징들을 합하여 SoftMax 를 통해 우울증 점수를 예측한다.

  • PDF

감정 어휘 사전을 활용한 영화 리뷰 말뭉치 감정 분석 (Movie Corpus Emotional Analysis Using Emotion Vocabulary Dictionary)

  • 장연지;최지선;박서윤;강예지;강혜린;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.379-383
    • /
    • 2021
  • 감정 분석은 텍스트 데이터에서 인간이 느끼는 감정을 다양한 감정 유형으로 분류하는 것이다. 그러나 많은 연구에서 감정 분석은 긍정과 부정, 또는 중립의 극성을 분류하는 감성 분석의 개념과 혼용되고 있다. 본 연구에서는 텍스트에서 느껴지는 감정들을 다양한 감정 유형으로 분류한 감정 말뭉치를 구축하였는데, 감정 말뭉치를 구축하기 위해 심리학 모델을 기반으로 분류한 감정 어휘 사전을 사용하였다. 9가지 감정 유형으로 분류된 한국어 감정 어휘 사전을 바탕으로 한국어 영화 리뷰 말뭉치에 9가지 감정 유형의 감정을 태깅하여 감정 분석 말뭉치를 구축하고, KcBert에 학습시켰다. 긍정과 부정으로 분류된 데이터로 사전 학습된 KcBert에 9개의 유형으로 분류된 데이터를 학습시켜 기존 모델과 성능 비교를 한 결과, KcBert는 다중 분류 모델에서도 우수한 성능을 보였다.

  • PDF

트랜스포머 기반 MBTI 성격 유형 분류 연구 : 소셜 네트워크 서비스 데이터를 중심으로 (Research on Transformer-Based Approaches for MBTI Classification Using Social Network Service Data)

  • 정재준;임희석
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.529-532
    • /
    • 2023
  • 본 논문은 소셜 네트워크 이용자의 텍스트 데이터를 대상으로, 트랜스포머 계열의 언어모델을 전이학습해 이용자의 MBTI 성격 유형을 분류한 국내 첫 연구이다. Kaggle MBTI Dataset을 대상으로 RoBERTa Distill, DeBERTa-V3 등의 사전 학습모델로 전이학습을 해, MBTI E/I, N/S, T/F, J/P 네 유형에 대한 분류의 평균 정확도는 87.9181, 평균 F-1 Score는 87.58를 도출했다. 해외 연구의 State-of-the-art보다 네 유형에 대한 F1-Score 표준편차를 50.1% 낮춰, 유형별 더 고른 분류 성과를 보였다. 또, Twitter, Reddit과 같은 글로벌 소셜 네트워크 서비스의 텍스트 데이터를 추가로 분류, 트랜스포머 기반의 MBTI 분류 방법론을 확장했다.

  • PDF

멀티모달 특징 결합을 통한 감정인식 연구 (The Research on Emotion Recognition through Multimodal Feature Combination)

  • 김성식;양진환;최혁순;고준혁;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.739-740
    • /
    • 2024
  • 본 연구에서는 음성과 텍스트라는 두 가지 모달리티의 데이터를 효과적으로 결합함으로써, 감정 분류의 정확도를 향상시키는 새로운 멀티모달 모델 학습 방법을 제안한다. 이를 위해 음성 데이터로부터 HuBERT 및 MFCC(Mel-Frequency Cepstral Coefficients)기법을 통해 추출한 특징 벡터와 텍스트 데이터로부터 RoBERTa를 통해 추출한 특징 벡터를 결합하여 감정을 분류한다. 실험 결과, 제안한 멀티모달 모델은 F1-Score 92.30으로 유니모달 접근 방식에 비해 우수한 성능 향상을 보였다.