• 제목/요약/키워드: 텍스트 데이터

검색결과 1,778건 처리시간 0.032초

인터넷을 이용한 하이퍼텍스트 기반 서지정보검색 시스템에 관한 연구 (A Study on Hypertext-based Bibliographic Information Retrieval System Using Internet)

  • 박지연
    • 정보관리학회지
    • /
    • 제12권2호
    • /
    • pp.171-192
    • /
    • 1995
  • 본 연구는 하이퍼텍스트에 기반을 둔 서지정보검색 시스템을 구현하여 하이퍼텍스트 시스템이 구조화된 서지데이터의 브라우징 및 검색에 유용함을 보여주었고, 키워드검색기법을 적용하여 이용자의 방향상실문제를 보완하였다. 또한 WWW를 이용하여 시스템을 구현함으로써, 본 시스템의 장점 및 잠재력을 제시하였다.

  • PDF

텍스트마이닝을 활용한 빅데이터 기반의 디지털 트랜스포메이션 연구동향 파악 (Identifying Research Trends in Big data-driven Digital Transformation Using Text Mining)

  • 김민준
    • 스마트미디어저널
    • /
    • 제11권10호
    • /
    • pp.54-64
    • /
    • 2022
  • 빅데이터 기반의 디지털 트랜스포메이션은 데이터 및 데이터 관련 기술을 통해 기업의 성과 향상, 조직 변화, 사회 공헌 등의 목적 달성을 위해 수행하는 혁신적 프로세스를 의미한다. 성공적인 빅데이터 기반의 디지털 트랜스포메이션을 위해서는 관련 연구 현황, 주요 연구토픽, 주요 연구토픽 간의 관계를 이해하는 것이 필수적이다. 그러나 여러 연구들의 서로 다른 관점 및 이들 간 연계 가능성에 대해 이해하려는 노력은 아직 미진하다. 본 논문은 텍스트마이닝을 활용하여 관련 연구동향을 분석하고, 여러 연구의 다양한 관점을 통합적으로 이해하기 위한 기반 마련을 시도해보았다. Web of Science Core Collection에서 추출한 439편의 논문을 분석하여, 10개의 주요 연구토픽을 도출하였고, 이들 간의 관계를 분석하였다. 본 연구의 결과가 빅데이터 기반의 디지털 트랜스포메이션에 대한 통합적인 이해를 촉진하고, 성공을 위한 방향성 모색에 기여할 것으로 기대한다.

텍스트 마이닝과 네트워크 군집 분석을 활용한 한국의 데이터 관련 정책사업 분석 (Analyzing data-related policy programs in Korea using text mining and network cluster analysis)

  • 최성준;신기윤;오윤환
    • 한국산업정보학회논문지
    • /
    • 제28권6호
    • /
    • pp.63-81
    • /
    • 2023
  • 본 연구는 우리나라 데이터 관련 정책사업에 대한 텍스트 정보를 기반으로 네트워크 군집 분석을 통해 유사한 사업들을 분류하고 유형화하였다. 이를 위해 2022년에 우리나라에서 추진된 데이터 관련 재정사업 설명자료를 수집하고 사업 내용으로부터 키워드를 추출, TF-IDF로 각 사업 간 유사도를 도출하였으며, 이를 기반으로 정책사업 네트워크를 구축하였다. 이후 정책사업 네트워크의 구조적 특징을 분석하고, 네트워크 군집 분석을 통해 유사한 정책사업들을 군집화하여 유형화 하였다. 총 97개의 사업을 분석한 결과, 7개의 주요 군집이 식별되었으며, 이를 통해 비슷한 주제나 목표를 가진 사업들이 응용 분야 혹은 데이터가 활용되는 서비스 관점에서 유형화가 이루어진 것을 확인하였다. 본 연구의 결과는 현재 우리나라 데이터 관련 정책사업의 현황을 보여줌과 동시에 향후 국가데이터전략 수립 및 사업 기획에 있어서 전략적 접근을 위한 정책적 시사점을 제공하며 증거기반 정책 확립에 기여한다.

오토인코더와 적대 네트워크를 활용한 한국어 문체 변환 (Style Transfer in Korean Text using Auto-encoder and Adversarial Networks)

  • 양기수;이동엽;이찬희;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.658-660
    • /
    • 2018
  • 인공지능 산업이 발달함에 따라 사용자의 특성에 맞게 상호작용하는 기술에 대한 수요도 증가하고 있다. 하지만 텍스트 스타일 변환의 경우 사용자 경험을 크게 향상시킬 수 있는 기술임에도 불구하고, 학습에 필요한 병렬 데이터가 부족하여 모델링과 성능 개선에 어려움을 겪고 있다. 이에 따라 본 논문에서는 비 병렬 데이터만으로 텍스트 스타일 변환이 가능한 선행 모델[1]을 기반으로, 한국어에 적합한 문장 표현 방식 및 성능 개선을 위한 임의 도메인 예측 기법이 적용된 모델을 제안한다.

  • PDF

객체지향 개념을 기반으로한 하이퍼텍스트 데이터 모델 (An Extended Hypertext Data Model based on Object-Oriented Praradigm)

  • 이재무;임해철
    • 한국통신학회논문지
    • /
    • 제19권9호
    • /
    • pp.1680-1691
    • /
    • 1994
  • 본 논문은 기존의 하이퍼텍스트 시스템의 문제점을 모델링 능력 미약 및 방향상실(lost in hyperspace. Disorientation)문제를 최소화 하기 위하여 데이터 모델을 확장하고 이 확장된 모델이 객체지향 데이타베이스 시스템에서 표현되는 방법을 BNF 정의를 사용하여 형식화하였다. 본 제안 모델은 모델링 능력 향상 및 개념적 항해를 위하여 링크에 의미를 부여하고, 노드와 링크를 기능에 따라 여러 타입으로 분류하여 효율적인 항해가 되도록 하였으며, 하이퍼텍스트 시스템에서 가장 문제가 되는 방향상실 문제를 방지하기 위하여 구조를 강화시키는 방법과 지능적인 항해 방법을 제안하였다.

  • PDF

텍스트마이닝 기법과 구글데이터를 이용한 질병관련 유전자 식별 (Disease related Gene Identification Using Literature and Google data)

  • 김정우;김현진;박상현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1084-1087
    • /
    • 2013
  • 텍스트마이닝은(Text mining) 바이오분야에서 사용되는 도구 중 하나이다. 본 논문에서는 전립선암(Prostate cancer)과 관련된 질병 유전자(Disease gene)를 찾기 위해 텍스트마이닝을 이용하여 유전자 네트워크(Gene-network)를 구축하였다. 추가적으로 구글(Google) 검색을 통해 네트워크 내의 유전자 노드(Node)들 사이의 간선(Edge)에 새로운 가중치(Weight)를 추가하고 네트워크를 재구성하였다. 구축된 네트워크에서 노드와 노드 사이의 가중치를 기반으로 전립선암과 관련된 질병 유전자를 추출하였다. 본 논문의 방법은 성공적으로 네트워크를 구축하고 질병 유전자를 찾았으며, 구글 데이터를 사용하지 않고 네트워크를 구축하는 경우보다 더 높은 정확성을 입증했다.

요약문 기반 문학 스타일 문장 생성 (Generating Literature-Style Sentences based on Summarized Text )

  • 최부광;이은찬;안상태
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.67-70
    • /
    • 2022
  • 최근 자연어 생성 연구는 딥러닝 기반의 사전 학습 모델을 중심으로 활발하게 연구되고 있다. 하위 분야 중 하나인 텍스트 확장은 입력 텍스트를 출력에 잘 반영하는 것이 무엇보다도 중요하다. 기존 한국어 기반 텍스트 확장 연구의 경우 몇 개의 개념 집합에 기반해 문장을 생성하도록 한다. 그러나 이는 사람의 실제 발화 길이에 비해 짧고 단순한 문장만을 생성한다는 문제점이 존재한다. 본 논문은 이러한 문제점을 개선하면서 문학 스타일의 문장들을 생성하는 모델을 제안하였다. 또한 동일 모델에 대해 학습 데이터의 양에 따른 성능도 비교하였다. 그 결과, 짧은 요약문을 통해 문학 스타일의 여러 문장들을 생성하는 것을 확인하였고, 학습 데이터를 추가한 모델이 성능이 더 높게 나타나는 것을 확인하였다.

  • PDF

VL-KE-T5: 한국어와 영어로 구성된 영상-언어 병렬 데이터를 이용한 대조학습 기반 사전학습모델 구축 (VL-KE-T5: A contrastive learning-based pre-trained model using image-language parallel data composed of Korean and English)

  • 김산;신사임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.337-342
    • /
    • 2022
  • 본 논문은 한국어-영어 기반 영상-언어 모델인 VL-KE-T5를 소개한다. VL-KE-T5는 영상-텍스트 쌍으로 구성된 한국어와 영어 데이터 약 2천 3백만개를 이용하여 영상-언어 모델의 임베딩 벡터들을 정렬시킨 사전학습모델이며, 미세조정을 통하여 여러 영상-언어 작업에 활용할 할 수 있다. VL-KE-T5는 텍스트 기반 영상 검색 작업에서 높은 성능을 보였으나, 세세한 속성을 가진 여러 객체들의 나열이나 객체 간 관계를 포함한 텍스트 기반 영상 검색에서는 비교적 낮은 성능을 보였다.

  • PDF

논문 데이터베이스에서의 LDA 기반 텍스트 유사도 계산 방안 (LDA-based Text Similarity in Scientific Literature Databases)

  • 엄태환;윤석호;배덕호;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1247-1248
    • /
    • 2011
  • 본 논문에서는 기존의 LDA 기반 유사도 계산 방안의 논문 데이터에 대한 적합성을 검증한다. 실제 논문 데이터를 이용해 기존텍스트 유사도 계산 방안과 LDA 기반 유사도 계산 방안의 정확도를 비교 함으로써 논문 데이터베이스에서의 LDA 기반 텍스트 유사도 계산 방안의 유용성을 검증한다.

워드 임베딩 기반 연구 논문 분류 기법 (Research Paper Classification Scheme based on Word Embedding)

  • 비스와스 딥또;길준민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.494-497
    • /
    • 2021
  • 텍스트 분류(text classification)는 원시 텍스트 데이터로부터 정보를 추출할 수 있는 기술에 기반하여 많은 양의 텍스트 데이터를 관심 영역으로 분류하는 것으로 최근에 각광을 받고 있다. 본 논문에서는 워드 임베딩(word embedding) 기법을 이용하여 특정 분야의 연구 논문을 분류하고 추천하는 기법을 제안한다. 워드 임베딩으로 CBOW(Continuous Bag-of-Word)와 Sg(Skip-gram)를 연구 논문의 분류에 적용하고 기존 방식인 TF-IDF(Term Frequency-Inverse Document Frequency)와 성능을 비교 분석한다. 성능 평가 결과는 워드 임베딩에 기반한 연구 논문 분류 기법이 TF-IDF에 기반한 연구 논문 분류 기법보다 좋은 성능을 가진다는 것을 나타낸다.