• 제목/요약/키워드: 텍스트분석

검색결과 2,641건 처리시간 0.03초

검색엔진 성능의 정량적 분석

  • 조석팔
    • 정보학연구
    • /
    • 제1권2호
    • /
    • pp.55-63
    • /
    • 1998
  • 본 논문은 웹 상에서 하이퍼텍스트 문서의 정보 검색에 있어서 검색에 요구되는 질의어에 따른 검색 결과가 주제에 따른 관련성을 측정하며, 하이퍼텍스트 문서가 링크되는 문서 상호간의 유사성에 대하여 정량화를 시도함으로써 검색 엔진의 성능분석을 제시한다.

  • PDF

다중 인스턴스 학습 기반 사용자 프로파일 식별 (Discriminating User Attributes in Social Text based on Multi-Instance Learning)

  • 송현제;김아영;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.47-52
    • /
    • 2012
  • 본 논문에서는 소셜 네트워크 서비스에서 사용자가 작성한 텍스트로부터 그 사용자 프로파일 식별하는 문제를 다룬다. 프로파일 식별 관련 기존 연구에서는 개별 텍스트를 하나의 학습 단위로 간주하고 이를 기반으로 학습 모델을 구축한다. 프로파일을 식별하고자 하는 사용자의 텍스트들이 주어지면 각 텍스트마다 프로파일을 식별하고, 식별된 결과들을 합쳐 최종 프로파일로 선택한다. 하지만 SNS 특성상 프로파일을 식별하는 데에 영향을 끼치지 않는 텍스트들이 다수 존재하며, 기존 연구들은 이 텍스트들을 특별한 처리없이 학습 및 테스트에 사용함으로 인해 프로파일 식별 성능이 저하되는 문제점이 있다. 본 논문에서는 다중 인스턴스 학습(Multi-Instance Learning)을 기반으로 사용자 프로파일을 식별한다. 제안한 방법은 사용자가 작성한 텍스트 전체, 즉 텍스트 집합을 학습 단위로 간주하고 다중 인스턴스 학습 문제로 변환하여 프로파일을 식별한다. 다중 인스턴스 학습을 사용함으로써 프로파일 식별에 유의미한 텍스트들만이 고려되고 그 결과 프로파일 식별에 영향을 끼치지 않는 텍스트로부터의 성능 하락을 최소화할 수 있다. 실험을 통해 제안한 방법이 기존 학습 방법보다 성별, 나이, 결혼/연애 상태를 식별함에 있어서 더 좋은 성능을 보인다.

  • PDF

텍스트 마이닝을 위한 그래프 기반 텍스트 표현 모델의 연구 동향 (A Study on Research Trends of Graph-Based Text Representations for Text Mining)

  • 장재영
    • 한국인터넷방송통신학회논문지
    • /
    • 제13권5호
    • /
    • pp.37-47
    • /
    • 2013
  • 텍스트 마이닝은 비정형화된 텍스트를 분석하여 그 안에 내재된 패턴, 추세, 분포 등의 고급정보들을 추출하는 분야이다. 텍스트 마이닝은 기본적으로 비정형 데이터를 가정하므로 텍스트를 단순화된 모델로 표현하는 것이 필요하다. 현재까지 가장 많이 사용되고 있는 모델은 텍스트를 단순한 단어들의 집합으로 표현한 벡터공간 모델이다. 그러나 최근 들어 단어들의 의미적 관계까지 표현하기 위해 그래프를 이용한 텍스트 표현 모델을 많이 사용하고 있다. 본 논문에서는 텍스트 마이닝을 위한 기존의 연구 중에서 그래프에 기반한 텍스트 표현 모델의 방법들과 그들의 특징들을 기술한다. 또한 그래프 기반 텍스트 마이닝의 향후 발전방향에 대해서도 논한다.

한글 하이퍼텍스트 자동변환시스팀의 설계 및 구현 (The Design & Implementation of Korean Hypertext Automatic Translator)

  • 안병익;김재군;김영환
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.91-98
    • /
    • 1993
  • 하이퍼텍스트는 문서검색 전산화의 새로운 대안을 제시하고 있으나 저작에 많은 시간과 노력이 요구되는 단점이 있다. 본 연구에서는 기존의 한글문서를 하이퍼텍스트 문서로 자동 변환하는 변환시스팀을 설계, 구현하였다. 문서는 사용자가 제공한 부제목형식의 정규표현식(regular expression)으로부터 논리적 구조가 분석되며 문서분할, 형태소분석, 대표카드결정 및 링크생성의 과정을 거쳐 하이퍼텍스트 문서로 변환된다. 시험운용 결과 본 시스팀은 대량의 한글문서를 적은 노력으로 실용성있는 하이퍼텍스트 문서로 자동 변환할 수 있음을 입증하였다.

  • PDF

이해랑의 리얼리즘과 연출 관점에 대한 소고 - 텍스트 "햄릿" 공연 연출을 중심으로 - (A Study on Lee Hae-Rang's Realism and Direction Standpoint - Focusing on The Performance Direction of Text "Hamlet" -)

  • 안장환
    • 공연문화연구
    • /
    • 제22호
    • /
    • pp.327-370
    • /
    • 2011
  • 셰익스피어의 텍스트 "햄릿"이 한국에 최초에 소개된 것은 현철에 의해 1920대 초 『개벽』지를 통해서였다. 그러나 본격적인 전막 공연이 이루어진 것은 한국전란 중이던 1951년 9월 대구 키네마극장에서 이해랑연출(한로단 번역)에 의해서였으며, 이후 196, 70년대와 8, 90년대를 통하여 수많은 공연예술가와 공연집단에 의하여 다양한 공연이 이루어져 왔다. 이에 본고에서는 한국의 셰익스피어 텍스트 "햄릿" 공연사에 나타나는 수많은 공연 예술가와 공연들 중에서 1950년대 이후 한 축을 이루었던 이해랑의 텍스트 "햄릿"에 대한 연출관점을 분석 고찰하고자 한다. 이를 위하여 이해랑이 연출한 공연 중에서 1951년 텍스트 "햄릿" 공연을 중심으로 1962년 드라마센터 개관공연, 1985년과 1989년 호암 아트홀공연의 공연대본과 공연비평 등을 참고하여 먼저, 2장에서는 그의 일생의 연극 활동에 바탕이 되었던 리얼리즘의 개념과 그의 리얼리즘에 대한 관점 및 배경을 살펴보고, 3장에서는 그의 텍스트 "햄릿"에 대한 연출관점 분석에 앞서 텍스트의 전통적 개념과 현대적 개념을 개괄하면서, 텍스트에 대한 다양한 관점과 견해를 분석하여 이를 바탕으로 그의 연출관점을 분석 고찰함으로써 이해랑연출의 셰익스피어 텍스트"햄릿" 한국공연사적 위치와 공연미학 논의 단초를 제시하고자 한다.

최소 형태소 정보를 이용한 자동 발음열 생성 시스템 (Automatic Pronunciation Generation System Using Minimum Morpheme Information)

  • 김선희;안주은;김순협
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 추계학술발표대회(상)
    • /
    • pp.216-219
    • /
    • 2003
  • 본 논문은 최소한의 형태소 정보를 이용한 자동 발음열 생성 시스템을 제안한다 일반적으로 발음열 생성 시스템은 입력된 문장에 대하여 형태소 단위로 분석한 다음, 각 형태소와 형태소의 결함 관계를 고려한 음운 규칙을 적용함으로써 상응하는 발음열을 생성한다. 지금까지의 연구는 이러한 발음열 생성시의 형태소 분석에 관하여 그 범위에 관한 연구 없이, 가능한 최대한의 분석을 상정하고 있다. 본 논문은 한국어 음운현상을 체계적인 텍스트 분석을 통하여 모든 형태론적 음운론적인 환경에서 가능한 모든 음운현상을 분류하여 발음열 생성시에 실제로 필요한 형태소 분석의 범위를 규명하는 것을 그 목적으로 한다. 음운 현상을 분석하기 위해 사용한 텍스트 자료로는 어휘가 중복되지 않으면서도 많은 종류의 어휘가 수록된 5만 여 어휘의 연세한국어사전과 2200 여 개의 어미와 조사를 수록한 어미조사사전을 이용하였다. 이와 같이 텍스트를 분석한 결과, 음운현상은 규칙적인 음운 현상과 불규칙적인 음운현상으로 나뉘는데, 이 가운데 형태소 정보가 필요한 형태음운규칙으로는 두 가지가 있으며, 이러한 형태음운규칙을 위한 형태소 분석의 범위로는 세세한 분류를 필요로 하지 않는 최소한의 정보로 가능함을 보인다. 이러한 체계적인 분석을 기반으로 제안하는 자동 발음열 생성 시스템은 형태음운규칙과 예외규칙, 그리고 일반음운 규칙으로 구성된다. 본 시스템에 대한 성능 실험은 PBS 1637 어절과 ETRI 텍스트 DB 19만 여 어절을 이용하여 99.9%의 성능결과를 얻었다.

  • PDF

온라인 고객리뷰 분석을 통한 시장세분화에 텍스트마이닝 기술을 적용하기 위한 방법론 (Methodology for Applying Text Mining Techniques to Analyzing Online Customer Reviews for Market Segmentation)

  • 김근형;오성열
    • 한국콘텐츠학회논문지
    • /
    • 제9권8호
    • /
    • pp.272-284
    • /
    • 2009
  • 본 논문에서는 텍스트마이닝 기술을 이용하여 온라인 고객리뷰를 분석하기 위한 방법론을 제안하였다. 온라인 고객리뷰를 보다 효율적이고 효과적으로 분석할 수 있도록 시장세분화의 개념을 도입하였다. 즉, 제안한 방법론은 텍스트마이닝 분야에서 시장세분화의 개념에 부응하는 기술들이라 할 수 있는 범주화와 정보추출 기법의 사용을 포함한다. 특히, 통계적으로 보다 견고한 분석결과를 도출할 수 있도록 전통적 통계분석기법중의 하나인 교차분석방법을 제안하는 방법론에 포함하였다. 제안한 방법론의 타당성을 확인하기 위하여 양질의 온라인 고객리뷰가 있는 웹사이트를 선정하여 실제로 온라인 고객리뷰들을 분석하여 보았다.

정보처리 관점에서의 서사 텍스트 분석에 관한 연구 - 네 가지 전산적 방법론을 중심으로 (A study on narrative text analysis from the perspective of information processing - focusing on four computational methodologies)

  • 권호창
    • 트랜스-
    • /
    • 제13권
    • /
    • pp.141-169
    • /
    • 2022
  • 서사 텍스트에 대한 분석은 학술적으로나 실용적으로 중요하게 여겨져 왔으며 여러 관점과 방법으로 이루어져 왔다. 이 논문에서는 정보처리 관점에서의 전산적 서사 분석 방법론을 살펴보았다. 정보처리 관점에서 서사의 창작과 수용은 서사 텍스트에 의해 매개된 양방향적 코딩 과정이고, 서사 텍스트는 다층적으로 구조화된 코드라고 할 수 있다. 이 논문에서는 이런 관점을 공유하는 네 가지 방법론 - 캐릭터 네트워크 분석, 텍스트 마이닝과 감성 분석, 사건 구성의 연속성 분석, 서사 에이전트의 지식 분석 -을 사례와 함께 살펴보았다. 이를 통해 서사 분석에 있어 전산적 방법론의 메커니즘과 가능성을 확인하였다. 결론에서는 전산적 서사 분석의 의의와 부작용을 살펴보고, 인문학과 과학기술 통섭에 바탕한 인간-컴퓨터 협업 모델 설계의 필요성을 논의하였다. 이를 통해 미적으로 창의적이고, 윤리적으로 선하며, 정치적으로 진보적이고, 인지적으로 정교한 서사를 보다 효과적으로 만들어 나갈 수 있음을 주장하였다.

북한 도서관잡지 『도서관일군 참고자료』의 텍스트 네트워크 분석 (A Text Network Analysis of North Korean Library Journal, 『Reference Materials for Librarian』)

  • 이성신;김현숙;백수민;윤수빈;최재황
    • 한국도서관정보학회지
    • /
    • 제53권3호
    • /
    • pp.169-191
    • /
    • 2022
  • 본 연구의 목적은 북한의 도서관운영방법연구소가 간행한 2년간의 『도서관일군 참고자료』(2016~2017)를 대상으로 텍스트 네트워크 분석을 시도해 보는데 있다. 텍스트 네트워크 분석은 단순 단어의 빈도분석을 뛰어넘어 단어 간의 연결성과 관계성을 파악하여 특정 단어가 얼마나 중요한 위치를 차지하는지를 측정할 수 있으며, 특정 사회현상에 대한 해석과 시사점 도출도 가능하다, 본 연구에서는 용어의 빈도분석, 연결중심성 분석, 매개중심성 분석, 군집분석을 통한 분석이 이루어졌다. 『도서관일군 참고자료』의 텍스트 네트워크 분석 결과 북한의 도서관을 이해하는데 있어서 가장 중요한 용어들은 '리용자', '정보봉사', '정보요구', '정보기술', '과학기술', '사회적학습', '콤퓨터', '자료기지', '정보수집', '정보검색', '도서관일군' 등의 순으로 나타났다.

블룸 필터를 이용한 감성 웹 문서 크롤링 알고리즘 (A Bloom filter-based Sentiment-aware Web Crawling Algorithm)

  • 나철원;온병원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.69-74
    • /
    • 2018
  • 최근 빅 데이터와 인공지능의 발달과 함께 감성 분석에 대한 연구가 활발해지고 있다. 더불어 감성 분석을 위한 긍/부정 어휘가 풍부한 텍스트 문서들에 대한 수집의 필요성도 높아지고 있다. 본 논문은 긍/부정어휘가 풍부한 텍스트 문서들을 수집하는 기존의 수집 방법에 대한 문제점에 대하여 해결방안을 제시한다. 기존의 수집 방법으로 일단 모든 URL들을 저장하고 필터링 과정을 거쳐 긍/부정 어휘가 풍부한 텍스트 문서들을 수집하고자 한다면 불필요한 텍스트 문서 저장과 필터링 과정에서 메모리와 시간을 낭비하게 된다. 기존의 수집 방법에 블룸 필터라는 자료구조를 적용시켜 메모리와 시간을 낭비하게 되는 문제점을 해결하고자 한다.

  • PDF