• Title/Summary/Keyword: 텍스트 함의

검색결과 542건 처리시간 0.022초

태그 서열 위치와 경사 부스팅을 활용한 한국어 웹 본문 추출 (Korean Web Content Extraction using Tag Rank Position and Gradient Boosting)

  • 모종훈;유재명
    • 정보과학회 논문지
    • /
    • 제44권6호
    • /
    • pp.581-586
    • /
    • 2017
  • 웹 문서를 자동으로 수집하면 대량의 정보를 손쉽게 모을 수 있다. 이러한 정보 수집 과정을 위해 웹 문서에서 메뉴, 광고 등 불필요한 정보를 제거하고 본문을 자동으로 추출할 필요가 있다. 특히 한국어 웹문서는 영어권과 달리 메타데이터가 포함된 경우가 드물고 디자인이 복잡하여 한국어 웹에 맞는 자동 본문 추출 방법이 필요하다. 기존의 본문 추출 방법은 주로 본문 블록의 문자적, 구조적 특성을 활용한다. 시각적 특성을 처리하기 위해서는 렌더링, 이미지 처리 등에 많은 계산이 필요하기 때문이다. 이 논문에서는 HTML에서 태그 위치를 준-시각적 특성으로 활용한 새로운 본문 추출 방법을 제시한다. 태그 위치는 텍스트의 길이에 따라 가변적이기 때문에 태그 서열 위치라는 특성을 개발하였고, 이를 경사 부스팅과 함께 이용하면 정확한 본문 추출이 가능함을 보인다. 본 논문의 연구 결과는 텍스트 분석에 필요한 양질의 문서 자료를 다양한 형태의 웹페이지에서 자동으로 수집하는 데에 쓰일 수 있다.

깊은 신경망 기반 대용량 텍스트 데이터 분류 기술 (Large-Scale Text Classification with Deep Neural Networks)

  • 조휘열;김진화;김경민;장정호;엄재홍;장병탁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권5호
    • /
    • pp.322-327
    • /
    • 2017
  • 문서 분류 문제는 오랜 기간 동안 자연어 처리 분야에서 연구되어 왔다. 우리는 기존 컨볼루션 신경망을 이용했던 연구에서 나아가, 순환 신경망에 기반을 둔 문서 분류를 수행하였고 그 결과를 종합하여 제시하려 한다. 컨볼루션 신경망은 단층 컨볼루션 신경망을 사용했으며, 순환 신경망은 가장 성능이 좋다고 알려져 있는 장기-단기 기억 신경망과 회로형 순환 유닛을 활용하였다. 실험 결과, 분류 정확도는 Multinomial Naïve Bayesian Classifier < SVM < LSTM < CNN < GRU의 순서로 나타났다. 따라서 텍스트 문서 분류 문제는 시퀀스를 고려하는 것 보다는 문서의 feature를 추출하여 분류하는 문제에 가깝다는 것을 확인할 수 있었다. 그리고 GRU가 LSTM보다 문서의 feature 추출에 더 적합하다는 것을 알 수 있었으며 적절한 feature와 시퀀스 정보를 함께 활용할 때 가장 성능이 잘 나온다는 것을 확인할 수 있었다.

교정사전과 신문기사 말뭉치를 이용한 한국어 철자 오류 교정 모델 (A Spelling Error Correction Model in Korean Using a Correction Dictionary and a Newspaper Corpus)

  • 이세희;김학수
    • 정보처리학회논문지B
    • /
    • 제16B권5호
    • /
    • pp.427-434
    • /
    • 2009
  • 인터넷 및 모바일 환경의 빠른 발전과 함께 신조어나 줄임말과 같은 철자 오류들을 포함하는 텍스트들이 활발히 통용되고 있다. 이러한 철자 오류들은 텍스트의 가독성을 떨어뜨림으로써 자연어처리 응용들을 개발하는데 걸림돌이 된다. 이러한 문제를 해결하기 위해서 본 논문에서는 철자오류 교정사전과 신문기사 말뭉치를 이용한 철자 오류 교정 모델을 제안한다. 제안 모델은 구하기 쉬운 신문기사 말뭉치를 학습 말뭉치로 사용하기 때문에 데이터 구축비용이 크지 않다는 장점이 있다. 또한 교정사전 기반의 단순 매칭 방법을 사용하기 때문에 띄어쓰기 교정 시스템이나 형태소 분석기와 같은 별도의 외부 모듈이 필요 없다는 장점이 있다. 신문기사 말뭉치와 실제 휴대폰에서 수집한 문자 메시지 말뭉치를 이용한 실험 결과, 제안 모델은 다양한 평가 척도에서 비교적 높은 성능(오교정률 7.3%, F1-척도 97.3%, 위양성율 1.1%)을 보였다.

텍스트, 이미지, 동영상 UCC 채택에 영향을 미치는 요인에 관한 연구 (Investigating Factors Affecting Text, Image, and Video UCC Adoption)

  • 장병희;이양환
    • 한국언론정보학보
    • /
    • 제48권
    • /
    • pp.280-305
    • /
    • 2009
  • 최근 UCC 채택과 이용에 대한 연구가 많이 진행되고 있으나 수용자의 능동성이라는 UCC의 가장 큰 특징을 구체적으로 개념화하여 측정한 연구는 많지 않다. 이 연구는 수용자의 능동적 참여를 구체적으로 개념화한 후 기존 연구의 틀과 통합하여 UCC의 채택과 이용에 영향을 미치는 요인을 분석함으로써 UCC 연구의 이론적 확장을 시도하였다. 기존의 개혁확산이론과 확장된 기술수용모델에 자기표현(self-expression)과 창조적인 예술활동(artistic activity)과 관련한 변인들을 추가적으로 포함시켜 대학생들의 텍스트, 이미지, 그리고 동영상 UCC 채택에 관한 영향요인을 분석했다. 회귀분석과 경로분석을 통해서 기존 연구들에서 제시된 변인들의 유의미성과 함께, 현실에서 자신의 표현에 서투른 사람들일수록 UCC에 대한 호의적 태도를 형성하기 쉽고, 자기표현이라는 행위가 옳고 더 많은 자유가 보장되어야 한다는 강한 신념이 자유로운 의사표현의 장인 UCC에 대한 호의적인 태도로 연결되고 있음을 알 수 있었다. 또한, 예술활동에 관심이 많은 사람일수록 UCC 제작 활동에 더 활발히 참여하고, 본인의 예술적 재능이나 예술활동에 자신이 있는 사람이 UCC 제작에 참여할 가능성이 크다는 사실 역시 확인할 수 있었다.

  • PDF

SNS를 통한 군(軍)의 위기관리 커뮤니케이션 전략 :메시지 형태가 장병의 위기 인식에 미치는 영향을 중심으로 (The Effect of Military Crisis Management Communication on a Social Network Service :Focusing on the effect of message form on the crisis perception of soldiers)

  • 김태웅;양종훈;이상은
    • 한국콘텐츠학회논문지
    • /
    • 제19권11호
    • /
    • pp.102-110
    • /
    • 2019
  • 군은 국민의 신뢰를 근간으로 운용된다는 측면에서 위기 발생 시 외부공중의 반응에 매우 민감하게 대처한다. 하지만 군 조직은 다른 여타 조직과 다르게 내부공중인 장병이 군 복무를 통해 군을 체험하고 전역 후 조직을 평가하는 외부공중이 된다는 특수성을 갖고 있다. 따라서 군의 위기상황 관리 측면에서 내부공중인 장병을 대상으로 한 효과적인 위기 커뮤니케이션 전략이 무엇인지 살펴볼 필요가 있다. 따라서 본 연구는 현재군 복무 중인 장병들의 미디어 이용행태를 고려해 SNS에서 전달되는 위기관리 메시지 형태(디지털이미지 메시지 vs.텍스트 메시지)가 장병들의 군 조직의 위기에 대한 인식, 메시지 수용도, 그리고 군에 대한 태도에 영향을 미치는지 살펴보았다. 실험 결과 디지털이미지 메시지에 노출된 집단이 텍스트 메시지에 노출된 집단보다 군의 위기대응 메시지를 수용하는 정도가 높은 것으로 나타났다. 본 연구 결과를 바탕으로 군의 위기관리 커뮤니케이션 전략에 대한 실무적 함의를 제공했다.

공공도서관 모바일 웹 접근성 평가에 관한 연구 (A Study on the Evaluation of the Mobile Web Accessibility of Public Library Services)

  • 박옥남
    • 한국문헌정보학회지
    • /
    • 제48권1호
    • /
    • pp.415-439
    • /
    • 2014
  • 본 연구는 공공도서관 모바일 웹의 접근성 현황을 파악하고 이에 대한 개선방안을 제시하고자 하였다. 이를 위해 모바일 앱과 웹 지침에 따라 접근성 체크리스트를 도출하고, 자동평가와 수동평가를 통해 접근성 현황을 조사하였다. 연구결과, 대체텍스트는 검색결과 도서 이미지 안내, 메인메뉴, 텍스트 대신 이미지 제공에서 가장 많이 미준수 현황을 보였으며, 초점은 검색 및 검색결과에서, 운영체제 접근성은 검색어 입력창 레이블 및 아이디, 패스워드 입력창에서, 색에 무관한 인식은 좌석현황 및 도서관일정, 명도대비는 메인메뉴 및 서지사항에서, 컨트롤 간 충분한 간격은 자료검색 필드 간 간격 및 메인검색창에서 미준수 현황이 주로 나타났다. 이와 함께 연구결과로 모바일 도서관 주요 서비스별로 정리하여, 향후 도서관 모바일 웹 서비스 구축에 활용하고자 하였다.

텍스트 내용 지식 기반의 철학 온톨로지 구축 (Implementation a Philosophy Ontology based on Knowledge of Text Contents)

  • 김정민;최병일;김형주
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제11권3호
    • /
    • pp.275-283
    • /
    • 2005
  • 시맨틱 웹이나 지식기반 시스템에서 지식 검색의 핵심 컴포넌트는 온톨로지이다. 하지만 현재 실용적인 온톨로지가 구축된 경우를 찾아보기는 어렴다. 실용적인 온톨로지 구축을 위해서는 특정 도메인의 지식 전문가에 의한 지식의 개념화와 온톨로지 설계자에 의한 지식의 명세화가 필요하며 이를 바탕으로 개발 팀원들 사이에 공유할 수 있는 자세한 온톨로지 생성 가이드라인이 필요하다. 그러나 기존의 온톨로지 생성 방법론은 은톨로지 구축 프로세스의 단계들을 상위 수준에서 나열하는 절차 중심의 방법론이다 본 논문에서는 철학 학문의 지식을 구조화하는 실용적인 온톨로지를 구축하는 방법으로서 텍스트 내용에 들어있는 지식을 온톨로지로 생성하는 토픽맵 기반의 덱스트 온톨로지 방법론을 제시하였다. 이 방법론은 지식 자원으로부터 지식을 분석하고 추출하는 온톨로지 모델링 단계와 형식 언어와 데이타 모델을 이용하여 온톨로지를 생성하는 온톨로지 구현 단계로 구성된다. 방법론과 함께 본 논문에서는 철학 온톨로지에 기반한 철학 지식 검색의 효율성을 보이기 위해 철학 지식 포털을 구현하였다.

SNS 데이터 분석을 기반으로 인공지능에 대한 인식 변화 비교 분석 (A SNS Data-driven Comparative Analysis on Changes of Attitudes toward Artificial Intelligence)

  • 윤유동;양영욱;임희석
    • 디지털융복합연구
    • /
    • 제14권12호
    • /
    • pp.173-182
    • /
    • 2016
  • 인공지능은 현재의 컴퓨팅시스템 성능한계를 극복하고 컴퓨팅 환경을 발전시켜 다양한 분야의 기술 발전을 위한 핵심 기술로서 주목받고 있다. 이에 세계 국가들은 물론이고, 국내에서도 인터넷 기업을 중심으로 사업화 기술개발이 이루어지고 있다. 정부 역시 인공지능 기술 개발을 위해 다양한 지원을 아끼지 않고 있으며, 이에 따른 기술의 발전으로 인공지능에 대한 관심이 증폭되고 있다. 그러나 긍정적인 시각과 부정적인 시각이 공존하고 있는 인공지능 분야에서 사람들의 의견을 분석하는 연구는 매우 부족한 실정이다. 이에 따라 본 연구에서는 텍스트 마이닝 기법을 활용하여 SNS (Social Networking Service)에서 수집된 인공지능에 대한 사람들의 의견 데이터를 연도별로 비교 분석하여 수집된 데이터에 대한 긍정, 부정 여부와 함께 연도별 키워드를 확인하였다. 분석 결과, 국내 인공지능 분야의 연도별 키워드를 확인하였으며, 시간의 흐름에 따라 인공지능에 대해 부정적인 의견이 증가하는 것을 확인하였다. 그리고 이러한 비교분석 결과를 기반으로 인공지능 분야의 흐름에 대해 예측할 수 있었다.

멀티미디어 저작도구 카스에 의한 수치데이터 표현에 관한 연구 (A Study on the Expression of Numerical Data by the KAS Multimedia Tool)

  • 김상호;이영욱
    • 한국컴퓨터정보학회논문지
    • /
    • 제4권3호
    • /
    • pp.1-7
    • /
    • 1999
  • 본 연구는 고등학교 '전자계산일반' 교과의 '자료표현' 단원 중 칠판수업을 통해서는 학습자들이 좀 지루하고 이해하기 어려운 수치 데이터 표현의 효과적인 교수-학습을 위하여 멀티미디어 저작도구 카스(KAS)를 사용하여 멀티미디어 프로그램을 반복학습형. 개인교수형, 교수적 게임형이 복합된 코스웨어로 설계하고 구현하였다. 기존 컴퓨터 보조수업의 단점인 텍스트와 이미지 위주의 구성에서 탈피하여 텍스트뿐만 아니라. 음향 영상, 애니메이션 등의 다양한 매체를 결합한 학습이 가능하도록 하였다. 진법 전환이나 수치 데이터의 표현같이 흐름을 중시하는 학습 부문은 애니메이션으로 처리하여 학습자들이 스스로 학습 진행과정을 눈으로 확인 할 수 있도록 함으로써 학습효과를 높였으며 단원별 학습이 끝날 때마다 연습문제 풀이 화면을 두어 학습내용 이해도를 측정할 수 있게 하였다. 본 연구자료를 충청북도 소재 음성고등학교의 학습현장에 적용한 결과 학습효과가 향상되었음이 통계학적 검정 결과 입증되었다.

학령기 진로발달과정의 특성 및 영향 요인에 관한 융합연구 (Convergence Study on Career Development Process and Influencing Factors)

  • 최정아;서준호;양지연
    • 한국융합학회논문지
    • /
    • 제11권9호
    • /
    • pp.203-217
    • /
    • 2020
  • 본 연구는 특정전공 대학생들이 해당전공을 선택하기까지 전 학령기에 걸쳐 형성되는 진로발달과정의 특성 및 영향 요인을 조망하는 데 목적이 있다. 이를 위해 커리어오그램을 사용하여 글로벌통상학과와 영문학과 대학생들이 초·중·고·대학에 이르는 진로발달과정자료를 수집, 텍스트마이닝 방법으로 분석하였다. 그 결과, 학과별 진로발달양상은 다른 것으로 확인되었다. 발달시기별 진로목표에 영향을 주는 주요 맥락적 요소는 부모와 교사인 것으로 확인되었으며, 교사의 경우 전 학령기 중 중학교 시기에 영향력이 가장 큰 것으로 나타났다. 또한 교사는 가정환경 및 친구와 함께 개인의 진로포부수준 형성에 부정적인 영향을 주는 요소로 확인되었다. 이상의 결과는 향후 진로상담과 교육 프로그램을 구성하는 데 기초자료로 활용될 수 있으며 빅데이터와 상담학 두 분야의 융합을 통한 학령기 진로지도 및 교육 분야에 새로운 연구 방향을 제시하는 데 의의가 있다.