• 제목/요약/키워드: 온라인 문서

검색결과 215건 처리시간 0.025초

베이지안 학습을 이용한 문서의 자동분류 (An Automatic Document Classification with Bayesian Learning)

  • 김진상;신양규
    • Journal of the Korean Data and Information Science Society
    • /
    • 제11권1호
    • /
    • pp.19-30
    • /
    • 2000
  • 정보통신기술의 비약적인 발전은 온라인으로 생성되는 전자문서의 양을 폭발적으로 증가시키고 있다. 따라서 수동으로 문서를 분류하던 종래의 방법 대신 문서의 자동분유 기술 개발이 특별히 요구되고 있다. 본 논문에서는 베이지안 학습 기법을 이용하여 문서를 자동으로 분류하는 방법을 연구하고, 20개의 유즈넷 뉴스그룹 문서들을 분류하도록 시험하였다. 사용한 알고리즘은 Naive Bayes Classifier이며, 구현한 시스템을 이용해 유즈넷 문서를 대상으로 자동분류를 실험한 결과 분류의 정확률이 약 77%로 나타났다.

  • PDF

온라인 문서 마이닝 접근법을 활용한 크라우드펀딩의 성공여부 예측 방법 (Online Document Mining Approach to Predicting Crowdfunding Success)

  • 남수현;진윤선;권오병
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.45-66
    • /
    • 2018
  • 크라우드펀딩(Crowdfunding)은 최근 벤처 기업의 기금 모금을 위한 엔젤 기금보다 인기가 있다. 이에 따라 크라우드펀딩의 성공 요인을 파악하는 것은 기금 조성자 및 투자자로 하여금 크라우드펀딩 프로젝트와 관련된 효과적 의사결정을 내리기 위해 크라우드펀딩 성공 여부를 선험적으로 예측하는데 유용할 것이다. 이에 최근까지 프로젝트의 목표 및 관련 SNS의 수와 같은 몇 가지 수치적 요인을 독립변인으로 제안하여 이들이 크라우드펀딩 캠페인의 성공에 어떤 영향을 미치는지 등이 연구되어오고 있었다. 그러나 수치가 아닌 비정형 데이터를 통한 크라우드펀딩 캠페인의 성공에 대한 예측은 거의 이루어진 바 없으며, 특히 프로젝트를 소개하는 문서에 대한 특성 분석을 통해 해당 프로젝트의 성공여부를 예측하려는 연구는 아직 이루어지지 않았다. 사실 프로젝트를 소개하는 문서는 공개되어 있어 확보에 드는 비용이 적게 들기 때문에 매우 유용하다. 따라서 본 연구의 목적은 Wadiz 등 온라인상으로 공개되어 있는 프로젝트에 대한 소개 문서를 기반으로 크라우드펀딩 프로젝트의 성공을 예측하는 새로운 방법을 제안하는 것이다. 제안된 방법의 성능을 테스트하기 위해, 본 연구에서는 1,980개의 실제 크라우드펀딩 프로젝트와 관련된 텍스트를 수집하고 경험적으로 분석했다. 텍스트 데이터 세트에서 카테고리, 응답 수, 자금 조달 목표, 기금 모금 방법, 보상, SNS 추종자 수, 이미지 및 비디오 수 및 기타 숫자 데이터와 같은 프로젝트에 대한 세부 정보를 수집하였다. 분석 결과 이러한 요인들은 분류 알고리즘에서 분류 성능을 제고하는데 의미 있는 변인으로 확인되었다. 즉, 제안된 방법이 최근에 제안된 비정형 텍스트 기반 방법보다 정확도나 F-점수 및 수행 경과 시간에서 성능이 우수하였다.

발명계 소식

  • (사)한국여성발명협회
    • 발명하는 사람들
    • /
    • 27호
    • /
    • pp.3-4
    • /
    • 2004
  • 한국특허정보원 `대한민국경영품질대상` 품질경영부문 최우수상 수상 - 웰빙 붐과 함께 건강양말이 뜨고 있다 - 중기육성자금 1조2천억원으로 확대 - 한국과학재단 `올해의 여성과학기술자상` 공모 - (주)우리식품 `해초록 아이스 찰떡` 선보여 - 네팔의 어린 소녀에게 전달된 장비 상자 - 정지용의 `향수` 상표권 되찾기 위한 취소 심판 열려 - 박세준 이앤테크 대표 발명 노하우 공개 - 특허청, 세계 최초 WIPO와 온라인 문서교환 시스템 구축

  • PDF

TheReviser : 가상 데스크 상의 제스처 기반 문서 교정 시스템 (TheReviser : A Gesture-based Editing System on a Digital Desk)

  • 정기철;강현
    • 정보처리학회논문지B
    • /
    • 제11B권4호
    • /
    • pp.527-536
    • /
    • 2004
  • 리바이저 시스템은 프로젝션 화면 상에서 종이 문서의 수정시 사용되는 교정 제스처와 동일한 제스처를 이용한 온라인 문서 교정 시스템이다. 이를 위해, 프로젝션 화면 상에서 손이나 문서와 같은 전경물체추출 기술과 연속 동작으로 부터의 제스처 인식 기술이 필요하다. 많은 조명 변화와 복잡한 배경 상에서 전경물체를 검출하기 위해서 기하보정과 색상보정을 수행하고, HMM 기반 제스처 인식기를 구현하였다. 실험 결과로부터 연속 제스처에서 93.22%의 인식률을 나타남을 볼 수 있다.

디지털저작물 저작권보호시스템 (A Study on Systems to Protect Copyright of Digital Contents)

  • 김용;남궁황
    • 한국비블리아학회지
    • /
    • 제11권2호
    • /
    • pp.49-64
    • /
    • 2000
  • 디지털기술의 급속한 발전으로 인해 현재 대부분의 문서가 디지털화된 형태를 이루고 있으며 이러한 정보는 지속적으로 증가하고 있는 상황이다. 웹 및 문서저작도구의 발전과 함께, 정보의 생성과 공유가 쉬워지면서 중복적으로 존재하는 정보의 비율이 갈수록 높아지고 있으며 일부를 표절하여 자신의 정보로 사용하는 문서의 불법적인 복제문제가 발생할 수 있다. 현재 온라인 상에서 제공되고 있는 수많은 정보는 그것을 접하는 사용자들에게 유용하게 사용될 수도 있지만 불법복제 (illegal copy)나 표절(plagiarism)과 같은 형태로 이용될 수 있는 가능성도 높다. 두 경우에 있어서 원문의 부분 또는 전체를 그대로 사용하는 경우가 있으며, 특히, 표절의 경우에 있어서는 문장의 재구성, 유사단어로 대체하는 것처럼 원문과는 다른 형태로 나타날 수 있다. 그러나 표절에 있어서 엄청난 양의 정보중에서 일부를 표절한 사실을 알아내기란 쉽지가 않다 왜냐하면 표절을 판별하기 위해서는 기존에 존재하는 모든 정보를 알고 있어야 하는데 이것은 이론상으로 사람의 힘으로는 불가능하기 때문이다. 또한 저작자의 동의 없이 이루어지는 불법적인 복제는 디지털콘텐츠의 유통을 위한 커다란 걸림돌이 되고 있다. 따라서 기존의 문서와의 유사성 판별을 통해서 자동적으로 표절의 가능성을 제시해 줄 수 있는 기술과 함께 근본적으로 디지털 저작물에 대한 불법적인 복제를 막을 수 있는 방법이 필요하다.

  • PDF

위키피디아를 이용한 영-한 개체명 대역어 쌍 구축 (Extracting English-Korean Named-Entity Word-pairs using Wikipedia)

  • 김은경;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.101-105
    • /
    • 2009
  • 본 논문은 공통적으로 이용할 수 있는 웹 환경에서의 한국어 정보로 획득할 수 있는 정보의 양이 영어권 정보의 양보다 상대적으로 적다는 것을 토대로, 웹정보 이용의 불균형을 해소하고자 하는 목적으로부터 출발하였다. 최근에는 지식 정보의 세계화, 국제화에 따라 동일한 정보를 각국 언어로 제공하고자하는 연구가 꾸준히 증가하고 있다. 온라인 백과사전인 위키피디아 역시 현재 다국어로 제공이 되고 있지만 한국어로 작성된 문서는 영어로 작성된 문서의 5% 미만인 것으로 조사되었다. 본 논문에서는 위키피디아 내에서 제공하는 다국어간의 링크 정보와 인포박스 데이터를 활용하여 위키피디아 문서 내에서 개체명을 인식하고, 자동으로 개체명의 영-한 대역어 쌍을 추출하는 것을 목표로 한다. 개체명은 일반 사전에 등재 되지 않은 경우가 많기 때문에, 기계번역에서 사전 데이터 등을 활용하여 개체명을 처리하는 것은 쉽지 않으며 일반적으로 음차표기 방식을 함께 사용하여 해결하고 있다. 본 논문을 통해 위키피디아 데이터를 활용해 만들어진 영-한 개체명 대역어 사전을 구축하기 위해 사용된 기술은 추후 위키피디아 문서를 기계번역하는데 있어 동일한 방법으로 사용이 가능하며, 구축된 사전 데이터는 추후 영-한 자동 음차표기 연구의 사전 데이터로도 활용이 가능하다.

  • PDF

Support Vector Machine을 이용한 온라인 리뷰의 용어기반 감성분류모형 (Terms Based Sentiment Classification for Online Review Using Support Vector Machine)

  • 이태원;홍태호
    • 경영정보학연구
    • /
    • 제17권1호
    • /
    • pp.49-64
    • /
    • 2015
  • SNS의 확산으로 온라인 상점에서는 상품에 대한 주관적인 의견이 내포되어 있는 고객리뷰 정보가 빠르게 생성되고 확산되어 다른 고객들에게 큰 영향을 미치고 있다. 이와 더불어, 고객들의 긍정적 또는 부정적 의견을 분석하여 개선방안을 모색하려는 오피니언마이닝(opinion mining)이 주목 받고 있다. 고객리뷰에 내포된 감성정보를 가진 용어들은 감성분류를 하는데 가장 중요한 역할을 하기 때문에 영향력이 높은 용어를 선별하는 것이 가장 중요하다. 본 연구에서는 품사태깅을 이용하여 최적의 용어들을 선별하고 용어정보에 기반한 문서수준에서의 감성분류모형을 제안하고자 한다. 고객리뷰의 감성분류모형에 대표적인 기계학습기법인 SVM을 적용하고, SVM의 입력변수 선정과정에 품사태깅 방식과 용어추출기법을 다르게 조합하고 사용하여 긍정적/부정적 문서를 분류하였다. 본 연구에서 제안한 감성분류모형의 성과를 검증하기 위해 아마존(Amazon.com)의 영화와 도서에 대한 고객리뷰 80,000개를 수집하여 불필요한 용어들을 제거한 후 품사태깅을 통해 용어를 추출하였다. 추출된 용어는 문서빈도, TF-IDF, 정보획득량, 카이제곱 통계량의 값을 산출하여 값을 통해 용어들을 순위화하고, 각 상위 20개에 해당하는 최적의 용어를 선정한 후 SVM을 이용하였다. 제안된 감성분류모형을 통해 기존 연구에서 언급한 형용사만을 사용한 예측변수와 4품사를 사용한 예측변수에서의 실험결과를 통해 비교 분석하였다. 카이제곱 통계량 기반의 감성분류모형이 다른 모형보다 예측성과가 가장 우수하게 나타나는 것을 확인할 수 있었다. 본 연구에서 제안된 문서수준에서의 용어기반 감성분류모형을 이용함으로써 온라인 상점에서의 서비스 개선과 경쟁력 확보에 많은 도움이 될 것으로 기대된다.

텍스트마이닝 기술을 이용한 효율적인 검색시스템 알고리즘에 대한 연구 (A Study of an Efficient Retrieval System Algorithm using a Text Mining)

  • 김제석;김장형
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.531-534
    • /
    • 2005
  • 현재 네트워크 자원과 온라인 정보의 증가속도는 기존 정보시스템의 운용한계를 초과하고 있으며 서버의 처리속도나 네트워크 트래픽 해결을 위해 하드웨어 업그레이드와 네트워크 대역폭 확장으로 많은 문제가 제기 되고 있다. 본 연구에서는 많은 양의 온라인 데이터에서 원하는 문서의 위치를 빠르게 검색 할 수 있는 알고리즘을 연구함으로써 문서집합의 내용변화 또는 사용자의 관점변화에 적용한 최적의 검색내용을 검색할 수 있는 유기적 통합시스템 아키텍쳐를 제안한다.

  • PDF

재난안전정보 아카이브 구축을 위한 온라인 기록정보 현황분석 및 개선방안 연구 (A study on Improvement and Analysis of Records Management Status for Disaster Safety Archives in Online Environment)

  • 한희정;박태연;오효정;김용
    • 한국도서관정보학회지
    • /
    • 제48권2호
    • /
    • pp.187-213
    • /
    • 2017
  • 재난에 대한 선제적 대응과 예방이 제대로 이루어지기 위해서는 재난안전 기록정보자원을 체계적으로 수집하고, 보존하여 관리 및 활용할 수 있는 기반을 마련할 필요가 있다. 이에 본 연구는 재난안전 유관기관들이 실제 생산한 기록정보자원 중 온라인 상에 공개된 텍스트 기반의 문서기록자료의 유형과 현황을 분석한 후, 이들 문서기록에 기술되어 있는 재난정보와 그 유형이 무엇인지 분석하였다. 또한 재난안전정보 아카이브 구축 관련한 현장인터뷰를 통해 실제 사용자들의 요구사항을 수렴하였다. 이를 통해 기존 재난안전관련 기록정보자원의 관리체계 개선방안을 도출하여 재난안전정보 아카이브 구축을 위한 토대를 마련하고자 한다.

한국어 SNS 문서에 적합한 문장 경계 인식 (Robust Sentence Boundary Detection for Korean SNS Documents)

  • 염하람;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.532-535
    • /
    • 2021
  • 다양한 SNS 플랫폼이 등장하고, 이용자 수가 급증함에 따라 온라인에서 얻을 수 있는 정보의 활용 가치가 높아지고 있다. 문장은 자연어 처리 시스템의 기본적인 단위이므로 주어진 문서로부터 문장의 경계를 인식하는 작업이 필수적이다. 공개된 문장 경계 인식기는 SNS 문서에서 좋은 성능을 보이지 않는다. 본 논문에서는 문어체로 구성된 일반 문서뿐 아니라 SNS 문서에서 사용할 수 있는 문장 경계 인식기를 제안한다. 본 논문에서는 SNS 문서에 적용하기 위해 다음과 같은 두 가지를 개선한다. 1) 학습 말뭉치를 일반문서와 SNS 문서 두 영역으로 확장하고, 2) 이모티콘을 사용하는 SNS 문서의 특징을 반영하는 어절의 유형을 자질로 추가하여 성능을 개선한다. 실험을 통해서 추가된 자질의 기여도를 분석하고, 또한 기존의 한국어 문장 경계 인식기와 제안한 모델의 성능을 비교·분석하였다. 개선된 모델은 일반 문서에서 99.1%의 재현율을 보이며, SNS 문서에서 88.4%의 재현율을 보였다. 두 영역 모두에서 문장 경계 인식이 잘 이루어지는 것을 확인할 수 있었다.

  • PDF