• 제목/요약/키워드: Web Documents

검색결과 828건 처리시간 0.029초

온라인 주식 포럼의 핫토픽 탐지를 위한 감성분석 모형의 개발 (Development of Sentiment Analysis Model for the hot topic detection of online stock forums)

  • 홍태호;이태원;리징징
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.187-204
    • /
    • 2016
  • 소셜 미디어를 이용하는 사용자들이 직접 작성한 의견 혹은 리뷰를 이용하여 상호간의 교류 및 정보를 공유하게 되었다. 이를 통해 고객리뷰를 이용하는 오피니언마이닝, 웹마이닝 및 감성분석 등 다양한 연구분야에서의 연구가 진행되기 시작하였다. 특히, 감성분석은 어떠한 토픽(주제)를 기준으로 직접적으로 글을 작성한 사람들의 태도, 입장 및 감성을 알아내는데 목적을 두고 있다. 고객의 의견을 내포하고 있는 정보 혹은 데이터는 감성분석을 위한 핵심 데이터가 되기 때문에 토픽을 통한 고객들의 의견을 분석하는데 효율적이며, 기업에서는 소비자들의 니즈에 맞는 마케팅 혹은 투자자들의 시장동향에 따른 많은 투자가 이루어지고 있다. 본 연구에서는 중국의 온라인 시나 주식 포럼에서 사용자들이 직접 작성한 포스팅(글)을 이용하여 기존에 제시된 토픽들로부터 핫토픽을 선정하고 탐지하고자 한다. 기존에 사용된 감성 사전을 활용하여 토픽들에 대한 감성값과 극성을 분류하고, 군집분석을 통해 핫토픽을 선정하였다. 핫토픽을 선정하기 위해 k-means 알고리즘을 이용하였으며, 추가로 인공지능기법인 SOM을 적용하여 핫토픽 선정하는 절차를 제시하였다. 또한, 로짓, 의사결정나무, SVM 등의 데이터마이닝 기법을 이용하여 핫토픽 사전 탐지를 하는 감성분석을 위한 모형을 개발하여 관심지수를 통해 선정된 핫토픽과 탐지된 핫토픽을 비교하였다. 본 연구를 통해 핫토픽에 대한 정보 제공함으로써 최신 동향에 대한 흐름을 알 수 있게 되고, 주식 포럼에 대한 핫토픽은 주식 시장에서의 투자자들에게 유용한 정보를 제공하게 될 뿐만 아니라 소비자들의 니즈를 충족시킬 수 있을 것이라 기대된다.

맵 인터페이스와 지식처리를 활용한 지역관련정보 통합검색 시스템 (An Integrated Region-Related Information Searching System applying of Map Interface and Knowledge Processing)

  • 신진주;서경석;장용희;권용진
    • Spatial Information Research
    • /
    • 제18권4호
    • /
    • pp.129-140
    • /
    • 2010
  • Google, NAVER와 같은 대형포털에서 지도 기반의 다양한 서비스를 제공함에 따라, 지역관련 정보를 얻으려는 사용자들의 관심과 요구 또한 증가하고 있다. 하지만, 대형포털의 서비스들은 특정 지역에 대한 상세정보가 충분하지 않고 관련 정보를 획득하는 과정이 반복되는 번거로움이 존재하기 때문에, 사용자가 특정 지역의 관련 정보를 자세하고 종합적이며 손쉽게 획득할 수 있도록 지원하는 시스템이 필요하다. 본 논문에서는 사용자의 지역정보 획득에 유용한 시스템의 구축을 위해, 맵 인터페이스와 지식처리를 활용한 시스템 모델을 제안한다. 제안한 모델은 '지역정보 웹 문서 Layer', '고유지역키워드 Layer', '맵 인터페이스 Layer'의 3-Layer로 구성된다. 이 모델을 기반으로 한 지역관련정보 통합검색 시스템은 (l) 특정 지역의 대표 키워드 추출 (2) 관련 웹 페이지 수집 (3) 연관 키워드 집합 추출 및 키워드간의 연관도 계산 (4) 사용자 인터페이스 구축의 4단계 과정을 거쳐 구현한다. 구체적으로 고양시 지역을 대상으로 한 시스템의 구축을 통해 제안한 모델과 유사도 행렬을 이용한 지역정보의 지식처리 알고리즘, 사용자의 검색 편의를 돕는 UI 등의 타당성을 검증하였다. 본 시스템은 단순히 개별 '정보'로 존재하는 지역정보들을 융합하고, 새로운 '지식'을 생산 및 체계화하여 사용자들에게 제공해준다. 이를 통해 사용자는 다양하고 상세한 지역정보를 제공받을 수 있고 관련 정보도 쉽게 얻을 수 있다.

XML을 이용한 지능형 이미지 검색 시스템 (An Intelligent Image Retrieval System using XML)

  • 홍성용;나연묵
    • 한국멀티미디어학회논문지
    • /
    • 제7권1호
    • /
    • pp.132-144
    • /
    • 2004
  • 인터넷 기술의 급속한 발전으로 인하여 인터넷 사용자의 수와 인터넷상의 멀티미디어 정보의 양이 계속 증가하고 있다. 최근의 e-비즈니스나 쇼핑몰 사이트에서는 많은 양의 이미지 정보를 취급하고 있으며, 이로 인하여 이미지에 대한 효율적인 내용 검색의 필요성이 대두되고 있다. 본 논문에서는 XML기술을 이용하여 웹 상의 이미지를 지능적으로 검색할 수 있는 시스템을 제안한다. 상품 카탈로그와 같은 복잡하고 다중 객체를 보유하고 있는 이미지에 대하여 객체 기반 내용 검색을 수행할 수 있도록 지역 특징, 전역 특징, 의미 등의 메타 데이타를 표현하는 다계층 메타데이타 구조를 제안한다. 또한, 이미지에 대한 의미 기반 검색 및 내용 기반 검색을 수행 할 수 있도록 이러한 메타데이타를 저장하기 위한 XML-Schema를 설계하고 각 메타데이타를 XML 문서 형태로 표현하는 방법을 보인다. 또한, XSLT를 이용하여 이미지에 대한 검색 결과를 웹 브라우저나 모바일 브라우저와 같은 다양한 사용자 환경에 보여줄 수 있도록 자동 변환하는 방법을 제시한다. 본 논문에서 제시한 방법은 이미지에 대한 메타데이타를 XML 형태로 표현하므로 XML을 지원하는 상용 시 스템을 이용하여 용이하게 시스템을 구현할 수 있으며, 이미지 메타데이타의 시스템간 공유도, 검색질의에 대한 정확성, 사용자의 검색 만족도를 증가시킬 수 있다.

  • PDF

설계정보 참조를 위한 시방정보의 자료구조화에 관한 연구 (A Study on the Data Organization of Specification Information for reference of Design Information)

  • 김재현;송영규;김억
    • 한국건설관리학회논문집
    • /
    • 제2권3호
    • /
    • pp.92-100
    • /
    • 2001
  • 건설공사의 계약문서에는 설계도면, 공사시방서 등이 포함된다. 그러나 공사시방서의 경우 분서의 중요성만큼 활용되지 못하고 있다. 그 이유는 시발정보가 설계도면과 재료마감표등 다른 건축정보들과 관련되어 찾을 수 있게 되어있지 않아 활용도가 떨어진다. 따라서 다른 정보와 연관되어 질 수 있는 통합모델이 필요하고 이러한 통합모델을 바탕으로한 DB가 구축되어 져야 설계 및 시공, 유지관리시에 그 활용성이 증대된다. 이러한 통합모델의 구현은 부위를 사용함으로서, 설계도를 작성하고 그리고 부위 정보에 자재정보, 법규정보, 시방정보의 속성이 들어가 있다면 견적을 낼 수 있고 많은 정보를 참조할 수 있어 설계의 질이 향상될 것이다. 또한 유지관리시에도 설계정보에 법규, 자재정보, 시방정보가 들어가 있기 때문에 수선유지 및 하자보수등에 유용하게 사용된다. 설계단계에서부터 만들어진 시방정보 DB는 설계의 수정과 공사의 수정에 맞게 update 되어 져야 한다. 또한 시공현장이나 감리시에도 참고를 하기 위해서는 시방서가 web을 이용한 문서화가 되어 어디서든지 참조할 수 있는 환경이 되어 져야만 한다. 따라서 본 연구에서는 시방정보 구조화를 위한 부위분류 체계글 제시하고, 이를 바탕으로 하여 건축시방정보를 DB화하며, DB를 상호 참조할 수 있는 인터넷 환경에서의 시방정보의 검색 빛 작성이 가능하도록 하였다. 이 시스템을 활용하여 공사시방서출 작성, 참조함으로써 공사시방서의 활용의 향상이 기대되려 이를 통해 건설공사의 클레임 방지와 설계, 시공, 유지관리의 품질 향상이 기대된다. 또 발주기관, 설계용역업체, 공사현장 등의 실무에서 더욱 편리하게 정보를 활용할 수 있을 것으로 사료된다.

  • PDF

기업간 비즈니스 프로세스 등록저장소를 위한 메타데이터 온톨로지 설계 (Metadata Ontology Design for B2B Business Process Registries)

  • 김종우;김형도;윤정희;정현철
    • 정보처리학회논문지D
    • /
    • 제14D권4호
    • /
    • pp.435-446
    • /
    • 2007
  • B2B 등록저장소는 기엽의 프로파일, 비즈니스 문서, 비즈니스 프로세스, 제공 서비스 등의 B2B 관련 비즈니스 정보들을 저장하고 거래 파트너 또는 잠재 거래 파트너들에게 정보를 제공하는 시스템이다. 본 논문에서는 이 중 B2B 비즈니스 프로세스의 등록저장소의 설계에 초점을 맞추어, 이를 지원하기 위한 메타데이터 온톨로지를 제시한다. 현재 ebXML BPSS (Business Process Specification Schema), WSBPEL (Web Service Business Process Execution Language), BPMN (Business Process Modeling Notation) 등의 다수의 비즈니스 프로세스 정의 언어들이 시장에서 경쟁하고 있다. 이러한 상황을 고려하여, 다수의 다른 프레임워크에서 표현된 비즈니스 프로세스를 등록저장하기 위해서 제시된 메타 데이터 온톨로지는 3개 계층, 공통 메타데이터, 언어별 메타데이터, 상호연관관계 메타데이터로 구성된다. 제시된 메타데이터 온톨로지의 유용성을 보이기 위해서, ebXML BPSS 와 WSBPEL로 표현된 비즈니스 프로세스의 온톨로지 내에 저장을 예제로 제시한다. 또한 제시된 메타데이터 온톨로지의 구현을 위해서 ebXML 등록저장소 정보모델로의 매핑 방안을 제시한다.

다중 기계학습 방법을 이용한 한국어 커뮤니티 기반 질의-응답 시스템 (A Korean Community-based Question Answering System Using Multiple Machine Learning Methods)

  • 권순재;김주애;강상우;서정연
    • 정보과학회 논문지
    • /
    • 제43권10호
    • /
    • pp.1085-1093
    • /
    • 2016
  • 커뮤니티 기반 질의 응답 시스템은 사용자 질의에 대한 정답을 인터넷 커뮤니티에 사용자들이 게시했던 문서 중에서 선택하여 제공하는 시스템이다. 기존 방법들은 질의 분석의 성능 향상을 위하여 목적 영역에 적합한 규칙을 구축하거나 일부 처리 과정에 기계 학습을 적용하였다. 하지만 기존 방법들은 적용 영역을 확장하거나 수정하는 경우 많은 비용이 소요되며 경우에 따라서는 시스템이 특정 영역에 과적합되는 경우가 발생한다. 본 논문에서는 커뮤니티 기반 질의-응답 시스템의 효과적인 처리를 위해서 시스템의 각 과정에 적합한 기계 학습 방법을 적용하여 전체 과정을 자동화하는 다중 기계학습 방법을 제안한다. 제안 시스템은 사용자 질의를 분석하는 부분과 정답 문서를 선택하는 부분으로 나눌 수 있다. 질의 분석 과정은 질의의 초점 구문을 분석하는 질의 핵심부 추출기와 질의의 주제를 분류하는 질의 유형 분류기로 구성하였으며, 전자는 조건부 무작위장을 사용하고 후자는 지지 벡터 기계를 사용한다. 정답 문서 선택에서는 유사도 측정에서 사용하는 가중치를 인공 신경망으로 학습한다. 또한 인터넷에 커뮤니티에 게시된 데이터는 형태소 분석 결과를 신뢰할 수 없는 경우가 많이 발생한다. 따라서 음절 자질을 사용하여 질의를 분석 단계에서 형태소 분석의 영향을 최소화하는 방법을 제안한다. 제안하는 시스템은 Mean Average Precision 기준으로 0.765, R-Precision 기준으로 0.872의 성능을 보여 기존 시스템보다 성능이 우수하다.

의미 중의성을 고려한 온톨로지 기반 메타데이타의 자동 생성 (Ontology-based Automated Metadata Generation Considering Semantic Ambiguity)

  • 최정화;박영택
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권11호
    • /
    • pp.986-998
    • /
    • 2006
  • 인터넷의 발전으로 방대해진 정보를 컴퓨터가 이해하고 효율적으로 관리하기 위해서는 시맨틱 웹 기반의 메타데이타가 반드시 필요하다. 그러나 메타데이타 생성 시 의미 중의성을 가진 정보가 존재하며 이 문제의 해결책이 필요하다. 본 논문에서는 순차적으로 존재할 수 있는 단어들의 확률 모델을 이용하여 문서와 같은 정보에 포함된 의미가 애매한 단어를 관련성이 높은 모델의 개념으로 메타데이타를 생성하는 방법을 제안한다. 제안한 방법에서 메타데이타를 생성 할 때, 온톨로지에 정의된 개념들 간의 중의성을 고려하고 명칭(named entity)의 일부 단어에 대한 인식을 위해 은닉 마르코프 모델(Hidden Markov Model)을 사용한다. 먼저 온톨로지에 정의된 각 클래스(class)의 인스턴스(instance)를 인식하기 위한 마르코프 모델을 생성한다. 다음으로 문서로부터 의미가 애매한 단어의 의미를 파악할 수 있는 상황정보(Context)를 생성하고, 상황정보에 포함된 단어들의 순서에 대응하는 최적의 마르코프 모델을 찾아 메타데이타 생성시의 중의성 문제를 해결한다. 제안한 방법으로 전산학관련 논문에 대해 의미가 애매한 7개의 단어를 추출하여 실험하였다. 그 결과 상황정보에 존재하는 개체(entity)의 의미부류들 중 가장 빈번한 의미 부류로 애매한 단어의 의미를 선정한 SemTag보다 정확도 면에서 38%정도의 나은 성능을 나타내었다.

The Usage of Modern Information Technologies for Conducting Effective Monitoring of Quality in Higher Education

  • Oseredchuk, Olga;Nikolenko, Lyudmyla;Dolynnyi, Serhii;Ordatii, Nataliia;Sytnik, Tetiana;Stratan-Artyshkova, Tatiana
    • International Journal of Computer Science & Network Security
    • /
    • 제22권1호
    • /
    • pp.113-120
    • /
    • 2022
  • Information technologies in higher education are the basis for solving the tasks set by monitoring the quality of higher education. The directions of aplying information technologies which are used the most nowadays have been listed. The issues that should be addressed by monitoring the quality of higher education with the use of information technology have been listed. The functional basis for building a monitoring system is the cyclical stages: Observation; Orientation; Decision; Action. The monitoring system's considered cyclicity ensures that the concept of independent functioning of the monitoring system's subsystems is implemented.. It also ensures real-time task execution and information availability for all levels of the system's hierarchy of vertical and horizontal links, with the ability to restrict access. The educational branch uses information and computer technologies to monitor research results, which are realized in: scientific, reference, and educational output; electronic resources; state standards of education; analytical materials; materials for state reports; expert inferences on current issues of education and science; normative legal documents; state and sectoral programs; conference recommendations; informational, bibliographic, abstract, review publications; digests. The quality of Ukrainian scientists' scientific work is measured using a variety of bibliographic markers. The most common is the citation index. In order to carry out high-quality systematization of information and computer monitoring technologies, the classification has been carried out on the basis of certain features: (processual support for implementation by publishing, distributing and using the results of research work). The advantages and disadvantages of using web-based resources and services as information technology tools have been discussed. A set of indicators disclosed in the article evaluates the effectiveness of any means or method of observation and control over the object of monitoring. The use of information technology for monitoring and evaluating higher education is feasible and widespread in Ukrainian education, and it encourages the adoption of e-learning. The functional elements that stand out in the information-analytical monitoring system have been disclosed.

뉴노멀(New Normal) 시대 언어네트워크 분석에 의한 예술정책 방향 연구 (A Study on the Direction of Art Policy through Semantic Network Analysis in New Normal Era)

  • 김미연;권병웅
    • 예술경영연구
    • /
    • 제58호
    • /
    • pp.153-177
    • /
    • 2021
  • 본 연구는 코로나19로 촉발된 뉴노멀 시대의 예술정책에 관한 이론과 국내외 정책 동향을 바탕으로 언어네트워크 분석을 시도하였다. 이를 위해 2020년 3월부터 9월까지의 '코로나'와 '예술'의 키워드가 들어간 자료를 구글(Google)뉴스와 웹(web)문서에서 수집하여 227개의 정제된 주제어를 추출하였고, 추출된 주제어를 넷마이너 프로그램을 통해 주제어 빈도분석과 중심성을 지표로 분석하였다. 또한 각 주제어 간의 관계 분석을 위해 언어네트워크의 시각화 분석을 시도하였다. 분석결과 가장 많은 빈도수를 드러낸 주제어는 '코로나'였고, '문화예술', '예술', '공연', '온라인', '지원'이 최다 빈도수를 기록한 그룹에 포함되었다. 중심성 분석에서는 '코로나'가 가장 빈도가 높았고, '시대', '이후', '포스트', '예술', '문화예술' 순으로 나타나 빈도수가 높은 '코로나'와 '예술', '문화예술'은 대부분의 중심성에서도 우위를 차지했다. 특히, 주제어 빈도수와 중심성 분석에서 공통으로 상위를 차지하는 주제어는 '온라인'과 '지원' '정책'이다. 이는 코로나19로 인해 사회적 거리두기의 일상화에 따라 비대면·온라인콘텐츠의 급부상과 예술계에 대한 지원정책이 필요함을 나타내고 있다고 볼 수 있다.

다양한 장서 접근을 위한 디지털 도서관의 프로토타입 구축 (A Digital Library Prototype for Access to Diverse Collections)

  • Choi Won-Tae
    • 한국문헌정보학회지
    • /
    • 제32권2호
    • /
    • pp.295-307
    • /
    • 1998
  • 본 논문은 다양한 유형으로 구성되어 있는 디지털 도서관의 장서가 어떠한 역할을 수행하는지를 나타내는 디지털 도서관의 구축에 관한 것이다. 본 연구에서 구축된 디지털도서관의 프로토타입은 디지털 리포지토리, 필터, 색인 및 검색, 클라이언트의 구조로 되어 있다. 디지털 리포지토리는 여러 가지 유형의 문서유형과 다양한 형태의 데이터베이스로 구성된다. 필터는 다양한 문헌의 포맷을 인식하고 문헌 각각의 조직적인 요소를 지능적으로 구분하는 역할을 수행한다. 본 시스템은 관계형 데이터베이스 관리 시스템인 ORACLE과 ConText를 이용하여 구성되었으며 새로운 객체의 분석 및 조직화, 색인기술의 적용을 용이하게 처리할 수 있다. 클라이언트는 여러 유형의 데이터 포맷(이미지, 오디오 비디오 SGML, PDF, KORMARC 등)의 디스플레이를 위한 브라우저, 뷰어이다. 이용자는 이러한 도구들을 이용하여 문헌을 구분하고 각각의 아이템을 브라우징하고 탐색할 수 있다. 본 연구의 탐색 인터페이스는 HTML과 WWW의 CGI를 이용하여 구현되었다.

  • PDF