• 제목/요약/키워드: web text analysis

검색결과 281건 처리시간 0.03초

웹 스크래핑 및 텍스트마이닝에 기반한 중소규모 건설현장 사고유형 분석 (Analysis of accident types at small and medium-sized construction sites based on web scraping and text mining)

  • 윤영근
    • 문화기술의 융합
    • /
    • 제10권1호
    • /
    • pp.609-615
    • /
    • 2024
  • 건설업의 사고사망자 수는 402명으로 전체 산업의 약 46%이다. 이 중 50억원 미만의 건설현장이 약 69%를 차지하고 있어 중소규모 건설현장의 안전관리 강화가 요구된다. 본 연구에서는 웹 스크래핑을 이용하여 19,511건의 사고조사자료를 수집하였다. 수집된 정형 데이터에 대한 통계분석, 비정형 데이터에 대한 텍스트마이닝 분석을 통해 50억원 미만의 현장의 공사금액별 사고유형과 사고원인 분석을 진행하였다. 그 결과 공사금액별로 사고유형과 원인에 차이가 있음이 확인되었다. 본 연구의 결과가 중소규모 건설현장 맞춤형 안전관리에 활용되기를 기대한다.

영어 FrameNet의 수동번역을 통한 한국어 FrameNet 구축 개발 (Construction of Korean FrameNet through Manual Translation of English FrameNet)

  • 남세진;김영식;박정열;함영균;황도삼;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.38-43
    • /
    • 2014
  • 본 논문은, 현존하는 영어 FrameNet 데이터를 기반으로 하여, FrameNet에 대한 전문 지식이 없는 번역가들을 통해 수행할 수 있는 한국어 FrameNet의 수동 구축 개발 과정을 제시한다. 우리 연구팀은 실제로, NLTK가 제공하는 영어 FrameNet 버전 1.5의 Full Text를 이루고 있는 5,945개의 문장들 중에서, Frame 데이터를 가진 4,025개의 문장들을 추출해내어, 번역가들에 의해 한국어로 수동번역 함으로써, 한국어 FrameNet 구축 개발을 향한 의미 있는 초석을 마련하였으며, 제시한 방법의 실효성을 입증하는 연구결과들을 웹에 공개하기도 하였다.

  • PDF

한·미·일 지상파 방송사의 웹 접근성 비교·분석 (Comparison and Analysis of Web Accessibility for the Korea, USA, and Japan's Broadcast Web Sites)

  • 박성제;김영근;김종원
    • 한국산업정보학회논문지
    • /
    • 제19권4호
    • /
    • pp.105-117
    • /
    • 2014
  • 방송 매체를 통한 정보 습득은 현대를 살아가기 위한 필수적 요소이며, 디지털 테크놀로지의 발전으로 각 방송사는 인터넷을 통한 서비스 전환을 진행하고 있다. 이에, 본 연구에서는 한국, 미국, 일본의 대표적 방송사 웹사이트를 대상으로 웹 접근성 평가를 진행하여 그 결과를 비교 분석하였다. 그 결과에 의하면, 세 나라 방송사들 모두 접근성 수준에 현저한 차이를 보이지는 않았으나, 한국 방송사들의 경우, 대체텍스트 제공, 반복 영역 건너뛰기 및 제목 제공 등에서 접근성 준수율이 미흡한 것으로 조사되었다. 또한 텍스트 콘텐츠의 명도 대비와 사용자가 의도하지 않은 기능의 실행, 기본 언어 명시 및 레이블 제공 등에서도 접근성 오류가 있는 것으로 조사되어, 접근성 준수를 위한 수정 및 보완이 시급한 것으로 나타났다.

텍스트마이닝을 활용한 보건의료산업학회지의 토픽 모델링 및 토픽트렌드 분석 (Analysis on Topic Trends and Topic Modeling of KSHSM Journal Papers using Text Mining)

  • 조경원;배성권;우영운
    • 보건의료산업학회지
    • /
    • 제11권4호
    • /
    • pp.213-224
    • /
    • 2017
  • Objectives : The purpose of this study was to analyze representative topics and topic trends of papers in Korean Society and Health Service Management(KSHSM) Journal. Methods : We collected English abstracts and key words of 516 papers in KSHSM Journal from 2007 to 2017. We utilized Python web scraping programs for collecting the papers from Korea Citation Index web site, and RStudio software for topic analysis based on latent Dirichlet allocation algorithm. Results : 9 topics were decided as the best number of topics by perplexity analysis and the resultant 9 topics for all the papers were extracted using Gibbs sampling method. We could refine 9 topics to 5 topics by deep consideration of meanings of each topics and analysis of intertopic distance map. In topic trends analysis from 2007 to 2017, we could verify 'Health Management' and 'Hospital Service' were two representative topics, and 'Hospital Service' was prevalent topic by 2011, but the ratio of the two topics became to be similar from 2012. Conclusions : We discovered 5 topics were the best number of topics and the topic trends reflected the main issues of KSHSM Journal, such as name revision of the society in 2012.

Layout Analysis for Calculation of Web Page Similarity as Image

  • Mitsuhashi, Noriaki;Yamaguchi, Toru;Takama, Yasufumi
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 ISIS 2003
    • /
    • pp.142-145
    • /
    • 2003
  • When we search information on the Web using search engines, they only analyze the text information collected from the source files of Web pages. However, there is a limit to analyze the layout of a Web page only from its source file, although Web page design is the most important factor for a user to estimate a page. In particular it often happens on the Web that the pages of similar design ofter similar information. We propose a method to analyze layout for comparing the design of pages by treating the displayed page as image.

  • PDF

네트워크 텍스트 분석을 통한 문헌정보학 최근 연구 경향 분석 (A Study for Research Area of Library and Information Science by Network Text Analysis)

  • 조재인
    • 정보관리학회지
    • /
    • 제28권4호
    • /
    • pp.65-83
    • /
    • 2011
  • 본 연구는 최근 7년간 문헌정보학분야에 게재된 논문 1,752건을 대상으로 빈도 분석과 네트워크텍스트 분석을 실시하여 다양한 주제 개념의 분포와 그 관계성을 도출하였다. 더불어 보다 최근의 연구 경향을 분석하고 변화 양상을 살펴보기 위해, 최근 2년 사이에 연구된 482건을 추출하여 2차 분석을 실시하였다. 분석 결과, 최근 7년간 문헌정보학 분야는 "공공도서관"과 "대학도서관" 개념을 중심으로 하는 연구가 가장 높은 출현 빈도를 보였으며, "평가", "교육", "웹"은 가장 높은 연결 중심성을 나타내 다양한 문헌정보학의 주제 개념들과 관련을 맺고 연구되고 있는 개념으로 파악할 수 있었다. 최근 2년간을 대상으로 한 2차 분석 결과에서는 "웹", "분류" 개념이 종전보다 높은 상대 빈도를 보였으며, 네트워크 텍스트 분석 결과에서는 "이용자" 연구와 "공공도서관" 개념이 종전보다 더 다양한 주제 개념들과 관련을 맺고 수행되고 있음을 확인할 수 있었다.

프로스포츠 웹 사이트의 접근성 평가 (Web Accessibility Evaluation of Professional Sports Clubs in Korea)

  • 최경호;유강수
    • 한국정보통신학회논문지
    • /
    • 제16권3호
    • /
    • pp.399-406
    • /
    • 2012
  • 정부에서는 장애인복지법(제25조)을 두어 장애인이 체육활동이나 문화활동을 함에 있어 불편함이 없도록 법률로서 뒷받침하고 있다. 나아가 공공기관을 포함한 300인 이상 사업장이 갖고 있는 웹사이트에 대해 장애인을 위한 웹 접근성 준수를 의무화하고 있다. 본 연구에서는 국내 프로스포츠 웹 사이트 접근성 평가(2011.4월-5월)를 통하여, 프로스포츠 구단들이 어느 정도 웹 사이트 접근성을 준수하고 있는지를 체계적으로 알아보고, 통계적인 측면에서 분석해 보았다. 그 결과 대체텍스트 제공(44.92%)과 키보드로만 운용 가능(46.79%) 항목에 대한 준수율이 낮은 편으로 나타났다. 그러나 전반적으로 시간이 흐름에 따라 웹 사이트 준수율은 증가추세에 있음을 알 수 있었다.

HTML 논리적 구조분석을 통한 본문추출 알고리즘 (Text Extraction Algorithm using the HTML Logical Structure Analysis)

  • 전현지;고찬
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권3호
    • /
    • pp.445-455
    • /
    • 2015
  • 인터넷과 컴퓨터 기술이 발전함에 따라 정보의 양이 폭발적으로 증가하였으며, 이로 인해 다양한 웹 저작 도구 및 새로운 웹 표준의 출현과 웹에 대한 접근성이 보다 편리해지면서 매우 다양한 종류의 웹 콘텐츠들이 아주 빠르게 생산되고 있다. 하지만 웹 문서는 여러 블록으로 나누어 다양한 주제를 담아내고 있으며, 각각의 블록들이 서로 연관성이 없는 주제를 다루는 경우가 많을 뿐만 아니라 네비게이션, 단순한 장식물, 광고, 저작권 정보 등과 같이 콘텐츠로 볼 수 없는 블록들도 존재한다. 이러한 문제를 해결하기 위해 HTML 웹 문서의 정확한 본문영역만을 추출하여 사용자 요구조건을 충족하고 효과적으로 정보를 학습할 수 있도록 하며, 추후에는 문서를 체계적으로 관리할 수 있게 최적화된 웹 검색 시스템으로서의 재구성 방법을 제안하고자 한다.

Improving spaCy dependency annotation and PoS tagging web service using independent NER services

  • Colic, Nico;Rinaldi, Fabio
    • Genomics & Informatics
    • /
    • 제17권2호
    • /
    • pp.21.1-21.6
    • /
    • 2019
  • Dependency parsing is often used as a component in many text analysis pipelines. However, performance, especially in specialized domains, suffers from the presence of complex terminology. Our hypothesis is that including named entity annotations can improve the speed and quality of dependency parses. As part of BLAH5, we built a web service delivering improved dependency parses by taking into account named entity annotations obtained by third party services. Our evaluation shows improved results and better speed.

웹 사이트 탐색 알고리즘 비교분석 (Comparision and Analysis of Algorithm for web Sites Researching)

  • 김덕수;권영직
    • 한국산업정보학회논문지
    • /
    • 제8권3호
    • /
    • pp.91-98
    • /
    • 2003
  • 무선 PDA.휴대폰을 통해 웹을 탐색하려는 이용자들은 인터페이스 상의 문제 때문에 어려움을 겪는다. 단지 그래픽을 문자로 바꾸거나 기호체계를 재구성한다고 해서 해결될 문제가 아니다. 심층 연계 구조를 통과하는 데에는 많은 시간이 걸리기 때문이다. 이러한 문제들을 해결하기 위해서 본 논문에서는 실시간의 최단경로를 제공하기 위하여 무선 웹 탐색을 자동적으로 개선시키는 Minimal Path 알고리즘을 제안한다. 본 논문의 결과 Minimal Path 알고리즘은 웹 이용자들에 대해 지름길을 제공해 주며, 링크의 숫자가 가장 짧았음을 알 수 있었다.

  • PDF