• 제목/요약/키워드: Knowledge-based System

검색결과 3,882건 처리시간 0.031초

KB-BERT: 금융 특화 한국어 사전학습 언어모델과 그 응용 (KB-BERT: Training and Application of Korean Pre-trained Language Model in Financial Domain)

  • 김동규;이동욱;박장원;오성우;권성준;이인용;최동원
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.191-206
    • /
    • 2022
  • 대량의 말뭉치를 비지도 방식으로 학습하여 자연어 지식을 획득할 수 있는 사전학습 언어모델(Pre-trained Language Model)은 최근 자연어 처리 모델 개발에 있어 매우 일반적인 요소이다. 하지만, 여타 기계학습 방식의 성격과 동일하게 사전학습 언어모델 또한 학습 단계에 사용된 자연어 말뭉치의 특성으로부터 영향을 받으며, 이후 사전학습 언어모델이 실제 활용되는 응용단계 태스크(Downstream task)가 적용되는 도메인에 따라 최종 모델 성능에서 큰 차이를 보인다. 이와 같은 이유로, 법률, 의료 등 다양한 분야에서 사전학습 언어모델을 최적화된 방식으로 활용하기 위해 각 도메인에 특화된 사전학습 언어모델을 학습시킬 수 있는 방법론에 관한 연구가 매우 중요한 방향으로 대두되고 있다. 본 연구에서는 금융(Finance) 도메인에서 다양한 자연어 처리 기반 서비스 개발에 활용될 수 있는 금융 특화 사전학습 언어모델의 학습 과정 및 그 응용 방식에 대해 논한다. 금융 도메인 지식을 보유한 언어모델의 사전학습을 위해 경제 뉴스, 금융 상품 설명서 등으로 구성된 금융 특화 말뭉치가 사용되었으며, 학습된 언어 모델의 금융 지식을 정량적으로 평가하기 위해 토픽 분류, 감성 분류, 질의 응답의 세 종류 자연어 처리 데이터셋에서의 모델 성능을 측정하였다. 금융 도메인 말뭉치를 기반으로 사전 학습된 KB-BERT는 KoELECTRA, KLUE-RoBERTa 등 State-of-the-art 한국어 사전학습 언어 모델과 비교하여 일반적인 언어 지식을 요구하는 범용 벤치마크 데이터셋에서 견줄 만한 성능을 보였으며, 문제 해결에 있어 금융 관련 지식을 요구하는 금융 특화 데이터셋에서는 비교대상 모델을 뛰어넘는 성능을 보였다.

'기록활동가' 양성 교육 프로그램의 방향 연구 (A Study on the Direction of 'Citizen Archivist' Training Program)

  • 이도순
    • 기록학연구
    • /
    • 제69호
    • /
    • pp.95-128
    • /
    • 2021
  • 기록학계에서 민간기록에 대한 관심이 시작되면서 민간기록의 가치와 기록전문가들의 입장에서 민간기록을 어떻게 수집하고 관리하여야 하는지에 대한 방법론 논의가 시작되었다. 이후 공동체 아카이브에 대한 개념적 논의가 진행되며 공동체의 관점에서 공동체 구성원 스스로가 기록을 수집하고 보존하는 것과 더 나아가 기록의 민주화와 기록주권에 논의까지 이어지고 있다. 이러한 흐름 속에서 각 지역에서는 마을 만들기 사업들이 시작되고 기록활동을 하는 지역 구성원들이 등장하기 시작하였으며 이들과 공동체 아카이브를 지원하는 관의 역할과 제도에 대한 연구로 이어지고 있다. 최근에는 학계에서는 지역 기록활동을 하는 주체와 그들의 실천에 대해 관심을 갖기 시작하면서 각 지역에서 실행되는 교육이나 아카이빙 활동 현황들이 발표되고 있다. 또한 현장에서는 전국 각지에서 기록 교육 프로그램들을 활발하게 진행하며 기록활동가를 양성하고자 노력하고 있다. 이 논문은 지속가능한 기록활동가를 양성하기 위해 그들의 정체성을 살피고 양성 교육 프로그램이 추구해야 할 방향을 제시하는데 목적이 있다. 먼저 양성교육의 목표가 교육을 통해 학습된 지식을 실천하는 기록활동가를 양성하는 것이라고 보고, 먼저 '기록활동가'의 정체성을 알아보기 위해 국내 기록활동가와 양성 교육 프로그램 주관 기관의 관련자의 인터뷰를 진행하였다. 본 논문에서는 기록활동가를 공동체의 기록을 자발적이고 능동적으로 아카이빙 활동을 하는 사람들로 이들이 공동체 아카이브를 구축하는 주된 주체이며 핵심적 존재라고 판단한다. 더 나아가 기록활동가의 활동을 '기록자치권'을 실행하여 '기록자치'를 실현하는 능동적이고 주체적인 존재로 바라본다. 다음으로 기록활동가 양성을 위해 진행된 국내 교육 프로그램을 사례 분석하여 국내 기록활동가 양성 교육 프로그램의 현황과 동향을 살펴본다. 이를 바탕으로 기록활동가 양성을 위한 교육이 나아가 할 방향성을 제시한다. 이 논문에서는 양성 교육 프로그램을 단순히 일반 시민 대상 프로그램이 아닌 기록자치를 실현하는 기록활동가 양성을 교육목표로 하여 이를 실현하기 위한 교육내용과 학습활동으로 보고 교육과정으로써 설계되어야 한다는 관점에서 기록활동가 양성 교육 프로그램의 방향성을 제시하고자 하였다.

도메인 특수성이 도메인 특화 사전학습 언어모델의 성능에 미치는 영향 (The Effect of Domain Specificity on the Performance of Domain-Specific Pre-Trained Language Models)

  • 한민아;김윤하;김남규
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.251-273
    • /
    • 2022
  • 최근 텍스트 분석을 딥러닝에 적용한 연구가 꾸준히 이어지고 있으며, 특히 대용량의 데이터 셋을 학습한 사전학습 언어모델을 통해 단어의 의미를 파악하여 요약, 감정 분류 등의 태스크를 수행하려는 연구가 활발히 이루어지고 있다. 하지만 기존 사전학습 언어모델이 특정 도메인을 잘 이해하지 못한다는 한계를 나타냄에 따라, 최근 특정 도메인에 특화된 언어모델을 만들고자 하는 방향으로 연구의 흐름이 옮겨가고 있는 추세이다. 도메인 특화 추가 사전학습 언어모델은 특정 도메인의 지식을 모델이 더 잘 이해할 수 있게 하여, 해당 분야의 다양한 태스크에서 성능 향상을 가져왔다. 하지만 도메인 특화 추가 사전학습은 해당 도메인의 말뭉치 데이터를 확보하기 위해 많은 비용이 소요될 뿐 아니라, 고성능 컴퓨팅 자원과 개발 인력 등의 측면에서도 많은 비용과 시간이 투입되어야 한다는 부담이 있다. 아울러 일부 도메인에서 추가 사전학습 후의 성능 개선이 미미하다는 사례가 보고됨에 따라, 성능 개선 여부가 확실하지 않은 상태에서 도메인 특화 추가 사전학습 모델의 개발에 막대한 비용을 투입해야 하는지 여부에 대해 판단이 어려운 상황이다. 이러한 상황에도 불구하고 최근 각 도메인의 성능 개선 자체에 초점을 둔 추가 사전학습 연구는 다양한 분야에서 수행되고 있지만, 추가 사전학습을 통한 성능 개선에 영향을 미치는 도메인의 특성을 규명하기 위한 연구는 거의 이루어지지 않고 있다. 본 논문에서는 이러한 한계를 극복하기 위해, 실제로 추가 사전학습을 수행하기 전에 추가 사전학습을 통한 해당 도메인의 성능 개선 정도를 선제적으로 확인할 수 있는 방안을 제시한다. 구체적으로 3개의 도메인을 분석 대상 도메인으로 선정한 후, 각 도메인에서의 추가 사전학습을 통한 분류 정확도 상승 폭을 측정한다. 또한 각 도메인에서 사용된 주요 단어들의 정규화된 빈도를 기반으로 해당 도메인의 특수성을 측정하는 지표를 새롭게 개발하여 제시한다. 사전학습 언어모델과 3개 도메인의 도메인 특화 사전학습 언어모델을 사용한 분류 태스크 실험을 통해, 도메인 특수성 지표가 높을수록 추가 사전학습을 통한 성능 개선 폭이 높음을 확인하였다.

영국 왕립생물학회의 학교 생명과학교육을 위한 교육과정 분석 연구를 통한 교육적 시사점 (Educational Implications through Analysis of the School Biology Curriculum of the Royal Society of Biology for School Biology Education in the United Kingdom)

  • 심규철
    • 한국과학교육학회지
    • /
    • 제43권1호
    • /
    • pp.49-57
    • /
    • 2023
  • 본 연구는 영국의 학교 생명과학 교육을 위한 왕립생물학회(RSB)의 생명과학 교육과정을 분석하고, 한국의 생명과학 교육에 대한 시사점을 살펴보고자 하였다. 영국 RSB 학교 생명과학 교육과정은 3개의 차원(생명과학의 실천, 생명과학의 개념 및 생명과학의 응용)과 7개의 대질문(big questions)으로 구성된다. 영국 RSB 학교 생명과학교육과정은 5-11세, 11-16세, 16-19세의 연령별로 구성되어 체계화되어 있었다. 생명과학의 실천 차원에서 영국 RSB 학교 생명과학 교육과정은 생명과학 활동이 다른 공동체와 연계, 증거 기반 토론 등을 통해 소통하고 공유되어야 한다고 강조한다. 영국 RSB 학교 생명과학 교육과정의 개념 차원은 5-7세, 7-11세, 11-14세, 14-16세, 16-19세의 학교 수준과 연령을 고려하여 내용을 구체적으로 체계화되어 있었다. 우리나라 국가교육과정 생명과학의 핵심 개념과 비교할 때, 영국 RSB 생명과학 교육과정은 인간의 건강, 생물학적 구조와 기능, 생물학적 성장과 재생산, 생물학적 공존 등의 내용 요소들은 상당한 차이를 보였다. 영국 RSB 학교 생명과학 교육과정의 응용 차원에서는 보건 및 환경복지 증진을 위한 응용 방법 개발, 생명과학 지식의 영향평가 및 응용 등 3가지 주제가 학교 수준이나 연령에 상관없이 모든 학생에게 공통적으로 적용되고 있었다. 영국 RSB 생명과학 교육과정의 내용 체계를 고려하여 볼 때, 우리나라 생명과학 교육과정의 내용 체계를 연령이나 학교 수준은 물론 차원과 대질문을 고려한 연계성 강화를 위한 재구성 방안 연구의 필요성을 시사한다.

과학에 관련된 위험 인식과 대응의 역사와 특징 -혈압을 중심으로- (History and Characteristics of Risk Perception and Response Related to Science: Focused on Blood Pressure)

  • 장원빈;김민철
    • 한국과학교육학회지
    • /
    • 제43권6호
    • /
    • pp.549-562
    • /
    • 2023
  • 최근 사회는 과학기술의 발달과 함께 인간이 생산하는 다양한 위험이 확산되는 VUCA 시대에 접어들었다. 시민들의 위험 소양 수준을 높여 이러한 위험에 대응할 수 있는 일상적인 대비를 강화할 필요가 있다. 이를 위해서 위험을 과학적이고 객관적으로 판단하고 대응할 수 있도록 과학 교육의 역할에 대한 재고가 필요하다. 이에 위험 사회에서 과학 교육의 역할을 규명하기 위해 본 연구는 과학과 관련된 위험 인식과 위험 대응의 역사를 검토하고 그 특징을 분석하였다. 이 과정에서 혈압으로 인해 발생하는 위험에 대한 인식과 대응을 세 가지 맥락(역사적 맥락, 교육과정 맥락, 교과서 맥락)에서 분석하였다. 역사적 맥락은 심혈관계 지식의 역사와 관련된 연구가 이루어진 학술지 중 SCIE에 등재된 학술지를 연구대상으로 선정하였다. 선정된 학술지에서 'Hypertenstion', 'History'라는 키워드로 논문을 선정하였고, 이를 시대별로 비교 분석하였다. 교육과정 맥락은 제1차 교육과정부터 2022 개정 교육과정까지 분석하였고, 혈압과 관련한 내용요소, 그리고 성취기준을 비교 분석하였다. 제1차부터 제6차 교육과정까지는 혈압으로 인해 발생하는 위험이 제시되지 않았고, 제7차 교육과정부터 혈압으로 인해 발생하는 위험이 포함된 것으로 확인되었다. 교과서 맥락은 제7차 교육과정 생물Ⅰ, 2015 개정 교육과정 생명과학Ⅰ 과 보건을 선정하여 텍스트 추출을 통해 교과목을 대표하는 키워드를 선정하였다. 이 키워드를 바탕으로 위험 인식과 위험 대응을 어떻게 제시하고 있는지 분석하였다. 그리고 교과서에서 제시된 자료들을 분석하여 위험 인식과 위험 대응의 특징을 도출하였다. 본 연구는 과학 교육에서 위험 인식과 위험 대응의 역할을 확인하였다는 점에서 의미를 갖는다.

수산물채취 잠수부의 작업특성과 잠수관련질환의 양상 (Diving patterns and diving related disease of diving fishermen in Korea)

  • 사공준
    • Journal of Preventive Medicine and Public Health
    • /
    • 제31권1호
    • /
    • pp.139-156
    • /
    • 1998
  • 수산물채취 잠수부에서 발생하는 잠수관련질환을 예방하고, 조기치료에 필요한 기초자료로 활용하기 위하여 잠수부들의 작업환경과 잠수관련질환의 발생양상을 파악하는 단면조사연구를 시행하였다. 수산물채취 어업잠수부 433(서해안 130명, 남해안 220명, 동해안 29명, 기타 54명)을 대상으로 면접과 우편설문을 통하여 인구학적 특성, 취업상태, 잠수기술의 습득경로, 잠수부경력 등의 직업력, 성수기와 비수기의 작업일수, 작업수심, 작업 시기, 잠수방식, 작업횟수, 작업시간, 작업간 휴식시간, 상승시 수중체류 및 급상승의 경험 등 작업특성을 조사하고, 한해 동안 감압병에 이환된 경험과 재압치료 및 잠수관련질환 증상의 경험을 1996년 1월과 2월에 조사하였다. 잠수부들의 평균연령은 39.7세(24-58세), 남자가 92.8%, 고등학교졸업의 학력이 58.4%였다. 평균 잠수부 경력은 12.9년(2-40년), 잠수방식은 후카 70.4%, 헬멧 22.2%, 스쿠버 2.5%였다. 잠수부의 고용상태는 정규 고용 34.7%, 임시고용 54.0%였다. 잠수기술의 습득경로는 선배잠수부 48.5%, 군대 37.6%, 잠수교육기관 12.3%였다. 주된 작업시기는 4-6월이 56%로 가장 많고, 7-9월이 6.4%로 가장 적었다. 성수기의 한달 평균 작업일수는 20.3일, 비수기는 12.5일 이였다. 잠수작업횟수는 하루 5-6회 45.0%, 일회 평균작업 시간은 51.1분, 잠수간 평균휴식시간은 35.5분이었고, 잠수부의 83.6%가 상승시 수중체류를 하고 있으며 80.4%가 급상승을 경험하였다. 후카잠수부의 작업수심은 30m(43%)와 40m(40.4%), 헬멧잠수부는 30m 이하(75.0%), 스쿠버잠수부는 20m 이하(90.9%)에서 주로 작업하였다. 잠수횟수는 주로 후카잠수부가 3-6회(86.5%), 헬멧잠수부가 5-8회(79.9%), 스쿠버잠수부가 4회 이하(81.8%)였다. 잠수부의 65.0%가 지난 일년 동안에 감압병을 경험하였다고 응답하였으며, 잠수작업에 종사한 이후 조사시점까지 전체 잠수부의 31.2%가 재압치료를 받은 경험이 있었다. 감압병의 증상으로는 근골격계 증상과 피부증상이 많았고, 배뇨장애는 39%가 경험하였다고 응답하였다. 혼란효과를 고려하지 않은 단변량분석에서 남자보다 여자에서 감압병의 발생률이 높고, 연령이 증가할수록 감압병의 발생률이 증가하는 경향을 보였다. 잠수부경력이 길수록 감압병의 발생률이 높았으며, 임시 고용에 비해 정규고용의 감압병 발생률이 높았다. 잠수기술은 선배잠수부로부터 습득한 경우가 군대와 교육기관에서 습득한 경우 보다 감압병 발생률이 높았다. 후카잠수부에서 비해 헬멧잠수부의 감압병 발생률이 높았고, 스쿠버잠수부는 감압병을 경험하지 않았다. 작업수심이 깊을수록, 작업횟수가 많을수록 감압병의 발생률이 증가하였다. 급상승의 경험이 있는 군이 없는 군에 비하여 감압병 발생률이 높았다. 일일 평균 40m이상 수심에서 5회 이상 반복잠수를 하는 잠수부가 22.7%, 40m이상의 수심에서 60분 이상 작업하는 잠수부가 6.1%, 5회 이상 반복잠수를 하면서 60분 이상 작업하는 잠수부가 29.1%였다. 작업 횟수가 5회 이상인 군의 감압병 발생률이 4회 이하인 군에 비해 유의하게 높았다. 많은 수의 잠수부가 잠수관련질환에 이환되고 있으며, 감압규정이 무시되고 있는 잠수부의 근무여건을 고려하면 잠수관련질환은 앞으로도 지속적으로 발생할 것으로 예상되므로 2차예방에 보다 많은 관심이 필요하며 잠수관련질환의 발생과 유병에 관한 지속적인 연구, 정기적인 건강진단제도, 잠수장비에 관한 규정 및 안전과 보건에 관한 교육과 훈련이 필요하다.

  • PDF

보길도 세연정(洗然庭)의 공간구조 형식에 내재한 전통색채 분석 (Analysis of the Korea Traditional Colors within the Spatial Arrangement and Form of the Traditional Garden of Seyeonjeong)

  • 한희정;조세환
    • 한국전통조경학회지
    • /
    • 제32권4호
    • /
    • pp.14-23
    • /
    • 2014
  • 본 연구는 세연정의 공간구조 및 형식과 공감각적, 상징적 인지적 요소에 내재하는 전통색채를 분석함으로써 첫째, 세연정 작정에 내재한 전통 색채를 찾아내고 동시에 그 의미를 해석함으로써 세연정 작정의 또 다른 해석 방법을 제시하고 둘째, 기존에 제시된 별서정원의 전통색채 분석 방법론의 신뢰성과 타당성을 검증함을 부목적으로 하였다. 연구방법으로는 전통색채 및 세연정의 작정 배경과 이론, 전통색채 분석 방법 등에 대해서는 문헌연구를 통해 수행하였으며, 전통색채 분석 방법을 세연정 별서에 실증적으로 적용하여 연구 결과를 도출하는 방법을 사용하였다. 특히, 전통색채 분석 방법으로는 세연정에서 나타나는 공간적 요소를 크게 시각적, 공감각적, 상징적 인식적 공간 요소로 구분하여 시각적 공간으로 공간 및 경물의 위치와 방위, 공감각적 공간으로 계절과 시간 및 오관, 상징적 인식적 공간으로 칠정과 사단 등으로 구분하고 각각의 공간요소에 대한 오정색 체계 분석하여 그 의미를 해석하도록 하였다. 연구 결과를 정리 하면 다음과 같다. 첫째, 세연정에서 나타난 공간구조 및 형식은 세연정(洗然亭)을 중심으로 하여 세연정의 사각형 누각의 평면 형태에 따라 동남, 서북의 두 개의 방위 축으로 구분될 수 있었다. 둘째, 세연정에 나타나는 전통색채는 '백색', '청색', '흑색', '적색', '황색 '순으로 나타났다. 셋째, 전통색채 분석에서 청렴과 순결을 상징하는 '백색'이 가장 많이 출현하는 것은 작정자인 윤선도가 맑고 깨끗하게 정치적 미련 없이 세속에 묻혀 살아가는 것을 즐기고자 작정하였다는 해석의 여지를 남겼다. 또한 자연의 생명력을 상징하는 청색의 출현이 우세를 보이는 가운데 지혜를 상징하는 '흑색', 신성하고 숭고한 생명력을 상징하는 '적색'이 유사한 비율로 출현하고 높고 고귀한 지위를 상징하는 '황색'이 제일 낮은 빈도로 출현하는 것은 윤선도가 세연정을 통해 벼슬 등 지위보다는 자연을 즐기며, 그를 통해 지혜를 쌓고, 춤과 시 짓기 등 놀이를 통해 윤선도 스스로 신성하고 고귀한 존재로 여생의 삶을 영위하고자 하는 의도로 작정되었다는 것과 일치되거나 적어도 연관되어 해석될 여지를 보였다. 넷째, 이상의 연구 결과는 본 연구에 선행된 소쇄원의 전통색채 분석과 의미 해석과 비교 고찰해 보았을 때 소쇄원에 처음으로 적용된 전통색채 분석 방법론에 대한 신뢰성과 타당성을 검증할 수 있었다.

재래시장 환경개선 지원정책 개발에서의 지역 장소적 기능 도입 (Introduction of region-based site functions into the traditional market environmental support funding policy development)

  • 정대용;이세호
    • 한국유통학회:학술대회논문집
    • /
    • 한국유통학회 2005년도 춘계학술대회 발표논문집
    • /
    • pp.383-405
    • /
    • 2005
  • 재래시장은 지역의 중심지적인 특성과 문화적인 특성이 고스란히 반영된 지역 거점지이며 인근 지역주민의 상거래라는 1차적 장소적 기능과 사회문화적 측면의 상호 정보문화교류, 커뮤니티 공간 형성으로 유통의 집객시설과 집적시설로서 중요한 역할과 기능을 하고 있다. 5인 이하 가족 단위의 생계형으로 취급상품, 구입방범, 판매방식 등이 전근대적인 경영기법을 통해 한국의 대표적 소매업태로서의 역할을 해오고 있다. 1990년대 이후 신유통업태와 대형할인점 진출로 인해 재래시장은 급격한 경쟁력 상실과 소비자들의 생활수준의 향상, 구매패턴의 변화, 인터넷의 급속한 확산 등 외부적인 유통 환경변화에서 경쟁력을 상실하고 설 자리를 잃어가고 있다. 정부의 지역경제 활성화와 국민경제의 발전 측면에서 고령화된 재래시장에 대한 대책 중 정부의 예산지원 정책으로 환경개선사업, 연구용역, 경영현대화중심의 국고지원 사업은 2001년부터 2004년까지 총 3,853억원의 국고가 지원되었으나 활성화 사업의 실효성에는 아직 정확히 나타나고 있지 않은 상황으로 조사되었다. 또한 지원사업을 추진함에 있어 시장상인리더들의 전문성결여로 종합적인 추진전략과 중장기적 계획수립 및 자발적인 상인들의 합의점 유도 반감으로 지속적인 사업추진방향에 한계점을 나타냈다. 재래시장이 단순히 물건을 사고파는 물리적인 장소적 의미에서 벗어나 새로운 지역 장소적 생활공간으로 커뮤니티적 접근을 통한 장소적 창조전략이 필요하다. 이에 시대적 패러다임 변화에 따른 새로운 사업 방향 전환을 통해 재래시장의 장소적 기능 도입을 동해 문화적 경제적 의미를 지닌 공간으로 재조명을 동해 발전방향을 제시하고자 한다. 재래시장은 지역 기반으로 한 지역생활자들과 자연스럽게 커뮤니티를 상호 형성하고 정보와 지식 공유를 통해 부 창출 공간으로 재생되어야 할 것이다 재래시장이 부 창출 공간으로 재생하려면 시대적 장소적 환경에 맞는 시설과 교류활동을 통찬 상호신뢰구축 활동 속에서 고객이 원하는 방향으로 영업환경도 변화하여야 하며, 지역단위 중심 영국의 TCM, 미국의 BID, 일본의 TMO 등 해외 벤치마킹을 통한 단위 시장상가 점포단위의 점(點)정책에서 선(線)단위의 상가로 환경사업과 거시적인 지역단위중심인 면(面) 정책적 접근을 통한 커뮤니티적인 발상 전환이 필요하다. 국내외 사례비교 분석을 통해 사회적 정책수요 발굴과 기존의 추진방법에 대한 선진사례 연구를 통한 NPO, NGO 등의 시민기업가와 이를 수행키 위한 혁신성과 전문성조정능력을 갖춘 리더자 양성이 무엇보다 중요하다. 특히 지역자원 활용 소스 중심의 문화관린 산업의 seeds 발굴과 향토상품의 상품화와 네트워크 조직망 구축을 위한 지역중심의 복합 생활문화 공간이 필요할 것이며, 이를 촉진키 위한 mentor academy시스템 접근을 통해 점점 고령화되어 가고 있는 재래시장에 대해 차별적 특성이 반영된 종합적이고 체계적 접근 방법연구가 필요하다.

  • PDF

호텔 산업의 서비스 품질 향상을 위한 토픽 마이닝 기반 분석 방법 (An Analytical Approach Using Topic Mining for Improving the Service Quality of Hotels)

  • 문현실;성다윗;김재경
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.21-41
    • /
    • 2019
  • 정보 기술의 발전으로 온라인에서 활용 가능한 데이터의 양이 급속히 증대되고 있다. 이러한 빅데이터 시대에 많은 연구들이 통찰력을 발견하고 데이터의 효과를 입증하기 위해 노력하고 있다. 특히 관광 산업의 경우 정보에 민감한 사업으로 소셜 미디어의 영향력이 높고 소셜 미디어의 상품 후기에 소비자들이 영향을 많이 받아 많은 기업과 연구자들이 소셜 미디어를 분석하여 새로운 서비스 및 통찰력을 얻고자 시도하였다. 하지만 소셜 미디어의 후기는 텍스트로 이루어진 대표적인 비정형 데이터로 적절한 처리를 하지 않으면 분석에 활용할 수 없다. 또한 후기 데이터의 양이 방대함에 따라 사람이 직접 분석하기도 어려운 실정이다. 따라서, 본 연구에서는 이러한 소셜미디어 상의 온라인 후기로부터 직접 호텔의 서비스 품질 향상을 위한 통찰력을 추출할 수 있는 분석 방법을 제시하고자 한다. 이를 위해 본 연구에서는 먼저 후기 데이터에 포함되어 있는 주제어를 추출하는 토픽 마이닝 기법을 적용하였다. 토픽 마이닝은 대용량의 문서 집합으로부터 문서를 대표하는 단어 집합을 추출하는 기법을 의미하며 본 연구에서는 다양한 연구에서 활용되고 있는 LDA모형을 사용하여 토픽 마이닝을 수행하였다. 하지만, 토픽 마이닝 자체만으로는 주제어와 평점 사이의 관계를 도출할 수 없어 서비스 품질 향상을 위한 통찰력을 발견하기 어렵다. 그에 따라 본 연구에서는 토픽 마이닝의 결과값을 기반으로 의사결정나무 모형을 사용하여 주제어와 평점 사이의 관계를 도출하였다. 이러한 방법론의 유용성을 평가하기 위해 홍콩에 있는 4개 호텔의 온라인 후기를 수집하고 제안한 방법론의 분석 결과를 해석하는 실험을 진행하였다. 실험 결과 긍정 후기를 통해 각 호텔이 유지해야할 서비스 영역을 발견할 수 있었으며 부정 후기를 통해 개선해야할 서비스 영역을 도출할 수 있었다. 따라서, 본 연구에서 제안한 방법론을 사용하여 방대한 양의 후기 데이터로부터 서비스 개선 및 유지 영역을 발견할 수 있으리라 기대된다.

한정된 O-D조사자료를 이용한 주 전체의 트럭교통예측방법 개발 (DEVELOPMENT OF STATEWIDE TRUCK TRAFFIC FORECASTING METHOD BY USING LIMITED O-D SURVEY DATA)

  • 박만배
    • 대한교통학회:학술대회논문집
    • /
    • 대한교통학회 1995년도 제27회 학술발표회
    • /
    • pp.101-113
    • /
    • 1995
  • The objective of this research is to test the feasibility of developing a statewide truck traffic forecasting methodology for Wisconsin by using Origin-Destination surveys, traffic counts, classification counts, and other data that are routinely collected by the Wisconsin Department of Transportation (WisDOT). Development of a feasible model will permit estimation of future truck traffic for every major link in the network. This will provide the basis for improved estimation of future pavement deterioration. Pavement damage rises exponentially as axle weight increases, and trucks are responsible for most of the traffic-induced damage to pavement. Consequently, forecasts of truck traffic are critical to pavement management systems. The pavement Management Decision Supporting System (PMDSS) prepared by WisDOT in May 1990 combines pavement inventory and performance data with a knowledge base consisting of rules for evaluation, problem identification and rehabilitation recommendation. Without a r.easonable truck traffic forecasting methodology, PMDSS is not able to project pavement performance trends in order to make assessment and recommendations in the future years. However, none of WisDOT's existing forecasting methodologies has been designed specifically for predicting truck movements on a statewide highway network. For this research, the Origin-Destination survey data avaiiable from WisDOT, including two stateline areas, one county, and five cities, are analyzed and the zone-to'||'&'||'not;zone truck trip tables are developed. The resulting Origin-Destination Trip Length Frequency (00 TLF) distributions by trip type are applied to the Gravity Model (GM) for comparison with comparable TLFs from the GM. The gravity model is calibrated to obtain friction factor curves for the three trip types, Internal-Internal (I-I), Internal-External (I-E), and External-External (E-E). ~oth "macro-scale" calibration and "micro-scale" calibration are performed. The comparison of the statewide GM TLF with the 00 TLF for the macro-scale calibration does not provide suitable results because the available 00 survey data do not represent an unbiased sample of statewide truck trips. For the "micro-scale" calibration, "partial" GM trip tables that correspond to the 00 survey trip tables are extracted from the full statewide GM trip table. These "partial" GM trip tables are then merged and a partial GM TLF is created. The GM friction factor curves are adjusted until the partial GM TLF matches the 00 TLF. Three friction factor curves, one for each trip type, resulting from the micro-scale calibration produce a reasonable GM truck trip model. A key methodological issue for GM. calibration involves the use of multiple friction factor curves versus a single friction factor curve for each trip type in order to estimate truck trips with reasonable accuracy. A single friction factor curve for each of the three trip types was found to reproduce the 00 TLFs from the calibration data base. Given the very limited trip generation data available for this research, additional refinement of the gravity model using multiple mction factor curves for each trip type was not warranted. In the traditional urban transportation planning studies, the zonal trip productions and attractions and region-wide OD TLFs are available. However, for this research, the information available for the development .of the GM model is limited to Ground Counts (GC) and a limited set ofOD TLFs. The GM is calibrated using the limited OD data, but the OD data are not adequate to obtain good estimates of truck trip productions and attractions .. Consequently, zonal productions and attractions are estimated using zonal population as a first approximation. Then, Selected Link based (SELINK) analyses are used to adjust the productions and attractions and possibly recalibrate the GM. The SELINK adjustment process involves identifying the origins and destinations of all truck trips that are assigned to a specified "selected link" as the result of a standard traffic assignment. A link adjustment factor is computed as the ratio of the actual volume for the link (ground count) to the total assigned volume. This link adjustment factor is then applied to all of the origin and destination zones of the trips using that "selected link". Selected link based analyses are conducted by using both 16 selected links and 32 selected links. The result of SELINK analysis by u~ing 32 selected links provides the least %RMSE in the screenline volume analysis. In addition, the stability of the GM truck estimating model is preserved by using 32 selected links with three SELINK adjustments, that is, the GM remains calibrated despite substantial changes in the input productions and attractions. The coverage of zones provided by 32 selected links is satisfactory. Increasing the number of repetitions beyond four is not reasonable because the stability of GM model in reproducing the OD TLF reaches its limits. The total volume of truck traffic captured by 32 selected links is 107% of total trip productions. But more importantly, ~ELINK adjustment factors for all of the zones can be computed. Evaluation of the travel demand model resulting from the SELINK adjustments is conducted by using screenline volume analysis, functional class and route specific volume analysis, area specific volume analysis, production and attraction analysis, and Vehicle Miles of Travel (VMT) analysis. Screenline volume analysis by using four screenlines with 28 check points are used for evaluation of the adequacy of the overall model. The total trucks crossing the screenlines are compared to the ground count totals. L V/GC ratios of 0.958 by using 32 selected links and 1.001 by using 16 selected links are obtained. The %RM:SE for the four screenlines is inversely proportional to the average ground count totals by screenline .. The magnitude of %RM:SE for the four screenlines resulting from the fourth and last GM run by using 32 and 16 selected links is 22% and 31 % respectively. These results are similar to the overall %RMSE achieved for the 32 and 16 selected links themselves of 19% and 33% respectively. This implies that the SELINICanalysis results are reasonable for all sections of the state.Functional class and route specific volume analysis is possible by using the available 154 classification count check points. The truck traffic crossing the Interstate highways (ISH) with 37 check points, the US highways (USH) with 50 check points, and the State highways (STH) with 67 check points is compared to the actual ground count totals. The magnitude of the overall link volume to ground count ratio by route does not provide any specific pattern of over or underestimate. However, the %R11SE for the ISH shows the least value while that for the STH shows the largest value. This pattern is consistent with the screenline analysis and the overall relationship between %RMSE and ground count volume groups. Area specific volume analysis provides another broad statewide measure of the performance of the overall model. The truck traffic in the North area with 26 check points, the West area with 36 check points, the East area with 29 check points, and the South area with 64 check points are compared to the actual ground count totals. The four areas show similar results. No specific patterns in the L V/GC ratio by area are found. In addition, the %RMSE is computed for each of the four areas. The %RMSEs for the North, West, East, and South areas are 92%, 49%, 27%, and 35% respectively, whereas, the average ground counts are 481, 1383, 1532, and 3154 respectively. As for the screenline and volume range analyses, the %RMSE is inversely related to average link volume. 'The SELINK adjustments of productions and attractions resulted in a very substantial reduction in the total in-state zonal productions and attractions. The initial in-state zonal trip generation model can now be revised with a new trip production's trip rate (total adjusted productions/total population) and a new trip attraction's trip rate. Revised zonal production and attraction adjustment factors can then be developed that only reflect the impact of the SELINK adjustments that cause mcreases or , decreases from the revised zonal estimate of productions and attractions. Analysis of the revised production adjustment factors is conducted by plotting the factors on the state map. The east area of the state including the counties of Brown, Outagamie, Shawano, Wmnebago, Fond du Lac, Marathon shows comparatively large values of the revised adjustment factors. Overall, both small and large values of the revised adjustment factors are scattered around Wisconsin. This suggests that more independent variables beyond just 226; population are needed for the development of the heavy truck trip generation model. More independent variables including zonal employment data (office employees and manufacturing employees) by industry type, zonal private trucks 226; owned and zonal income data which are not available currently should be considered. A plot of frequency distribution of the in-state zones as a function of the revised production and attraction adjustment factors shows the overall " adjustment resulting from the SELINK analysis process. Overall, the revised SELINK adjustments show that the productions for many zones are reduced by, a factor of 0.5 to 0.8 while the productions for ~ relatively few zones are increased by factors from 1.1 to 4 with most of the factors in the 3.0 range. No obvious explanation for the frequency distribution could be found. The revised SELINK adjustments overall appear to be reasonable. The heavy truck VMT analysis is conducted by comparing the 1990 heavy truck VMT that is forecasted by the GM truck forecasting model, 2.975 billions, with the WisDOT computed data. This gives an estimate that is 18.3% less than the WisDOT computation of 3.642 billions of VMT. The WisDOT estimates are based on the sampling the link volumes for USH, 8TH, and CTH. This implies potential error in sampling the average link volume. The WisDOT estimate of heavy truck VMT cannot be tabulated by the three trip types, I-I, I-E ('||'&'||'pound;-I), and E-E. In contrast, the GM forecasting model shows that the proportion ofE-E VMT out of total VMT is 21.24%. In addition, tabulation of heavy truck VMT by route functional class shows that the proportion of truck traffic traversing the freeways and expressways is 76.5%. Only 14.1% of total freeway truck traffic is I-I trips, while 80% of total collector truck traffic is I-I trips. This implies that freeways are traversed mainly by I-E and E-E truck traffic while collectors are used mainly by I-I truck traffic. Other tabulations such as average heavy truck speed by trip type, average travel distance by trip type and the VMT distribution by trip type, route functional class and travel speed are useful information for highway planners to understand the characteristics of statewide heavy truck trip patternS. Heavy truck volumes for the target year 2010 are forecasted by using the GM truck forecasting model. Four scenarios are used. Fo~ better forecasting, ground count- based segment adjustment factors are developed and applied. ISH 90 '||'&'||' 94 and USH 41 are used as example routes. The forecasting results by using the ground count-based segment adjustment factors are satisfactory for long range planning purposes, but additional ground counts would be useful for USH 41. Sensitivity analysis provides estimates of the impacts of the alternative growth rates including information about changes in the trip types using key routes. The network'||'&'||'not;based GMcan easily model scenarios with different rates of growth in rural versus . . urban areas, small versus large cities, and in-state zones versus external stations. cities, and in-state zones versus external stations.

  • PDF