• 제목/요약/키워드: 문서비교

검색결과 1,053건 처리시간 0.025초

오류가 발생한 멀티바이트 인코딩 데이터의 인코딩 기법 판별 알고리즘 개선 (Improvement of Encoding Detection Algorithm for Multi-byte Encoded Data with Errors)

  • 배준우;김선범;박희진
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권2호
    • /
    • pp.18-25
    • /
    • 2017
  • 인코딩(encoding)은 컴퓨터에서 사용되는 음성, 영상 및 텍스트 문자를 부호화하는 방법을 가리킨다. 그러므로 특정 데이터를 열람하기 위해서는 해당 인코딩 정보를 알아야하며, 데이터마다 인코딩을 판별해주는 알고리즘들이 존재한다. 하지만 실제 음원이나 문서를 송수신하는 과정에서 패킷 손실이 발생할 수 있으며, 특히 무선 통신망에서 패킷 스니핑으로 정보를 가로챌 경우 손실률은 더욱 증가되어 인코딩 기법 판별에 어려움이 발생한다. 본 논문에서는 이러한 오류가 발생한 데이터의 인코딩 기법 판별율을 향상시키기 위해 기존의 문자 인코딩 기법 판별 프로그램인 'uchardet'에 Bit-shift 알고리즘을 적용하여 성능 향상을 이루었다. 알고리즘의 성능 평가를 위해 임의의 한글 및 일본어 텍스트 파일에 손실률(loss rate)을 적용하여 부분적으로 데이터가 소실된 인코딩 파일을 생성하여 결과를 비교하였다. 그 결과, 패킷이 손실된 데이터에서 Bit-shift 알고리즘을 적용한 'uchardet-bitshift' 경우 기존의 알고리즘보다 더 나은 성능을 보였다. 한국어 인코딩의 경우 기존의 uchardet는 0.005% 손실률까지 100%의 정확도를 보이고 1%보다 높은 손실률에서는 인코딩을 전혀 판별해 내지 못한데 비해, Bit-shift 알고리즘을 적용할 경우 0.05%의 손실률에도 100%의 정확도를 보였으며 그보다 큰 손실률에서도 해당 인코딩을 판별해냈다. 또한 한자어를 많이 포함하는 일본어의 경우 손실률이 높아질수록 중국어 인코딩으로 잘못 판별하는 경향을 보였다. 시뮬레이션 분석 결과, Bit shift 알고리즘을 추가하여 기존 인코딩 기법 판별 알고리즘의 개선이 가능하였다.

품사별 출현 빈도를 활용한 코로나19 관련 한국어 가짜뉴스 탐지 (COVID-19-related Korean Fake News Detection Using Occurrence Frequencies of Parts of Speech)

  • 김지혁;안현철
    • 지능정보연구
    • /
    • 제29권2호
    • /
    • pp.267-283
    • /
    • 2023
  • 2019년 12월부터 현재까지 지속되고 있는 코로나19 팬데믹으로 인해 대중들은 감염병 대응을 위한 정보를 필요로 하게 되었다. 하지만 소셜미디어에서 유포되는 코로나19 관련 가짜뉴스로 인해 대중들의 건강이 심각하게 위협받고 있다. 특히 코로나19와 관련된 가짜뉴스가 유사한 내용으로 대량 유포될 경우 사실인지 거짓인지 진위를 가리기 위한 검증에 소요되는 시간이 길어지게 되어 우리 사회의 전반에 심각한 위협이 될 수 있다. 이에 학계에서는 신속하게 코로나19 관련 가짜뉴스를 탐지할 수 있는 지능형 모델에 대한 연구를 활발하게 수행해 오고 있으나, 대부분의 기존 연구에 사용된 데이터는 영문으로 구성되어 있어 한국어 가짜뉴스 탐지에 대한 연구는 매우 드문 실정이다. 이에 본 연구에서는 소셜 미디어 상에서 유포되는 한국어로 작성된 코로나19 관련 가짜뉴스 데이터를 직접 수집하고, 이를 기반으로 한 지능형 가짜뉴스 탐지 모델을 제안한다. 본 연구의 제안모델은 언어학적 특성 중 하나인 품사별 빈도 정보를 추가적으로 활용하여, 기존 연구에서 주로 사용되어 온 문서 임베딩 기법인 Doc2Vec 기반 가짜뉴스 탐지 모델의 예측 성능을 제고하고자 하였다. 실증분석 결과, 제안 모델이 비교 모델에 비해 Recall 및 F1 점수가 높아져 코로나19 관련 한국어 가짜뉴스를 보다 정확하게 판별함을 확인하였다.

나주 복암리 목간 출토의 고고학적 의의 (Archaeological Meanings of Wooden Tablets from Bogam-ri in Naju)

  • 김혜정
    • 헤리티지:역사와 과학
    • /
    • 제49권2호
    • /
    • pp.142-157
    • /
    • 2016
  • 2008년 나주 복암리유적에서 백제지방 최초로 목간이 출토되었다. 이 글에서는 목간을 묵서가 있는 목제품으로 정의하고 복암리 유적 발굴보고서에 수록된 목간 65점 중 묵서가 확인된 13점을 대상으로 백제 목간 출토현황과 비교하여 복암리 목간의 의미를 살펴 보았다. 복암리 출토 목간은 모두 대형의 1호수혈에서 일괄 출토되었다. 수혈 내부 토층은 모두 43개의 층으로 세분되나 출토된 목간을 비롯한 다수의 목제품, 토기, 기와 등 유물의 시기적 차이는 보이지 않는다. 목간은 다른 유구에서는 출토되지 않았으며 수혈에 일부러 폐기한 것으로 보이는데, 목간의 형태적 특징을 통해 2차 폐기되었음을 알 수 있다. 복암리 목간은 간지명 묵서 '경오년(庚午年)'이 확인된 목간과 $C^{14}$ 연대측정 결과 등을 토대로 610년을 중심연대로 7세기 초반으로 편년된다. 출토된 13점의 목간을 묵서 내용과 형태적 특징을 토대로 기능적으로 분류하면 문서목간 6점, 부찰목간 6점, 기타목간 1점으로 나뉜다. 현재까지 출토된 백제 목간은 총 89점으로 출토 지역은 나주와 금산을 제외하면 모두 부여에서 출토되었고, 사비도성 안팎의 왕궁지, 궁원지, 사찰 등으로 다양하다. 복암리 목간과 비교되는 주요 백제 목간으로는 관북리 목간, 궁남지 목간, 쌍북리 280-5번지 목간 등이다. 이들 목간과의 비교를 통해 웅진도독부 시절의 지명에 대한 검토, 지명+관등+인명 순으로 정형화된 신분표시 방식, 백제에서 군제가 실시되었고 복암리는 군이 설치된 지역이었다는 단서, 정중제 실시 등을 살펴볼 수 있다. 복암리 목간은 작성시기(610년), 작성지(군이 설치된 두힐성), 작성주체(군좌, 지방관 등)가 확실하며 기록된 내용은 백제 목간의 표준화된 신분표시 방식, 서사방식, 정중제와 양전제의 실시 등 백제 지방사회의 지배에 대한 일면을 단적으로 보여주는 중요자료라 할 수 있다.

데이터 시각화 역량 관점에서 2022 개정 수학/과학 교육과정의 성취기준 분석 (Analyzing the Performance Expectations of the 2022 Revised Mathematics and Science Curriculum from a Data Visualization Competency Perspective)

  • 이동영;박애령;정주희;황주현;남윤경
    • 대한지구과학교육학회지
    • /
    • 제17권2호
    • /
    • pp.123-136
    • /
    • 2024
  • 본 연구는 수학과와 과학과를 중심으로 데이터 시각화 역량 범주 관점에서 2022 개정 교육과정의 성취기준 및 성취기준 해설을 분석하여 그 특징을 과목과 학년군별로 알아보는 데 목적이 있다. 연구를 실행하기 위해 선행연구들을 조사하였으며, 연구자들은 수집 및 전처리 역량, 기술 역량, 사고 역량, 상호작용 역량이라는 4개의 데이터 시각화 역량 범주를 중심으로 데이터 시각화의 핵심 역량 범주를 정리하였다. 이를 바탕으로 데이터 시각화 관점에서 성취기준을 분석하기 위한 틀을 제작하였으며, 이를 활용하여 2022 개정 교육과정(교육부 고시 제2022-33호, 별책 8과 9)의 문서를 검토 및 분석하였다. 수학과 성취기준 및 성취기준 해설 191개와 과학과 성취기준 및 성취기준 해설 230개를 분석하여 데이터 시각화 역량과 관련된 요인을 추출하고 정리하였다. 정리된 요인들을 학습 기간을 고려하여 표준화한 후, 히트맵을 활용하여 시각화하고 정성적으로 분석하였으며, Mann-Whitney의 U 검정과 독립표본 Kruskal-Wallis 검정을 통해 정량적으로 분석하였다. 분석 결과, 수학과의 경우 학년군별로 유의미한 차이가 나타나지 않았으며, 성취기준별로는 사고 역량이 기술 역량(p=.002) 및 상호작용 역량(p=.001)에 비해 유의미하게 낮은 것으로 나타났다. 또한 학년군이 올라갈수록 기술 역량과 상호작용 역량으로 수렴하는 경향을 보였다. 과학과의 경우, 학년이 올라갈수록 더 많은 성취기준을 다룬다는 것을 확인할 수 있었으며(대응별 비교, 5~6학년군 대 7~9학년군 p=.001; 5~6학년군 대 10학년군 p=.029; 3~4학년군 대 7~9학년군 p=.022), 성취기준별로는 사고 역량이 다른 모든 역량에 비해 유의미하게 낮은 것(대응별 비교, 기술 역량 p=.024; 수집 및 전처리 역량 p=.012; 상호작용 역량 p=.010)으로 나타났다. 또한 학년군이 올라갈수록 사고 역량을 제외한 나머지 역량으로 수렴하는 경향이 있었다. 이를 통해 첫째, 데이터 시각화 역량은 교육과정에서 4개의 데이터 시각화 역량 범주로 분류할 수 있으며, 둘째, 수학 및 과학 과목의 데이터 시각화 역량은 학년군이 올라갈수록 특정 역량으로 수렴되는 경향을 보이며, 셋째, 데이터 시각화 역량 중 사고 역량은 비교적 비중이 적게 다루어진다는 것을 확인할 수 있었다. 이와 같은 결론을 바탕으로 2022 개정 교육과정에서 데이터 시각화 역량에 대한 시사점을 제언하였다.

의존 구문 분석을 이용한 질의 기반 정답 추출 (Query-based Answer Extraction using Korean Dependency Parsing)

  • 이도경;김민태;김우주
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.161-177
    • /
    • 2019
  • 질의응답 시스템은 크게 사용자의 질의를 분석하는 방법인 질의 분석과 문서 내에서 적합한 정답을 추출하는 방법인 정답 추출로 이루어지며, 두 방법에 대한 다양한 연구들이 진행되고 있다. 본 연구에서는 문장의 의존 구문 분석 결과를 이용하여 질의응답 시스템 내 정답 추출의 성능 향상을 위한 연구를 진행한다. 정답 추출의 성능을 높이기 위해서는 문장의 문법적인 정보를 정확하게 반영할 필요가 있다. 한국어의 경우 어순 구조가 자유롭고 문장의 구성 성분 생략이 빈번하기 때문에 의존 문법에 기반한 의존 구문 분석이 적합하다. 기존에 의존 구문 분석을 질의응답 시스템에 반영했던 연구들은 구문 관계 정보나 구문 형식의 유사도를 정의하는 메트릭을 사전에 정의해야 한다는 한계점이 있었다. 또 문장의 의존 구문 분석 결과를 트리 형태로 표현한 후 트리 편집 거리를 계산하여 문장의 유사도를 계산한 연구도 있었는데 이는 알고리즘의 연산량이 크다는 한계점이 존재한다. 본 연구에서는 구문 패턴에 대한 정보를 사전에 정의하지 않고 정답 후보 문장을 그래프로 나타낸 후 그래프 정보를 효과적으로 반영할 수 있는 Graph2Vec을 활용하여 입력 자질을 생성하였고, 이를 정답 추출모델의 입력에 추가하여 정답 추출 성능 개선을 시도하였다. 의존 그래프를 생성하는 단계에서 의존 관계의 방향성 고려 여부와 노드 간 최대 경로의 길이를 다양하게 설정하며 자질을 생성하였고, 각각의 경우에 따른 정답추출 성능을 비교하였다. 본 연구에서는 정답 후보 문장들의 신뢰성을 위하여 웹 검색 소스를 한국어 위키백과, 네이버 지식백과, 네이버 뉴스로 제한하여 해당 문서에서 기존의 정답 추출 모델보다 성능이 향상함을 입증하였다. 본 연구의 실험을 통하여 의존 구문 분석 결과로 생성한 자질이 정답 추출 시스템 성능 향상에 기여한다는 것을 확인하였고 해당 자질을 정답 추출 시스템뿐만 아니라 감성 분석이나 개체명 인식과 같은 다양한 자연어 처리 분야에 활용 될 수 있을 것으로 기대한다.

텍스트마이닝 기반의 효율적인 장소 브랜드 이미지 강도 측정 방법 (An Efficient Estimation of Place Brand Image Power Based on Text Mining Technology)

  • 최석재;전종식;비스워스 수브르더;권오병
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.113-129
    • /
    • 2015
  • 장소 브랜딩은 특정 장소에 대한 의미 부여를 통해 장소성의 정체성 및 공동가치를 생성하며 가치 창출을 하는데 중요한 활동이며, 장소 브랜드에 대한 이미지 파악을 통해 이루어진다. 이에 마케팅, 건축학, 도시건설학 등 여러 분야에서는 인상적인 장소 브랜드의 이미지를 구축하기 위하여 많은 노력을 기울이고 있다. 하지만 설문조사를 포함한 대면조사 방법은 대부분 주관적인 작업이며 측정에 많은 인력 또는 고도의 전문 인력이 소요되어 고비용을 발생시키므로 보다 객관적이면서도 비용효과적인 브랜드 이미지 조사 방법이 필요하다. 이에 본 논문은 텍스트마이닝을 통하여 장소 브랜드의 이미지 강도를 객관적이고 저비용으로 얻는 방법을 찾는 것을 목적으로 한다. 제안하는 방법은 장소 브랜드 이미지를 구성하고 있는 요인과 그 키워드들을 관련 웹문서에서 추출하며, 추출된 정보를 통해 특정 장소의 브랜드 이미지 강도를 측정하는 방법이다. 성능은 안홀트 방법에서 평가에 사용하는 전세계 50개 도시 이미지 인덱스 순위와의 일치도로 검증하였다. 성능 비교를 위해 임의로 순위를 매기는 방법, 안홀트의 설문방식대로 일반인이 평가하는 방법, 본 논문의 방법을 사용하되 안홀트의 방법으로 학습한 것으로 유의한 것으로 추정되는 평가 항목만을 반영하는 방법과 비교하였다. 그 결과 제안된 방법론은 정확성, 비용효율성, 적시성, 확장성, 그리고 신뢰성 측면에서 우수함을 보일 수 있었다. 따라서 본 연구에서 제안한 방법론은 안홀트 방식에 상호 보완적으로 사용될 수 있을 것이다. 향후에는 장소 브랜드 이미지를 형성하는 속성 별로 등장횟수를 계산 한 후에 장소 브랜드에 대한 태도, 연상, 그리고 브랜드 자산과의 인과관계를 자동으로 파악할 수 있는 부분까지 구현하고 실증적 실험을 할 예정이다.

체제 변환기 러시아 및 동구권 국가들의 교육 개혁이 정책 전이 논쟁에 주는 시사점: 볼로냐 프로세스를 중심으로 (Educational Reforms under the Bologna Process in Former Socialist Countries: An analysis of educational policy transfer)

  • 김선
    • 비교교육연구
    • /
    • 제27권1호
    • /
    • pp.145-169
    • /
    • 2017
  • 본 연구의 목적은 러시아와 동구권 국가들에서 행해진 학제 통합 개혁이 교육정책 전이 논쟁에 주는 시사점에 대해 고찰하는 것이다. 이를 위해 유럽 연합 및 개별 국가 정부의 정책 문서 및 온라인 자료, 신문 기사, 개별 연구자들의 조사자료 등에 대한 문헌 분석을 중심으로 살펴보았다. 본 연구는 볼로냐 프로세스에 따른 학제 통합 개혁이 러시아와 우크라이나, 헝가리 같은 구공산권 전통과 제도를 가진 체제 변환 국가의 일선 교육 현장에서 수용되는 과정에 대한 분석을 통해 교육정책전이 논쟁에 다음과 같은 시사점을 도출해 내었다. 첫째, 체제변환국의 정책전이 연구에서 주체 행위자에 대한 분석의 중요성을 제고해야 한다는 것이다. 볼로냐 프로세스가 원래 대학의 자율성 제고 및 증대 시키는 목적으로 만들어 졌음에도 불구하고 체제변환 국가들에서는 오히려 교육 분야에서 중앙집권적인 관료체계를 강화하고 교수들 및 대학들의 자율을 저해하는 방향으로 실행되었다는 사실은 주체 행위자에 따라 정책전이가 상이하게 일어나는 것을 시사한다. 둘째, 구공산주의 국가들을 포함한 체제변환국에서 실행되는 정책 전이를 분석함에 있어 일선의 교육 관료들의 반응 및 행동과 교육정책의 결정의 주체인 중앙 정부의 교육관료들 간의 괴리에 주목해야 함을 시사한다. 볼로냐 프로세스 개혁의 정책적인 도입이 정책입안자인 관료들과 일선 교육현장에 도입되는 과정에서 일선 현장의 대학 교원들 간의 상이한 인식과 수용의 차이를 나타내었다. 이는 교육개혁의 긍정적인 측면에도 불구하고 개혁의 직접적인 수행자인 교원들의 근본적인 동기와 목표의 변화로 이어지지 못하게 했고, 결국 근본적인 변화를 이끌어 내지 못하고 표면적인 변화에 그치게 되는 결과로 이어졌다. 마지막으로, 서유럽에서 시작한 교육 개혁이 상이한 정치, 경제, 사회, 문화적 토양 및 발전 단계에 있는 구공산주의 국가들을 포함한 체제변환 국가들에 전이되었을 때 생각지도 못한 큰 부담을 초래할 수 있음을 시사해 준다. 볼로냐 프로세스는 체제변환국가에게 고등교육의 학제 통합이라는 기술적인 개혁뿐만 아니라 교육제도의 근본적이고 구조적인 개혁이라는 두 가지 부담을 주는 결과를 초래했다.

텍스트마이닝을 활용한 공개데이터 기반 기업 및 산업 토픽추이분석 모델 제안 (Development of Topic Trend Analysis Model for Industrial Intelligence using Public Data)

  • 박선영;이진무;김유일;서진이
    • 기술혁신연구
    • /
    • 제26권4호
    • /
    • pp.199-232
    • /
    • 2018
  • 빅데이터 분석을 통한 기업 경영환경에 대한 이해와 통찰을 구하고자 하는 요구가 산업 및 기업 경영 전반에 증가하고 있다. 이러한 사회적 요구에 따라 산업의 이해와 기업 경영의 이해를 위하여 기업의 경영실적 및 향후 계획을 포괄적으로 담고 있는 기업공시정보를 활용한 연구가 주목을 받고 있다. 이러한 기업공시정보는 대표적인 비정형 데이터로써 텍스트마이닝 방법론을 적용하여 그 범위와 수준에 대한 다양한 접근을 통하여 산업 수준 및 기업 수준에서 다양한 활용이 가능하다. 그러나 아직은 이러한 기업공시자료를 활용한 산업 및 기업 레벨에서 적용가능한 수준의 분석모델이 부족한 것으로 파악된다. 따라서 본 연구에서는 실제 활용 가능한 공개데이터를 활용한 산업 및 기업 수준의 분석모델을 제안하고자 한다. 미국상장기업의 공시자료인 미국 SEC EDGAR 자료를 기반으로 텍스트마이닝 알고리즘을 적용하여 산업 및 기업 수준의 경영주제(토픽)에 대한 추이분석이 가능한 모델을 제안하고자한다. SEC EDGAR의 10-K 문서를 대상으로 LDA 토픽 모델링을 통하여 산업 수준에서 전체 산업의 주제분야 분류를 파악하였고, 산업간 비교 측면에서 소프트웨어 산업과 하드웨어 산업 분야의 사례를 통해 최근 20년간의 토픽추이를 비교분석 하였다. 또한 최근 20년간의 기업의 경영주제 변화를 소프트웨어 산업에 속한 2개 기업을 중심으로 살펴보았다. 이를 통해 산업 및 기업 수준에서의 경영주제의 추이 변화를 파악하여 쇠퇴 및 성장 추세에 있는 경영주제를 확인 할 수 있었다. 한편 word2vec 워드 임베딩 모델과 주성분분석을 통한 차원 축약을 통해 소프트웨어 산업분야의 기업 및 특정 제품(혹은 서비스)에 대한 매핑을 통해 유사한 경영주제(토픽)를 가지는 기업 및 제품(서비스)을 사례를 통해 파악하였으며, 이를 시간적 흐름에 따른 변화 양상도 관찰할 수 있었다. 본 연구의 목적이 공개데이터를 활용한 산업 및 기업 수준의 분석모델을 개발하기 위한 방법론을 제안한 측면에서, 해외 데이터를 사용하여 산업의 경영주제 변화 추이, 기업의 경영주제 변화 추이를 거시적으로 조망할 수 있는 실무적인 방법론의 제안에서 의의가 있을 수 있다. 한편 기업의 기술경영전략 측면에서 기업의 경영토픽의 잦은 변화, 경영주제의 변화의 속도 등 다양한 변화 양상의 차이에 따른 기업의 매출 등의 경영성과와의 연관성 분석, 실제 기업의 제품포트폴리오의 구성에 따른 기업 간의 경쟁상황 등을 파악하는 미시적 모델 제안을 위한 추가 연구가 요구된다.

국가기록원의 기록물 정리기술의 현황과 개선방안 (The Present State and Solutions for Archival Arrangement and Description of National Archives & Records Service of Korea)

  • 윤주범
    • 한국기록관리학회지
    • /
    • 제4권2호
    • /
    • pp.118-162
    • /
    • 2004
  • 기록물 보존기관에서의 정리와 기술은 기록물 관리와 열람제공에 중요한 역할을 한다. 국가기록원(NRAS; National Records & Archinves Service)에서도 역시 정리와 기술에 대해 노력을 기울이고 있다. 하지만, 기록보존 선진국과 비교하면 이론 및 실제 처리과정에서 많은 차이와 문제점을 가지고 있다. 이론에 있어서 큰 차이는, 기록물의 기능분류와 원질서의 유지나 다계층기술이 정리 기술의 실제 업무처리에 반영되고 있지 않다. 즉, 기록물이 도서의 정리방식과 같이 낱권 단위로 등록순서에 따라 정리된 후 서가에 배열되고 있다. 이 외에도, 기록물 생산기관의 변천내력이나 색인어의 관리 등의 문제점을 가지고 있다. 이런 이유로 기록물의 이용이 매우 불편하다. 이들 문제점을 개선하기 위해서, 본 연구에서는 정리와 기술의 의의와 중요성, 국가기록원의 정리와 기술의 현황과 문제점, 그리고 외국의 국립기록보존소 기술지침을 소개하였다. 다음은 ISAD(G)를 적용한 사례를 소개하였다. 논문은 총 8장으로 구성하였는데, 제1장 서론, 제2장 정리 기술의 의의와 중요성 및 제8장 결론을 제외한 제3장부터 제7장의 내용은 다음과 같다. 제3장에서는 국가기록원의 정리 기술 현황으로, 현재 사용하고 있는 기록물관리 시스템(Govt) 운영현황과 사용하는 기술항목을 설명하였다. 제4장에서는 미국, 영국 및 호주의 국립기록보존소 기술지침 소개로 첫째, 미국의 국립기록관리청(NARA)의 기록물 생명주기 데이터 준수사항 지침(Lifecycle Data Requirements Guide)을 소개하였으며, 기술 항목중 타이틀요소 1개에 대한 기술요령을 소개하였다. 둘째, 영국국립기록보존소(Public Records Office)의 기술지침을 소개하였다. 기술지침의 명칭은 영국국립기록보존소 편목지침(National Archives Cataloguing Guidelines Introduction)이다. 이 지침에서 사용하는 "PROCAT"라는 전산목록시스템을 소개하였다. 이 시스템에서 사용하는 7단계 기술에 대해 설명하였다. 셋째, 호주 국립기록보존소(NAA; National Archives of Australia)의 기록물 시스템은 CRS(Commonwealth Record Series)이다. 이 시스템을 위한 기록물 등록과 기술절차(Registration &description procedures for CRS system)에 대해 연구하였다. 제5장에서는 ISAD(G)를 적용한 사례로, 국가기록원이 과거 총무처 소청심사위원회에서 생산한 기록물의 기술서를 소개하였다. 제6장, 7장에서는, ISAD(G)의 사용결과 문제점, 각 기관 처리과에서 문서제목 부여, 기술항목 부족, 기록물 종류나 유형분류, 관리번호, 상세한 기술규칙의 부재, 기능분류나 계층기술, 입력포맷, 서가배열, 전거통제 등의 문제점을 지적하였다. 개선 방안으로는 계층분류 체계의 마련, 관리번호 및 배열순서의 개선, 전거제어시스템 개발, 기술 입력항목의 증가, 기술규칙 제정 및 입력포맷개선 마련 등이다. 현재 국가기록원의 정리 기술 개선의 가장 좋은 방법은 기록물관리 선진국 국립기록보존소의 표준, 지침, 매뉴얼의 상세한 검토이다. 따라서 학계에서 이 분야의 많은 연구가 있어야 한다는 것을 제안하였다.

중립도 기반 선택적 단어 제거를 통한 유용 리뷰 분류 정확도 향상 방안 (Increasing Accuracy of Classifying Useful Reviews by Removing Neutral Terms)

  • 이민식;이홍주
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.129-142
    • /
    • 2016
  • 전자상거래에서 소비자들의 구매 의사결정에 판매 제품을 이미 구매하여 사용한 고객의 리뷰가 중요한 영향을 미치고 있다. 전자상거래 업체들은 고객들이 제품 리뷰를 남기도록 유도하고 있으며, 구매고객들도 적극적으로 자신의 경험을 공유하고 있다. 한 제품에 대한 고객 리뷰가 너무 많아져서 구매하려는 제품의 모든 리뷰를 읽고 제품의 장단점을 파악하는 것은 무척 힘든 일이 되었다. 전자상거래 업체들과 연구자들은 텍스트 마이닝을 활용하여 리뷰들 중에서 유용한 리뷰들의 속성을 파악하거나 유용한 리뷰와 유용하지 않은 리뷰를 미리 분류하는 노력을 수행하고 있다. 고객들에게 유용한 리뷰를 필터링하여 전달하는 방안이다. 본 연구에서는 문서-단어 매트릭스에서 단어의 제거 기준으로 온라인 고객 리뷰가 유용한 지, 그렇지 않은지를 구분하는 문제에서 단어들이 유용 리뷰 집합과 유용하지 않은 리뷰집합에 중복하여 등장하는 정도를 측정한 중립도를 제시한다. 제시한 중립도를 희소성과 함께 분석에 활용하여 제거할 단어를 선정한 후에 각 분류 알고리즘의 성과를 비교하였다. 최적의 성과를 보이는 중립도를 찾았으며, 희소성과 중립도에 따라 단어를 선택적으로 제거하였다. 실험은 Amazon.com의 'Cellphones & Accessories', 'Movies & TV program', 'Automotive', 'CDs & Vinyl', 'Clothing, Shoes & Jewelry' 제품 분야 고객 리뷰와 사용자들의 리뷰에 대한 평가를 활용하였다. 전체 득표의 수가 4개 이상인 리뷰 중에서 제품 카테고리 별로 유용하다고 판단되는 1,500개의 리뷰와 유용하지 않다고 판단되는 1,500개의 리뷰를 무작위로 추출하여 연구에 사용하였다. 데이터 집합에 따라 정확도 개선 정도가 상이하며, F-measure 기준으로는 두 알고리즘에서 모두 희소성과 중립도에 기반하여 단어를 제거하는 방안이 더 성과가 높았다. 하지만 Information Gain 알고리즘에서는 Recall 기준으로는 5개 제품 카테고리 데이터에서 언제나 희소성만을 기준으로 단어를 제거하는 방안의 성과가 높았으며, SVM에서는 전체 단어를 활용하는 방안이 Precision 기준으로 성과가 더 높았다. 따라서, 활용하는 알고리즘과 분석 목적에 따라서 단어 제거 방안을 고려하는 것이 필요하다.