• 제목/요약/키워드: 평가정보예측

검색결과 2,060건 처리시간 0.03초

벼 유전자원의 아밀로스 및 단백질 성분 함량 분포에 관한 자원정보 구축 (Construction of Database System on Amylose and Protein Contents Distribution in Rice Germplasm Based on NIRS Data)

  • 오세종;최유미;이명철;이수경;윤혜명;;채병수
    • 한국자원식물학회지
    • /
    • 제32권2호
    • /
    • pp.124-143
    • /
    • 2019
  • 본 연구는 선행연구에서 개발된 근적외선 분광법(NIRS) 예측모델을 활용하여 농업유전자원센터에서 보존 중인 국내외 벼유전자원의 아밀로스 및 단백질 함량 자료를 통계 처리하여 자원 분포를 파악하기 위한 데이터베이스를 구축하고자 하였다. 예측모델의 $R^2$ 값은 아밀로스 분석결과 0.970이었고, 단백질은 0.983이었다. 미지시료 측정 시 정확도를 평가하기 위해 외부검정과정을 거친 결과 $R^2$ 값은 아밀로스 분석결과 0.962였고, 단백질은 0.986이었다. 벼 자원을 재래종, 육성품종, 잡초형, 육성계통으로 나누어 NIRS를 이용하여 성분 분석한 후 함량분포를 확인하였다. 찰벼 평균 아밀로스는 재래종, 육성품종, 잡초형에서 동일하게 8.7%였고, 육성계통은 10.3%였다. 메벼 평균 아밀로스는 재래종 22.3%, 육성품종 22.7%, 잡초형 23.6%, 육성계통 24.2%였다. 전체 벼 자원 중 아밀로스 함량 9%이하 waxy type은 5.0%, low amylose는 5.5%, middle amylose는 20.5%, high amylose는 69.0%를 차지하였다. 단백질 분석 결과 평균함량은 재래종 8.2%, 육성품종 8.0%, 잡초형 7.9%, 육성계통 7.9%였다. 찰벼의 다양성지수 평균은 0.62, 메벼는 0.80이었고, 단백질 다양성지수는 평균 0.51이었다. 임의의 함량구간 내 자원비율은 정규분포의 표준화과정을 통해 확인하였다. 임의 구간에 대한 자원분포비율 산출 결과는, 재래종 아밀로스 6.4-8.7% 구간의 자원비율은 0.45였고, 22.3-26.1% 구간은 0.40, 단백질 7.3-8.2% 구간은 0.26이었다. 육성품종 아밀로스 8.7-9.4% 구간의 자원비율은 0.19였고, 20.1-22.7% 구간은 0.32, 단백질 6.1-8.3% 구간은 0.51이었다. 잡초형 아밀로스 6.6-9.7% 구간은 0.67이었고, 23.6-24.8% 구간은 0.19, 단백질 7.0-7.9% 구간은 0.33이었다. 육성계통 아밀로스 10.0-12.0% 구간의 자원비율은 0.47이었고, 24.2-28.0% 구간은 0.40, 단백질 7.0-7.9% 구간은 0.26이었다. 어떤임의 구간을 지정하여도 자원의 비율을 쉽게 구할 수 있으며, NIRS 분석과 통계분석과정을 통해 얻어진 자원별, 성분함량별 특성 자료는 효율적인 자원관리를 위한 데이터베이스 시스템 구축을 위한 기초 자료로 활용될 수 있을 것으로 판단된다.

희귀 및 멸종위기식물인 광릉요강꽃의 개체군 구조 및 지속성 (Stage Structure and Population Persistence of Cypripedium japonicum Thunb., a Rare and Endangered Plants)

  • 이동형;김소담;김휘민;문애라;김상용;박병배;손성원
    • 한국환경생태학회지
    • /
    • 제35권5호
    • /
    • pp.548-557
    • /
    • 2021
  • 광릉요강꽃(Cypripedium japonicum Thunb.)은 한국, 중국, 일본에 분포하는 동아시아 특산식물로, 지구 수준의 IUCN Red List "위기(Endangered, EN)"로 평가되며, 한국의 국가 Red List에서는 "멸종위기(Critically Endangered, CR)"에 포함된다. 본 연구는 광릉요강꽃 자생지에서 7년 동안 수행된 개체통계학적(demographic) 모니터링 자료를 바탕으로 개체군 구조 및 변화양상을 분석하고, 개체군의 지속성에 대하여 예측하였다. 광릉요강꽃은 국내 7개 지역(포천, 가평, 화천, 춘천, 영동, 무주, 광양)에서 자생지가 관찰되었고, 15개 아개체군에 4,356개체가 생육하는 것으로 확인되었다. 개체군 크기 및 구조는 지역별로 상이하였으며, 인위적 관리가 개체군 크기 및 구조 변화에 중요한 영향을 미치고 있었다. 7년 동안 개체 수 변화를 모니터링한 결과 광릉요강꽃의 개체군 생존력(Population Viability Analysis, PVA)은 지역별로 다양한 경향을 보였다: 향후 1세기 안에 멸절할 가능성은 포천 0.00%, 광양 10.90%, 춘천 24.05%, 화천 79.50%로 예측되었다. 모니터링이 수행된 위 연구지역은 현지 내 보호시설로 인위적 출입을 제한하고 있어 광릉요강꽃의 최대 위협요인인 인위적 남획 변수가 개체군 생존력에 반영되지 않았다. 즉, 실질적인 멸절 위험도는 본 연구에서 추정된 값보다 현저하게 클 것으로 예상된다. 국내 광릉요강꽃 개체군의 멸절위험도의 객관적 판단을 위해서는 향후 다양한 위협요인이 있는 여러 지역의 개체군 정보가 반영될 필요가 있으며, 국내·외로 광릉요강꽃 개체군에 대한 개체통계학적 모니터링을 확대해 나가야 할 것이다.

만성변비환자의 방사선학적 접근방법에 관한 고찰 (Study of Radiological Approach to Treat a Chronic Constipation)

  • 윤석환
    • 대한방사선기술학회지:방사선기술과학
    • /
    • 제27권3호
    • /
    • pp.5-12
    • /
    • 2004
  • I. 서 론 : 변비(便秘)는 우리가 임상에서 흔히 접하는 위장관의 증상으로서, 사람들은 배변의 횟수가 너무 적거나, 대변을 힘들게 보는 경우, 대변이 너무 딱딱하거나 양이 적은 경우 혹은 배변이 너무 고통스럽거나 불완전한 배변감이 있는 경우 등과 같이 다양한 형태로서 변비라고 생각하여 병원을 찾게 된다. 그러나 변비는 식이와 사회 및 의료 환경 등의 요인에 의해 많은 영향을 받기 때문에 변비 환자의 진단 및 치료적 접근에 앞서 이러한 다양한 인자 등을 감안하여 객관적인 표준화된 정의를 설정하는데 있어 방사선학적 진단이 유용하고 이에 관한 진단적 접근방법에 대해 알아보고자 한다. II. 본 론 : 대장의 운동기능을 평가하는 검사법 가운데 가장 기본이 되는 검사가 대장통과시간(Colon transit time, CTT) 검사이다. 대장통과시간은 만성 변비증 환자의 병태생리에 따른 유형 분류와 치료 계획의 설정에 커다란 도움을 주고 있다. 방사선 비투과성 표지자(Radiopaque marker)를 이용하는 방법, 다수 표지자 사용법(Multiple marker technique), 신티그라피 측정법(Scintigraphic measurement)이 있다. 배변조영술은 항문 직장의 해부학적 정보뿐만 아니라 배변 시 항문, 직장의 변화와 골반저의 운동상태를 파악할 수 있는 기능적 방사선학 검사이다. 배변 시 항문 직장의 역동적 관찰은 배변이상 환자의 진단 및 치료방침 결정 그리고 추적검사에 도움을 준다. 마지막으로 병력에서 빠뜨려서는 안되는 것이 행동 장애나 정서 장애와 같은 정신심리학적 요인이 동반되어 있는지를 세심하게 판단하는 것이다. 이런 경우에는 이러한 정신과적 문제와 관련된 약물 복용의 유무와 종류에 대해서도 파악을 하여야 한다. III. 결 론 : 변비의 흔한 원인에는 섬유질 섭취가 충분하지 못한 경우, 수분 섭취가 충분하지 못한 경우가 많으며, 변비환자에서의 이러한 검사의 목적은 변비의 기질적 병인을 확인하기 위함으로서, 통상 이러한 방사학적 검사를 통해 결장과 항문직장의 기능에 대한 정보를 얻을 수 있는 것은 아니다. 변비 환자의 병태생리에 따른 유형을 구분하여 향후 검사 및 치료방침을 설정하는 데 중요한 정보를 제공하고 환자의 예후를 예측하는데도 도움이 될 것으로 생각된다.

  • PDF

이동 컴퓨팅 환경에서 멀티미디어 트래픽의 효율적 지원을 위한 대역폭 예약 및 호 수락 제어 메커니즘 (Bandwidth Reservation and Call Admission Control Mechanisms for Efficient Support of Multimedia Traffic in Mobile Computing Environments)

  • 최창호;김성조
    • 한국정보과학회논문지:정보통신
    • /
    • 제29권6호
    • /
    • pp.595-612
    • /
    • 2002
  • 이동 컴퓨팅에서 고 수준의 QoS를 보장하기 위한 가장 중요한 이슈 중의 하나가 셀에서 가용할 수 있는 대역폭의 부족으로 인한 핸드-오프 종료를 감소시키는 것이다. 각 셀은 핸드-오프 호들을 위해 이웃 셀들에게 대역폭 예약을 요청하며, 예약된 대역폭은 신규 호가 아닌 핸드-오프 호들을 위해 사용된다. 핸드-오프 호를 위해 대역폭을 너무 많이 예약한다면 신규 호의 블록킹 확률이 증가하므로, 예약할 대역폭의 크기를 정확히 결정하는 것이 중요하다. 따라서, 이동 컴퓨팅 환경에서 적절한 크기의 대역폭 예약과 호 수락 제어를 통해 QoS 보장하는 것이 필수적이다. 본 논문에서는 이동 컴퓨팅 환경에서 멀티미디어 트래픽에게 지속적인 QoS를 보장하기 위해 대역폭 예약과 호 수락 제어 메커니즘을 제안하였다. 본 논문은 적절한 크기의 대역폭 예약을 위해 이동성 그래프와 2-계층 셀 구조를 기반으로 한 적응적 대역폭 예약을 제안한다. 전자는 클라이언트가 다음에 이동할 셀을 예측하는 반면, 후자는 핸드-오프 확률이 높은 클라이언트에게만 적응적 대역폭 예약 메커니즘을 적용한다. 본 논문은 클라이언트의 현재 셀과 PNC(Predicted Next Cell)에 호 수락 테스트를 수행하는 호 수락 제어를 제안하며, 이 메커니즘은 계산 및 네트워크 오버헤드를 줄일 수 있다. 본 논문에서 제시된 대역폭 예약 및 호 수락 제어 메커니즘의 성능을 평가하기 위해, 신규 호 블록킹률, 핸드-오프 호 종료율, 대역폭 이용율을 측정하였다. 시뮬레이션 결과, 본 논문의 호 수락 제어 메커니즘의 성능이 NR-CAT2, FR-CAT2, AR-CAT2와 같은 기존의 메커니즘들보다 우수함을 알 수 있었다.

휴리스틱 함수를 이용한 feature selection에 관한 연구 (Research about feature selection that use heuristic function)

  • 홍석미;정경숙;정태충
    • 정보처리학회논문지B
    • /
    • 제10B권3호
    • /
    • pp.281-286
    • /
    • 2003
  • 실생활에서 해결하고자 하는 문제에 대해 수많은 feature들이 수집되어지나 그 feature들을 모두 문제 해결에 활용하는 것은 어렵다. 모든 feature들에 대한 정확한 자료의 수집이 어려우며 관련된 feature들을 모두 학습에 이용할 경우 복잡한 학습 모델이 생성되어지며 좋은 수행 결과도 얻을 수 없다. 또한 수집된 자료들 간에는 상호 관계나 계층적 관계가 존재하는데, 경험적 지식이나 통계적 방법을 이용하여 feature들간의 관계를 분석함으로써 feature의 수를 줄일 수 있다. 휴리스틱 기법은 반복적인 시행 착오와 경험을 통한 학습으로써 미래가 불확실하고 완전한 정보를 갖고 있지 못할 때, 인간의 사고 기능을 통하여 기억이나 경험을 살려, 스스로 해결방안을 모색하면서 점차로 해에 접근해 가는 방법이다. 전문가들은 경험에 의한 의견 수렴 과정을 거쳐 해당 문제 영역에 접근 가능하며, 이러한 특성을 학습에 사용될 feature의 수를 줄이는데 활용할 수 있다. 전문가들은 원시 자료들을 이용하여 새로운 feature들을 생성할 수 있다 새로이 산출된 feature들과 원시 데이터 내의 feature들을 혼합하여 학습 모델 생성에 이용한다. 본 논문에서는 휴리스틱 함수를 이용하여 학습에 사용될 feature의 수를 줄이고, 추출된 feature들을 신경망의 입력값으로 사용하는 기계 학습 모델을 제시한다. 모델의 성능 평가를 위해 프로야구 경기의 승패 예측 문제를 이용하였다. 실험 결과는 신경 회로망과 휴리스틱 모델을 단독으로 사용했을 때 보다 두 기법을 혼합한 모델이 신경 회로망의 복잡성을 감소시킬 뿐 아니라 분류(classification)의 정확성이 향상되었다.아니라 Hep G2 세포에서도 명백히 단백질의 발현을 관찰할 수 있었다. 또한, Hep G2와 COS세포 모두에서 endogenous RXR의 발현이 일어남을 확인하였고 RXR expression plasmid를 transfection시켰을 때 두 세포 모두에서 단백질의 발현이 현저하게 증가되었다. Constitutive Androstane Receptor (CAR)에 의한 CYP2B의 PBRU 활성효과를 다르게 분화된 세포에서 차이가 일어나는지를 비교하기 위하여 CAR에 의해 매개되는 PBRU의 transactivation효과를 Hep G2와 COS세포에서 조사하였다. Hep G2 세포에서는 transfection된 CAR의 발현에 의해 firefly luciferase 보고단백질의 활성이 약 12배 증가하였다. CAR 발현유전자를 15 ng transfection하였을 때 주어진 보고유전자의 양에 대하여 최대반응을 나타내었고 CYP2B1PBRU가 제거된 CYP2C1 promotor/firefly luciferase를 보고유전자로 사용하였을 때는 CAR에 의한 luciferase의 활성이 나타나지 않았다. Hep G2와는 달리, COS세포에서는 transfection된 CAR의 발현이 PBRU에 의한 firefly luciferase보고단백질의 발현에 영향을 주지 못하였다. 이러한 결과들은 분화된 세포의 종류에 따라서 constitutive androstane receptor의 CYP2BPBRU 활성효과가 다르게 나타날 수 있음을 제시할 뿐만 아니라, 간세포에서 Phenobarbital에 의한 PBRU의 활성유도에 영향을 주는 endogenous 매개 인자들 중 CAR와 RXR과는 다

Conditional Generative Adversarial Network(CGAN) 기반 협업 필터링 추천 시스템 (Conditional Generative Adversarial Network based Collaborative Filtering Recommendation System)

  • 강소이;신경식
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.157-173
    • /
    • 2021
  • 소비자의 욕구와 관심에 맞추어 개인화된 제품을 추천하는 추천 시스템은 비즈니스에 필수적인 기술로서의 그 중요성이 증가하고 있다. 추천 시스템의 대표적인 모형 중 협업 필터링은 우수한 성능으로 다양한 분야에서 활용되고 있다. 그러나 협업필터링은 사용자-아이템의 선호도 정보가 충분하지 않을 경우 성능이 저하되는 희소성의 문제가 있다. 또한 실제 평점 데이터의 경우 대부분 높은 점수에 데이터가 편향되어 있어 심한 불균형을 갖는다. 불균형 데이터에 협업 필터링을 적용할 경우 편향된 클래스에 과도하게 학습되어 추천 성능이 저하된다. 이러한 문제를 해결하기 위해 많은 선행연구들이 진행되어 왔지만 추가적인 외부 데이터 또는 기존의 전통적인 오버샘플링 기법에 의존한 추천을 시도하였기에 유용성이 떨어지고 추천 성능 측면에서 한계점이 있었다. 본 연구에서는 CGAN을 기반으로 협업 필터링 구현 시 발생하는 희소성 문제를 해결함과 동시에 실제 데이터에서 발생하는 데이터 불균형을 완화하여 추천의 성능을 높이는 것을 목표로 한다. CGAN을 이용하여 비어있는 사용자-아이템 매트릭스에 실제와 흡사한 가상의 데이터를 생성하여, 희소성을 가지고 있는 기존의 매트릭스로만 학습한 것과 비교했을 때 높은 정확도가 예상된다. 이 과정에서 Condition vector y를 이용하여 소수 클래스에 대한 분포를 파악하고 그 특징을 반영하여 데이터를 생성하였다. 이후 협업 필터링을 적용하고, 하이퍼파라미터 튜닝을 통해 추천 시스템의 성능을 최대화하는데 기여하였다. 비교 대상으로는 전통적인 오버샘플링 기법인 SMOTE, BorderlineSMOTE, SVM-SMOTE, ADASYN와 GAN을 사용하였다. 결과적으로 데이터 희소성을 가지고 있는 기존의 실제 데이터뿐만 아니라 기존 오버샘플링 기법들보다 제안 모형의 추천 성능이 우수함을 확인하였으며, RMSE, MAE 평가 척도에서 가장 높은 예측 정확도를 나타낸다는 사실을 증명하였다.

폐암절제술후 발생하는 사망 및 합병증의 예측인자 평가에 관한 전향적 연구 (Prospective Study on Preoperative Evaluation for the Prediction of Mortality and Morbidity after Lung Cancer Resection)

  • 박정웅;서지영;김호철;천은미;정만표;김호중;권오정;김관민;김진국;심영목;이종헌;한용철
    • Tuberculosis and Respiratory Diseases
    • /
    • 제45권1호
    • /
    • pp.57-67
    • /
    • 1998
  • 연구목적: 폐암은 근치적 폐절제술이 가장 효과적인 치료법이지만 폐암 환자들은 흔히 고령이면서 흡연으로 인한 폐기능저하가 동반된 경우가 많고 정상 폐조직을 광범위하게 절제하게 되므로 다른 수술보다 수술 후 사망율 및 폐합병증이 더욱 문제시 되고 있다. 이에 저자들은 폐암환자의 폐절제술 후 사망 및 합병증과 관련된 수술전 인자를 알아보고자 본 연구를 시행하였다. 방 법: 1995년 10월부터 1996년 8월까지 삼성서울병원에서 폐절제술을 시행받는 환자를 대상으로 전향적 연구를 시행하였고 수술후 최종진단이 폐암이 아니거나 폐절제가 시행되지 않았던 환자는 최종대상에서 제외하였다. 수술전에 대상환자의 성별, 연령, 체중감소의 정도, 동반질환, 폐쇄성폐렴여부를 조사하였고, 헤마토크릿, 혈청알부민, 심전도, 안정시동맥혈가스, $FEV_1$, DLco를 비롯한 폐활량검사, 운동부하 폐기능 검사를 시행하였으며 폐관류주사률 이용하여 수술후 폐기능예측지표를 산출하였다. 수술시 집도의, 폐절제범위, 수술시간, 수술후 병기, 수술후 중환자실 체류 시간을 기록하였고 사망 및 합병증은 수술후 30 일내의 사망, 폐렴이나 호흡부전 등과 같은 폐합병증, 48시간 이상의 중환자실 입원, 심장계합병증, 농흉, 출혈, 반회후두신경손상 등 기타 합병증으로 분류하여 수술후 발생여부를 확인하였다. 결 과: 최종 대상환자는 92명이었고 연령은 42~82세로 중앙값은 62세였으며 $FEV_1$$2.37{\pm}0.06L$으로 2.0L 이하인 환자는 29명이었다. 수술은 54예가 엽절제술, 12예가 이엽절제술, 26예가 전폐절제술을 시행받았다. 수술후 사망이 3예에서 있었고 폐합병증이 10예, 48시간이상의 중환자실 입원이 16예, 심장 합병증이 9예, 기타 합병증이 11예에서 각각 발생하였으며 사망과 관련된 수술전 인자로는 연령, 혈청알부민, DLco, ppo-DLco, postoperative predicted product(PPP), Wmax, $VO_2$max, ppo-$VO_2$max이었고(p<0.05), ppo-$VO_2$max가 10ml/kg/min이하인 환자 3명은 모두 사망한 반면 10ml/kg/min아상인 환자에서는 사망이 없었다(p<0.01). 수술후 폐합병증은 수술전 체중감소, 체적인자, 흡연량, 호흡곤란의 정도, 혈청알부민, FVC, $FEV_1$, MVV, DLco, ppo-$FEV_1$, ppo-DLco, PPP, Wmax, $VO_2$max, ppo-$VO_2$max, 폐절제술 범위와 밀접한 관련이 있었다 (p<0.05). 그러나 다변량분석에 의해 사망과 관련하여 유의한 지표는 체중감소정도이며 (p<0.05), 폐합병증과 관련하여 유의한 지표는 체중감소정도, 호흡곤란지수, 혈청알부민, ppo-DLco, 폐절제범위정도이었다 (p<0.05). 결 론: 폐암환자의 수술후 사망 및 폐합병증과 관련하여 유용한 예견지표는 체중감소정도, 호흡곤란정도, 폐절제범위 등 폐기능검사와 관련되지 않은 지표들이 중요한 예견지표였으나 운동부하폐기능검사지표들은 수술후 사망 및 합병증을 예측하는데 유용한 정보를 제공할 것으로 생각되며, 특히 ppo-$VO_2$max가 10ml/kg/mm이하인 환자는 수술후 사망율이 높을 것으로 추정된다.

  • PDF

사회연결망 분석을 활용한 연관규칙 확장기법 (Extension Method of Association Rules Using Social Network Analysis)

  • 이동원
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.111-126
    • /
    • 2017
  • 연관 상품 추천은 수많은 상품을 다루는 온라인 상거래에서 소비자의 상품 탐색 시간을 줄여주며 판매자의 매출 증대에 크게 기여한다. 이는 주문과 같은 거래의 빈도를 기반으로 생성되므로, 통계적으로 판매 확률이 높은 상품을 효과적으로 선별할 수 있다. 하지만, 판매 가능성이 높은 경우라도 신상품처럼 판매 초기에 거래 건수가 충분하지 않은 상품은 추천에서 누락될 수 있다. 연관 추천에서 누락된 상품은 이로 인해 노출 기회를 잃게 되고, 이는 거래 건수 감소로 이어져, 또 다시 추천 기회를 잃는 악순환을 겪을 수도 한다. 따라서, 충분한 거래 건수가 쌓이기 전까지 초기 매출은 일정 기간 동안 정체되는 현상을 보이는데, 의류 등과 같이 유행에 민감하거나 계절 변화에 영향을 많이 받는 상품은 이로 인해 매출에 큰 타격을 입을 수도 있다. 본 연구는 이와 같이 거래 초기의 낮은 거래 빈도로 인해 잘 드러나지 않는 상품 간의 잠재적인 연관성을 찾아 추천 기회를 확보할 수 있도록 연관 규칙을 확장하기 위한 목적으로 수행되었다. 두 상품 간에 직접적인 연관성이 나타나지 않더라도 다른 상품을 매개로 두 상품 간의 잠재적 연관성을 예측할 수 있을 것이며, 이런 연관성은 주문에서 나타나는 상품 간 상호작용으로 표현될 수 있으므로, 사회연결망 분석을 활용한 분석을 시도하였다. 사회연결망 분석기법을 통해 각 상품의 속성과 두 상품 간 경로의 특성을 추출하고 회귀분석을 실시하여, 두 상품 간 경로의 최단 거리 및 경로의 개수, 각 상품이 얼마나 많은 상품과 연관성을 갖는지, 두 상품의 분류 카테고리가 어느 정도 일치하는지가 두 상품 간의 잠재적 연관성에 미친다는 것을 확인하였다. 모형의 성능을 평가하기 위해, 일정 기간의 주문 데이터로부터 연결망을 구성하고, 이후 10일 간 생성될 상품 간 연관성을 예측하는 실험을 진행하였다. 실험 결과는 모형을 적용하지 않는 경우보다 제안 모형을 활용할 때 훨씬 많은 연관성을 찾을 수 있음을 보여준다.

온라인 상품평의 내용적 특성이 소비자의 인지된 유용성에 미치는 영향 (Impact of Semantic Characteristics on Perceived Helpfulness of Online Reviews)

  • 박윤주;김경재
    • 지능정보연구
    • /
    • 제23권3호
    • /
    • pp.29-44
    • /
    • 2017
  • 인터넷 상거래에서, 소비자들은 기존에 제품을 구매한 다른 사용자들이 작성한 상품평에 많은 영향을 받는다. 그러나, 상품평이 점차 축적되어감에 따라, 소비자들이 방대한 상품평을 일일이 확인하는데 많은 시간과 노력이 소요되고, 또한 무성의하게 작성된 상품평들은 오히려 소비자들의 불편을 초래하기도 한다. 이에, 본 연구는 온라인 상품평의 유용성에 영향을 미치는 요인들을 분석하여, 소비자들에게 실제로 도움이 될 수 있는 상품평을 선별적으로 제공하는 예측모형을 도출하는 것을 목적으로 한다. 이를 위해, 텍스트마이닝 기법을 사용하여, 상품평에 포함되어있는 다양한 언어적, 심리적, 지각적 요소들을 추출하였으며, 이러한 요소들 중에서 상품평의 유용성에 영향을 미치는 결정요인이 무엇인지 파악하였다. 특히, 경험재인 의류군과 탐색재인 전자제품군에 대한 상품평의 특성 및 유용성 결정요인이 상이할 수 있음을 고려하여, 제품군별로 상품평의 특성을 비교하고, 각각의 결정요인을 도출하였다. 본 연구에는 아마존닷컴(Amazon.com)의 의류군 상품평 7,498건과 전자제품군 상품평 106,962건이 사용되었다. 또한, 언어분석 소프트웨어인 LIWC(Linguistic Inquiry and Word Count)를 활용하여 상품평에 포함된 특징들을 추출하였고, 이후, 데이터마이닝 소프트웨어인 RapidMiner를 사용하여, 회귀분석을 통한, 결정요인 분석을 수행하였다. 본 연구결과, 제품에 대한 리뷰어의 평가가 높고, 상품평에 포함된 전체 단어 수가 많으며, 상품평의 내용에 지각적 과정이 많이 포함되어 있는 반면, 부정적 감정은 적게 포함된 상품평들이 두 제품 모두에서 유용하다고 인식되는 것을 알 수 있었다. 그 외, 의류군의 경우, 비교급 표현이 많고, 전문성 지수는 낮으며, 한 문장에 포함된 단어 수가 적은 간결한 상품평이 유용하다고 인식되고 있었으며, 전자제품의 경우, 전문성 지수가 높고, 분석적이며, 진솔한 표현이 많고, 인지적 과정과 긍정적 감정(PosEmo)이 많이 포함된 상품평이 유용하게 인식되고 있었다. 이러한 연구결과는 향후, 소비자들이 효과적으로 유용한 상품평들을 확인하는데 도움이 될 것으로 기대된다.

협업필터링에서 고객의 평가치를 이용한 선호도 예측의 사전평가에 관한 연구 (Pre-Evaluation for Prediction Accuracy by Using the Customer's Ratings in Collaborative Filtering)

  • 이석준;김선옥
    • Asia pacific journal of information systems
    • /
    • 제17권4호
    • /
    • pp.187-206
    • /
    • 2007
  • The development of computer and information technology has been combined with the information superhighway internet infrastructure, so information widely spreads not only in special fields but also in the daily lives of people. Information ubiquity influences the traditional way of transaction, and leads a new E-commerce which distinguishes from the existing E-commerce. Not only goods as physical but also service as non-physical come into E-commerce. As the scale of E-Commerce is being enlarged as well. It keeps people from finding information they want. Recommender systems are now becoming the main tools for E-Commerce to mitigate the information overload. Recommender systems can be defined as systems for suggesting some Items(goods or service) considering customers' interests or tastes. They are being used by E-commerce web sites to suggest products to their customers who want to find something for them and to provide them with information to help them decide which to purchase. There are several approaches of recommending goods to customer in recommender system but in this study, the main subject is focused on collaborative filtering technique. This study presents a possibility of pre-evaluation for the prediction performance of customer's preference in collaborative filtering before the process of customer's preference prediction. Pre-evaluation for the prediction performance of each customer having low performance is classified by using the statistical features of ratings rated by each customer is conducted before the prediction process. In this study, MovieLens 100K dataset is used to analyze the accuracy of classification. The classification criteria are set by using the training sets divided 80% from the 100K dataset. In the process of classification, the customers are divided into two groups, classified group and non classified group. To compare the prediction performance of classified group and non classified group, the prediction process runs the 20% test set through the Neighborhood Based Collaborative Filtering Algorithm and Correspondence Mean Algorithm. The prediction errors from those prediction algorithm are allocated to each customer and compared with each user's error. Research hypothesis : Two research hypotheses are formulated in this study to test the accuracy of the classification criterion as follows. Hypothesis 1: The estimation accuracy of groups classified according to the standard deviation of each user's ratings has significant difference. To test the Hypothesis 1, the standard deviation is calculated for each user in training set which is divided 80% from MovieLens 100K dataset. Four groups are classified according to the quartile of the each user's standard deviations. It is compared to test the estimation errors of each group which results from test set are significantly different. Hypothesis 2: The estimation accuracy of groups that are classified according to the distribution of each user's ratings have significant differences. To test the Hypothesis 2, the distributions of each user's ratings are compared with the distribution of ratings of all customers in training set which is divided 80% from MovieLens 100K dataset. It assumes that the customers whose ratings' distribution are different from that of all customers would have low performance, so six types of different distributions are set to be compared. The test groups are classified into fit group or non-fit group according to the each type of different distribution assumed. The degrees in accordance with each type of distribution and each customer's distributions are tested by the test of ${\chi}^2$ goodness-of-fit and classified two groups for testing the difference of the mean of errors. Also, the degree of goodness-of-fit with the distribution of each user's ratings and the average distribution of the ratings in the training set are closely related to the prediction errors from those prediction algorithms. Through this study, the customers who have lower performance of prediction than the rest in the system are classified by those two criteria, which are set by statistical features of customers ratings in the training set, before the prediction process.