• 제목/요약/키워드: User Matching

검색결과 406건 처리시간 0.027초

법령정보 검색을 위한 생활용어와 법률용어 간의 대응관계 탐색 방법론 (Term Mapping Methodology between Everyday Words and Legal Terms for Law Information Search System)

  • 김지현;이종서;이명진;김우주;홍준석
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.137-152
    • /
    • 2012
  • 인터넷 환경에서 월드 와이드 웹이 등장한 이후 웹을 통해 수많은 웹 페이지들이 생산됨에 따라 사용자가 원하는 정보를 검색하기 위한 다양한 형태의 검색 서비스가 여러 분야에서 개발되어 활용되고 있다. 특히 법령 검색은 사용자가 현재 자신이 처한 상황에 필요한 법령을 검색하여 법령에 대한 지식을 얻기 위한 창구로써 국민의 편의를 제공하기 위해 반드시 필요한 서비스 중 하나이다. 이에 법제처는 2009년부터 국민 누구나 편리하게 법령에 관련된 정보를 검색할 수 있도록 국가의 법령뿐만 아니라 행정규칙이나 판례 등 모든 법령정보를 검색할 수 있는 검색 서비스를 제공하고 있다. 하지만 현재까지의 검색엔진 기술은 기본적으로 사용자가 입력한 질의어를 문서에 포함하고 있는지의 여부에 따라 해당 문서를 검색 결과로 제시한다. 법령 검색 서비스 또한 해당 법령에 등장하는 키워드를 활용하여 사용자에게 검색 결과를 제공해주고 있다. 따라서 법제처의 이런 노력에도 불구하고 법령이 전문가의 시각에서 작성되었기 때문에 법에 익숙하지 않은 일반 사용자는 자신이 필요한 법령을 검색하기 어려운 한계점을 가지고 있다. 이는 일반적으로 법령에 사용되는 용어들과 일반 사용자가 실생활에 사용하는 단어가 서로 상이하기 때문에 단순히 키워드의 단순 매칭 형태의 검색엔진에서는 사용자들이 주로 사용하는 생활용어를 이용해서 원하는 법령을 검색할 수 없다. 본 연구에서는 법률용어에 관한 사전지식이 부족한 일반 사용자가 일상에서 주로 사용되는 생활용어를 이용하여 키워드 기반의 법령정보 검색 사이트에서 정확한 법령정보 검색이 가능하도록 생활용어와 법률용어 간의 대응관계를 탐색하고 이를 이용하여 법령을 검색할 수 있는 방법론을 제안하고자 한다. 우선 생활용어와 법률용어 간의 대응관계를 발견하기 위해 본 논문에서는 사용자들의 집단지성을 활용한다. 이를 위해 사용자들이 블로그의 분류 및 관리, 검색에 활용하기 위해 작성한 태그 정보를 이용하여 질의어인 생활용어와 관련된 태그들을 수집한다. 수집된 태그들은 K-means 군집분석 기법을 통해 태그들을 클러스터링하고, 생활용어와 가장 가까운 법률용어를 찾기 위한 평가 방법을 통해 생활용어에 대응될 수 있는 적절한 법률용어를 선택한다. 선택된 법률용어는 해당 생활용어와 명시적인 관계성이 부여되며, 이러한 생활용어와 법률용어와의 관계는 온톨로지 기반의 시소러스를 기술하기 위한 SKOS를 이용하여 표현된다. 이렇게 구축된 온톨로지는 사용자가 생활용어를 이용하여 검색을 수행할 경우 생활용어에 대응되는 적절한 법률용어를 찾아 법령 검색을 수행하고 그 결과를 사용자에게 제시한다. 본 논문에서 제시하고자 하는 방법론을 통해 법령 및 법률용어에 관련된 사전 지식이 없는 일반 사용자도 편리하고 효율적으로 법령을 검색할 수 있는 서비스를 제공할 것으로 기대한다.

뉴럴 텐서 네트워크 기반 주식 개별종목 지식개체명 추출 방법에 관한 연구 (A Study on Knowledge Entity Extraction Method for Individual Stocks Based on Neural Tensor Network)

  • 양윤석;이현준;오경주
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.25-38
    • /
    • 2019
  • 정보화 시대의 넘쳐나는 콘텐츠들 속에서 사용자의 관심과 요구에 맞는 양질의 정보를 선별해내는 과정은 세대를 거듭할수록 더욱 중요해지고 있다. 정보의 홍수 속에서 사용자의 정보 요구를 단순한 문자열로 인식하지 않고, 의미적으로 파악하여 검색결과에 사용자 의도를 더 정확하게 반영하고자 하는 노력이 이루어지고 있다. 구글이나 마이크로소프트와 같은 대형 IT 기업들도 시멘틱 기술을 기반으로 사용자에게 만족도와 편의성을 제공하는 검색엔진 및 지식기반기술의 개발에 집중하고 있다. 특히 금융 분야는 끊임없이 방대한 새로운 정보가 발생하며 초기의 정보일수록 큰 가치를 지녀 텍스트 데이터 분석과 관련된 연구의 효용성과 발전 가능성이 기대되는 분야 중 하나이다. 따라서, 본 연구는 주식 관련 정보검색의 시멘틱 성능을 향상시키기 위해 주식 개별종목을 대상으로 뉴럴 텐서 네트워크를 활용한 지식 개체명 추출과 이에 대한 성능평가를 시도하고자 한다. 뉴럴 텐서 네트워크 관련 기존 주요 연구들이 추론을 통해 지식 개체명들 사이의 관계 탐색을 주로 목표로 하였다면, 본 연구는 주식 개별종목과 관련이 있는 지식 개체명 자체의 추출을 주목적으로 한다. 기존 관련 연구의 문제점들을 해결하고 모형의 실효성과 현실성을 높이기 위한 다양한 데이터 처리 방법이 모형설계 과정에서 적용되며, 객관적인 성능 평가를 위한 실증 분석 결과와 분석 내용을 제시한다. 2017년 5월 30일부터 2018년 5월 21일 사이에 발생한 전문가 리포트를 대상으로 실증 분석을 진행한 결과, 제시된 모형을 통해 추출된 개체명들은 개별종목이 이름을 약 69% 정확도로 예측하였다. 이러한 결과는 본 연구에서 제시하는 모형의 활용 가능성을 보여주고 있으며, 후속 연구와 모형 개선을 통한 성과의 제고가 가능하다는 것을 의미한다. 마지막으로 종목명 예측 테스트를 통해 본 연구에서 제시한 학습 방법이 새로운 텍스트 정보를 의미적으로 접근하여 관련주식 종목과 매칭시키는 목적으로 사용될 수 있는 가능성을 확인하였다.

CT 영상 및 kV X선 영상을 이용한 자동 표지 맞춤 알고리듬 개발 (Development of an Automatic Seed Marker Registration Algorithm Using CT and kV X-ray Images)

  • 정광호;조병철;강세권;김경주;배훈식;서태석
    • Radiation Oncology Journal
    • /
    • 제25권1호
    • /
    • pp.54-61
    • /
    • 2007
  • 목 적: 본 연구의 목적은 전립선암 환자의 방사선 치료 시 표적의 정확한 위치를 찾기 위해 표지(marker)를 삽입한 경우 방사선치료계획 시 촬영한 CT 영상과 매 치료 시 온보드 영상장치(on-board imager, OBI)로부터 획득된 직교 kV X선 영상을 이용하여 표지의 위치를 계산하고 자동으로 맞춤을 수행하여 환자 셋업 오차를 보정하도록 하는 방법을 개발하는 것이다. 대상 및 방법: 세 개의 금 표지를 환자 전립선의 기준 위치에 삽입한 후 CT 모의치료기를 이용하여 2 mm 슬라이스 간격으로 CT 영상을 획득하였으며 매 치료 전에 환자 셋업 보정을 위하여 OBI를 이용하여 직교하는 kV X선 환자 영상을 획득하였다. CT 및 kV X선 영상 내 표지 정보 및 좌표 값 추출을 위하여 화소값의 문턱값 처리, 필터링, 외곽선 추출, 패턴 인식 등 다수의 영상처리 알고리듬을 적용하였다. 각 표지들 위치의 대표값으로 삼각형의 무게중심 개념을 이용하였으며 기준 CT 영상 및 직교 kV X선 영상으로부터 각각 무게중심의 좌표를 구한 후 그 차이를 보정해야 할 셋업의 오차로 계산하였다. 알고리듬의 건전성(robustness) 평가를 위해 팬텀을 이용하여 계산된 CT 및 kV X선 영상의 무게중심이 실제 지정된 위치와 일치하는지 여부를 확인하였으며, 본원에서 방사선 치료를 시행한 네 명의 전립선암 환자에 대상으로 치료 직전 촬영한 38 내지 39쌍의 kV X선 영상에 대하여 알고리듬을 적용한 후 OBI 프로그램에서 제공되는 2차원-2차원 맞춤 결과와 비교하였다. 결 과: 팬텀 실험 결과 실제 값과 CT 영상 및 직교 kV X선 영상으로부터 계산된 무게 중심 좌표 값이 1 mm 오차 내에서 일치함을 확인할 수 있었다. 환자 영상에 적용한 경우에도 모든 영상에 대하여 성공적으로 각 표지의 위치를 계산할 수 있었으며 2차원-2차원 맞춤 기능을 이용하여 계산된 셋업 오차와 비교해본 결과 1 mm 범위 내에서 일치함을 확인할 수 있었다. 본 알고리듬을 이용하여 계산한 결과 셋업 오차는 전후(AP) 방향으로 환자별로 작게는 $0.1{\pm}2.7\;mm$에서 크게는 $1.8{\pm}6.6\;mm$까지, 상하(SI) 방향으로 $0.8{\pm}1.6\;mm$에서 $2.0{\pm}2.7\;mm$, 좌우(Lat) 방향으로 $-0.9{\pm}1.5\;mm$에서 $2.8{\pm}3.0\;mm$까지였으며 환자에 따라 그 편차의 차이가 있었다. 결 론: 제안된 알고리듬을 이용하여 1회 셋업 오차를 평가하는 데 소요되는 시간은 10초 미만으로서 임상 적용 시 환자 셋업 시간을 줄이고 주관성을 배제하는 데 도움이 될 수 있을 것으로 기대된다. 그러나 온라인 환자 셋업 보정 시스템에 적용하기 위해서는 선형가속기의 제어 시스템에 통합되는 것이 필요하다.

PinDemonium 기반 Original Entry Point 탐지 방법 개선 (Improved Original Entry Point Detection Method Based on PinDemonium)

  • 김경민;박용수
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제7권6호
    • /
    • pp.155-164
    • /
    • 2018
  • 많은 악성프로그램은 역공학을 막기 위해 다양한 상용 패커를 사용해 압축 혹은 암호화를 했기 때문에 악성코드 분석가는 압축해제 혹은 복 호화를 먼저 수행해야 한다. OEP(Original Entry Point)는 암호화되거나 압축되어 있는 실행파일을 다시 원본 바이너리 상태로 되돌린 후 실행된 첫 번째 명령어의 주소이다. 여러 언패커는 OEP가 나타나기 전까지 패킹된 파일을 실행하며 주소를 기록한다. 그리고 기록된 주소들 중에 OEP를 찾는다. 그러나 일부 언패커에서 제공하는 OEP 후보들은 비교적 큰 OEP 후보 집합을 제공하거나 후보들 중에 OEP가 없는 경우가 있다. 이에 악성코드 분석가들은 더 적은 OEP 후보 집합을 제공하는 도구가 필요한 실정이다. 본 논문에서는 PinDemonium이라 불리는 언패커에 두 가지 OEP 탐지방법을 추가하여 더 적은 OEP 후보 집합을 제공하는 도구를 만들었다. 첫 번째 방법은 패킹된 프로그램이 완전히 원본 바이너리상태로 되돌아 간 후에는 원프로그램 함수 호출과 동일하다는 것을 활용한 OEP 탐지방법이다. C/C++ 언어로 작성된 프로그램은 바이너리 코드로 언어를 변환하는 컴파일 과정을 거친다. 컴파일 과정을 거친 프로그램에는 특정 시스템 함수들이 추가된다. 이 시스템 함수들은 컴파일러 별로 다르다. 컴파일러 별로 사용되는 시스템 함수를 조사한 후, 패킹된 프로그램에서 호출되는 시스템 함수와 패턴매칭하여 언패킹 작업이 끝났는지 탐지하는 방법이다. 두 번째 방법은 패킹된 프로그램이 완전히 원본 바이너리 상태로 돌아간 후 시스템함수에서 사용되는 매개 변수가 원프로그램과 동일하다는 것을 활용한 OEP 탐지방법이다. 시스템함수에서 사용되는 매개변수의 값을 이용해 OEP를 찾는 방법이다. 본 연구는 16종의 상용 패커로 압축된 샘플 프로그램을 대상으로 OEP 탐지 실험을 했다. 본 연구에선 안티 디버깅 기법으로 프로그램을 실행하지 못하는 경우인 2종을 제외하고 PinDemonium 대비 평균 40% 이상 OEP후보를 줄일 수 있었다.

정보이용자의 식품영양정보 이용 실태와 만족도 (A survey on the utilization practice and satisfaction of users of food and nutrition information)

  • 김인혜;박민서;배현주
    • Journal of Nutrition and Health
    • /
    • 제54권4호
    • /
    • pp.398-411
    • /
    • 2021
  • PC나 스마트폰을 활용한 정보 검색비율이 높은 20-30대 성인 남녀를 대상으로 식품영양정보 이용 실태와 만족도를 조사하여 맞춤형 식품영양정보 콘텐츠 개발을 위한 기초자료를 제공하고자 설문조사를 실시한 결과, 조사대상자 총 570명 중 남자가 45.4%, 여자가 54.6%였고, 20대가 66.3%, 30대가 33.7%였으며, 직장인이 52.3%, 학생이 41.6%, 무직이 6.1%였고, 기혼이 16.1%, 미혼이 83.9%였으며, 1인 가구가 전체의 41.4%, 가족과 함께 동거하는 경우가 58.6%였다. 매체별로 하루 평균 3시간이상 이용하는 경우는 TV가 14.2%, PC가 26.0%, 스마트폰이 63.7%였다. 식품영양정보의 검색빈도는 일주일 1회 이상이 30.9%, 일주일 1회 미만이 36.8%, 검색하지 않는 경우가 32.3%였다. 정보를 실생활에 적용한 경험이 있는 경우는 전체의 70.0%였고, 정보를 타인과 공유한다는 응답은 전체의 54.7%였으며 공유방법 (복수응답)은 구두 전달이 69.6%, SNS 이용이 64.4%였다. 정보검색 비율은 맛집 정보 (64.8%), 다이어트 (57.5%), 음식조리법 (55.7%), 식품성분 및 효능 (35.2%), 건강기능식품 (31.1%) 순으로 높았다. 식품영양정보에 대한 전체적인 만족도는 평균 3.33점/5점이었고 전체적인 만족도는 '내용 설명이 충분하고 이해하기 쉬움' (3.43점), '제목과 내용이 일치' (3.35점), '참신하고 새로운 정보 제공' (3.22점)순으로 평가점수가 높았고, '수요자와의 의사소통 가능' (2,73점) 항목이 평가점수가 가장 낮았다. 정보이용 만족도 평가점수는 정보검색을 하는 그룹 (p < 0.001), 검색한 정보를 실생활에 이용하는 그룹 (p < 0.001)과 정보를 타인에게 전달하는 그룹 (p < 0.001)에서 유의적으로 높았다. 정보이용자의 만족도 향상을 위해서는 정보이용자의 특성에 맞는 맞춤형 정보 제공이 필요하며 이를 위해서는 대상별 정보 요구도 조사와 만족도 평가가 지속적으로 수행될 필요가 있다고 판단된다.

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.