zolfa
/
tendermint

package monitor
import (	"fmt"	"math/rand"	"sync"	"time"
	"github.com/pkg/errors"	"github.com/tendermint/tendermint/libs/log"	tmtypes "github.com/tendermint/tendermint/types")
// waiting more than this many seconds for a block means we're unhealthy
const nodeLivenessTimeout = 5 * time.Second
// Monitor keeps track of the nodes and updates common statistics upon
// receiving new events from nodes.
//
// Common statistics is stored in Network struct.
type Monitor struct {	mtx   sync.Mutex	Nodes []*Node
	Network *Network
	monitorQuit chan struct{}            // monitor exitting
	nodeQuit    map[string]chan struct{} // node is being stopped and removed from under the monitor

	recalculateNetworkUptimeEvery time.Duration	numValidatorsUpdateInterval   time.Duration
	logger log.Logger}
// NewMonitor creates new instance of a Monitor. You can provide options to
// change some default values.
//
// Example:
//   NewMonitor(monitor.SetNumValidatorsUpdateInterval(1 * time.Second))
func NewMonitor(options ...func(*Monitor)) *Monitor {	m := &Monitor{		Nodes:                         make([]*Node, 0),		Network:                       NewNetwork(),		monitorQuit:                   make(chan struct{}),		nodeQuit:                      make(map[string]chan struct{}),		recalculateNetworkUptimeEvery: 10 * time.Second,		numValidatorsUpdateInterval:   5 * time.Second,		logger:                        log.NewNopLogger(),	}
	for _, option := range options {		option(m)	}
	return m}
// RecalculateNetworkUptimeEvery lets you change network uptime update interval.
func RecalculateNetworkUptimeEvery(d time.Duration) func(m *Monitor) {	return func(m *Monitor) {		m.recalculateNetworkUptimeEvery = d	}}
// SetNumValidatorsUpdateInterval lets you change num validators update interval.
func SetNumValidatorsUpdateInterval(d time.Duration) func(m *Monitor) {	return func(m *Monitor) {		m.numValidatorsUpdateInterval = d	}}
// SetLogger lets you set your own logger
func (m *Monitor) SetLogger(l log.Logger) {	m.logger = l}
// Monitor begins to monitor the node `n`. The node will be started and added
// to the monitor.
func (m *Monitor) Monitor(n *Node) error {	m.mtx.Lock()	m.Nodes = append(m.Nodes, n)	m.mtx.Unlock()
	blockCh := make(chan *tmtypes.Block, 10)	n.SendBlocksTo(blockCh)	blockLatencyCh := make(chan float64, 10)	n.SendBlockLatenciesTo(blockLatencyCh)	disconnectCh := make(chan bool, 10)	n.NotifyAboutDisconnects(disconnectCh)
	if err := n.Start(); err != nil {		return err	}
	m.Network.NewNode(n.Name)
	m.nodeQuit[n.Name] = make(chan struct{})	go m.listen(n.Name, blockCh, blockLatencyCh, disconnectCh, m.nodeQuit[n.Name])
	return nil}
// Unmonitor stops monitoring node `n`. The node will be stopped and removed
// from the monitor.
func (m *Monitor) Unmonitor(n *Node) {	m.Network.NodeDeleted(n.Name)
	n.Stop()	close(m.nodeQuit[n.Name])	delete(m.nodeQuit, n.Name)	i, _ := m.NodeByName(n.Name)
	m.mtx.Lock()	m.Nodes[i] = m.Nodes[len(m.Nodes)-1]	m.Nodes = m.Nodes[:len(m.Nodes)-1]	m.mtx.Unlock()}
// NodeByName returns the node and its index if such node exists within the
// monitor. Otherwise, -1 and nil are returned.
func (m *Monitor) NodeByName(name string) (index int, node *Node) {	m.mtx.Lock()	defer m.mtx.Unlock()
	for i, n := range m.Nodes {		if name == n.Name {			return i, n		}	}	return -1, nil}
// NodeIsOnline is called when connection to the node is restored.
// Must be safe to call multiple times.
func (m *Monitor) NodeIsOnline(name string) {
	_, node := m.NodeByName(name)	if nil != node {		if online, ok := m.Network.nodeStatusMap[name]; ok && online {			m.mtx.Lock()			node.Online = online			m.mtx.Unlock()		}	}
}
// Start starts the monitor's routines: recalculating network uptime and
// updating number of validators.
func (m *Monitor) Start() error {	go m.recalculateNetworkUptimeLoop()	go m.updateNumValidatorLoop()
	return nil}
// Stop stops the monitor's routines.
func (m *Monitor) Stop() {	close(m.monitorQuit)
	for _, n := range m.Nodes {		m.Unmonitor(n)	}}
// main loop where we listen for events from the node
func (m *Monitor) listen(	nodeName string,	blockCh <-chan *tmtypes.Block,	blockLatencyCh <-chan float64,	disconnectCh <-chan bool,	quit <-chan struct{}) {	logger := m.logger.With("node", nodeName)
	for {		select {		case <-quit:			return		case b := <-blockCh:			m.Network.NewBlock(b)			m.Network.NodeIsOnline(nodeName)			m.NodeIsOnline(nodeName)		case l := <-blockLatencyCh:			m.Network.NewBlockLatency(l)			m.Network.NodeIsOnline(nodeName)			m.NodeIsOnline(nodeName)		case disconnected := <-disconnectCh:			if disconnected {				m.Network.NodeIsDown(nodeName)			} else {				m.Network.NodeIsOnline(nodeName)				m.NodeIsOnline(nodeName)			}		case <-time.After(nodeLivenessTimeout):			logger.Info("event", fmt.Sprintf("node was not responding for %v", nodeLivenessTimeout))			m.Network.NodeIsDown(nodeName)		}	}}
// recalculateNetworkUptimeLoop every N seconds.
func (m *Monitor) recalculateNetworkUptimeLoop() {	for {		select {		case <-m.monitorQuit:			return		case <-time.After(m.recalculateNetworkUptimeEvery):			m.Network.RecalculateUptime()		}	}}
// updateNumValidatorLoop sends a request to a random node once every N seconds,
// which in turn makes an RPC call to get the latest validators.
func (m *Monitor) updateNumValidatorLoop() {	rand.Seed(time.Now().Unix())
	var height int64	var num int	var err error
	for {		m.mtx.Lock()		nodesCount := len(m.Nodes)		m.mtx.Unlock()		if nodesCount == 0 {			time.Sleep(m.numValidatorsUpdateInterval)			continue		}
		randomNodeIndex := rand.Intn(nodesCount)
		select {		case <-m.monitorQuit:			return		case <-time.After(m.numValidatorsUpdateInterval):			i := 0
			m.mtx.Lock()			for _, n := range m.Nodes {				if i == randomNodeIndex {					height, num, err = n.NumValidators()					if err != nil {						m.logger.Info("err", errors.Wrap(err, "update num validators failed"))					}					break				}				i++			}			m.mtx.Unlock()
			m.Network.UpdateNumValidatorsForHeight(num, height)		}	}}